תשפ"א

תשפ"א

כריית נתונים במדיה הדיגיטלית וברשתות חברתיות בנושא נגיף הקורונה

חברי צוות:
שקד עוגן  ♦  מלכה יחייס  ♦  עדי מבורך

מנחה:
ד"ר אירנה מילשטיין

מוטיבציה לפרויקט

ניתוח נתונים הוא תהליך בדיקת צורת היחסים בין נתונים. בתהליך זה כולל בדרך כלל איסוף, ניקוי, טיוב, עיבוד ומידול של נתונים מסוגים שונים לצורך גילוי מידע חשוב או גיבוש מסקנה המאפשרת קבלת החלטות. חודש מרץ 2019 הפתיע את כל העולם עם הולדתו והפצתו של נגיף חדש "COVID-19", תחילת גיבוש הפרויקט חל בדיוק בזמן זה בין סגרים, בידודים ובעיקר מעקב אחר מהדורות החדשות, המדיה הדיגיטלית והרשתות החברתיות. עם כך, נושא הפרויקט נולד מתוך משבר עולמי והרצון לבצע ניתוח נתונים מחקרי ואף כריית מידע בנושא נגיף הקורונה מהרשתות החברתיות בדגש על "טוויטר" על מנת לגלות מידע חשוב על אופן העברת המסרים, תדירותם, בחינת קורלציות ואף גיבוש מסקנות אודותם. במסגרת הפרויקט הוחלט על ניתוח "Database" קיים אשר סוקר את כל הציוצים בחודשים יולי-אוגוסט ברשת החברתית "טוויטר" בנושא הקורונה.

סקירת ספרות

הסקירה הספרותית עוסקת בבחינת מקורות הידע הקשורים לנושא הפרויקט. כאמור, הפרויקט עוסק בכריית נתונים במדיה הדיגיטלית וברשתות חברתיות בנושא נגיף הקורונה. ראשית הצגנו בסקר הספרות הגדרות בהקשר ניהול טכנולוגי של בסיסי נתונים גדולים, כריית נתונים ורשתות חברתיות. שנית הוצגו טכניקות של כריית נתונים וכריית טקסט המסייעות בגילוי מידע וידע מנתוני עתק ותמיכתם במדע וטכנולוגיה. בהמשך סקרנו את השפעתן של הרשתות החברתיות על בני האדם על מנת להבין את משמעותן והשפעותיהן בחיי היום- יום. הנושא האחרון בסקר הספרות מהווה את נקודת המפגש בין הנושאים - כריית נתונים, כריית טקסט בנושא נגיף הקורנה ברשתות החברתיות.

מתודולוגיה

שיטת המחקר היתה ניתוח ה- ה"Database" הנבחר ע"י סינון של הנתונים הגלומים, ב-8 שלבים שונים, כל שלב כלל ניתוח סטטיסטיקה תיאורית. כתוצאה משלב הסיווג ומיפוי יצרנו 4 תתי מדגמים לחקירה נוספת ובחינת קורלציות ורגרסיה. תתי המדגם הנבחרים-

  • תת מדגם אוכלוסיית המאומתים (אנשי ציבור, ידוענים בציבור).
  • תת מדגם אוכלוסיית הלא מאומתים (אנשים פרטיים).
  • תת מדגם אוכלוסייה מרובת לייקים.
  • תת מדגם אוכלוסייה שצייצה יותר מ- 25 ציוצים בחודשיים.

בנוסף על כך בוצע בחינה טקסטואלית על המדגמים השונים, ניתוח טקסטואלי של מילים מרכזיות נבחרות שעומדות בחזית המאבק בנגיף בקורונה, בחינה של מידת השפעתן על האוכלוסיות השונות והצגתה באופן ויזואלי בתוכנת NODEXL.

ממצאים ומסקנות

  1. בקרב אוכלוסיית המאומתים (אנשי ציבור ומובילי דעת קהל), ככל שיש מספר עוקבים גבוה זה מחייב אותם לצייץ יותר, על מנת לעניין את העוקבים ולשמור על כמות עוקבים גבוהה.
  2. בקרב אוכלוסיית הלא מאומתים (אנשים פרטיים) מצייצים יותר על מנת לגרוף עוקבים. משתמשים רבים "בטוויטר" מעוניינים להגדיל את מספר העוקבים שלהם ולהפוך למובילי דעת קהל.
  3. מניתוח הטקסט של הציוצים עולה כי בקרב האוכלוסייה המאומתת, זוהו בעיקר מילים חיוביות אודות נגיף הקורונה (1,206 מילים) לעומת (634 מילים) שליליות.
  4. מניתוח צמדי המילים העיקריות שנאמרו המילה Covid-19 ו- Cases חזרו על עצמם 107 פעמים ניתן להסיק מכך שבתקופה הנבחנת השיח הרוב עסק בעיקר במקרי תחלואה.