העלייה ה"מרשימה" (אך לא מובהקת סטטיסטית!) בקוראי מעריב

פוסט משותף עם עידו קינן.

בסופ"ש האחרון פנה אלי עידו וביקש ממני התייעצות קטנה. הוא נתקל בידיעה בעיתון מעריב, המדווחת על "עלייה מרשימה בחשיפה לעיתון" בהתאם לסקר TGI.
עליה מרשימה בחשיפה לעיתון מעריב

היות ועמדו לרשותו קובץ הנתונים של סקר TGI (להנתאכם, הנה הוא: TGI-media ), הוא התייעץ איתי האם המסקנה של עיתונאי מעריב תקפה או לא. מהסתכלות זריזה בקובץ, ראיתי שהתשובה היא חד משמעית – לא.

הנתונים בקובץ מספרים לנו שבמדד החצי שנתי, יש ירידה הדרגתית מ-16.6% (חציון 2 2007) ל-15.1% (ח1 2008) ל-13.8% (ח2 2008), ואז עליה קלה ל-14.4% (ח1 – 1 200). גם העליה הקלה בחציון האחרון נמצאת בטווח הטעות של הנתונים, היות שרווחי הסמך הם של אחוז אחד לכל אחד מהמספרים, בעוד שהעלייה הייתה של פחות מאחוז.

הנתונים שבעיתון מציגים את השינוי באחוזים, אבל לא את מידת הוודאות שבהבדלים (כלומר, את מידת הוודאות שלנו שאם נקח מדגם אחר נקבל תוצאות דומות). הגרף שלפניכם (אשר נוצר בעזרת התוכנה הסטטיסטית R), מציג את השינוי שנעשה באחוזי הקוראים אך משלב בתוכו את רווחי הסמך:

the big non rise

הגרף מדגים היטב שההבדל באחוזים איננו מובהק סטטיסטית, היות ורווחי הסמך "עולים" האחד על גבי השני. ואינם ניפרדים ממש בגובהם.

כדי לעשות מבחן סטטיסטי תקף, צריך להשתמש בנתונים הגולמיים ולבצע עליהם מבחן סטטיסטי מתאים (אפשר מבחן להפרש פרופורציות או מבחן חי בריבוע, הם שקולים מבחינת הערך P/רמת-המובהקות שהם יפיקו). הנה הטבלה של הנתונים (לקוחה מהנתונים של הסקר):

קוראים מעריב לא קוראים מעריב
יולי-דצמבר 2008 690.966 4316.034
ינואר-יוני 2009 721.008 4285.992

הפעלה של מבחן חי בריבוע על הנתונים מביא לערך P של 0.40.
או במילים אחרות – אין שינוי מובהק באחוז הקוראים בין התקופה האחת לאחרת.

לסיכום: מעבר לבעיות המובנות בסקר TGI (כפי שעידו מציין בפוסט שלו), הבעיה אותה חשפנו כאן היא דיווח על מספר (אומדן לאחוז החשיפה לעיתון), מבלי התחשבות במידת הרעש של הנתונים (רווחי הסמך של האומד). חוסר התחשבות כזו מאפשרת להגיע למסקנות שגויות ביותר, ועל זה קיבלנו דיווח ממעריב. מזכיר קצת את הדיווח הלקוי שהתקשורת סיפקה לסקרי הבחירות האחרונות.

ועל זה כבר אמר מרק טווין הרברט וולס (H. G. Wells) – "החשיבה הסטטיסטית בעידן המודרנית היא מיומנות הכרחית לאזרחות טובה"

4 תגובות בנושא “העלייה ה"מרשימה" (אך לא מובהקת סטטיסטית!) בקוראי מעריב”

  1. את האימרה על חשיבה סטטיסטית אמר הרברט וולס (H. G. Wells) ולא מארק טווין:
    Statistical thinking will one day be as necessary for efficient citizenship as the ability to read or write

    מקור לא מוסמך:
    http://en.wikiquote.org/wiki/Statistics

    אני בכלל תוהה כמה דברים מיוחסים למארק טווין שהוא לא באמת אמר אותם 🙂

  2. אני מוכרח להודות כי בכל פעם שמספרים שכאלו מופיעים להם ב"תקשורת" (והם מופיעים המון), אני מתעצבן על חוסר הדיוק בפרטים ההכרחיים האלו. ברור שאם הם היו מוסיפים הערה קטנה בסגנון: "ההבדל בחשיפה בשני החציונים האחרונים אינו מובהק סטטיסטית" – הרי שהכותרת היתה מאבדת מחשיבותה. והרי מבחינה מתמטית הכותרת הזו בהחלט חסרת-חשיבות לחלוטין, כלומר ממצאי הסקר אינם מעידים על עליה.

    נדמה לי שה"דקדוק" הזה הוא לא רק בגדר פלפול חשבוני, אלא הוא יכול להוות בסיס לדיון אודות רמת ידיעת המתמטיקה בישראל (וסליחה על הסמיכות הכפולה). כמה בוגרי י"ב בימינו מבינים את מה שכתבת כאן? כמה מהם תוהים, לקריאת הכותרת המקורית של מעריב, על הדיוק בממצאים? וכמה מורים מסוגלים לכך?

    והרי לנו דוגמא נפלאה לכך שמתמטיקה ברמה בסיסית היא קריטית לחשיבה ביקורתית.

    בקיצור, תודה על הפוסט הזה!

השאר תגובה