יצחק (בוז'י) הרצוג משתף: סקר ערוץ 2 מהערב

(הגרף המתוקן בסוף הפוסט)

ב- 12/12/2014, פורסם בעמוד של יצחק (בוז'י) הרצוג, שיתוף של סקר ערוץ 2. הנה הגרף שהוצג:

2014-12-12 13_48_15-Clipboard

הגרף הזה שוגה בשתי נקודות עיקריות: (כפי שגם תואר בבלוג "שקרים יפים")

  • סידור העמודות איננה בסדר עולה
  • העמודה של "ישראל ביתנו", אשר קיבלה בסקר 8 מנדטים, גבוהה יותר מזו של "כולנו" (9 מנדטים) ושל הבית היהודי (15 מנדטים)!

מאז פירסמו ערוץ 2 גרף אשר מתקן את שתי השגיאות הללו:

2014-12-12 14_08_01-Clipboard

אך גם התיקון הזה משאיר על הקורא רושם שגוי. זאת משום שהגרפים מציגים את מספר המנדטים אך ללא הצגת אי-הוודאות אשר צפויה להיות במדגם של 500 אנשים. לצורך כך, עבדכם הנאמן יצר גרף מתאים (הקווים מסביב לכל עמודה נותנים את "טווח המנדטים הסביר" שכל מפלגה תקבל, על סמך נתוני הסקר):

2014-12-12 14_29_11-Clipboard

כאשר חישוב ישיר של ההפרש בין מספר המנדטים של העבודה-והתנועה לבין הליכוד, נותן טווח הפרש (ברמת דיוק של 95%) של בין (4, 2-) מנדטים (כלומר, הכל עוד פתוח…).

חשוב להדגיש שזה שההצגה הגרפית שהופיעה בערוץ 2 רעה, לא אומר שהסקר עצמו היה רע. אני מוכן להניח ולהאמין שחברת הסקרים עשתה עבודה מקצועית וטובה.

 

הערות ומגבלות למתעניינים בפרטים הטכניים (למי שלא – אנא דלגו!): הערך שמדווח בתקשורת של "4.5% טעות דגימה מירבית", מחושב (פחות או יותר) על ידי שלוקחים את (פעמיים) טעות התקן המירבית של משתנה מקרי בינומי (שהוא השורש של חצי בריבוע לחלק בגודל המדגם, שבמקרה שלנו הוא 500:  ח / 0.25 ). זוהי טעות תקן שמרנית, אך לכל מפלגה ניתן להציע טעות תקן אופטימית יותר (אשר מתבססת על השורש של הפרופורציה החזויה (p), כפול המשלים שלה, לחלק בגודל המדגם:   p(1-p)/n). כאשר רוצים לבנות רווח בר סמך של 95%, צריך לקחת את האומד פלוס-מינוס 1.96 טעות התקן (השמרנית, או האופטימית) – זה מה שהצגתי בגרף. מדוע לקחתי את אומד הטעות האופטימי, ולא השמרני (שמוצג תמיד בסקרים)? כי היה לי חשוב להדגים שגם בטווח הערכים האופטימי, עדיין יש כל כך הרבה אי-וודאות שהסקר כשלעצמו נותר (יחסית) בעל מעט ערך.

חשוב להדגיש שהרווח סמך הזה הוא רק עבור התחזית הנקודתית של מספר המנדטים, ומתבסס על הקירוב הנורמאלי (מקצועית זה מכונה רווח סמך וואלד. יש עוד סוגים של קירובים, שאולי נשתמש בהם בהמשך). אם רוצים לדבר על רווחי סמך במקביל להרבה מפלגות, צריך להרחיב את רווחי הסמך כדי שישקללו את ה"השוואות המרובות" שמוצגות. בנוסף, אם רוצים להשוות בין המנדטים של מפלגות שונות, יש דרכים מדוייקות יותר אשר בונות רווח סמך להפרש. במצב כזה גם ראוי להתייחס לקורלציה של זה שמדובר במשתנה מקרי מולטינומי (כך שיש קורלציה שלילית חלשה בין מספר המנדטים). וכל זה מתבסס על כך שהמדגם הוא מלכתחילה שקול למדגם מקרי מייצג של האוכלוסיה (ללא הטיות בשל חוסר היענות, מבנה השאלות, וכו' וכו'). וכמובן, אנשים גם יכולים (ואף סביר ש) ישנו את דעתם עד הבחירות.

בחירות מוצלחות לכולנו 🙂

12 תגובות בנושא “יצחק (בוז'י) הרצוג משתף: סקר ערוץ 2 מהערב”

  1. הבעיה היא לא בסקר אלא בהצגתו, כלומר באינפוגרפיקה, לדעתי לא מדובר כאו בזדון אלא בחוסר מודעות או רשלנות. בתצוגה הגרפית של ערוץ 2 הם קיצצו את העמודות ונראה שהם התחילו אותם מקו 5 מנדטים הצותאה העמושות של 8 ו-9 נראות נמוכות מאוד. זה בעיה קבועה במיוחד בעיתונים ששם העורך מנסה לחסוך בשטח של הגרפיקה וחותכים את הבסיס של העמודות.
    יש שורה של אשליות אופטיות שגם לאחר שאנו יודעים שהם כאלו אנו מתקשים לראות אותן באופן נכון, כי המוח מבצע קיצורי דרך השוואתיים בניתוח המידע מהעין.
    בקיצור להסתמך יותר על המספרים מאשר על ההצגה הגרפית שמשקפת את היכולות שלהעורך הגרפי ולא את דיוק הסקר.

    1. from personal experience of graphics using js its easy to make an unintended mistake regarding bar heights…its unfortunate that it came out on a national stage,But i wouldn't try to build a mountain out of mole hill.

      The unpublished CI's for point estimates is common practice in survey's…see dialogue, see geocartography, see ipanel…. if only there was some association or government bureau that sets the standards for publishing statistical information …

      1. היי יוני,
        לגבי זה שמדובר בטעות תמימה, זו ההנחה שלי גם.

        לגבי סטנדארטים של הצגה גרפית של סקרי בחירות – אני הייתי שמח אם היו כללים ממשלתיים. אבל מעשית, אני מעדיף שהדרישה תבוא מציבור משכיל שרוצה לראות אותם. אני לא יודע למה לא שמים אותם כיום (שהרי חברות הסקרים הן מאד רציניות).

    2. שלום נפתלי, אני מסכים עם הכל.
      כאמור, גם אחרי שהם תיקנו את הגרף, הוא עדיין לוקה בכך שהוא לא מתחיל מקו ה-0, ושאיננו כולל קווי-טעות (שהייתי רוצה שיכללו בכל סקר שמפורסם, ולא רק כהערת אגב).

  2. I actually was wondering about the same thing a few days ago when i saw the results of the channel 10 poll that is done by fuchs et al. (dialogue) . from personal experience with them i learned that one should never take their results at face value. My main question was how do they convert polling percentages to mandates. the way mandates are calculated is splitting the 120 seats proportionally over the legal votes…

    from wiki page of the last elections (using R):

    library(XML);library(stringr)
    url_election="http://goo.gl/iP72ff"
    election=readHTMLTable(url_election[1])[[1]]
    elec=as.numeric(str_replace_all(as.character(election$V4[7:18]),pattern = ",",""))
    elec
    [1] 885163 543458 432118 345985 331868 195892 189167 172403 138450 113439 97030 78974
    sum(elec)
    [1] 3523947
    round(120*elec/sum(elec),1)
    [1] 30.1 18.5 14.7 11.8 11.3 6.7 6.4 5.9 4.7 3.9 3.3 2.7

    with some extra votes changing hands due to pre-voting haskamot, the final knesset results are reproduced

    roughly 62% of eligible voters made up the votes that became mandates of the '13 knesset

    election mandate votes
    2006 2954376
    2009 3269586
    2013 3523947

    so in actuality the population of interest isn't the whole voting population (ie 18+) it should be from the population make up of the 3,523,947. this in as a result effects the sample taken for the surveys in which the dialogue write that they sample according to sex,age,religion and geography (quite a mouthful for only 500 people). So unless the 3.5 million legal votes have same breakdown as the general 18+ population then the surveys wont really convey the population that is voting on a regular basis… this same question is also relevant for channel 2

    1. היי יוני,
      אתה מעלה נקודות טובות שאין לי עליהם תשובה. אתה למעשה שואל לגבי מידת הייצוגיות של מדגמי הסקרים את אוכלוסיית הבוחרים. לצערי אין לי מידע מתאים כדי לדעת מה התשובה לכך. הניחוש שלי הוא שהסוקרים מנסים לשקלל גורמים נוספים כדי להיות מדוייקים ככל הניתן, אבל לא ברור עד כמה זה עובד (ואני לא חושב שיהיו לנו מספיק נתונים בשביל לדעת).

  3. אני חושב שההטעיה המרכזית היא העובדה שלא מציגים את שאר המפלגות. הרי המנדטים הם חלוקה של קולות ההצבעה וממשלה יכולה לקום רק אם תאגד 61 מנדטים. מהגרף הזה, לא ניתן להבין מה יהיו אפשרויות הקמת הקואלציה של "העבודה והתנועה".

  4. הערה גרפית (תרתי משמע) : הגרף שלך יוצר רושם שלכל המפלגות סיכוי רב יותר לקבל יותר מנדטים מהסקר, בגלל שהחלק התחתון של סימון הטעות נבלע חלקית בעמודות.

    1. היי יואב,
      תודה על הפידבק, בגרפים בעתיד אני אעשה את טווחי הטעות בצבע אדום, שבתקווה יבלע פחות.

  5. אני חושב שהקורא הממוצע דווקא מודע לכך שיש מידה של אי-דיוק בסקרים, ולכן אי-הצגת מרווח השגיאה אינה הטעייה (התיאור המילולי בכתובית "כמעט תיקו" מתאר נכון את המצב, הם לא אמרו "ניצחון לאיחוד בשמאל").

    יש הטעייה מסוימת בעצם ההתייחסות לשאלה איזו מפלגה תהיה הגדולה ביותר, שאלה שאין לה משמעות חוקית כלשהי כפי שהומחש בבחירות 2009 (ורבים טועים בזה).

    1. היי דודי,
      אני מסכים שקוראים מודעים לכך שיש מידה של אי דיוק, אבל אני חושב שהסדר גודל של חוסר הדיוק איננה ברורה בקלות לקורא. וכשמסתכלים על הטווח הזה בגרף הם יוצאים די דרמטיים.
      אני גם מסכים ש"כמעט תיקו", הוא תיאור תקין טכנית.
      אני גם מסכים שהשאלה החשובה היא לגבי הגושים ולא מי המפלגה שניצחה במספר המנדטים.

השאר תגובה