(הגרף המתוקן בסוף הפוסט)
ב- 12/12/2014, פורסם בעמוד של יצחק (בוז'י) הרצוג, שיתוף של סקר ערוץ 2. הנה הגרף שהוצג:
הגרף הזה שוגה בשתי נקודות עיקריות: (כפי שגם תואר בבלוג "שקרים יפים")
- סידור העמודות איננה בסדר עולה
- העמודה של "ישראל ביתנו", אשר קיבלה בסקר 8 מנדטים, גבוהה יותר מזו של "כולנו" (9 מנדטים) ושל הבית היהודי (15 מנדטים)!
מאז פירסמו ערוץ 2 גרף אשר מתקן את שתי השגיאות הללו:
אך גם התיקון הזה משאיר על הקורא רושם שגוי. זאת משום שהגרפים מציגים את מספר המנדטים אך ללא הצגת אי-הוודאות אשר צפויה להיות במדגם של 500 אנשים. לצורך כך, עבדכם הנאמן יצר גרף מתאים (הקווים מסביב לכל עמודה נותנים את "טווח המנדטים הסביר" שכל מפלגה תקבל, על סמך נתוני הסקר):
כאשר חישוב ישיר של ההפרש בין מספר המנדטים של העבודה-והתנועה לבין הליכוד, נותן טווח הפרש (ברמת דיוק של 95%) של בין (4, 2-) מנדטים (כלומר, הכל עוד פתוח…).
חשוב להדגיש שזה שההצגה הגרפית שהופיעה בערוץ 2 רעה, לא אומר שהסקר עצמו היה רע. אני מוכן להניח ולהאמין שחברת הסקרים עשתה עבודה מקצועית וטובה.
הערות ומגבלות למתעניינים בפרטים הטכניים (למי שלא – אנא דלגו!): הערך שמדווח בתקשורת של "4.5% טעות דגימה מירבית", מחושב (פחות או יותר) על ידי שלוקחים את (פעמיים) טעות התקן המירבית של משתנה מקרי בינומי (שהוא השורש של חצי בריבוע לחלק בגודל המדגם, שבמקרה שלנו הוא 500: ח / 0.25 ). זוהי טעות תקן שמרנית, אך לכל מפלגה ניתן להציע טעות תקן אופטימית יותר (אשר מתבססת על השורש של הפרופורציה החזויה (p), כפול המשלים שלה, לחלק בגודל המדגם: p(1-p)/n). כאשר רוצים לבנות רווח בר סמך של 95%, צריך לקחת את האומד פלוס-מינוס 1.96 טעות התקן (השמרנית, או האופטימית) – זה מה שהצגתי בגרף. מדוע לקחתי את אומד הטעות האופטימי, ולא השמרני (שמוצג תמיד בסקרים)? כי היה לי חשוב להדגים שגם בטווח הערכים האופטימי, עדיין יש כל כך הרבה אי-וודאות שהסקר כשלעצמו נותר (יחסית) בעל מעט ערך.
חשוב להדגיש שהרווח סמך הזה הוא רק עבור התחזית הנקודתית של מספר המנדטים, ומתבסס על הקירוב הנורמאלי (מקצועית זה מכונה רווח סמך וואלד. יש עוד סוגים של קירובים, שאולי נשתמש בהם בהמשך). אם רוצים לדבר על רווחי סמך במקביל להרבה מפלגות, צריך להרחיב את רווחי הסמך כדי שישקללו את ה"השוואות המרובות" שמוצגות. בנוסף, אם רוצים להשוות בין המנדטים של מפלגות שונות, יש דרכים מדוייקות יותר אשר בונות רווח סמך להפרש. במצב כזה גם ראוי להתייחס לקורלציה של זה שמדובר במשתנה מקרי מולטינומי (כך שיש קורלציה שלילית חלשה בין מספר המנדטים). וכל זה מתבסס על כך שהמדגם הוא מלכתחילה שקול למדגם מקרי מייצג של האוכלוסיה (ללא הטיות בשל חוסר היענות, מבנה השאלות, וכו' וכו'). וכמובן, אנשים גם יכולים (ואף סביר ש) ישנו את דעתם עד הבחירות.
בחירות מוצלחות לכולנו 🙂