מטא-סקר הוא סקר של סקרים.
בשבועיים האחרונים נסקרו למעלה מ- 7,671 איש על פני 14 סקרים, בשאלה למי הם יצביעו בבחירות הקרובות. בפוסט זה אני מאחד את תוצאות הסקרים הללו לכדי מטא-סקר (עם סייגים חשובים וקרדיטים רלוונטיים).
נתחיל בתוצאות (הקליקו לתמונה בגודל מלא):
כרגע (כתום) = חלוקת המנדטים כרגע בכנסת.
תחזית (כחול) = צפי המנדטים על סמך איחוד 14 הסקרים.
פרשנות על התוצאות
סייגים: כשבאים לפרש את התוצאות חשוב לזכור שלמרות הכמות הגדולה של הנבדקים, ייתכן והמדגם שהופיע בסקרים איננו מייצג את האוכלוסיה (לדוגמא, בגלל הקושי לסקור אזרחים/ות מהאוכלוסיה החרדית והערבית), אז קחו את הפרשנות בערבון מוגבל! כמו כן, אני מתעלם מהנושא של אחוז חסימה והסכמי עודפים. התחזיות הן של מספר מנדטים כולל שברי מנדטים.
בהנחה שאין הטיות מדגם (וסביר שיש, בעיקר באוכלוסיות קשות לדגימה!), מידת הדיוק של המטא-סקר הוא פלוס מינוס מנדט 1.4 מנדטים.
גם חשוב לזכור שבתקופה שבוצעו חלק מהסקרים הללו הייתה ההכרזה על הקמת המחנה-הציוני (האיחוד של העבודה והתנועה), כך שהסקרים השונים לא מציגים בדיוק את אותו הדבר. את ההשלכות המלאות של זה נגלה בשבועות הבאים. כמו כן, חלק מהסקרים בוצעו לפני הפיצול הסופי של ש"ס, ולפני שראינו את הרשימה של כחלון. בקיצור, יהיה עוד הרבה אקשן…
מסקנות ביניים:
- המחנה הציוני – יפסיד מנדטים (בערך מנדט אחד לעומת המצב הנוכחי כ- 19 לעומת 21 – המאוחד של העבודה והתנועה – זכרו שברוב הסקרים עוד לא הוכרז האיחוד, ועל כן המשמעות של הנתונים היא קצת שונה מהמשמעות שלהן בסקרים הבאים שייסקרו!)
- הליכוד – ירוויח מנדטים (בערך 6)
- יש עתיד – תפסיד מנדטים (בערך 9)
- ישראל ביתנו – תפסיד מנדטים (בערך 3)
- הבית היהודי – ירוויח מנדטים (בערך 4)
- ש"ס – יפסידו מנדטים (בערך 4)
- יהדות התורה – לא ברור שיהיה הבדל במספר המנדטים
- רע"מ תע"ל בל"ד – אולי תפסיד מנדט אחד
- מרצ וחד"ש – אין עדות לשינוי במספר המנדטים
- כולנו – תחזית של כ- 10 מנדטים!
אם משווים את התוצאות למטא סקר שמבצע נחמיה גרשוני-איילהו במסגרת פרוייקט 61 (קישור לתוצאותיו כאן), התוצאות דומות למדי, הבדלי התחזיות הן בטווח השגיאה של מנדט אחד למעט המחנה הציוני שמקבל 23 מנדטים אצל נחמיה ויש עתיד שמקבלים רק 8 מנדטים.
פרטים טכניים על יצירת המטא-סקר
מקור לנתונים: לקחתי את הנתונים אשר התפרסו בערוצי חדשות מרכזיים, ואשר רוכזו על ידי נחמיה גרשוני-איילהו בגוגל-דוק כאן. להלן רשימת הסקרים ששימשו את המטא סקר:
הסרתי מפלגה ואיחדתי מפלגה אחרת: בגלל הכמות הקטנה של התצפיות הורדתי את קדימה (אני עוזב לבינתיים את הנושא של מפלגות בגבול של אחוז החסימה), ואיחדתי את בל"ד עם רע"מ תע"ל (היות ובסקרים שונים הם קיבלו 0 ובאחרים לא, וכאמור, אני מעדיף שלא להתמקד במפלגות הללו שיותר קשה לקבל עליהם תחזית טובה).
הסקרים השונים הראו תוצאות לא-שונות מידי האחת מהשניה: עשיתי מבחן חי-בריבוע על תחזיות הסקרים השונות כדי לראות האם יש הבדל מובהק בתוצאות של הסקרים השונים. היות שלא היה, החלטתי להניח שכל הסקרים משקפים את האוכלוסיה של ישראל ואיחדתי את תוצאותיהן. זו הנחה אופטימית שאיננה בהכרח נכונה. וויתור על ההנחה הזו ידרוש מטא-אנליזה מורכבת יותר (מה שמכונה random effect model) שלרוב תוביל להגדלת טווח השגיאה של התחזית (ויתרתי על כך בשלב זה).
גודל השגיאה: הנחתי שגיאה פאסימית ביותר (כאילו p=0.5), וביצעתי תיקנון להשוואות מרובות של הסתכלות על טווח הטעות של כל אחת מהמפלגות (תיקון בונפרוני של 11 מפלגות). אילו היינו רוצים להתחיל להשוות מפלגות, אז היה צורך להגדיל את טווח השגיאה מעט יותר. אפשר להשתמש בטווח השגיאה באופן ששקול למבחן השערות דו-צדדי (מתוקנן להשוואות מרובות) ברמה של 95%. אני לא מתייחס לאפשרות של שגיאות שונות בגלל האופן שבו הסקר בוצע, אלא מניח שהוא "מדגם אקראי מייצג" (כפי שכתוב ברוב הסקרים), סביר שניתוח מדוייק יותר של שיטת הדגימה יוביל למספרים שונים (אבל בתקווה לא שונים מידי).
אנו מניחים שהסקרים בלתי תלויים האחד בשני: חשוב לדעת שהשגיאה מניחה שכל הנתונים נאספו באופן בלתי תלוי (וחסר הטייה). אם, לדוגמא, חלק מחברות הסקרים מסתכלות על התוצאות של מדגמים אחרים, ומשנות את הנתונים שלהם בהתאם, זה עלול לפגוע בתוקף של טווח השגיאה (והוא למעשה צריך להיות גדול יותר, כי מספר הנתונים שלנו הוא מעשית קטן יותר). ייתכן ונסתכל על זה בפוסטים הבאים.
אשמח להערות, שאלות, ושיתופים 🙂
האם בסקרי בחירות בישראל מתחשבים בסיכוי שנסקר או קבוצה ילכו להצביע?
לפחות מבלוגים על סקרים בארה"ב נראה שזה מאוד יכול להשפיע על התוצאות, שסקרים של "likely voters" נותנים תוצאות הרבה יותר מדויקות מאשר סקרים של האוכלוסיה הכללים.
או שבישראל זה משפיע פחות כי אחוז ההצבעה גבוה יותר?
היי עמיר, זו שאלה מעולה שאני לא יודע את התשובה עליה.
לצערי אחוז ההצבעה בארץ היה בין 60%-70%:
https://he.wikipedia.org/wiki/%D7%90%D7%97%D7%95%D7%96_%D7%94%D7%A6%D7%91%D7%A2%D7%94
כך שזו אכן שאלה מאד חשובה.
זו יוזמה נחמדה – הבעיה העיקרית היא שאנחנו עדיין מתייחסים לסקרים האלה ברצינות, למרות שלמשל, הם פספסו את יש עתיד ב-50% תוספת ונטו לתת לליכוד ולעבודה הרבה יותר מנדטים ממה שיצא להם בפועל.
הסוקרים פשוט איבדו במערכות הבחירות האחרונות את היכולת לייצג את החברה הישראלית.
דן – אני חושב שהשאלה היא מה אתה מחשיב כתחזית טובה.
לא להצליח לחזות כוכב עולה (כנראה בגלל שהאנשים שהתלבטו לא החליטו בזמן שהיו סקרים), זה קצת לדרוש יותר מידי מהסקרים.
מה שאפשר לצפות, הוא שהסקרים יתנו תמונה "סבירה", של מה שיקרה. ואת זה הם עשו די טוב. ראה הפוסט שכתבתי בנושא כאן:
http://www.biostatistics.co.il/2013/01/379
היי אין אפשרות יותר מסבירה שיותר מאדם אחד נדגם כמה פעמים? ואז כמות הנבדקים שונה
יש אפשרות כזו, אבל:
1) אין לי מידע על זה, אז לא ברור מה אפשר לעשות עם האפשרות הזו.
2) אם הדגימה של אותו האיש הייתה עם חזרה, ובאופן חכם, אז זה שקול לדגימה בוטסארפ ואז זה "בסדר".
אבל אני מסכים איתך שזו סוגיה פתוחה, שאין לנו עליה תשובה…
איך בוחרים אנשים לסקר?
הרי זה לא כלי רק של סטט' אלא סוציולוגיה וכזה
ממה שקראתי, כל חברת סקרים מכניסה את ה"סוד המקצועי" שלה על האופן שבו היא בוחרת מדגם, ובעיקר על הדרך שבה היא נותנת משקולות לאנשים שונים. לדוגמא, חברה שדוגמת באמצעות טלפונים עשוייה להצליח לקבל מדגם של 90% גברים ורק 10% נשים (לדוגמא), והיות והיא יודעת את המשקל של אלו באוכלוסיה, היא יכולה לתת משקל שונה לדעות האנשים. באופן דומה מנסים לשקלל מקום מגורים, גיל, הצבעות קודמות וכן הלאה. איך עושים את זה בדיוק, אני משער, לא נדע. מה שכן, תחת ההנחה שהם עושים זאת "טוב מספיק", אנחנו יכולים להסתכל על התוצאות של הסקרים השונים וליצור מטא-סקר כמו זה שמופיע בפוסט. (כאמור, תחת ההנחה ההכרחית שהסוקרים עשו את עבודתם "טוב מספיק").
צריכה להיות נוסחה של שלושים יום, נניח, שמעיפה סקרים ישנים ונותנת משקל נמוך לסקרים מלפני חודש, לסקרים מלפני שבועיים ולסקרים מלפני שבוע. השלב הבא הוא לפרוש את הממוצע על פני ציר זמן, עד הבחירות.
היי ישי. כשיאספו מספיק נתונים, זה מה שאני אעשה. מבחינת מישקול תצפיות לפי זמן, צריך לחשוב על זה בהינתן המצב הפוליטי. בכל מקרה, יהיה מעניין…