פרופסור קמיל פוקס בציטוט (קצר) על כך שאין להסתמך על סקר בודד

ציטוט מאת פרופסור קמיל פוקס:

אני מציע להתיחס פחות לתוצאות של כל סקר בנפרד ולבדוק במקום זה מגמות ותוצאות של מספר סקרים ביחד. כי הרי בכל סקר ישנן סטיות מקריות. כאשר מזהים תנודות בין סקר אחד לשני התנודות יכולות להיות עדות למגמה אמיתית או לנבוע מסטיה מקרית.

camil2014-12-25 21_27_33-Clipboard2

הציטוט הגיע לידי בעקבות פגישה מקרית השבוע עם פרופסור קמיל פוקס במסדרונות של אוניברסיטת תל אביב, אשר התפתחה לשיחה ארוכה ומעניינת. בשיחה ציין פוקס את הטקסט הנל שהוא כתב עבור איזשהו ראיון, והסכים לשלוח אלי את צילום המסמך כדי שאשתפו פה בבלוג. תודה רבה פרופ' קמיל פוקס.

עוד ייכתב פה בבלוג על הטיות ושונות. וכמובן, הרעיון של מטא סקר (או סקר-הסקרים או סופר-סקר) הולך להופיע עוד כמה וכמה פעמים. אני שמח שיש אנשים כמו נחמיה (האחראי לפרוייקט 61), אשר מתחילים ליצור סקרים כאלה. אני צופה שנשמע על עוד כאלה ככל שהזמן יחלוף (אצל נחמיה, כאן, ובמקומות נוספים).

ראיון אצל יעל דן בגלי צה"ל, עם ד"ר מינה צמח ואיתי

 

אז היום בצהריים (24/12/2014 בשעה 12:30), רואיינתי בתוכנית של יעל דן בגלי צה"ל, על ידי מראיינת נעימה בשם גלית. אפשר להאזין לתוכנית כאן, החל מדקה 34 (וקצת). אחרי הראיון איתי העלו לשידור את ד"ר מינה צמח שאמרה מספר דברים (שחלקו על דברי). אני מביא כאן תמלול של מה שנאמר, ולאחר מכן את תגובתי.

להמשיך לקרוא ראיון אצל יעל דן בגלי צה"ל, עם ד"ר מינה צמח ואיתי

"נענע 10" פירסמו תוצאות סקר עם טווח מנדטים!

 

התרגשתי כעת לגלות שבערוץ החדשות בנענע פירסמו היום סקר לבחירות 2015 אשר כלל על העמודות שלו מקלות המציגים את טווח המנדטים של הסקר. כל הכבוד!

2014-12-23 22_12_17-Clipboard

אני מוריד את הכובע בפני TRI על שצירפו טווח טעות מנדטים לתוצאות הסקר שהם פירסמו. מהסתכלות בדף החדשות שלהם, אפשר לראות שהם מפיצים מצגת עם מידע מפורט על תוצאות הסקר שפורסם. מה שמעניין הוא שבמסמכים הקודמים שלהם (דוגמאות: 1, 2) תרשימי תוצאות הסקר לא כללו את טווח המנדטים, מה שאומר שמדובר (אולי) בתופעה חדשה (שאני מקווה שרק תלך ותגבר).

הערה קצת מורכבת (סטטיסטית), אך מעניינת, לגבי המשפט בכתבה בנענע חדשות שמתאר את תוצאות הסקר. שם נאמר: "קיים כמעט תיקו משולש בפסגה", המשפט הזה הוא נכון! אומנם טווח המנדטים שמוצג בגרף של המפלגות לא מאפשר לומר שהבית היהודי יקבל בהכרח פחות מהליכוד, כחלון-לפיד, והעבודה+התנועה – אבל, אפשר עם הנתונים לבנות טווח מנדטים להפרש בין הליכוד לבית היהודי, והטווח הזה יוצא להיות בין 1.3 ל- 6.7 מנדטים. זוהי תופעה שחשוב לזכור – טווח המנדטים הוא טוב בשביל לחשוב על טווח התוצאות של מפלגה אחת. אם טווח המפלגות של שתי מפלגות לא חופף, אז אפשר להסיק שאחת המפלגות תקבל יותר מנדטים מהאחרת (ברמת הטעות של הסקר, בדרך כלל 95%). אבל, אם טווח המנדטים כן חופף, עדיין ייתכן ואפשר לגלות מהנתונים שהאחת תקבל יותר מנדטים מהשניה. ספציפית, כאשר רוצים להשוות את התוצאות של שתי מפלגות אפשר לבנות טווח הפרש מנדטים סביר, אשר עונה לנו באופן ישיר (ויותר מדוייק), לגבי שאלת ההשוואה של המנדטים בשתי מלפגות.

סייג שכדאי להתחיל לכתוב כבר עכשיו: טווח המנדטים הסביר משקלל (לרוב) רק את מגבלות ההסקה מהסקר בגלל כמות הנשאלים שהשתתפו בסקר. בעיה נוספת היא מידת הייצוגיות של אנשי הסקר את שאר אזרחי ישראל (מה שמכונה בסטטיסטיקה "הטייה"). הסכנה של הטייה היא לא משהו שיש לנו איך להציג בגרף של תוצאות הסקר, אך חשוב שנזכור שהסכנה ממנו מרחפת מעלינו (אכתוב על זה עוד בפוסטים הבאים).

מה סוקרים צריכים לפרסם לפי החוק

נחמיה גרשוני-איילהו העלה סטטוס בדף הפייסבוק של פרוייקט 61 עם הטקסט הבא:

חוק הבחירות (דרכי תעמולה) מחייב פרסום מידע חשוב ומפורט על כל סקר שנערך ופורסם לציבור. החוק מחייב כל גוף שמפרסם סקר לפרסם תוך 24 שעות את הנתונים הבאים:
(1) שמו של הגוף שהזמין את הסקר;
(2) שמו של הגורם שערך את הסקר;
(3) התאריך או התקופה שבה בוצע הסקר;
(4) האוכלוסיה שמתוכה נלקח מדגם המשיבים לסקר;
(5) מספר האנשים שהתבקשו להשתתף בסקר ומספר האנשים שהשתתפו בו בפועל;
(6) מרווח הטעות לגבי הנתונים שהושגו.

בנוסף, החוק מחייב את הסוקר עצמו, להעביר "בהקדם האפשרי" לועדת הבחירות המרכזית לצורך עיון הציבור גם את המידע הבא:
(1) את הנתונים שהוזכרו לעיל.
(2) מידע על השיטה שהשתמשו בה כדי לאסוף את הנתונים שמהם הופקו תוצאות הסקר, לרבות:
(א) שיטת הדגימה;
(ב) גודל המדגם ההתחלתי;
(ג) סוגי האוכלוסיה שנדגמו;
(ד) מספר האנשים שהתבקשו להשתתף בסקר והמספר והאחוז מהם אשר השתתפו בסקר בפועל, סירבו להשתתף בסקר או לא התאימו להשתתף בסקר;
(ה) התאריכים והשעות של הראיונות;
(3) מרווח הטעות לגבי הנתונים שהושגו.

לקריאת החוק:
http://www.nevo.co.il/law_html/Law01/190_003.htm#Seif38

פנינו לוועדת הבחירות המרכזית לקבלת נתוני עבר מהבחירות לכנסת ה-19, והובהר לנו שמעט מאוד סוקרים שיתפו פעולה עם החוק, חרף פניה מפורשת של השופט אליקים רובינשטיין על הנושא.

נחמיה מפעיל את משקלו בכותבו:

בהתאם לכך, ומכיוון שמרבית הסוקרים לא עומדים בחובתם לציבור לפרסם את נתוני הסקר המלאים (למיטב ידיעתנו, הפרופסור קמיל פוקס – דיאלוג – הוא היחיד שפרסם לציבור את הנתונים האלה), אי פרסום מידע יוריד את ציון הסוקרים.

פרויקט 61 דוגל בשקיפות, ובהתאם יפרסם כל מידע שיוכל על נתוני הסקרים ברגע שיעמדו לרשותו.

אם למישהו כאן יש רעיון איך אפשר לקדם את חזון המחוקק של מאגר מרכזי של תוצאות סקרי בחירות, אשמח לקרוא את דעתכם.

22/12/2014 – סקר ערוץ הכנסת – העיתונות מדווחת על שינויים שאינם מובהקים בנתונים

 

היום פורסם במאקו, ערוץ 2, גלובס (וכנראה עוד) – תוצאות סקר שערך מכון "פאנלס פוליטיקס" עבור ערוץ הכנסת. הנה התוצאות:

seker_01_2014-12-22

כרגיל, אני אניח שהסקר בוצע באופן תקין ומקצועי. עם זאת, ההצגה שלו בתקשורת מתעלמת מטווח המנדטים הסביר של כל תחזית מנדטים. הנה הגרף שכולל את טווח המנדטים הסביר:

2014-12-22 16_08_39-Clipboard

(טווח המנדטים מתבסס על כך שבסקר היו 500 נשאלים. לצערי, בדיווחים שהופיעו בעיתונות, לא נרשם מספר הנשאלים שנסקרו)

כיצד הסקרים דווחו

במאקו וגם בערוץ 2:

…עולה כי הרשימה המאוחדת של העבודה והתנועה זוכה ב-23 מנדטים, הליכוד עם 21 בלבד. יש עתיד של לפיד מתחזקת מעט ועולה ל-11 מנדטים. וגם: דרעי מנצח את ישי בקרב של ש"ס מול מפלגתו החדשה

אני מציע את הטקסט המדוייק יותר הבא:

…עולה כי הרשימה המאוחדת של העבודה והתנועה זוכה ב-23 בין 18 ל- 27 מנדטים, הליכוד עם 21 בלבד בין 17 ל- 24. יש עתיד של לפיד מתחזקת מעט ועולה ל-11 מנדטים בין 8 ל- 14. וגם: דרעי מנצח את ישי בקרב של ש"ס מול מפלגתו החדשה בין 3 ל- 7 מנדטים בעוד שישי מקבל בין 2 ל- 6 מנדטים.

הטענות שמופיעות בתקצירי הכתבות אינן "עולות" מהסקר. חשוב להדגיש – זה שיש עתיד של לפיד "התחזקה" ל- 11 מנדטים (מה שנכתב גם בגלובס), איננו מעיד על התחזקות. האפשרות שיש לו 11 מנדטים הייתה בתוך טווח האפשרויות של הסקר הקודם של גלובס, כמו כן גם הסקר הנוכחי לא להבדיל האם יש עתיד תקבל (אילו הבחירות היו מתקיימות היום) 8 מנדטים או 14 (בגלל שטווח האפשרויות הזה הוא מה שנוצר בגלל שיש לנו מדגם של רק 500 איש, ולא מדגם גדול יותר).

כנ"ל לגבי דרעי מול ישי – אין עדות לכך שהאחד יקבל יותר מנדטים מהאחר. בשניהם טווח המנדטים הסביר מאפשר שבסוף ישי יקבל יותר מדרעי וגם ההיפך.

בשפה סטטיסטית – הטענות שמופיעות בכתבות אינן מובהקות (כלומר, הן עלולות להיות תוצאה של טעות דגימה, ואם היו מבצעים את הסקר שוב, היו מתקבלות תוצאות שסותרות את הטענות המוצגות בכותרות העיתונים).

פרטים טכניים

כשאני כותב "טווח המנדטים הסביר" הכוונה היא לרווח בר-סמך מבוסס Wald לפרופורציה על סמך הקירוב הנורמלי, ברמת סמך של 95%. התעלמתי בתרשים מעל מסוגיות הקירוב של רווח הסמך עבור המפלגות הקטנות יותר (אז אם זה חשוב לכם, תצטרכו לבצע חישוב מדוייק יותר).

נ.ב: הייתי מעדיף שלא יציגו את הגרף כתרשים עמודות תלת מימדי. זה לא עוזר (ואף מקשה) על ההשוואה הוויזואלית של העמודות.