אז היום בצהריים (24/12/2014 בשעה 12:30), רואיינתי בתוכנית של יעל דן בגלי צה"ל, על ידי מראיינת נעימה בשם גלית. אפשר להאזין לתוכנית כאן, החל מדקה 34 (וקצת). אחרי הראיון איתי העלו לשידור את ד"ר מינה צמח שאמרה מספר דברים (שחלקו על דברי). אני מביא כאן תמלול של מה שנאמר, ולאחר מכן את תגובתי.
ראיון עם טל גלילי
(הטקסט שגלית אמרה מופיע בכתב מודגש)
גלית: ועכשיו בגלצ גם הפוגה בעידכונים השותפים שבהם עסקנו עד עכשיו לטובת דיון בשאלה אחרת. האם הסקרים שמוצגים בתקשורת עכשיו בימי בחירות, האם הם מסתירים מאיתנו נתונים חיוניים? טל גלילי, סטטיסטיקאי, ומקים האתר סקר רע נמצא איתנו שלום טל.
צהריים טובים, שלום גלית.
גלית: אז זה אתר חדש שאתה הקמת לפני בערך שבוע וחצי אחרי שהתעצבנת על איך שאנחנו מקבלים את תוצאות הסקרים על איך שהם מוצגים לנו, ובעצם הטענות שלך מתחלקות לשניים, גם אופן הצגת התוצאות וגם איך שמבצעים את הסקרים. בוא נתחיל דווקא באופן שבו התוצאות מוצגות, למה זה מפריע לך?
האמת שלגבי השני אני רוצה לדייק – אין לי בעיה לגבי האופן שבו סקרים מבוצעים. האתר סקר רע, הכותרת שלו זה סקר רע סימן שאלה. והבדיחה שאני אומר על זה היא שאין סקרים רעים יש סקרים שרע להם. והסיבה שאני אומר את זה זה בגלל סקרי בחירות בדרך כלל מבוצעים על ידי אנשי מקצוע טובים שעושים עבודה טובה! מה שלצערי קורה הרבה פעמים זה שכאשר מנסים לתרגם את תוצאות הסקר שיש בו כל מיני דקויות לתקשורת הרחבה יש הרבה אובדן של מידע חשוב בדרך
גלית: כן. ואחד הדברים שאתה מדבר עליו באמת בהקשר של סקרי בחירות זה משהו שאתה קורה לו טווח המנדטים תסביר בבקשה מה זה אומר.
בתקשורת לפעמים קורה שיש טעויות, שעושים איזה גרף עמודות של תוצאות המנדטים, ובטעות איזו מפלגה עם 8
מנדטים מקבלת עמודה גבוה יותר מ-15. זו טעות עורך בתום לב, והיא ברורה.
אבל גם כאשר אנחנו מקבלים סקר שתוצאות המנדטים מוצגים בו בצורה נכונה.
נאמר הליכוד עם 22 מנדטים והעבודה עם 23 מנדטים. קורה שאנו מקבלים כותרת שאומרת העבודה מובילה ועוקפת את הליכוד. אבל לצערנו התובנה הזו, שמופיעה בכותרת לא מציגה את שהסקר מגלה לנו.
גלית: מדוע?
בגלל שסקר תמיד מבוסס על קבוצת אנשים שאיננה האוכלוסיה כולה, נאמר 500 או 1000 נשאלים, יש איזשהו
חוסר דיוק מובנה בסקר ביחס למה שהוא מספר לנו על האוכלוסיה. ומה שמדהים…
גלית: זו אותה טעות דגימה אגב, שתמיד מצויינת בכוכבית בשולי הסקר?
כן, כן. כלומר בסקרים יש שני סוגים של טעויות. יש טעות דגימה שנובעת בגלל כמות קטנה של נשאלים נאמר 500 או 1000 איש, זו כמות קטנה ביחס ל- 7 מליון. אז זו טעות דגימה, והנושא השני שאני פחות אדבר עליו היום הוא האם המדגם מייצג את האוכלוסיה בארץ, או שבטעות זו אוכלוסיה לא מייצגת. אבל נתמקד בנושא של טעות דגימה, אם תסתכלו בסקרים בד"כ אומרים טעות של 4 או 4.5%, וחישוב זריז אומר שזה סדר גודל של 4 עד 5 מנדטים פלוס מינוס. כלומר כשרואים תוצאה של הליכוד עם 22 מנדטים, זה בעצם תוצאה עם פלוס מינוס 4 מנדטים. והטווח הזה אומר שבאותה מידה סקר חדש שהיה מבוצע עם נתונים קצת שונים, היה יכול להביא לנו תוצאה הפוכה שבה הליכוד יהיה עם 24 והעבודה עם 21. ואף אחד משני הסקרים האלה לא היה אומר שהאחד מוביל על האחר.
כן אפשר לראות דברים אחרים כמו שהליכוד בהחלט מקבל יותר מנדטים מהבית היהודי. זו תוצאה שבדרך כלל כן
אפשר לראות מסקר יחיד. אבל תוצאות צמודות זה הרבה פחות נכון. ולצערי התקשורת כשהיא מציגה את זה היא כאילו מציגה את זה שיש הובלה, כשאין כזו מהסקר.
גלית: ואתה בעצם אומר דברים מאד דומים לגבי שאלות למשל – במי היית תומך להיות ראש הממשלה הבא. מציגים לנו את זה בתור מועמד אחד שמקבל אחוז מסויים, ומועמד אחר שמקבלים קצת או יותר פחות ממנו, ואתה אומר גם זה לא מאד מדוייק בדרך כלל.
אז שוב צריך להגיד, דיוק זה רעיון מורכב. אבל למרות שזה רעיון מורכב, אפשר לדבר על דברים פשוטים לגביו. כאשר אנחנו רואים שיש 40% תמיכה במועמד אחד ו- 39% במועמד אחר, יכול להיות שבגלל דיוק הסקר אפשר מראש להגיד שהסקר לא אומר לנו מי מוביל. אם יש לנו הפרש מאד גדול, אז יכול להיות שאפילו עם מדגם של 500 איש אפשר לומר באופן משמעותי מי מוביל. אבל האי דיוק הזה זה משהו שאנחנו יודעים מראש. האנשים שמציגים את הגרף בעיתון היו יכולים להוסיף טווח טעות שמציג לנו את האמונה שלנו בתוצאות הסקר. ובכך לעזור לנו הציבור לדעת האם הסקר מספר על כך שאחד ממש מוביל, או שאין הבדל משמעותי שאנחנו יודעים לתאר אותו.
גלית: אתה גם פורס את כל הדברים האלה והביקורת שלך באתר שהזכרנו קודם – סקר רע. וכעוד שירות לציבור אתה מאחד 10 סקרים, כך הבנו, מהשבועות האחרונים למעין סופר סקר גדול. ואתה בעצם אומר, אני מקבל רמת דיוק יותר גבוה מסקר כזה. אז קודם כל ספר לנו מה אתה רואה שם, ולמה זה יותר מדויק.
ובכן, אני לא רוצה לטרוח לספר מה אני מגלה שם, כי אני מצטער לומר שאנחנו כמה חודשים לפני הבחירות ואין לנו
מושג מה יקרה. כרגע המצב הוא
גלית: אגב, אבל צריך להגיד רק בהקשר לנקודה הספציפית הזו שאמרת כרגע, שאף אחד לא מתיימר. כלומר השאלה שמוצגת בצורה ברורה, זה למי היית מצביע לו הבחירות היו מתקיימות היום.
נכון. נכון מאד. תראי, כרגע התוצאות של הסקר הם. האמת שאבל, קשה לי לדבר עליו, עשיתי את הניתוח לפני יותר משבוע. זה היה לפני הפיצול של ש"ס, זה היה לפני האיחוד של לבני ושל הרצוג. … התוצאות שהיו לי לפני שבוע כבר ישנות.
מה שאני רוצה לעשות באופן כללי, זה להציג (ואני חושב שהרבה גופי תקשורת רוצים וצריכים לעשות את זה), לוקחים לא סקר אחד ומדברים עליו. אלא לוקחים תקופה של שבוע או שבועיים של סקרים, מה שמוביל אותנו במקום להסתכל על 500 אנשים על 7000 אנשים כשמאחדים את הסקרים האלה. ואז להסתכל על התוצאות של הסקרים ולתת אמירות שהן הרבה יותר מדוייקות, כלומר, בכזה דבר אפשר לומר שמפלגה אחת מובילה לאחרת.
אני רק אסייג, וזה סייג חשוב. כל זה מניח שהמדגמים של הסקרים האלה מייצגים את האוכלוסיה הישראלית. ולצערי זה קושי מאד גדול שלא תמיד מתממש.
גלית: יבואו ויגידו לך, טל גלילי, כל הדברים האלה שאתה רוצה לעשות. לפרסם את טווח המנדטים, וכמה אנשים השתתפו בסקר, ואיזה מדגם בדיוק זה היה של האוכלוסיה וכו וכו. פשוט יבלבל את הציבור. לא משום שהוא מטומטם חלילה, אלא משום שזה איזה עודף נתונים שאי אפשר לעכל כבר ולכן זה לא ריאלי לעשות את זה. אולי בתיאוריה כן, בפרקטיקה לא.
ובכן, אני חושב שאפשר להסתכל על הדברים המורכבים ועל הפשוטים. אני חושב שאת אותה אמירה היה אפשר לומר למה להראות לאנשים מספר מנדטים בגרף עמודות, כי זה מסובך מידי. להוסיף לגרף עמודות טווח מנדטים, ש- 20 לא אומר 20 אלא אומר נגיד מ- 17 עד 23, אני לא חושב שזה משהו שלציבור הכללי יהיה קשה להבין. את הדקות של איך הגיעו למספר הזה, זה אולי ירצו ללכת ללמוד קורס. אבל רק בשביל לראות שזה לא אומר 20 אלא בין 17 ל- 23, ושכל אמירה בתקשורת תתייחס לטווח הזה, אני לא חושב שזה יהיה מסובך לאנשים להבין.
ראיון עם ד"ר מינה צמח
גלית: טל גלילי, אנחנו ניפרד ממך בשלב הזה כדי לצרף לשיחה את מינה צמח. המנהלת המדעית של מכון המחקר מדגם, שלום מינה.
שלום וברכה
גלית: […הצגה של נדב פרי ] מינה, קודם כל רשות התגובה אליך. אנחנו מסלפים בדרך שבה אנו מציגים את תוצאות הסקר? אנחנו מטעים את הציבור?
לא, אנחנו לא מטעים את הציבור.
ראשית אני רוצה לתקן משהו, טעות הדגימה לא תלויה רק בגודל. היא תלויה גם בגודל, בשונות התגובות, זה פשוט
לא נכון שזה רק בגודל, אם האוכלוסיה היא מאד הומוגנית אז מספיק לי מדגם קטן של אנשים, אם האוכלוסיה
הטרגונית אז אני צריך מדגם גדול. זה ככה הערת שוליים למה שנאמר כאן.
עכשיו תראי, טעות הדגימה היא … הסיכויים הכי גבוהים. אני לא רוצה כעת להכנס לשיעור בסטטיסטיקה, אבל
הסיכויים הכי גבוהים הם שהערכים שאנחנו מקבלים הם הערכים באותו היום שהסקר נערך. שזה הנתונים הנכונים.
נכון שאפשרי טעות דגימה אבל, א, טעות הדגימה אי אפשר לפרסם, טעות הדגימה היא שונה לכל נתון ונתון. לכל מפלגה ומפלגה יש טעות דגימה אחרת.
גלית: אבל אומר טל גלילי…
רגע, תני לי לגמור. אנחנו מפרסמים את טעות הדגימה המירבית. יותר מזה אי אפשר לדרוש מאיתנו. אנחנו מפרסמים את טעות הדגימה שהיא משמעותית יותר גדולה מטעות הדגימה האמיתית.
גלית: כלומר, האם את חושבת מינה צמח, בתור מי שמציגה את תוצאות סקרים כבר הרבה מאד שנים, שאם היית באה לציבור והיית אומרת לו המפלגה הזאת והזאת מקבלת בין 18 ל- 22 מנדטים, זה לא היה מספיק טוב? לא היו מצליחים כבר לעקוב אחר התוצאה?
קודם כל אין לזה משמעות. בין 18 ל- 22 מנדטים אין לזה משמעות. מה גם, כמו שאמרתי, שהסיכויים הכי גבוהים, כמו שאמרתי לך, לא נכנס כעת לשיעור בסטטיסטיקה, הסיכויים הכי גבוהים שהתקבל הנתון שאנו מוצאים במדגמים שלנו, זה הסיכויים הכי גבוהים. טעויות הדגימה הגדולות, סיכויים קטנים שהם יקרו. אז אנחנו לא הולכים לבלבל את הציבור בין 18 ל- 22. או בין 17 ל- 23. כל זה תלוי בגודל המפלגה, תחת אהה.
גלית: אז בעצם מה שאתם עושים, זה אתם לוקחים את טווח הטעות הזה, ולוקחים את האמצע שלו ואומרים זה מספר המנדטים?
לא, אנחנו לא לוקחים. כי זה יוצא האמצע. אנחנו לוקחים את מה שאנחנו מקבלים.
גלית: כלומר כל מפלגה אמורה לקבל בין 18 ל- 22 לפי תוצאות סקר, תבואו ותאמרו היא תקבל 20, זו השיטה?
בואי נעשה סדר בכל דבר יש טעות דגימה. כשעובדים עם מדגמים, אף פעם לא עובדים עם כל האוכלוסיה,
גלית: אנחנו לא באים בתלונות לטעות הדגימה, אנחנו רק שואלים למה לא מספרים את זה.
תני לי רגע לגמור. החלטות הרבה יותר רציניות מתקבלות במדגמים שיש בהם טעות דגימה. עכשיו, אני שוב חוזרת בפעם השלישית או הרביעית, אני לא יודעת מה. הסיכויים הכי גבוהים הם שהנתון שאנחנו מקבלים, בכל סקר, אם עושים אותו נכון, אם המדגם מייצג, אם הראיונות היו בסדר. ופה הבעיה הכי קשה, אתם בכלל לא מדברים על הבעיה הזאת, הבעיה הכי קשה: איך מפצחים את הקולות הצפים. איך אנחנו מפצחים את הקולות הצפים. כי זה תורם בין סוקרים שונים, בין מכוני מחקר שונים.
גלית: כל אחד עושה את זה אחרת.
כן. ההבדלים איך אתה דוגם, איך אתה מנסח את השאלות. איך אתה מפצח את הקולות הצפים.
אבל אם כל זה נעשה בסדר, הסיכויים הכי גבוהים שהנתון שאת קיבלת זה הנתון שמייצג את האוכלוסיה.
גלית: אז אפרופו הנקודה שלך. את אומרת שכן יש הבדל בגלל הפילוח של הקולות הצפים בין תוצאה שיכולה להגיע ממכון אחד למכון אחר.
בהחלט בהחלט.
[המשך שיחה עם נדב פרי]
מינה צמח: רגע. אז אם הוא סטטיסטיקאי אז הוא צריך לדעת את כל מה שאמרתי. אם הדובר הקודם הוא סטטיסטיקאי.
מחשבות ותגובות לדבריה של ד"ר מינה צמח
לצערי לא ניתן לי ברדיו אפשרות להגיב, ועל כן אסתפק בלעשות זאת כאן. לפני שאמשיך, אני רוצה להדגיש שאני מכבד מאד את ד"ר מינה צמח ברמה המקצועית, ואני גם בטוח שברמה האישית היא אישה מצויינת. הביקורות שלי הן לא לגבי המקצועיות שלה, אלא לאופן שבו לדעתי ראוי שנתקשר את תוצאות הסקרים אל הציבור. בתימצות: אני חושב שצריך לספר לציבור, וויזואלית, מהן גבולות הדיוק שהסוקר חושב שיש בסקר, ונראה שד"ר צמח חולקת עלי. הנה התגובות:
ד"ר צמח: "ראשית אני רוצה לתקן משהו, טעות הדגימה לא תלויה רק בגודל."
תגובה: לא טענתי שטעות הדגימה תלויה רק בגודל המדגם. אבל היא בפירוש תלויה גם בגודל המדגם. לגבי שאר הדיוקים שהביאה ד"ר צמח, אני בוודאי מסכים.
ד"ר צמח: "הסיכויים הכי גבוהים הם שהערכים שאנחנו מקבלים הם הערכים באותו היום שהסקר נערך."
תגובה: ובכן, כמובן שד"ר צמח צודקת. בהחלט הערכים שהסקר מביא (מה שנקרא "אומד נקודתי"), הם הערכים בעלי "הסיכויים הכי גבוהים" שיהיו נכונים (הערה סטטיסטית: המשפט "הסיכויים של התחזית שלנו היא כך וכך", היא אמירה שצריך לדבר באופן "בייזיאני" ולא "שכיחותני" כדי לומר אותו, אבל בסדר – נרשה לעצמנו לצורך הדיון לנוע בין שתי צורות השיח הללו ונשמור את הדיוק בזה לפעם אחרת). אבל, בשום מקום לא טענתי שמדובר בתחזית בעלת סיכוי לא גבוה. מה שטענתי זה שאני רוצה לדעת כמה לדעת הסוקרים (לדוגמא, ד"ר צמח), התחזית שלה נכונה. אם היא רוצה לתת לי רק את תחזית מספר המנדטים, בלי הטווח, אז אשמח לדעת מהם "הסיכויים שהתחזית נמוכה". האם יש סיכוי של 95% שהתחזית הנקודתית הזו נכונה? התשובה היא בפירוש לא. כדי לדעת מה הסיכוי המדוייק צריך קצת לעבוד (אולי נעשה על זה פוסט בהמשך). אבל בכל מקרה אני רוצה לדעת מהי. מדוע? כי אם הסיכוי הוא אפילו 50% (גם אם שאר התחזיות האחרות הן עם סיכויים נמוכים יותר), זה עדיין אומר שהסיכוי לתחזית הזו הוא די לא מדוייק. זה אומר ("בערך") שבחצי מהמדגמים המספר שנתתי יהיה נכון ובשאר לא. ואם זה המצב, הייתי רוצה לדעת שזה המצב. למה? כדי שאם פרשן פוליטי כותב לי "העבודה מובילים!", שאני אדע באיזה סיכוי הוא צודק (כי אם הוא צודק ב- 50%, המשפט הזה לא כל כך חשוב עבורי כקורא).
מה שמובטח לנו בטווח טעות המנדטים, הוא שהאמירה "המנדט נמצא בין X ל- Y", יהיה נכון ב- 95% מהפעמים שנאמר אותו (תחת ההנחה שהמדגם מייצג, אין הטיות, וכו'). שזה מספר שעבורו יש טעם לתת פרשנות פוליטית.
ד"ר צמח: "אבל, א, טעות הדגימה אי אפשר לפרסם, טעות הדגימה היא שונה לכל נתון ונתון. לכל מפלגה ומפלגה יש טעות דגימה אחרת."
תגובה: למה אי אפשר לפרסם?! זה כמו לומר שאי אפשר לפרסם תחזיות מנדטים כי הן שונות לכל מפלגה. כמו שנותנים תחזית מנדטים, אפשר לתת טווח תחזיות מנדטים. לדוגמא, על ידי הוספת טווח טעות מנדטים ("רווח בר סמך"), לתרשים העמודות.
ד"ר צמח: "רגע, תני לי לגמור. אנחנו מפרסמים את טעות הדגימה המירבית. יותר מזה אי אפשר לדרוש מאיתנו. אנחנו מפרסמים את טעות הדגימה שהיא משמעותית יותר גדולה מטעות הדגימה האמיתית."
תגובה: בהחלט אפשר (כציבור שצורך סקרים) לדרוש יותר מאשר טעות הדגימה המירבית. אפשר לדרוש טעות דגימה, לפי דעת הסוקר, לכל אחת מתחזיות המפלגות!
זה לא עוזר לי שמתפרסם סקר ואומרים בו "טעות הדגימה המירבית היא פלוס מינוס 5.4 מנדטים". כי ברגע שאני רואה את זה, אני מבין שאין כמעט נתון בסקר שיהיה לי מה לעשות איתו (כי אם אני משתמש בטעות הדגימה המירבית לכל מפלגה, אני מקבל טווח כל כך גדול שכמעט אין משהו מעניין שאפשר לומר עם הסקר).
שיהיה ברור, אני חושב שלעשות את זה זה קשה. כי השיטות שסוקרים משתמשים בהם הן מורכבות. וזו בדיוק הסיבה שאני רוצה שהסוקר יביא לי את הדעה שלו לא רק על מספר המנדטים, אלא גם על טווח הטעות של התחזית שהיא/הוא חושב שהתקבלה.
ד"ר צמח: "בין 18 ל- 22 מנדטים אין לזה משמעות."
תגובה: אני לא מבין את המשפט הזה. האם זה אומר שאין משמעות סטטיסטית? כי רווחי סמך זה דבר שיש לו משמעות מוכרת בסטטיסטיקה. אין לזה משמעות לגבי הפרשנות הפוליטית שעושים על הסקר? כי אם אין – אז האם יש טעם לדבר על הסקר הבודד הזה בפרשנות הפוליטית? כי לדעתי התשובה היא שלא. אם לעבודה יש 24 מנדטים ולליכוד 22, וטווח הטעות הוא פלוס מינוס 3 מנדטים, אני בהחלט חושב שאין משמעות לומר שהאחד מוביל על האחר! (אם מתחילים לשלב סקרים מהעבר, ולדבר עליהם באופן מושכל – אז יש לזה טעם. אבל בכתבות שהצגתי באתר, רואים שההתייחסות היא לרוב לגבי תוצאות סקר בודד…)
ד"ר צמח: "אז אנחנו לא הולכים לבלבל את הציבור בין 18 ל- 22. או בין 17 ל- 23"
תגובה: ובכן, אולי זה קשה להסביר לציבור שסקר נותן תוצאה לא מדוייקת מבלי לבלבל אותו. אבל מה לעשות, זו באמת המציאות… אז אני אישית מעדיף שהציבור יתבלבל (בעודו לומד אט אט) עם איך לפרש טווח מנדטים, מאשר האלטרנטיבה שמתרחשת כיום, שבו מספרים לציבור מסקנות על שינוי במפה הפוליטית, גם כאשר אין עדויות ברורות מהסקר שזה מה שקרה.
ד"ר צמח: "הבעיה הכי קשה: איך מפצחים את הקולות הצפים."
תגובה: אני בטוח שהיא צודקת לגבי זה. וזו הסיבה שאני רוצה שהחברה שמבצעת את הסקר תנסה גם להתמודד עם השאלה מהו טווח השגיאה של הדרך שבה הם ניסו לפצח את הקולות הצפים. עד היום, טווח טעות הדגימה המירבית שמוצג בתקשורת הוא תחת ההנחה של מדגם מקרי, מייצג, של אנשים. בפועל, המציאות יותר מורכבת, ומובילה למודלים יותר מורכבים. לציבור אין את הנתונים כדי לדעת מה עשיתם, אז אנחנו רוצים שתספרו לנו מה אתם חושבים שהדיוק שהתקבל מעבודתכם – כדי שנוכל לדעת איך זה משפיע על הבנתנו את המציאות.
משפט אחרון: היו לי דיונים רבים לאחרונה האם הוספת טווח טעות מנדטים על גרף הוא רעיון טוב או לא. עד כה אני משוכנע שהתשובה היא כן. אני חושב שזה מאד קשה לדעת איך לחשב אותו, ואני חושב שזה משיח את דעת הציבור מכך שיש גם הטייה של הסקר, מעבר לטעות הדגימה. אבל רק אם סוקרים יעשו זאת, לאנשים שמנסים לאגד את הסקרים למטא-סקר ("סופר סקר") אחד גדול תהיה אפשרות לאחד את הסקרים לתוצאה (בתקווה) הגיונית.