למה אנחנו רוצים סקר עם "מדגם מייצג"? (פוסט על שגיאות שאפשר ושאי-אפשר להציג)

תשובה: כי סקר עם מדגם לא מייצג צפוי לתת תוצאה לא אמינה לגבי תוצאות האמת של הבחירות.

לפני שנמשיך לדווח על סקרים ומטא-סקרים, ברשותכם רציתי לעשות קצת סדר בנושא של "מדגם מייצג ואקראי" ולנסות להסביר אותו (מה שמכונה בשפה הסטטיסטית "הטייה"). נתחיל בקריקטורה מתאימה מהבלוג המקסים דברים שקרו באמת:

Servey1500

מעבר לכך שהקריקטורה מאד חמודה, היא מציגה מצב שבו הסקר מבוצע על האוכלוסייה שלא מייצגת את אזרחי ישראל (אלא רק את חתולי ישראל).

גם בסקרי בחירות עלול מצב כזה (של דגימת אוכלוסיה לא מייצגת) להתרחש, אם הסוקר מתקשה להגיע לאוכלוסייה הצעירה, הערבית, החרדית וכן הלאה (לדוגמא, כי אין לו אפשרות לחייג לטלפונים סלולרים של צעירים, או כי קשה לראיין את האוכלוסיה הערבית ללא סוקר שדובר ערבית).

באופן כללי, בסקרי בחירות יש שני סוגים עיקריים של טעויות סטטיסטיות: טעויות "הטייה" (bias) וטעויות "שונות" (variance). המצב שמוצג בקריקטורה הוא של טעות הטייה. כעת נרחיב קצת על שתי הטעויות.

בלי הטייה – עם שונות קטנה וגדולה

אם כל סקר היה מבוצע על מדגם מייצג לחלוטין של האוכלוסיה (מה שמכונה "מדגם מייצג" או תחזית שהיא "אומד חסר הטייה"), במצב כזה רוב הטעות הייתה תלויה בעיקר (אם כי לא רק) בגודל המדגם. מדגם של 500 איש היה נותן טעות דגימה מקסימלית של פלוס מינוס 5.2 מנדטים (עבור רמת ביטחון של 95%), בעוד שמדגם של 10,000 איש היה נותן טעות מקסימלות של פלוס מינוס 1.1 מנדטים (כלומר, זה היה סקר בעל "שונות" נמוכה).

למה הדבר דומה? נדמיין שכל פעם שסוקר מבצע סקר, זה כמו שהוא היה זורק חץ למטרה (כאשר מרכז המטרה הוא לתת תחזית מדוייקת של מספר המנדטים של המפלגות). נדמיין כעת שיש לנו הרבה סוקרים כאלה, כל אחד מבצע סקר (דהיינו, זורק חץ למטרה). בתרשים הבא אנו רואים משמאל מה היה קורה אם כל סוקר היה עושה מדגם של 10,000 איש, ומימין מה היה קורה אם כל סוקר היה משתמש במדגם של 500 איש:

LLH_bias_variance

 

החדשות הטובות במצב כזה (של חוסר הטייה) הן:

  1. שאנו יודעים לאחד כמה סקרים ביחד למטא-סקר אחד גדול, ואז להפוך את כל החצים מצד ימין, לחץ אחד מצד שמאל (כלומר, איחוד סקרים לוקחים הרבה סקרים עם שונות גבוהה והופך אותם למגה-סקר אחד עם שונות נמוכה).
  2. שגם אם יש לנו רק חץ אחד, מהסוג של צד ימין (של סקר עם 500 נבדקים), אנו יודעים (בזכות תיאוריה סטטיסטית), לחשב מראש מה יהיה מידת המרחק האפשרית של החץ ממרכז המטרה!
    זה מה שאני מציג להציג בעזרת הוספת "טווח מנדטים סביר", כפי שהוא מוצג בפוסטים קודמים (לדוגמא כאן).

אבל צריך לזכור שמצב של "מדגם מייצג" הוא אידיאלי, וכנראה לא מתקיים במציאות. כעת נדון במצב השני.

שונות קטנה – עם ובלי הטייה

גם אם כל סקר היה מבוצע על כ-10,000 נשאלים בכל פעם, במצב כזה היה מעט טעות בשל גודל המדגם (מה שמכונה בשפה הסטטיסטית "שונות"), אבל אם המדגם לא היה מייצג את האוכלוסיה, עדיין הייתה לנו הטייה. כלומר, מרחק בין התחזית שלנו לבין מה שיצא בפועל בבחירות.

בתרשים הבא אפשר לראות בתמונה מדגמים של 10,000 נשאלים. התמונה התחתונה מציגה סקרים שבוצעו על מדגמים אשר מייצגים את האוכלוסייה, בעוד שהתמונה העליונה מציגה מצב שבו יש לנו מדגמים מאד מדוייקים (כלומר כל סקר היה נותן לנו תוצאות מאד דומות, בזכות גודל המדגם), אבל התוצאות מוטות (בגלל שהמדגם לא מייצג את האוכלוסייה הכללית):

LHL_bias_variance

במצבים כאלה של הטייה במדגם הסוקר נדרש "לתקן" את תוצאות הסקר שלו, כדי שיהיו דומים יותר לתוצאות שהוא היה עשוי לקבל אילו הוא היה מצליח לחלץ מדגם מייצג באמת. התקווה שלנו היא שכל סוקר יודע לנחש יחסית טוב את ההטיות שנובעות מהדגימה שהוא עושה, ושבעזרת כלים סטטיסטיים הוא מצליח לנטרל את ההטייה (דהיינו, את חוסר הייצוגיות של המדגם שלו, את האוכלוסייה הכללית).

הקושי הוא שאנחנו, בתור צרכנים של סקרים, רואים כל פעם סקרים של 500 איש כל אחד ואנחנו לא יודעים האם ההבדלים הגדולים בין התוצאות של הסקרים השונים נובעים בגלל גדלי המדגמים, או בגלל שחלקם מוטים וחלקם לא. או אם להשתמש באנלוגיית החצים למטרה, אנחנו לא יודעים איזה משני התרשימים שלמטה הוא המצב האמיתי בסקרים שאנחנו מקבלים:

LHH_bias_variance

הדבר הרע בנושא של הטייה היא שאנו לרוב לא יודעים אותה מראש, ובגלל זה אין לנו דרך להציג אותה וויזואלית על גרף! זה אומר שבכל סקר שאתם רואים, אתם צריכים לזכור שייתכן ויהיו הטיות, ואין לנו דרך גרפית להציג לכם אותן בתרשים העמודות של מספר המנדטים לכל מפלגה.

אז מה אפשר לעשות?

כתבתי שאנחנו לא יכולים לדעת מהי מידת ההטייה של הסקרים, אבל זה לא מדוייק. אם סקרים שמתפרסמים בעיתונות היו מגיעים עם מידע יותר מדוייק על האופן שבו הסקר בוצע, והמגבלות שלהן (אחוז הלא משיבים, האוכלוסיות שנדגמו, אופן הסקירה, צורת התיקנון – וכו'), ייתכן והיה לנו דרך ללמוד על סוגי הטיות שונות. אם סוקר אומר מראש שהוא לא דגם אוכלוסייה ערבית, אפשר היה להציג תרחישי קיצון שונים שנובעים בגלל שהמידע הזה לא נאסף (או לא נאסף באופן מוצלח). סביר להניח שחברות הסקרים השונות מבצעים מחקרים כאלה ברמה הפנימית, אבל לצערי אני לא מכיר עבודות שפורסמו בציבור על איך לבנות תרחישי קיצון בשל בעיות הטייה במדגמים.

באופן מעשי, הרעיון שאני מקדם של הוספת טווחי מנדטים סבירים לתרשימי עמודות, מיועד להציג את האי-וודאות שאנו יודעים לחזות מראש (ולו רק כדי להזכיר לקורא שיש אי-וודאות מובנית בתוך הסקר). אני מלא תקווה שיגיע יום שבו יהיה לנו מספיק מידע על שיטות הסקרים כדי שנוכל גם להציג מידע כלשהו על טווחי ההשפעה של סוגי ההטיות (שגיאות "חוסר ייצוגיות המדגם"), על גבי הגרפים של תוצאות סקרי הבחירות. לצערי, אני לא חוזה שנראה כאלו בעתיד הנראה לעין.

לבינתיים, תזכרו את התרשים הזה: (ותודה רבה לינון אורן שהתנדב ליצור עבורי את תרשים החצים!)

bias_variance

 

הערה: יש הרבה גורמים להטייה בתוצאות הסקר מלבד דגימה לא מייצגת של האוכלוסייה. יכול להיות שהשאלות בסקר מובילות למרחק בין התשובות שאנו מקבלים לבין מה שאנשים יעשו בקלפי. יש הבדל בין סקר בפלאפון מול סקר פנים אל פנים, יש הטיות באופן שבו מחליטים להתמודד עם קולות צפים, וכן הלאה. סביר לומר שהטייה היא הבעיה הקשה ביותר של סקרי בחירות, יותר מאשר גודל המדגם של הסקר. עם זאת, אני מאמין בלהציג את האי-וודאות שאנחנו יודעים (רעש התוצאות בשל גודל המדגם), ולדון באי-וודאות שאנחנו לא בטוחים לגביה (הטיות).

השאר תגובה