סטטיסטיקה

כיצד כולנו הולכים ללמד את גוגל לקרוא

גוגל הכריזה על רכישת השירות ר-קפצ'ה.

המשמעות של זה היא שגוגל תאסוף מידע שיאפשר לה ליצור אלגוריתמים סטטיסטיים מתקדמים לזיהוי תווים.

כתבתי על זה עוד בבלוג שלי, אתם מוזמנים להכנס ולקרוא:

קבוצת דיון לישראלים המשתמשים ב-R

עמיתי למקצוע, יונתן רוזנבלט, הקים באחרונה קבוצת דיון בגוגל עבור ישראלים המשתמשים בתוכנה הסטטיסטית, קוד פתוח, R (הנה הסבר מרחב על What is R). הקישור לקבוצה הוא:

http://groups.google.com/group/israel-r-user-group

להתראות שם 🙂

יום ממוצע בחייו של אמריקאי ב- 2008 (ויזואליזציה מהממת)

"סקר העברת הזמן של האמריקאים" ביקש מ-1000 אמריקאים (מעל גיל 15) לשחזר כל דקה מיום בחייהם, במהלך 2008. אם זה יפה בעינכם, רוצו לאתר של הניו-יורק טיימז לגירסה האינטראקטיבית של הגרף המהמם הזה.

הסבר קצרצרון: הגרף המוצג הוא גרף שכבות. ציר ה- X הוא זמן, וציר ה- Y הוא אחוז האנשים ש…עשו משהו. בכל נקודת זמן, העובי היחסי של כל פרוסה אומר מהו אחוז האנשים שעשו את אותו המשהו. הגרף מאפשר לזהות מגמות גדולות כמו למשל את שעות האוכל אשר נוגסות בפעילות העבודה. גם מעניין לראות כיצד אנשים שעוסקים בפעילויות בית, או בחופשה לא יאכלו בשעות קבועות כמו אלו שעוסקים בעבודה (נישמע לי מוכר).
הגירסה האינטראקטיבית של הגרף באתר של הניו-יורק טיימז מאפשרת ללחוץ על כל פרוסה ואז לראות את ההתפלגות שלה לאורך היממה. תהנו 🙂

תודה לאלעד על הלינק!

העלייה ה"מרשימה" (אך לא מובהקת סטטיסטית!) בקוראי מעריב

פוסט משותף עם עידו קינן.

בסופ"ש האחרון פנה אלי עידו וביקש ממני התייעצות קטנה. הוא נתקל בידיעה בעיתון מעריב, המדווחת על "עלייה מרשימה בחשיפה לעיתון" בהתאם לסקר TGI.
עליה מרשימה בחשיפה לעיתון מעריב

היות ועמדו לרשותו קובץ הנתונים של סקר TGI (להנתאכם, הנה הוא: TGI-media ), הוא התייעץ איתי האם המסקנה של עיתונאי מעריב תקפה או לא. מהסתכלות זריזה בקובץ, ראיתי שהתשובה היא חד משמעית – לא.

הנתונים בקובץ מספרים לנו שבמדד החצי שנתי, יש ירידה הדרגתית מ-16.6% (חציון 2 2007) ל-15.1% (ח1 2008) ל-13.8% (ח2 2008), ואז עליה קלה ל-14.4% (ח1 – 1 200). גם העליה הקלה בחציון האחרון נמצאת בטווח הטעות של הנתונים, היות שרווחי הסמך הם של אחוז אחד לכל אחד מהמספרים, בעוד שהעלייה הייתה של פחות מאחוז.

הנתונים שבעיתון מציגים את השינוי באחוזים, אבל לא את מידת הוודאות שבהבדלים (כלומר, את מידת הוודאות שלנו שאם נקח מדגם אחר נקבל תוצאות דומות). הגרף שלפניכם (אשר נוצר בעזרת התוכנה הסטטיסטית R), מציג את השינוי שנעשה באחוזי הקוראים אך משלב בתוכו את רווחי הסמך:

הגרף מדגים היטב שההבדל באחוזים איננו מובהק סטטיסטית, היות ורווחי הסמך "עולים" האחד על גבי השני. ואינם ניפרדים ממש בגובהם.

כדי לעשות מבחן סטטיסטי תקף, צריך להשתמש בנתונים הגולמיים ולבצע עליהם מבחן סטטיסטי מתאים (אפשר מבחן להפרש פרופורציות או מבחן חי בריבוע, הם שקולים מבחינת הערך P/רמת-המובהקות שהם יפיקו). הנה הטבלה של הנתונים (לקוחה מהנתונים של הסקר):

	קוראים מעריב	לא קוראים מעריב
יולי-דצמבר 2008	690.966	4316.034
ינואר-יוני 2009	721.008	4285.992

הפעלה של מבחן חי בריבוע על הנתונים מביא לערך P של 0.40.
או במילים אחרות – אין שינוי מובהק באחוז הקוראים בין התקופה האחת לאחרת.

לסיכום: מעבר לבעיות המובנות בסקר TGI (כפי שעידו מציין בפוסט שלו), הבעיה אותה חשפנו כאן היא דיווח על מספר (אומדן לאחוז החשיפה לעיתון), מבלי התחשבות במידת הרעש של הנתונים (רווחי הסמך של האומד). חוסר התחשבות כזו מאפשרת להגיע למסקנות שגויות ביותר, ועל זה קיבלנו דיווח ממעריב. מזכיר קצת את הדיווח הלקוי שהתקשורת סיפקה לסקרי הבחירות האחרונות.

ועל זה כבר אמר מרק טווין הרברט וולס (H. G. Wells) – "החשיבה הסטטיסטית בעידן המודרנית היא מיומנות הכרחית לאזרחות טובה"

"אילו יכולתי לשנות את החינוך למתמטיקה – הייתי משנה אותו לסטטיסטיקה" (3 דקות הרצאה)

כך טוען ארתור בנג'מין (פרופסור למתמטיקה) בהרצאת הטד שלפנינו: