גוגל רוצה לקרוא ספרים סרוקים – וכולנו הולכים לעזור לה (או: על הרכישה של גוגל את ר-קפצ'ה)

הקדמה – מה זה קפצ'ה ור-קפצ'ה

קפצ'ה היא מבחן המאפשר להבחין בין מחשב למכונה (סוג של מבחן טיורינג לעניים). כשמדברים על קפצ'ה באינטרנט, לרוב מדברים על האותיות המחורבשות שרואים כשצריך להכנס לאיזשהו אתר. אתרי אינטרנט משתמשים בתמונות הללו כיוון שבני אדם יכולים (לרוב) לקרוא אותם, בעוד שמחשבים לא. דוגמא לשימוש נפוץ הוא בהרשמה לחשבון אימייל חדש – החברה שמספקת את השירות דורשת מאיתנו הגולשים למלא ק'פצה (לפתור את הכתוב בתמונה), כדי לזהות שמי שמבקש את חשבון האימייל הוא אדם אמיתי, ולא תוכנת מחשב שמנסה לפתוח מאות אלפי חשבונות אי-מייל במכה אחת (ואז להשתמש בהם בשביל לשלוח דואר ספאם).

דוגמא נוספת לחשיבות הקפצ'ה תוכלו לקבל מקומיקס ה- XKCD המשובח הבא (לחצו על התמונה להגדלה וקריאה):

suspicion

בחור מבריק אחד ששמו הוא לואיס וון האן, הקים בזמנו חברה בשם re-Captcha. הרעיון המבריק מאחורי המייזם שלו הוא לחבר בין שני צרכים משלימים:

  • אתרי אינטרנט צריכים מבחני קפצ'ה בשביל לזהות שגולש מסויים הוא אדם אמיתי ולא רובוט, ובמקביל –
  • מי שברשותו ספרים סרוקים היה רוצה שאנשים יקלידו לו אותם לתוך המחשב (כלומר – שאנשים יזהו מילים מקושקשת מתוך הספר הסרוק – היות ומחשבים לא יכולים לעשות זאת)

הפתרון: re-Captcha. מדובר בטכנולוגיה המאפשרת להשתיל באתר (המרשה לה), מערכת שנותנת לגולש מסויים מבחן לזיהוי מילה סרוקה. בעל האתר מקבל לגלות האם הגולש הוא אדם אמיתי או לא, והמערכת מקבלת לדעת על אותה המילה מהי הפרשנות שלה.

להל"ן סרטון של 12 דקות שמסביר את כל אשר כתבתי:

החדשות – גוגל רכשו את ר-קפצ'ה

היום גוגל פירסמו בבלוג שלהם הודעה על רכישת החברה ר-קפצ'ה (reCAPTCHA). טק-קרנצ' כתבו שגוגל עשו נסיונות בלפתח את הטכנולוגיה בעצמם, אך כנראה שגוגל הגיע למסקנה שיותר הגיוני לרכוש את החברה מאשר להמציא את הגלגל מחדש.

המשמעות המיידית וההשלכות לעתיד

השירות ר-קפצ'ה כבר משמש כ- 100,000 אתרי אינטרנט. ועכשיו לאחר שגוגל רכשו אותם, אפשר לצפות לעוד אינספור אתרים שיתחיל להשתמש בשירות. המשמעות המיידית של זה תהיה שגוגל מקבלת מאות אלפי גולשים שיעזרו לה (בחינם) להקליד את הספרים שהיא סרקה לתוך השירות שלה גוגל-ספרים. המשמעות של זה תהיה שבעתיד הנראה לעין, עוד ועוד ספרים יהיו זמינים לחיפוש דרך השירות של גוגל-ספרים. בעתיד הבינוני אפשר אף לצפות שגוגל יוציאו שירות עבור כבדי-ראיה שבו גוגל תקריא להם ספרים (אני ממתין לשיתוף הפעולה הזה שיהיה בין גוגל לאמאזון).
עידכון: ווינט מספרים על כך שגוגל עומדת לאפשר לאנשים להדפיס ולקנות ספרים ישנים מהמאגר שלה (בהנחה שכמה סוגייות משפטיות יפתרו). או במילים אחרות: גוגל לוקחת ספרים שלא קיימים בפורמט דיגטלי, סורקת אותם, מתרגמת את התמונות הסרוקות לאותיות (ועכשיו, באמצעות reCAPTCHA, היא תוכל לעשות זאת באופן כמעט מושלם, כזה שאף מערכת OCR בעולם תוכל לעשות), ואז למכור את הספרים הללו בהדפסה מחודשת. מבריק…

בטווח הרחוק יותר, מדובר בהשקעה אסטרטגית מבריקה. גוגל לא רק זוכה לקבל תירגום של הספרים הסרוקים לטקסט שהמחשב יודע לזהות, היא גם מקבלת מאגר עצום וחסר תקדים של תירגום בין פיקסלים לאותיות. המידע הזה יאפשר לגוגל ליצור אלגוריתמים סטטיסטיים ל- OCR (זיהוי של אותיות מתוך פיקסלים של תמונה) ברמת דיוק שלדעתי האישית (והלא מקצועית) תהיה חסרת תחרות לכל אלגוריתם אחר שיהיה (עד אשר ימציאו בינה מלאכותית אמיתית).
ולמה להסתפק באנגלית? הרי גוגל יוכלו לקדם את הפרוייקט הזה לרשת האינטרנט בכל השפות המדוברות, ובכך ליצור אלגוריתמים סטטיסטיים לזיהוי אותיות ומילים (OCR) בכל שפה אנושית שאנשים המדברים אותה נמצאים ברשת.

החשש: מונופול

אז האם הרכישה הזו טובה לנו או לא? סביר להניח שכן. הכוח של גוגל באינטרנט יאפשר להם להפיץ עוד יותר את השימוש בר-קפצ'ה, מה שאומר שבמקום שאנשים "יבזבזו" את התשובות שלהם על קפצ'ות (מה שקורה ברוב השירותים הקיימים), הרי שיהיה גוף שיאסוף את התשובות שלהם ויעשה בהם שימוש טוב.

ההסתייגות היחידה שלי היא החשש שזה יאפשר לגוגל להיות מונופול בתחום ה- OCR. אני מקווה לראות עוד שחקנים גדולים (מישהו אמר מייקרוסופט?) עולים לבמה ומתחילים לאסוף את המידע הזה. והכי הייתי מקווה אילו איזשהו אירגון (מייקרוסופט, היש סיכוי?) שיעשה שירות מתחרה אבל שהוא יהיה בנוי כך שיפתח את המידע לציבור לחלוטין. כלומר, שכל אחד מאיתנו יוכל להוריד קובץ גדול עם תמונות של מילים, ותירגומם לטקסט שמחשב "מבין" את המשמעות שלו.

לסיום – כיצד להשתמש באנשים כדי לזהות לא רק טקסט, אלא גם תמונות (הרצאה של 50 דקות על כיצד להשתמש באנשים במקום מחשבים)

את ההרצאה הבאה ראיתי לפני יותר משנה, ומדובר באחת מההרצאות היותר מרתקות ופותחות אופקים – למי שיש את הזמן, מומלץ בחום:
להמשיך לקרוא גוגל רוצה לקרוא ספרים סרוקים – וכולנו הולכים לעזור לה (או: על הרכישה של גוגל את ר-קפצ'ה)

מה לעשות אם מאבדים ארנק במונית

בשאלה הזו נתקלתי היום כאשר קרוב משפחה יקר שלי איבד אתמול את ארנקו בנסיעת מונית. פניתי לחברים לעצה וקיבלתי מספר הצעות, לקרוב המשפחה שלי הם לא עזרו אבל אולי הם יעזרו לכם:

  1. תקפיאו תבטלו תקפיאו ל- 48 שעות כרטיסי אשראי שהיו בארנק (ואם עד אז לא תיפתר הבעיה – תבטלו).
  2. תקוו שנתקלתם באנשים טובים –  עלול לקרות שהנהג או הנוסע שיגיע אחריכם יקחו את הארנק לעצמם.
  3. אם לקחתם קבלה מנהג המונית או שהזמנתם מונית מתחנה ואתם יודעים מהי התחנה – אז עוד יש תקווה. נהגי מוניות שלוקחים מהם קבלות (או שהוזמנו במיוחד) יודעים שניתן לאתר אותם ויעיזו פחות לגנוב ארנק שנשלח אצלם. באפשרותכם לטלפן לתחנת המוניות (או למשטרה) וכך למצוא את הנהג אצלו נסעתם בשביל לקבל את ארנקכם בחזרה. יעשו שימוש במתי נסעתם ומאיפה ולאן. מוסר ההשכל מהפוסט הזה: מעכשיו תתחילו בהרגל של לקחת קבלות מנהגי מוניות ולהכניסם לכיס.
  4. אם לא לקחתם קבלה מהמונית אז רוב הסיכויים שהארנק הלך ולא ישוב (במקרה זה מהרו לבטל את כל כרטיסי האשראי). אבל למקרה שיש לכם מזל, תחייגו לכל רכזיות המוניות מהעיר שבה נסעתם (לדוגמא, עבור מוניות באיזור תל אביב תסתכלו על הרשימה כאן, תודה ליעל על הטיפ), לכל אחד מהם תסבירו את הבעיה שלכם (איבדתי אתמול ארנק במונית, איני בטוח איזו מונית, בשעה זו וזו ממקום זה לזה), תשאירו מספר טלפון בו ניתן יהיה להשיג אתכם (ואולי גם תנסו להדגיש את חשיבות הסיפור עבורכם באמצעות פרס כספי או מילה על פריט חשוב שנותר בארנק, אבל את זה לא ניסיתי).
  5. חייגו למחלקת אבידות ומציאות במשטרת ישראל (בתל אביב אמרו לי שזה במספר הזה  03-680-2135/6 ), אולי משהו יגיע אליהם…
  6. אם אתם מאמינים באל אז תתפללו. אם לא, אז אל 🙂

מקווה שלעולם לא תזדקקו לעצות האלה, אבל אם שכן – שיהיו לכם זמינים.

אם יש לכם עוד הצעות או סיפורים, אתם מוזמנים לשתף…

מסיבת הפוסט חתונה האלטרנטיבית של דבורה וטל – פרטים לחברים

חברים יקרים,

דבורה ואני מצפים לחגוג איתכם את נישואינו בבוקר של יום שישי, ה- 11 לספטמבר!
הנה מספר פרטים אודות החגיגה:

מתי:
8:30 – מארגנים את המקום. מי שרוצה לבוא לעזור – מוזמן.
9:00 – "קבלת פנים"
10:00 – טקס אלטרנטיבי קצר ולאחריו מספר הופעות של חברים (אם ברצונכם לשיר, לרקוד, לדבר או כל אחר – אתם מוזמנים!)

איפה:
פארק הירקון, ממול לרחוב הרב קוסובסקי (באיזור בבלי) – הנה לינק למפת המקום (מתוך הלינק גם תוכלו לקבל את שמות הרחובות שבאיזור ואף אפשרות לקבל הוראות הגעה מביתכם)

כיצד להגיע לשם: קווי האוטובוס של דן מגיעים לאיזור (על אף שתצטרכו ללכת מעט), חייגו ל- 03-6394444 בשביל הוראות הגעה מדוייקות.

מה להביא:
מתנות – אין צורך. כלומר, אתם תמיד יכולים ואנחנו נשמח לקבל. אבל הסיבה שיצרנו אירוע באופן כזה היא כדי שלא "לכפות" על חברינו לשלם צ'קים רק בשביל לכסות את המנה. המתנה הכי חשובה בשבילנו היא שתבואו לשמוח בשמחתנו ולהעניק לנו מאהבתכם.

אוכל – אם כבר כתבתם לנו מה תביאו אז תביאו זאת. אם אינכם בטוחים מה להביא אז תביאו אחד (או יותר) מהדברים הבאים: גבינות, ממרחים, סלטים (גם סלטים קנויים זה סבבה), משקאות קלים, חומוס, פירות.

מה עוד להביא – שמיכות לשבת עליהן (ואף כיסאות אם יש לכם), מצלמות (צלמו תמונות בבקשה בבקשה 🙂 ואם תעלו אותן לאנשהו אז תחת מילת הטג DEBANDTAL), ומומלץ גם לבוא עם כובע ומשקפי שמש.

ביום האירוע, תוכלו לחייג אל דב או אלי – אנו נשאיר את המכשירים בידי חברינו שיענו לשאלות ויעזרו ככל יכולתם:
052-7275805 (Deb)
052-7275845 (Tal

ותמונות או סרטים או מה שיהיה נעלה מאוחר יותר ב:
www.debandtal.com

באהבה,
דבורה וטל גלילי

* * *
And here is the same text in English:
להמשיך לקרוא מסיבת הפוסט חתונה האלטרנטיבית של דבורה וטל – פרטים לחברים

תגובתו של נשיא איגוד האינטרנט הישראלי (רימון לוי) לטענות שהועלו ברשת

בהמשך לדברים שהועלו ברחבי הרשת מאתמול (החל מהכתבה של רועי שלומי בווינט, וכלה בשאר ההתרחשויות בבלוגוספירה), החליטו אנשים אחרים ואני בתוכם להצטרף לאיגוד האינטרנט הישראלי.

רימון לוי, נשיא איגוד האינטרנט הישראלי, שלח כעת מכתב לנרשמים החדשים לאיגוד, מתוך רצון לתת מידע ואת דעותיו על הנאמר.
עבור האנשים שעוד לא נרשמו לאיגוד, אני מביא כאן את המכתב כלשונו (אשמח לדעות ותגובות):
להמשיך לקרוא תגובתו של נשיא איגוד האינטרנט הישראלי (רימון לוי) לטענות שהועלו ברשת

מדוע הצטרפתי היום לאיגוד האינטרנט הישראלי

הרגע הצטרפתי לאיגוד האינטרנט הישראלי (70 ש"ח לשנה).
isoc - registered

בפוסט שלפניכם אסביר מדוע עשיתי זאת (ובעצם, מדוע כדאי אולי שגם אתם תעשו זאת).

איגוד האינטרנט הישראלי (לקוח מוויקיפדיה) הוא עמותה הפועלת לקידום השימוש באינטרנט לצורכי מחקר, תקשורת ושיתוף פעולה בין גורמים שונים. למרות היותו גוף עצמאי ובלתי תלוי, נחשב האיגוד בעל השפעה רבה בתחום האינטרנט ומהווה סמכות עליונה בנושאים שונים.

החדשות הטובות: לאיגוד האינטרנט הישראלי יש לא מעט כסף וקשרים והוא בעל השפעה רבה בתחום האינטרנט בארץ. היה לי את הזכות לעבוד מול אנשים באיגוד במעורבותי באירגון וורדקמפ ישראל 2007, וגם ב- 2008. אנשים מקסימים כמו נהורא, מי-טל אייל סלע (וכנראה עוד כמה שכרגע פרח לי שמם, ואני מתנצל על כך) – שהראו רמה גבוהה מאד של מקצועיות, אדיבות ואיכפתיות בכל מגעי איתם. אך אנשים טובים אלו אינם האנשים היחידים באיגוד.
החדשות הפחות טובות:

  1. באיגוד האינטרנט הישראלי אין מספיק שקיפות ובקרה ציבורית חיצונית על ההתנהלות של האיגוד
  2. החל מעוד שבועיים – כל מי שיירשם שלא נרשם לאיגוד לפני מועד זה לא יוכל להשפיע עליו "מבפנים" במשך שנה (בניגוד למצב היום שבו מי שנרשם אוטומאטית מקבל את הזכות להצביע בתהליכים קבלת החלטות של האירגון)

בגלל שהאיגוד הוא גורם כל כך חשוב באינטרנט הישראלי, ושהחלון עבורנו (בוני האתרים ומשתמשי האינטרנט באופן כללי) להשפיע על התנהלותו עלול בקרוב להסגר. החלטתי היום להירשם לאיגוד ולהבטיח את זכותי להשפיע על איך הוא (והאינטרנט של כולנו) יראה בעתיד.

בדקות אלו אני כבר רואה בטוויטוספירה עוד ועוד טוויטים של אנשים שכותבים שהם נרשמו לאיגוד. כדי להשאר במעקב, חפשו את תגיות ההש: #ISOC

כדי להצטרף לאיגוד, כל שעליכם לעשות הוא להכנס לעמוד ההרשמה שכאן (אשר אפשר להגיע אליו דרך העמוד הזה). ההרשמה לקחה לי פחות מ- 5 דקות, ו – 50 שקל (כי אני סטודנט. זה היה עולה 70 שקל אחרת). לחברות באיגוד יש גם כמה הטבות עליהם תוכלו לקרוא כאן, אבל לא לשם כך נרשמתי – אלא בשביל האפשרות להשפיע על האירגון החשוב ביותר בארץ לעתיד האינטרנט בישראלי.

*  *  *  *  *

מה הוביל אותי לנושא הזה?

הקריאה של רועי שלומי בבלוג שלו "איגוד האינטרנט הישראלי צריך להשתנות" (שנכתב כהרחבה למאמר שהוא פירסם היום בווינט "איגוד האינטרנט הישראלי: ככה עושים כסף ברשת"). שני המאמרים הללו נותנים הצצה לעולם הפנימי שמתנהל בתוך איגוד האינטרנט הישראלי. המאמרים מציגים כמה מפעילויות האיגוד, על חלקם אני יכול להסכים ועל חלקם להתמרמר. אני ממליץ לכם להכנס למאמרים ולעקוב אחר המידע שרועי מוסר בעצמכם. אך אם לתמצת חלק מהדברים שמפורטים שם, הנה כמה דוגמאות.

להמשיך לקרוא מדוע הצטרפתי היום לאיגוד האינטרנט הישראלי