גוגל רוצה לקרוא ספרים סרוקים – וכולנו הולכים לעזור לה (או: על הרכישה של גוגל את ר-קפצ'ה)

הקדמה – מה זה קפצ'ה ור-קפצ'ה

קפצ'ה היא מבחן המאפשר להבחין בין מחשב למכונה (סוג של מבחן טיורינג לעניים). כשמדברים על קפצ'ה באינטרנט, לרוב מדברים על האותיות המחורבשות שרואים כשצריך להכנס לאיזשהו אתר. אתרי אינטרנט משתמשים בתמונות הללו כיוון שבני אדם יכולים (לרוב) לקרוא אותם, בעוד שמחשבים לא. דוגמא לשימוש נפוץ הוא בהרשמה לחשבון אימייל חדש – החברה שמספקת את השירות דורשת מאיתנו הגולשים למלא ק'פצה (לפתור את הכתוב בתמונה), כדי לזהות שמי שמבקש את חשבון האימייל הוא אדם אמיתי, ולא תוכנת מחשב שמנסה לפתוח מאות אלפי חשבונות אי-מייל במכה אחת (ואז להשתמש בהם בשביל לשלוח דואר ספאם).

דוגמא נוספת לחשיבות הקפצ'ה תוכלו לקבל מקומיקס ה- XKCD המשובח הבא (לחצו על התמונה להגדלה וקריאה):

suspicion

בחור מבריק אחד ששמו הוא לואיס וון האן, הקים בזמנו חברה בשם re-Captcha. הרעיון המבריק מאחורי המייזם שלו הוא לחבר בין שני צרכים משלימים:

  • אתרי אינטרנט צריכים מבחני קפצ'ה בשביל לזהות שגולש מסויים הוא אדם אמיתי ולא רובוט, ובמקביל –
  • מי שברשותו ספרים סרוקים היה רוצה שאנשים יקלידו לו אותם לתוך המחשב (כלומר – שאנשים יזהו מילים מקושקשת מתוך הספר הסרוק – היות ומחשבים לא יכולים לעשות זאת)

הפתרון: re-Captcha. מדובר בטכנולוגיה המאפשרת להשתיל באתר (המרשה לה), מערכת שנותנת לגולש מסויים מבחן לזיהוי מילה סרוקה. בעל האתר מקבל לגלות האם הגולש הוא אדם אמיתי או לא, והמערכת מקבלת לדעת על אותה המילה מהי הפרשנות שלה.

להל"ן סרטון של 12 דקות שמסביר את כל אשר כתבתי:

החדשות – גוגל רכשו את ר-קפצ'ה

היום גוגל פירסמו בבלוג שלהם הודעה על רכישת החברה ר-קפצ'ה (reCAPTCHA). טק-קרנצ' כתבו שגוגל עשו נסיונות בלפתח את הטכנולוגיה בעצמם, אך כנראה שגוגל הגיע למסקנה שיותר הגיוני לרכוש את החברה מאשר להמציא את הגלגל מחדש.

המשמעות המיידית וההשלכות לעתיד

השירות ר-קפצ'ה כבר משמש כ- 100,000 אתרי אינטרנט. ועכשיו לאחר שגוגל רכשו אותם, אפשר לצפות לעוד אינספור אתרים שיתחיל להשתמש בשירות. המשמעות המיידית של זה תהיה שגוגל מקבלת מאות אלפי גולשים שיעזרו לה (בחינם) להקליד את הספרים שהיא סרקה לתוך השירות שלה גוגל-ספרים. המשמעות של זה תהיה שבעתיד הנראה לעין, עוד ועוד ספרים יהיו זמינים לחיפוש דרך השירות של גוגל-ספרים. בעתיד הבינוני אפשר אף לצפות שגוגל יוציאו שירות עבור כבדי-ראיה שבו גוגל תקריא להם ספרים (אני ממתין לשיתוף הפעולה הזה שיהיה בין גוגל לאמאזון).
עידכון: ווינט מספרים על כך שגוגל עומדת לאפשר לאנשים להדפיס ולקנות ספרים ישנים מהמאגר שלה (בהנחה שכמה סוגייות משפטיות יפתרו). או במילים אחרות: גוגל לוקחת ספרים שלא קיימים בפורמט דיגטלי, סורקת אותם, מתרגמת את התמונות הסרוקות לאותיות (ועכשיו, באמצעות reCAPTCHA, היא תוכל לעשות זאת באופן כמעט מושלם, כזה שאף מערכת OCR בעולם תוכל לעשות), ואז למכור את הספרים הללו בהדפסה מחודשת. מבריק…

בטווח הרחוק יותר, מדובר בהשקעה אסטרטגית מבריקה. גוגל לא רק זוכה לקבל תירגום של הספרים הסרוקים לטקסט שהמחשב יודע לזהות, היא גם מקבלת מאגר עצום וחסר תקדים של תירגום בין פיקסלים לאותיות. המידע הזה יאפשר לגוגל ליצור אלגוריתמים סטטיסטיים ל- OCR (זיהוי של אותיות מתוך פיקסלים של תמונה) ברמת דיוק שלדעתי האישית (והלא מקצועית) תהיה חסרת תחרות לכל אלגוריתם אחר שיהיה (עד אשר ימציאו בינה מלאכותית אמיתית).
ולמה להסתפק באנגלית? הרי גוגל יוכלו לקדם את הפרוייקט הזה לרשת האינטרנט בכל השפות המדוברות, ובכך ליצור אלגוריתמים סטטיסטיים לזיהוי אותיות ומילים (OCR) בכל שפה אנושית שאנשים המדברים אותה נמצאים ברשת.

החשש: מונופול

אז האם הרכישה הזו טובה לנו או לא? סביר להניח שכן. הכוח של גוגל באינטרנט יאפשר להם להפיץ עוד יותר את השימוש בר-קפצ'ה, מה שאומר שבמקום שאנשים "יבזבזו" את התשובות שלהם על קפצ'ות (מה שקורה ברוב השירותים הקיימים), הרי שיהיה גוף שיאסוף את התשובות שלהם ויעשה בהם שימוש טוב.

ההסתייגות היחידה שלי היא החשש שזה יאפשר לגוגל להיות מונופול בתחום ה- OCR. אני מקווה לראות עוד שחקנים גדולים (מישהו אמר מייקרוסופט?) עולים לבמה ומתחילים לאסוף את המידע הזה. והכי הייתי מקווה אילו איזשהו אירגון (מייקרוסופט, היש סיכוי?) שיעשה שירות מתחרה אבל שהוא יהיה בנוי כך שיפתח את המידע לציבור לחלוטין. כלומר, שכל אחד מאיתנו יוכל להוריד קובץ גדול עם תמונות של מילים, ותירגומם לטקסט שמחשב "מבין" את המשמעות שלו.

לסיום – כיצד להשתמש באנשים כדי לזהות לא רק טקסט, אלא גם תמונות (הרצאה של 50 דקות על כיצד להשתמש באנשים במקום מחשבים)

את ההרצאה הבאה ראיתי לפני יותר משנה, ומדובר באחת מההרצאות היותר מרתקות ופותחות אופקים – למי שיש את הזמן, מומלץ בחום:
להמשיך לקרוא גוגל רוצה לקרוא ספרים סרוקים – וכולנו הולכים לעזור לה (או: על הרכישה של גוגל את ר-קפצ'ה)

החזון הטכנולוגי של ברק אובאמה לארה"ב

לפני שבוע הצגתי כיצד אובאמה גייס הון בתרומות, על ידי שרתם את תקשורת האינטרנט והגיע לאינספור תורמים קטנים (דוגמא מרשימה כיצד גישה ל-"זנב הארוך" של התומכים – מוביל לשינוי דרמטי בכוח פוליטי).
והיום טקקרנצ' הפנו אותנו לנאום של אובאמה על רעיונות בתחום ההיי-טק שהוא ירצה ליישם בארה"ב במהלך כהונתו. מעורר השראה:

כך תקבלו עידכון על תגובות חדשות לפוסט שמעניין אתכם

החידה: השארתם תגובה בפוסט ( = מאמר בתוך בלוג) – עכשיו אתם רוצים לקבל עידכון כשעוד מישהו הגיב באותו הפוסט. איך עושים את זה ?

ישנן כמה דרכים לעקוב אחר תגובות חדשות בבלוגים. ברצוני לחלוק אתכם את אלו שאני מכיר (בעיקר בעבור השיטה האחרונה אותה גיליתי ממש לאחרונה)

שיטה 1 – הרשמה לפיד התגובות של הבלוג

בהרבה בלוגים בימינו תוכלו להירשם לרסס של תגובות. כל בלוג וורדפרס מציע את האפשרות הזו. בבלוג שלי יהיה עליכם לעקוב אחר הקישור: https://www.talgalili.com/?feed=comments-rss2

החיסרון בשיטה הזו הוא שמקבלים כך עידכון על כל תגובה שפורסמה בבלוג, לכל הפוסטים, ולא רק לפוסט שמעניין אותכם.

שיטה 2 – פלאגין "מנוי לתגובות"

אם הבלוג שבו הגבתם בנוי על וורדפרס עצמאי, ובעל הבלוג התקין את הפלאגין subscribe to comments , אז תוכלו לסמן תיבה קטנה – ולקבל עידכון לאימייל כל פעם שמשתחררת תגובה חדשה.

החיסרון: לא כל בעל בלוג מאפשר את זה. (או כי הוא לא פועל על וורדפרס עצמאי, או כי הוא לא מכיר את האפשרות, או כי שירות האיכסון שלו לא מסתדר טוב עם משלוח אימיילים)

שיטה 3 – יצירת רסס לעדכונים בעמוד (תמיד יעבוד 🙂 )

אני מציג בפניכם את page2RSS – שירות המאפשר ליצור פיד רסס מכל (טוב נו, כמעט) כל עמוד. וכך לקבל עידכונים כאשר עמוד הפוסט משתנה (ולרוב הוא ישתנה בגלל שאנשים הוסיפו לו תגובה). לנוחות השימוש באפשרותכם לגרור את הקישור הבא: :Add to Page2RSS

לשורת קיצורי הדרך שלכם, וכאשר תלחצו עליו בפוסט האהוב עליכם – ישר תקבלו את קישור הרסס הנחשק.

ואם אתם לא יודעים איך להשתמש ברסס באפשרותכם לקבל את הרסס אליכם לאימייל (על ידי שימוש בשירות כמו: http://www.rssfwd.com/ )

או פשוט ללמוד מה זה רסס.

והנה, בטיפ אחד קטן, הפכנו את הרשת למקום נגיש יותר לכולנו 🙂 (הפיצו לחבריכם הבלוגרים)

עיתון-מיידי: שמירה קלה של רשימת "צריך לקרוא"

שמירה קלה של "דפים שצריך לקרוא"

במה מדובר: היום נתקלתי בכתבה על אתר חדש המאפשר לשמור מועדפים: www.instapaper.com. מטרתו היא לשמור דפים שאנחנו רוצים "לקרוא אחר כך". TechCrunch כתבו עליו (כאן) עם ביקורות מאד חמות על כך שהממשק מאד (מאד) קל לשימוש, זריז להרשמה וכו' וכו'. כפי שמישהו כתב: מדובר בדלישס רק בלי תגיות ובלי קהילה.

"אני צריך את זה ?": התשובה האינסטנקטיבית שלי הייתה שלא. הרי איזה ייתרון זה כבר יתן לי על פני דלישס (בשילוב עם תגית toread) או סטמבל-אפון? או קורא הרסס שלי (שם אני משאיר מאמרים שצריך לקרוא כ"לא נקראו")? אך לאחר מחשבה נוספת – נרשמתי.

למה נרשמתי:

  1. כי באמת מאד קל להרשם למערכת (מייל, סיסמא – זהו).
  2. כי להכניס מועדף לדלישס לוקח יותר מידי זמן (בגלל הטעינה, והצורך לתייג).
  3. כי בקורא הרסס שלי אני אין כבר הולך לאיבוד בין מאמרים שאני רוצה לקרוא (על ידי שתייגתי אותם כ"לא נקראו"), לבין מאמרים שבאמת לא נקראו. (ואני יודע שאני יכול להשתמש בסימון כוכב של המועדף, אבל את זה אני שומר למאמרים שאני אמור לעשות בהם שימוש מיוחד בעתיד).
  4. כי יש אתרים שאני לא אכניס לעולם לרסס או לדלישס שלי לפני שאני אקרא אותם (לדוגמא, מאמרים ב- YNET).
  5. כי עד כה, הפתרון הכי טוב שלי למאמר שאני צריך לקרוא – היה להשאיר אותו פתוח בדפדפן. והתוצאה של זה הייתה שהמחשב פועל לאט יותר (במקרה של מאמרים YNET, הם דורשים ריענון של העמוד כל כמה זמן – פויי! בפיירפוקס הצלחתי לעבור את השימוש בזכרון מעבר ל- 500 MB, בגלל עודף חלונות פתוחים על רקע "אני צריך לקרוא").

אז איך משתמשים:

תכנסו ותנסו, זה (מאד) קל לשימוש. אני אעדכן פירוט שימוש אילו יעלה הצורך…

עידכון: הנה עוד כלי שנותן אפשרות דומה (לשמירה של מועדפים בעלי עניין "קל": http://listmixer.com. החיסרון שלו הוא שבניגוד לאינסטפיפר (instapaper), הרי שליסטמיקסר (listmixer) פותח את חלון השמירה בחלון שבו אנו גולשים, מה שמוביל להאטה בקצב הגלישה (אותה בעיה של דלישס). על כן אינסטפיפר עדיין נשאר המוביל בתחרות. אבל ליסטמיקסר מקבל נקודות על זה שהוא אפילו לא דורש רישום בשביל שימוש (מאד אלגנטי).