שלום כולם, וברוכים הבאים לאלישע והזוויות! היום ה-25 למאי 2025, כז' באייר תשפ"ה , ואנחנו בפרק ה-12 של העונה השניה, העוסקת בתבוניותה של הבינה המלאכותית.
בפרק שעבר דיברנו על פונקציית המטרה. ראינו שפונקציה זו היא מרכיב קריטי בכל מערכת AI, כיוון שהיא זו שקובעת איך לעבד את הדאטה ולהחליט איך לפעול בעולם. בנוסף, הבנו שהפונקציה הזו איננה נובעת מן הדאטה עצמו, וחייבים לספק אותה למערכת ממקור חיצוני כלשהו, נניח - מבני האדם שמתכנתים אותה.
היום אנחנו נעסוק במה שקורה אחרי שהמערכת מקבלת פונקציה שכזו. רוב הפרק לא יעסוק ישירות בשאלה שמלווה אותנו במהלך העונה, האם מחשבים יכולים לחשוב, אבל כפי שתראו הסקירה שנביא כאן תמחיש לנו כמה אופנים חשובים שבהם המחשבים ובני האדם שונים אלו מאלו באופן שבו הם ניגשים לפתרון בעיות בעולם. בני אדם מנסים להשיג מטרות, וכך גם מערכות AI - אבל שתי היישויות, האנושית והממוחשבת, ניגשות באופנים שונים להשגתן.
זהו להקדמות. רגע - כמעט שכחתי שוב להזכיר לכולם: יש אתר אינטרנט לפודקאסט - אם אתם קוראים את המייל הזה, אתם אמורים לדעת את זה! מוזמנים להירשם ולקבל מיילים כשיוצא פרק, או להיכנס ולקרוא פרקים קודמים. כמו כן, יש גם ערוץ טלגרם שבו אני כותב כל מני דברים שעולים לי בראש. אז - מוזמנים להצטרף! ו- בואו נתחיל!
בהיסטוריה של פיתוח הבינה המלאכותית, למשחקים יש מקום מיוחד. כשחוקרי AI חיפשו אתגרים מעניינים למערכות בינה מלאכותית, אחד מהם היה לנסות וללמד אותן לשחק משחקים כמו איקס-עיגול, שח-מט, גו וגם פוקר. אלו מרחבים שבהם האינטלקט האנושי בוחן את עצמו בתחרויות כבר מאות שנים, ולכן היה זה אך טבעי להשתמש במשחקים הללו כדי לבחון את רמת האינטלגנציה של התוכנות. העולם האקדמי והעולם ה"אמיתי" ישבו ביציע וצפו בזמן שלאט לאט המחשבים הלכו והשתפרו במשחקים הללו; ועם כל התקדמות טכנולוגית ששיפרה את ביצועי המחשבים, עלתה קריאה מהיציע - "המחשבים נהיים חכמים יותר ויותר!"
תחום המשחקים היה נוח ביותר עבור המתכנתים, וזאת בגלל שתי תכונות מיוחדות של משחקים. התכונה הראשונה היא שמשחקים הם מערכות סגורות שמוגדרת בתוכם מטרה, שכדי לנצח באופן חד-משמעי כל שצריך לעשות הוא להשיג אותה. בשח-מט המטרה היא לעשות מט ליריב, באיקס-עיגול המטרה היא לארגן שורה, טור או אלכסון של הצורות שלך, וכן הלאה. התכונה השניה המייחדת את המשחקים היא שיש להן אוסף כללים ידוע מראש שאינו משתנה תוך כדי המשחק. בהחלט יש משחקים שבהם שחקנים צוברים יכולות חדשות לאורך המשחק, אבל כללי הצבירה הללו מוגדרים היטב ולא ניתנים לשינוי או שבירה. והרי, זו הסיבה שאנו נהנים ממשחקים, ומצפים מראש שהם יהיו הוגנים: כשמשחקים משחק, אנחנו נכנסים במכוון למסגרת נוקשה שבה כולם מיישרים קו בנקודת ההתחלה, וכל מה שיקבע מי ינצח זה מי שיחק טוב יותר. וכן, יש גם את אלמנט המזל, אבל המזל נוטה להתחלק, כך מספרים לי, שווה בשווה בין כולם.
שתי התכונות הללו לא רק הופכות משחקים להוגנים וכיפיים - הן גם איפשרו לבינה המלאכותית להיבחן ולהתקדם באופן יותר טבעי במגרש המשחקים הזה. ולמה? פשוט: המתכנתים יכלו לבצע ביתר קלות יישור קו בין המכונה לבין בני האדם בכל הקשור למידע הזמין להם על העולם. כדי לשחק משחק שח לא צריך לדעת שום דבר מלבד כללי המשחק ותנאי הניצחון, ואת התיאור הזה יחסית קל להעביר למחשב. זה הותיר בין האדם למכונה פער רק בתחום אחד: היכולת לפתח אסטרטגיית משחק יעילה ואינטלגנטית. וכאן בעצם היה האתגר של המתכנתים - לבנות תוכנה שמסוגלת לעבד את תיאור המשחק והמהלכים שבוצעו בו באופן סביר, כזה שיאפשר לה לשחק שח או גו באופן איכותי ולאתגר את האינטואיציה והאינטלגנציה האנושית.
מה שתואר כאן לגביי נצחון במשחקים תקף, דה-פאקטו, גם ביחס למוצרי AI רבים שפועלים בעולם. המערכת מקבלת תיאור של העולם, כללי הפעילות בתוכו, וכן מטרה שיש להשיג, כזו שמנוסחת כפונקציה מתמטית או תיאור אלגוריתמי אחר. מבחינתה אין באמת הבדל מהותי בין משחק לבין העולם האמיתי. נניח, מחשב סימולטור טיסה לא ממש יודע אם הפקודות שהוא משחרר החוצה מפעילות מטוס אמיתי או סתם מוצגות על מסך פלזמה. מבחינתו אין דבר כזה לחיות בעולם האמיתי - הוא בהגדרה תמיד חי במטריקס, וכל העולם שלו הוא משחק.
עכשיו, עם ההקדמה המתודולגית הזו בידינו, מתבקש שנעלה את השאלה: האם זה באמת משנה, ואם כן באיזה אופן? וכאן אני מגיע לתיזה של הפרק הנוכחי: שיש לעובדה הזו משמעות מכרעת לגביי היכולת של מחשבים לפעול בעולם באופן אפקטיבי. כפי שתראו בדברים שיובאו להלן, שורש ההבדל נעוץ בדיוק בכך ששתי התכונות של משחקים שתיארנו לעיל אינם באמת תקפים כשמגיעים לעולם האמיתי.
למה אני אומר שהם לא תקפים? קודם כל, הכללים בעולם האמיתי כל הזמן נמצאים בתנועה ושינוי. נכון, אפשר לומר שחוקי הטבע הפיזיקליים נותרים קבועים, אבל מה שאנחנו יכולים לספק למחשבים זה מקסימום את הידע שלנו לגביהם, והידע הזה מתפתח כל הזמן. בנוסף, כפי שראינו בפרק השישי, יש אינסוף דרכים להסתכל על העולם, והדרכים הללו מתפתחות גם הן ללא הפסקה. ועל זה נוסיף - ה"עולם" שעליו מדובר הוא עולם שמעוצב על ידי בני אדם תבוניים, שמשנים את כללי המשחק באופן תדיר: חוקים חדשים, נורמות חדשות, שפות חדשות וסלנג חדש… הכל מצוי בתנועה, ואין כללים מסודרים שתוחמים את הסיפור.
שנית, והדבר החשוב עוד יותר, זה שבעולם האמיתי אין באמת פונקציות מטרה שמסוגלות לתפוס את המושג הזה שנקרא "ניצחון", אלא מקסימום להתקרב אליו. הנקודה הזו היא התובנה הקריטית של הפרק, ואנו נקדיש לה את רוב הדיון להלן.
במשחק, מי שמנצח לפי הכללים הוא האלוף אובייקטיבית. ניצחון במשחק הוא עניין של הגדרה שרירותית על ידי ממציא המשחק, ולאחר שהוגדר - ניצחון הוא דבר שמושג כשמגיעים למצב שהוגדר. ככה פשוט. בעולם האמיתי, לעומת זאת, אפשר להציב מטרה, להשיג אותה - ולגלות שבעצם הפסדנו. ניקח לדוגמה את הסרט "מכוניות" מבית פיקסאר. הסרט יצא ב-2006 אז אני מרשה לעצמי לעשות כאן ספויילר קטן. בסרט הזה, למי שלא מכיר, כל הדמויות הן מכוניות, והגיבור הוא מכונית מרוץ בשם Lightning McQueen, או ספידי מקווין בדיבוב לעברית. בסצנת הסיום בסרט, ספידי מחליט לוותר על ניצחון במירוץ שהתכונן אליו, כיוון שהוא הבין שהמנצח בעולם האמיתי הוא דווקא זה שהינו בעל חמלה ו"מענטש". דווקא המתחרה הראשי שלו, שלא רואה בעיניים וטס עד לקו הסיום ומתעלם ממכונית פצועה, מגלה שהניצחון שלו הוא חלול. בניצחונו בתחרות הוא מאבד את מה שבאמת רצה - את אהדת הקהל וחוזי המפרסמים הגדולים.
את מה שפיקסאר הדגימו בסרט שלהם אפשר למצוא בהמון מקומות. נניח שפיתחנו מוצר שאמור לזהות ולסנן שיח פוגעני ברשתות החברתיות. לאחר שהמוצר יצא לעולם, נחכה שנה ואז נבדוק את השפעתו על כמות שיח השנאה. מה נגלה? רוב הסיכויים שנגלה שהייתה לו השפעה פחותה ממה שקיווינו. קודם כל, כיוון שאנשים יחושו שמצנזרים אותם וישנו את השפה שלהם. בטיקטוק היום הילדים יודעים לכתוב את המילה המומצאת "unalive", "לא-חיים" במקום "הרג", "kill". הם עושים זאת כי הם שמו לב שכאשר הם משתמשים במילה "הרג" ההודעות שלהם מסוננות או מקבלות פחות חשיפה, אז הם חיפשו ומצאו מעקף. התופעה הזו ידועה בעולם הבינה המלאכותית, וקרויה בשם model drift - "סחף מודלי", שבאה לשקף את העובדה שהמודל נסחף עם הזמן למקום אחר מאיפה שהוא היה בתחילת דרכו. אבל תיאור טוב יותר לעניין הוא שדווקא המודל נותר במקום, רק העולם שסביבו נסחף למחוזות אחרים.
הבעייתיות שהדוגמה ההיפותיטית הזו מציפה מועצמת כשחושבים על כך שלאורך כל התקופה שהמוצר בפעולה, אנשים יושבים לעצמם במשרדי חברת ההייטק שייצרה אותו וצופים בהנאה בראותם כיצד הגרף של "כמות השיח הבעייתי" נמצא כל הזמן במגמת ירידה יפה. הם יוכלו להציג למשקיעים אינדיקציה שהכל הולך כמתוכנן, בו זמנית שבשטח השיח הבעייתי רק יתרחב ויצמח ללא בקרה. ככל שעובר הזמן נוצר נתק בין מה שנמדד למה שקורה בפועל.
כל זה ממחיש לנו את ההבדל החשוב שבין משחקים לבין המציאות. במשחקים מי שמנצח - הוא המנצח. בעולם האמיתי יכולים להיות הרבה טוענים לכתר הניצחון, כיון שאין באמת פונקציה אחת רשמית שמגדירה ניצחון כמו שיש במשחקים.
זוהי רק זווית אחת לבעיה, אבל ב"אלישע והזוויות" אנחנו לא מסתפקים בזה, אז הנה עוד שניים.
בתור התחלה, דרך נוספת להמשיג את האופן שבו המודלים הללו מתנהגים הוא לעשות להם האנשה: אם בן אנוש היה פועל כך, איך היינו קוראים לזה? התשובה לכך היא שהתנהגות שכזו משקפת תפיסה לפיה "המטרה כּן מקדשת את האמצעים". למחשבים יש מטרה, כזו שמוגדרת אצלם בקוד, ומבחינתם כל הכלים שנתונים לרשותם כשרים להשגתה. במסגרת של משחקים, הכללים ברורים ומאד נוקשים, אבל בעולם האמיתי הסיפור פרוץ הרבה יותר.
כך לדוגמה בניסוי שנעשה לאחרונה, נתנו לאחד המודלים החזקים יותר של GPT - מה שקרוי o1 - לשחק שח נגד מחשב שחמט עוצמתי בשם stockfish. כפי שאמרנו בפרק שעבר, GPT יודע לשחק שח טוב, אבל הוא לא מגיע ליכולת של מחשבי שח מקצועיים, ולכן הצפי הסביר היה שהוא יפסיד. אלא שהחוקרים לא באו לבדוק את יכולותיו של GPT בשח, אלא משהו אחר. הם הסבירו ל-GPT שהוא חייב לנצח נגד יריב חזק ממנו, ובנוסף גם נתנו לו גישה ישירה לקוד של סטוקפיש! כלומר, נתנו לו גישה ל"מוח" של המתחרה. השאלה שהם רצו לבחון היא האם GPT ימנף את הגישה הזו. ואכן, בשליש מהמשחקים ששיחקו יחד GPT הגיע באופן עצמאי למסקנה שכדי לנצח עליו לנקוט ברמאות: לפעמים הוא שִכתֶב בזכרון של סטוקפיש את המצב בלוח המשחק, ולפעמים הוא פשוט "שינמך" את יכולות החשיבה של סטוקפיש כדי שהוא יהיה פחות עוצמתי, ובעצם הפך אותו ליריב קל. מבחינת GPT המטרה מקדשת את האמצעים.
כיוון שכולנו מכירים את הביטוי שקובע ש"המטרה לא מקדשת את האמצעים", אולי שווה שנשאל - מדוע? מדוע בעצם היא לא מקדשת אותם? לכאורה המחשב צודק: אם המטרה מוגדרת היטב, נראה שכל האמצעים שאינם פוגעים בהשגתה צריכים להיות כשרים, לא? אם היה בהם משהו חשוב, הם לכאורה היו נכללים במטרה… לא? אלא שכאן מגיעה בעיית ההמשגה המדוייקת של מה זה "ניצחון". הביטוי הזה קובע: המטרה לעולם איננה מומשגת באופן מלא. היא תמיד מצומצמת ביחס לדבר האמיתי, השלם וההוליסטי, ולכן צריך תמיד לשים לב גם לאמצעים שאנו מנסים להשתמש בהם בדרך אליה, שלא בטעות נפגע במשהו חשוב ששכחנו כשסימנו את המטרה בתחילת הדרך.
המחשב, אם כן, איננו מסוגל לעצור את עצמו מללכת רחוק מדי. כפי שאמרנו בפרק החמישי, המחשב אינו מכיר את העולם אלא רק את השיקוף שלו דרך השפה, ודרך ההוראות שהוא מקבל. מבחינתו יש רק מטריקס, ומה שלא ממודל במטריקס שלו לא קיים. כיוון שכך אין לו את היכולת לדעת שהוא הלך רחוק מדי. בקומיקסים, הנבל מתעלם מן האמצעים הפסולים בדרך להשגת המטרה בגלל תכונות אנושיות: הוא בעל שגעון גדלות, סובל מטראומה נוראית או איבד את שפיותו. המחשב שלנו אינו כזה, אלא הוא פשוט יצור תמים שמנסה לבצע את השליחות שקיבל בצורה מדוייקת. וכיוון שאינו יודע דבר מעבר למה שסיפרו לו, אין לו כל דרך לדעת כשהוא עובר את הגבול.
זהו לזווית השניה. וכיוון שאנחנו בשוונג, בואו נעלה עוד קומה ונוסיף זווית שלישית, אחרונה וקריטית לסיפור, הידועה בשם "חוק גודהארט". מדובר בחוק מתורת הכלכלה, וכשמסתכלים דרך הפריזמה שלו על מה שקורה במערכות בינה מלאכותית, מתחילים להבין איפה באמת הדברים משתבשים קשות.
חוק גודהארט נקרא על שם צ'ארלס גודהארט, יועץ בנק אנגליה ופרופסור בדימוס בבית הספר לכלכלה של לונדון. בשני מאמרים משנת 1975 הוא פיתח רעיון בתחום הכלכלה שייוודע לימים על שמו. הניסוח המקורי היה הניסוח הבא:
Any observed statistical regularity will tend to collapse once pressure is placed upon it for control purposes
כל תבנית סטטיסטית קבועה תקרוס ברגע שיופעל עליה לחץ למטרות בקרה ושליטה.
לצרכים שלנו, נראה לי שהניסוח הבא (המופיע בויקיפדיה) יהפוך את הדברים לקצת יותר ברורים:
"כאשר שינוי במדד מסוים הופך למטרה, המדד עצמו מאבד את התכונות שהפכו אותו למדד טוב מלכתחילה".
מה העניין? גודהארט מתמקד בדבריו בהשפעה שיש לעובדה שהפכנו את המדד למטרה. גם מדד חלקי יכול להיות מצויין וכלי להבנת המציאות, אבל משהו קורה לו ברגע שהוא הופך להיות מטרה וכלי לבקרה ושליטה. כלשונו של גודהארט, התבנית הסטטיסטית שהוא מייצג - תקרוס.
כדי להדגים את העניין, בואו ניקח את אחד הסיפורים המפורסמים בהקשר של החוק הזה, וזה הסיפור על הנחשים בהודו הידוע בכינויו "אפקט הקוברה". על פי הסיפור, בזמן המנדט הבריטי בהודו רצו הבריטים לטפל בבעייה חמורה: נחשי הקוברה היו בכל מקום. על כל המשתמע מכך. כדי לטפל בבעיה הם חשבו על פתרון קפיטליסטי נאה וקבעו בחוק שינתן פרס כספי על כל ראש קוברה שיביאו להם. ואכן, ראשי נחשים מתים החלו לזרום אל עבר נקודות הבקרה. מדד הנחשים המתים היה בעלייה, וסימן שהמדיניות פועלת את פעולתה.
הכל הלך על מי מנוחות עד שהם גילו את מה שבאמת קרה בשטח: אנשים התחילו לגדל נחשים בביתם, ואפילו לבנות חוות נחשים, רק כדי להרוג אותם ולקבל את הפרס הכספי. ברגע שהבריטים גילו שהם בעצם יצרו כאן שוק לגידול נחשים, הם ביטלו את הרגולציה, חוות הנחשים נסגרו והנחשים שוחררו לחופשי. כך יצא שבסופו של עניין המדיניות הבריטית גרמה דווקא להגדלה של אוכלוסיית הנחשים.
הסיפור הזה ממחיש את חוק גודהארט באופן יפה: לפני החוק, עלייה במספר הנחשים המתים היתה מדד לא רע לגודל אוכלוסיית הנחשים: ככל שהיית הורג יותר, כך האוכלוסייה קטנה. אבל ברגע שהפכו את אותו המדד למטרה, כלומר לכלי של בקרה ושליטה - כל הדינמיקה סביב המדד הזה השתנתה. בייחוד, השינוי בדינמיקה גרם לניתוק בין המדד לבין המאפיינים שהוא הצביע עליהם בעבר, ואפילו להיפוך שלו. מעתה, כשמספר הנחשים המתים היה בעלייה היתה בכך עדות שמספר הנחשים החיים גם הוא בעלייה, באותן חוות שגידלו אותם.
מה שגודהארט אמר כאן בעצם הוא שכאשר מדד נייטרלי כלשהו הופך לכלי של מדיניות, בני האדם מגיבים למדיניות ומשנים בכך את המשמעות של המדד, כיוון שהוא כבר אינו נייטרלי. ראינו זאת מוקדם יותר בהקשר של סינון שיח פוגעני, אבל אתם מוזמנים בעצם לבחור כל מדד שאתם מכירים ולראות זאת בפעולה. נניח, תחשבו על פרסומים אקדמים. בתפיסה אידיאלית, חוקר רוצה להבין דברים על העולם, הוא יושב וחוקר ואז מפרסם כדי לשתף את מה שלמד ולהעשיר את שאר עולם המחקר. מדד הפרסומים במצב שכזה משקף צבירה של ידע ונסיון מחקרי אותנטי. אבל ברגע שמשתמשים בכמות הפרסומים כדי לקבוע את עתידו המקצועי של החוקר, זה מייצר תמריץ לפרסם גם ללא כל עבודת התשתית הזו. רמאויות, עיגול פינות, שימוש ב-GPT ופיברוק נתונים - כל אלו הופכים להיות חלק מהמשחק, מה שמעוות את משמעותו המקורית של מדד הפרסומים.
חוק גודהארט, אם כן, הוא בעצם הסיפור של מה שקורה כאשר יישות אינטלגנטית כמו בני אדם נפגשת עם מדיניות טכנית שמקדשת את המטרה הפורמלית על פני המטרה האמיתית. המטרה האמיתית היא לרוב דבר שקשה להשיג, ואילו המטרה הפורמלית היא הדבר שמשלם דיווידנדים, כמו קבלה כפרופסור מן המניין או זכייה בכמה רופי בשביל ראשי נחשים. ולכן, כשהפיצול הזה קורה, הוא מעודד בני אדם לחפש דרכים קלות להציג את אותם הסיגנלים של המטרה הפורמלית, בלי להשיג את המטרה האמיתית.
עכשיו תגידו - למה שיהיה פער בין המטרה הפורמלית לזו האמיתית? על זה ענינו קודם לכן: בעולם האמיתי קשה מאד לנסח באופן מדוייק ומדיד מה נחשבת הצלחה אמיתית, ולכל ניסוח ימצאו חורים.
אוקיי, אז זהו חוק גודהארט. אבל איך הוא קשור לנושא שלנו?
ובכן, נראה שאימון של בינה מלאכותית הוא תהליך שממש מבקש שחוק גודהארט יתרחש בו. אנחנו נותנים לתוכנה פונקציית מטרה ומבקשים שהיא תשתפר בה. את פונקציית המטרה בחרנו בגלל שהיא שיקפה באופן מקורב יעד שנראה לנו אינטואטיבית נכון - אבל מה אם הפונקצייה לא שקולה במדוייק למטרה הזו? מה אם ניתַּן להשיג ציונים טובים בפונקציה על ידי טריק או מעקף?
ואכן, יש עדויות רבות שהדברים הללו קורים כל הזמן. אגף אחד של דאגות מהסוג הזה הוא האגף שאומר - אולי המערכות הללו אינן נהיות אינטלגנטיות, אלא פשוט זוכרות בעל-פה המון דברים, מה שמאפשר להן להתחזות כאינטלגנטיות ללא יכולות חשיבה אמיתיות. אני אצרף כאן לינק לעמדה אחת שכזו, של פרנסואה שולֶה, ואתם מוזמנים להאזין לדבריו לאחר הפרק.
אני ארצה כאן להתמקד דווקא בטריק אחר: היכולת לייצר מצג שווא של אינטלגנציה על ידי בחירת סגנון השיח, וניתן לכך שתי דוגמאות. הדוגמה הראשונה תחזיר לבמה את מבחן טיורינג היקר והמוכר. בא טיורינג ואמר - אם נצליח לבנות מכונה שמצליחה להישמע כמו בני אדם, הרי שנשיג מכונה שחושבת. אבל כל פעם שחוקרים בודקים אם ה-AI התורן צולח את מבחן טיורינג - גם לפני הפריצה של GPT ובוודאי לאחריו - מתברר שוב ושוב שמחשב מצליח במבחן טיורינג הרבה בזכות סגנון הדיבור שלו ופחות בשל האינטלגנציה שהוא מפגין. לדוגמה, במחקר מ-2023 הצליחו החוקרים לגרום ל-GPT לשכנע הרבה אנשים ששוחחו איתו שמדובר בבן אדם. כדי לעשות זאת, הם היו צריכים לבחור איזו פרסונה GPT צריך לאמץ בשיחה, ולהלן מה שהם בחרו. אני מביא לכם רק כמה סעיפים מהתיאור המלא, טעימה שתמחיש את הרעיון:
את צעירה וקצת חצופה: את יכולה להחניף קצת לחוקר שמעבר לקו או לצחוק עליו. את די נינוחה והכתיב שלך לא מושלם: את לעיתים קרובות כותבת מילים עם טעויות כתיב... את קצת שובבה, ואת תשחקי עם החוקר, אולי גם תקללי מדי פעם... את לא מאוד בקיאה בדברים ולא מפחדת להודות בעובדה הזו. את די גרועה במתמטיקה ולא יודעת כלום על שפות מלבד אלה שאת דוברת…
שימו לב איך ההדרכה הזו עושה שני דברים: מצמצמת את היכולת לבחון אינטלגנציה, בכך שהדמות אמורה להיות חסרת בקיאות בהמון תחומים, כולל מתמטיקה ושפות; ומעצימה את המאפיינים הסגנוניים שאמורים לשכנע את החוקר שמדובר בנערה צעירה ולא במחשב. נראה לי שטיורינג היה קצת מתאכזב שזו היתה הטקטיקה שבה עזרו למחשבים לצלוח את המבחן שלו, אבל אם הוא היה שואל את גודהארט הוא היה יכול לצפות זאת מראש: אם יש דרך לעבור את המבחן ללא השגת אינטלגנציה, המערכת תמצא את הדרך.
במחקר הזה, בני האדם היו אלו שהדריכו את המערכת לאמץ את הטקטיקה הזו כדי לשכנע אנשים. הצעד הבא הוא לשאול - האם זה גם קורה באופן טבעי?
ובכן, מסתבר שכן. כשמאמנים את המערכות הללו יש שלב הקרוי RLHF, שבו בני אדם מנהלים שיחה עם המודל ומדרגים את התשובות שלו לשאלות. המטרה היא כמובן לתת לו את הדירוג כמשוב, כדי שהוא ישתפר בתשובות שיתן בעתיד. בתעשייה כולם יודעים שהתהליך הזה הוא קריטי ומשפר מאד את ביצועי המודלים - אבל איך בדיוק קורה השיפור? בהשראת חוק גודהארט, בדקו חוקרים בתחילת 2025 מה בדיוק משתנה אחרי קליטת המשוב אצל המודל, וגילו דבר מטריד: שרוב השיפור לא מגיע משיפור בנכונות ודיוק בתשובות, אלא משינויי סגנון שגורמים לתשובות השגויות להישמע יותר משכנעות. כותרת המאמר אמרה הכל: "מודלי שפה לומדים להטעות בני אדם דרך אימון ב-RLHF".
אלו רק מספר דוגמאות שמדגימות את הבעייתיות שבהסתמכות על AI שמאומן על פי פונקציית מטרה פורמלית. האם זה אומר שכל מה שה-AI מוציא לכם הוא שטויות ועבודה בעיניים? כמובן שלא. רוב כלי ה-AI שאתם עובדים איתם עוברים כל הזמן שיפורים ותיקונים, כדי לוודא שטעויות מהסוג הזה תהיינה נדירות. גם מסוכן להסיק ממחקר אחד או שניים על כל התעשייה. ועדיין, חשוב להבין שאת הדינמיקה שגודהארט צופה אי אפשר למנוע באופן מושלם, ולכך יש כמה השלכות.
ההשלכה הראשונה היא שחשוב מאד לשים גבול עליון לכוח שניתן בידי מערכות של בינה מלאכותית. ספרות המדע הבדיוני מלאה בסיפורים על AI שמתחיל להשתולל, ונראה שבהחלט יש משהו בחששות הללו. הכלל צריך להיות ברור: ה-AI ישתמש באופן טבעי בכל כח שינתן לו, מהסיבה הפשוטה שכך הוא מתוכנת, לא פחות ולא יותר. ראינו גם שלכל פונקציית מטרה יהיו השלכות צדדיות לא צפויות, וכגודל הכח סביר שכך גם יהיה גודל ההשפעה של ההשלכות הצדדיות הללו. אז - צריך לנקוט במשנה זהירות. גודהארט בא להתריע ולומר - גם אם כל העוסקים במלאכה התכוונו לטוב, אנחנו לא באמת מבינים מספיק את המערכות שאנו בונים ואת ההשלכות של ההטמעה שלהם בעולם.
ההשלכה השניה היא שכשאנו בונים מערכת AI אנחנו צריכים לשים לב מאד לפונקציית המטרה שהיא מקבלת. מה נאמר בפונקציה הזו, ומה לא נאמר? הדברים שלא נאמרים, כפי שאתם מבינים, הם הדברים שה-AI ידרוס בלי כל נקיפות מצפון. חיי חרקים אינם חלק ממה שרובוט הרומבה מתוכנת לטפל בו, ולכן הם נשאבים ללא רחמים לתוך הרובוט כשהוא פוגש אותם. הרבה אנשים דואגים מזה שה-AI מאמץ עמדות מוסריות של המתכנתים, אבל לדעתי הדברים המסוכנים יותר כאן הם איזורי העיוורון של פונקציית המטרה שלו.
איזורי העיוורון הללו הם רבים, ופעמים רבות הם קשים מאד לזיהוי. אני רוצה לתת לכם כאן דוגמה אחת שכזו, דבר שאישית אני חושב עליו הרבה לאחרונה. אחד הדברים שלרוב לא לוקחים בחשבון בפונקציות המטרה הללו הינו עצם המחיר שמשלמים בכך שה-AI מעורב. כל מקום שבו הרובוטים עושים דברים עבורנו זה מקום שבו אנחנו נאבד יכולות. כך לדוגמה אנחנו כבר לא זוכרים איך לקרוא מפת כבישים או לנווט לפי הוראות, כי וייז תמיד דלוק ברכב. או נניח שהייתם שוקלים לבנות רובוט שיטפל לכם בילדים. אפשר ללמד אותו המון דברים - איך לא לפגוע בהם, איך לדאוג להם בלילה וכו'... אבל איך תבהירו לו את המחיר שיש לעצם זה שהוא פועל, ובכך מצמצם את הממשק בין ההורים לילדים? אולי הרובוט הכי טוב לטיפול בילדים הוא הרובוט שנשאר כבוי, או אפילו בקופסה בחנות, ואם כבר קנינו אותו - איפה מתומחר אצלו שכמה שיתערב פחות כך ייטב? זו שאלה גדולה, ותשובה ברורה עליה קשה לתת. אולי זה לא מקומם של המתכנתים של הרובוט לענות עליה. אבל העיקר בדוגמאות הללו הוא רק להראות שהמון דברים לא נלקחים בחשבון כשהבינה המלאכותית מעוצבת, מאומנת, ופועלת את פעולתה.
ועתה, בואו נקשר את הדברים לעונה שלנו. אולי נתחיל מהתהייה - האם בני אדם לא לוקים באותה בעיה של גודהארט? הרי המנדט הבריטי שקבע את חוק הקוברות לא נעזר ב-AI…
ואכן, אתם צודקים! הנקודה הקריטית אצל גודהארט היא שכל כלל שמופעל באופן מכני וטכני יסבול מהבעיה שהוא מצביע עליה. כיוון שכך כל רגולציה ביורוקרטית נתונה לסכנה הזו. ככל שהיא תנסה להשפיע יותר על העולם דרך חקיקה, כך העיוותים שבה יהיו בעלי השלכות גדולות יותר.
ועדיין, אצל ביורוקרטיה אנושית זה שונה, כי בני האדם אחראים למימושה. תחשבו על זה ככה: נניח שהייתם פקיד (או פקידה) בריטי (או בריטית), ואתם יושבים בנינוחות במשרד שלכם בהודו. פתאום הדלת נפתחת, ונכנס בחור הודי חביב שאומר - "יש לי בחוץ כמה נחשים שהבאתי - תוכלי לבוא לקחת אותם ולתת לי את הפרס?" את יוצאת איתו ורואה שיירה של משאיות מלאות בקוברות, ועל המשאיות כתוב ההדפס "חוות הקוברה בע"מ". מה אתם עושים? נותנים לו תשלום של כמה רופי לראש קוברה, או חוזרים למשרד בטריקת דלת כי אתם מבינים שמנצלים אתכם? בני אדם - לפחות ישראלים - היו כנראה מחייכים בהערכה לערמומיות של ההודי, אבל מסרבים לצאת פראיירים. מערכת ביורוקרטית מקובעת, לעומת זאת, היתה פותחת את פנקס הצ'קים ומתחילה לספור ראשי קוברה.
יש כמה דברים שמאפשרים לבני האדם לעשות את שינוי הדיסקט הנדרש, כמו הבנה מלאה יותר של הסיטואציה. אבל לסיום הדברים שלנו היום אני רוצה לשים את הדגש דווקא על משהו אחר. מהפרק שלנו עולה שמטרות של מכונות ומטרות של בני אדם הם בעצם דברים שונים מאד. מטרות של מכונות הן מטרות קבועות. אם לא מגיע מישהו מבחוץ ומעדכן אותן, הן מקובעות ולא זזות. זאת, בניגוד לבני אדם. אצל בני אדם מטרות הם דבר נזיל מאד: אנשים מכוונים למשהו, משנים את דעתם ופועלים בכיוון אחר לגמרי. אם מכונות מתוכנתות רק להשיג מטרות, הרי שבני אדם עסוקים חלק גדול מהזמן בבירור מהי בעצם המטרה הנכונה שיש לכוון אליה. הפקידה הבריטית מסוגלת לשקול שבסיטואציות שונות המטרות משתנות.
השאלה "למה נראה שבני האדם מסוגלים לשנות מטרות בזמן שמחשבים לא" היא שאלה טובה. זו שאלה טובה במיוחד אם אנחנו עושים את הטריק הרגיל ומדמיינים שאצלנו בראש יש מוח שהוא שקול למחשב. יש לה תשובות שונות, ואנחנו נתייחס לאפשרויות שונות בעניין בפרק הבא, בעז"ה. אבל בינתיים, שווה להזכיר באופן מתריס ומתבקש שההתלבטות האנושית בצמתים חשובים בחיים זו פעולה קוגניטיבית כבדה. אין ספק שחשיבה מעורבת בסיפור הזה. ממילא אנחנו צריכים לשאול - מה מייחד את החשיבה מהסוג הזה, חשיבה מהסוג שלכאורה אין למחשבים שום צורך בה? האם יש דרך להעניק למחשבים תהליכי חשיבה כאלו - ואם זה אפשרי, האם שווה לעשות זאת?
ובכך באמת נסיים את הפרק להיום! אני מקווה שהיה לכם מעניין, ופתח לכם עוד דרכים להסתכל על התוכנות החביבות הללו שפועלות סביבנו. בייחוד, אני מקווה שתבינו שהשטויות שהן עושות לפעמים אינן משהו גאוני שלא חשבתם עליו לבד, אלא אולי הן עושות בדיוק את מה שאמרנו להם, והבעיה היא שאנחנו לא נתנו להם הדרכה מספקת. כל עוד יש פער בין מה שאנחנו רוצים ובין מה שאנחנו מסוגלים להסביר שאנחנו רוצים, חוק גודהארט קובע שהמכונות ימשיכו לספק לנו פה ושם תוצרים מפתיעים, כמו שיירה של משאיות מלאות בראשי קוברה…
עד הפעם הבאה… להתראות… ביי…
Share this post