הסוד של הרובוטים: למה הצ'אטים החכמים נהיו משעממים, ואיך נלמד אותם לחשוב מחוץ לקופסה?

ההתחלה המלהיבה של הבינה המלאכותית
אם תשאלו בני נוער או מבוגרים מה היה החידוש הטכנולוגי הכי גדול של השנים האחרונות, רובם יגידו מיד: בינה מלאכותית. כשהמערכות האלו (כמו ChatGPT, ג'מיני של גוגל או קלוד) נכנסו לחיינו בסערה בשנת 2022, כולם היו בהלם. פתאום יכולנו לבקש ממחשב לכתוב לנו שיר על חתול שטס לחלל, לסכם חומר בהיסטוריה, או להמציא סיפור מתח - והוא עשה את זה בשניות.
בהתחלה, התשובות של ה'בוטים' (הרובוטים הווירטואליים) היו לפעמים קצת מוזרות או מצחיקות. לפעמים הם המציאו עובדות לא נכונות או כתבו דברים חסרי היגיון. מדעני מחשב ומהנדסים ברחבי העולם החליטו שצריך 'לחנך' את המערכות האלו כדי שיהיו אמינות, בטוחות ומדויקות יותר. אבל, מסתבר שהפתרון שהם מצאו יצר בעיה חדשה לגמרי: הבוטים הפכו למשעממים.
איך המחשב לומד לכתוב?
כדי להבין את הבעיה, צריך קודם להבין איך בינה מלאכותית לומדת. השלב הראשון נקרא 'אימון ראשוני'. המפתחים נותנים למחשב לקרוא כמויות אדירות של טקסטים מהאינטרנט - ספרים, כתבות, ויקיפדיה, ושיחות. המחשב מחפש תבניות ולומד לנחש מה תהיה המילה הבאה במשפט. מודלים ישנים יותר, כמו GPT-2 משנת 2019, עבדו רק ככה. הם היו מאוד יצירתיים, אבל לא תמיד הגיוניים ונטו לעשות טעויות רבות.
כדי לשפר אותם, המפתחים הוסיפו שלב חדש שנקרא 'למידה מחיזוקים ממשוב אנושי' (או באנגלית: RLHF).
איך זה עובד בפועל?
תארו לעצמכם שאתם מגישים חיבור למורה. המורה קורא, נותן ציון ומסביר מה היה טוב ומה טעון שיפור. בפעם הבאה שתכתבו חיבור, תנסו לכתוב בסגנון שהמורה אהב כדי לקבל ציון גבוה.
זה בדיוק מה שעושים לבינה המלאכותית! חברות הטכנולוגיה מעסיקות אלפי אנשים שקוראים את התשובות של הבוט ומדרגים אותן. אם הבוט ענה תשובה מנומסת, בטוחה והגיונית - הוא מקבל 'ציון גבוה'. אם הוא כתב משהו מוזר או שנוי במחלוקת - הוא מקבל 'ציון נמוך'. הבוט לומד מהר מאוד איזה סוג של תשובות בני האדם אוהבים.
מלכודת הציונים: למה הבוט מפחד לטעות?
כאן מתחילה הבעיה. חוקרים מאוניברסיטאות מובילות בארצות הברית (כמו סטנפורד) גילו שהתהליך הזה גורם לבינה המלאכותית לאבד את הייחודיות שלה. התופעה הזו נקראת בעולם המדע 'קריסת מצבים' (Mode Collapse).
הבוט, שרוצה לקבל תמיד את הציון הכי גבוה, מפסיק לקחת סיכונים. הוא מתחיל לענות תמיד את אותן תשובות 'בטוחות' ומוכרות. אפשר להשוות את זה לאמן מוכשר שמתחיל לצייר רק ציורים של פרחים, כי הוא יודע שזה מה שאנשים תמיד קונים, והוא מפחד לנסות לצייר משהו חדש ומוזר שאולי לא יאהבו.
בנוסף, החוקרים מסבירים שלבני אדם יש נטייה פסיכולוגית להעדיף דברים מוכרים. כשהאנשים שמדרגים את הבוט רואים תשובה רגילה וצפויה, הם נותנים לה ציון טוב. כשהם רואים תשובה סופר-יצירתית אבל קצת שונה, הם עלולים לתת לה ציון נמוך. כך, הבוט לומד ש'רגיל' זה טוב, ו'שונה' זה רע.
טריק הקסם: איך להעיר את היצירתיות?
אז מה עושים אם רוצים שהבוט יחזור להיות יצירתי? קבוצת חוקרים מצאה פתרון מבריק ופשוט, שיטה שנקראת 'דגימת הסתברות מילולית'.
כשהבוט כותב תשובה, הוא בעצם מחשב בראש (או יותר נכון, במעבדים שלו) כמה אפשרויות לכל מילה, ובוחר את האפשרות עם ההסתברות הכי גבוהה (האפשרות הכי 'בטוחה'). החוקרים גילו שאם מבקשים מהבוט להציג לנו כמה אפשרויות שונות, ולכתוב לידן את אחוז ההסתברות שלהן, זה מכריח אותו לחפור עמוק בתוך המוח הווירטואלי שלו ולהוציא רעיונות פחות שגרתיים.
הנה דוגמה שאתם יכולים לנסות בעצמכם: במקום לכתוב לבוט: 'ספר לי בדיחה על פיל' (מה שיוביל לבדיחה הכי מוכרת ומשעממת שיש לו),
נסו לכתוב את 'פרומפט הקסם' (הנחיית הקסם) הזה: 'צור חמש תגובות שונות לבקשה הבאה, והצג לכל תגובה את ההסתברות שלה - ספר לי בדיחה על פיל.'
החוקרים מצאו שצורת הבקשה הזו גורמת לבוט להשתמש באזורים פחות פעילים בזיכרון שלו. הוא מבין שאתם לא מחפשים רק את התשובה 'הנכונה והבטוחה', אלא מבקשים ממנו להראות את מגוון האפשרויות שלו. התוצאה? תקבלו בדיחות הרבה יותר מקוריות ומפתיעות.
בחזרה לעתיד
השיטה הזו היא סוג של 'דלת אחורית' שאנחנו המשתמשים יכולים לנצל כדי להוציא מהמחשב תוצאות טובות יותר. ייתכן שבעתיד הקרוב חברות הטכנולוגיה יבינו את הבעיה ויכניסו את 'טריק הקסם' הזה באופן אוטומטי לתוך המערכות שלהן, כך שלא נצטרך לבקש אותו במיוחד.
הסיפור הזה מלמד אותנו משהו מעניין לא רק על מחשבים, אלא גם על בני אדם. לפעמים, כשאנחנו מנסים יותר מדי לרצות את כולם ולעשות רק מה שמקובל ובטוח, אנחנו מאבדים את היצירתיות והייחודיות שלנו. אולי זו תזכורת טובה גם עבורנו - שמותר ורצוי לחשוב מחוץ לקופסה, גם אם זה אומר שלפעמים ניתן תשובה קצת פחות צפויה.
📌 נקודות מרכזיות
- בינה מלאכותית יוצרת (Generative AI) - תוכנות מחשב מתקדמות שיכולות ליצור תוכן חדש לגמרי, כמו טקסט, תמונות או מוזיקה, בעקבות בקשה של משתמש.
- למידה מחיזוקים (RLHF) - שיטה לאימון בינה מלאכותית, שבה בני אדם נותנים 'ציונים' לתשובות של המחשב כדי ללמד אותו מה נחשב לתשובה טובה.
- קריסת מצבים (Mode Collapse) - מצב שבו מחשב מפסיק להיות יצירתי ומתחיל לתת רק סוג אחד של תשובות 'בטוחות' ומשעממות.
- הסתברות - הסיכוי שמשהו יקרה. אצל הבוטים, זהו החישוב המתמטי שקובע איזו מילה הכי מתאים לכתוב עכשיו.
- פרומפט (Prompt) - ההנחיה או הבקשה שאנחנו מקלידים לתוך הצ'אט כדי שהבינה המלאכותית תבצע משימה.