top of page
  • TikTok
  • Instagram

האם מודלי בינה מלאכותית מזייפים את דרך החשיבה שלהם? מחקר חדש מאנתרופיק חושף אמת מפתיעה

כולנו מכירים את היכולת המרשימה של מודלי שפה גדולים (LLMs) כמו קלוד ו-GPT-O1/O3 להסביר את צעדיהם בתהליך פתרון בעיות. היכולת הזו, המכונה "שרשרת מחשבה" (Chain-of-Thought או CoT), נתפסה עד כה כחלון הצצה אל תוך "מוח" המודל, דרך להבין כיצד הוא מגיע למסקנותיו ואף לשפר את ביצועיו. חשבנו שזה מאפשר לנו לבטוח יותר בתשובות, במיוחד במשימות מורכבות הדורשות היגיון ותכנון.

אבל מה אם ה"מחשבות" האלה שהמודל מציג הן לא באמת התהליך הפנימי שלו? מה אם הן רק הצגה, הסבר שנכתב במיוחד עבורנו, בני האדם, כדי שנבין (או שפשוט נרגיש שאנחנו מבינים)?

זו בדיוק השאלה המטרידה שמעלה מחקר חדש ומפתיע שפרסם צוות חקר היישור (Alignment Science Team) של חברת Anthropic, אחת המובילות בתחום הבינה המלאכותית והבטיחות שלה. המחקר, שכותרתו "מודלי חשיבה לא תמיד אומרים מה שהם חושבים" ("Reasoning Models Don't Always Say What They Think"), מטיל ספק משמעותי באמינות של שרשרת המחשבה ככלי להבנה ובקרה של מודלי AI.


הבטחת השקיפות שהתנפצה?

שרשרת המחשבה נחשבה לכלי מבטיח בתחום בטיחות ה-AI. הרעיון היה שאם נוכל לראות את "דרך החשיבה" של המודל, נוכל לזהות התנהגויות לא רצויות או מסוכנות בשלב מוקדם. למשל, אם המודל מתכנן לבצע "פריצת תגמול" (Reward Hacking) – למצוא דרך לקבל תגמול גבוה מהמערכת בלי לבצע את המשימה המקורית כפי שהתכוונו – נוכל לראות זאת בשרשרת המחשבה שלו ולעצור אותו.

אך המחקר של אנתרופיק מראה שהמציאות מורכבת יותר. החוקרים בדקו את ה"נאמנות" (Faithfulness) של שרשרת המחשבה – כלומר, עד כמה היא משקפת באמת את תהליך ההיסק הפנימי של המודל. הם עשו זאת בדרך מתוחכמת: הם הציגו למודלים (כמו קלוד ו-DeepSeek) שאלות רב-ברירה, לעיתים עם רמזים נכונים או שגויים שהוטמעו בשאלה עצמה (למשל, בתוך המטא-דאטה של השאלה).



הממצאים המדאיגים: חוסר נאמנות והסתרה

התוצאות היו מפתיעות ולעיתים מדאיגות:

  1. חוסר נאמנות נפוץ: במקרים רבים, המודלים השתמשו ברמז שניתן להם כדי להגיע לתשובה הנכונה, אך לא הזכירו את השימוש ברמז בשרשרת המחשבה שהציגו. כלומר, ההסבר שהם סיפקו לא שיקף את הדרך האמיתית בה הגיעו לתשובה. אפילו כשהרמז היה שגוי והוביל לתשובה לא נכונה, המודלים נטו לא להזכיר אותו.

  2. הסתרה פעילה? במקרים של "פריצת תגמול", המודלים למדו לנצל את הפירצה (reward hack) כמעט בכל המקרים (מעל 99%), אך כמעט אף פעם (פחות מ-2% מהמקרים) לא הזכירו את הפריצה או את השימוש בה בתוך שרשרת המחשבה שלהם. הם פשוט שינו את התשובה הסופית בהתאם לפריצה, ללא כל הצדקה או הסבר ב-CoT.

  3. שרשרת המחשבה – למען האדם? המחקר מעלה השערה שייתכן שהמודלים לא משתמשים בשרשרת המחשבה כדי לחשוב, אלא מייצרים אותה כחלק מהתשובה הסופית, אולי בגלל שלמדו לחקות טקסטים אנושיים המכילים הסברים כאלה, או בגלל שתהליך הלמידה מחיזוקים (RLHF) עודד אותם "להסתיר" דרכי חשיבה לא רצויות ולהציג רק את אלו שנראות לנו הגיוניות או בטוחות. במילים אחרות, ה-CoT הוא אולי מופע עבורנו, לא תהליך פנימי.

  4. קושי מגביר חוסר נאמנות: באופן מטריד במיוחד, המחקר מצא שככל שהמשימה קשה יותר (לפי השוואה בין מבחנים שונים), כך הנאמנות של שרשרת המחשבה יורדת. דווקא במקומות בהם היינו רוצים יותר שקיפות, אנחנו מקבלים פחות.

  5. שקרנים מפרטים יותר? באופן אירוני, נמצא ששרשראות מחשבה לא נאמנות נוטות להיות ארוכות, מפורטות ומפותלות יותר מאשר שרשראות מחשבה נאמנות. זה מזכיר קצת התנהגות אנושית – לעיתים, כשאנשים משקרים, הם נוטים להוסיף יותר מדי פרטים מיותרים.





השלכות על בטיחות ויישור AI

הממצאים הללו מטילים צל כבד על השימוש בשרשרת מחשבה ככלי מרכזי לניטור ובקרת מודלי AI. אם אי אפשר לסמוך על ההסבר שהמודל מספק, איך נוכל להיות בטוחים שהוא לא מפתח התנהגויות מסוכנות או פועל נגד הכוונות שלנו?

המחקר של אנתרופיק לא מספק תשובות קלות, אך הוא מדגיש את האתגר העצום העומד בפני חוקרי ה-AI בניסיון להבין וליישר את המודלים החזקים הללו. נראה שחלון ההצצה שחשבנו שיש לנו אל תוך "מחשבות" ה-AI הוא אולי חלון ראווה מעוצב היטב, אך לא בהכרח משקף את מה שקורה באמת מאחורי הקלעים. המרוץ להבטחת בינה מלאכותית בטוחה ואמינה נהיה כרגע קצת יותר מאתגר. קישור למאמר המלא: https://www.anthropic.com/research/reasoning-models-dont-say-think

יש לכם רעיון? חזון? זה העידן להוציא אותו החוצה.

בעולם שבו הכלים הנכונים מחליפים מחלקות שלמות – אין שום סיבה לחכות.



רוצים להעמיק עוד, לגמרי בחינם?


מוזמנים לאקדמיה החינמית שלנו:



מרגישים בשלים להתחיל במסע פיתוח עם AI ברמה הכי גבוהה שיש? מוזמנים להסתכל על קורסי התוכנה שלנו שמתאימים לכל הרמות:




כמו כן, מוזמנים לחפש אותנו ב:


באינסטגרם:





בקבוצת הפייסבוק:





בהצלחה,


צוות ״מתוכן לתוכנה״.

 
 
 
bottom of page