מחקר מ-Wharton: משתמשי ChatGPT ו-AI מאמצים תשובות שגויות ומוותרים על שיקול דעת

מחקר חדש מ-Wharton מזהיר מפני "כניעה קוגניטיבית": הנטייה של משתמשי ChatGPT ו-AI לקבל תשובות שוטפות ובטוחות גם כשהן שגויות על חשבון בדיקה, ספקנות ושיקול דעת עצמאי.

נתנאל יוסף|4 באפריל 2026 | 20:53

תגיות

בינה מלאכותיתWhartonChatGPTLLMאמון ב-AIחינוךרגולציה

מניות רלוונטיות:⚠️ ניתוח AI - אינו ייעוץ פיננסי

MSFTMicrosoft Corporation

הכתבה מציגה סיכון מהותי בשימוש ב-ChatGPT ובמודלי שפה, כולל אימוץ תשובות שגויות ללא בקרה. מאחר שמיקרוסופט מזוהה מאוד עם הטמעת AI ועם OpenAI במוצריה, פרסום כזה עלול להגביר חששות רגולטוריים ותפעוליים סביב אימוץ הכלים שלה.

GOOGLAlphabet Inc.

המחקר מחזק את הנרטיב שלפיו משתמשים נוטים לסמוך יותר מדי על תשובות AI שגויות. זה עלול להשפיע לרעה על תפיסת האמינות של מוצרי AI של גוגל וליצור לחץ על החברה להוסיף מנגנוני בקרה, מה שעשוי להעיב על הסנטימנט.

AMZNAmazon.com, Inc.

אמזון משקיעה ומטמיעה יכולות Generative AI בפלטפורמות הענן והשירותים שלה. חדשות שמדגישות טעויות ואמון-יתר ב-AI עלולות להאט אימוץ ארגוני או להעלות דרישות לפיקוח ואימות, ולכן ההשפעה האפשרית שלילית.

מחקר חדש של חוקרים מ-Wharton באוניברסיטת פנסילבניה מציב שם חד ומטריד לתופעה שהולכת ומתרחבת עם חדירתם של מודלי שפה לחיי היומיום: "cognitive surrender" כניעה קוגניטיבית. לפי תיאור המחקר, כאשר משתמשים מקבלים תשובה מ-AI שנשמעת בטוחה, שוטפת וסמכותית, רבים מהם אינם מסתפקים בהיעזרות בכלי אלא מאמצים את הפלט שלו כמעט כפי שהוא, גם כשהוא שגוי. לפי הסיקור שפורסם ב-Ars Technica ולפי דיווחים נוספים על טיוטת המחקר, הניסויים הראו דפוס עקבי: כאשר המודל סיפק תשובה נכונה, הביצועים של המשתתפים השתפרו; אך כאשר הוזנו להם תשובות פגומות, חלק גדול מהם קיבל אותן ללא בדיקה מספקת. במילים אחרות, היתרון של AI מתהפך במהירות לחיסרון כאשר האמון גובר על הבקרה.

במרכז העבודה ניצבת הרחבה לרעיון המוכר של דניאל כהנמן על "System 1" ו-"System 2" חשיבה מהירה, אינטואיטיבית, מול חשיבה איטית, שקולה ואנליטית. החוקרים מ-Wharton מציעים להוסיף שכבה שלישית: "System 3", כלומר קוגניציה חיצונית-מלאכותית. הרעיון אינו ש-AI "חושב" כמו אדם, אלא שבפועל הוא הופך לחלק מתהליך החשיבה של המשתמש. ברגע הזה, כך לטענתם, נוצר סיכון: האדם חדל לבנות בעצמו את קו ההיגיון, ובמקום זאת מאמץ מסקנה שנוצרה מחוץ לו. לפי הסיקור ב-Forbes ולפי הפניות למחקר ברשת האקדמית, זהו ההבדל הקריטי בין "העברת עומס" לגיטימית שימוש בכלי לחיסכון בזמן לבין ויתור על שיפוט עצמאי. הבעיה, אם כן, אינה עצם השימוש ב-AI אלא הרגע שבו השימוש מחליף בדיקה, ספקנות והכרעה.

מה בדיוק נמצא בניסויים

לפי הפרטים שעלו מהסיקור ב-Ars Technica וממקורות נוספים שדנו בטיוטת העבודה, המחקר התבסס על סדרת ניסויים שבהם המשתתפים התבקשו לפתור שאלות היגיון וחשיבה, בין היתר בסגנון Cognitive Reflection Test. בחלק מן התנאים ניתנה להם גישה ל-ChatGPT או לתשובות שיוחסו ל-AI, ובחלק אחר לא. החוקרים בדקו מה קורה כאשר ה-AI מדייק ומה קורה כאשר הוא מטעה. התוצאה הייתה חדה: עם תשובות נכונות, ההיעזרות ב-AI שיפרה ביצועים; עם תשובות שגויות, המשתתפים נטו ללכת אחריהן באופן שגרר אותם מתחת לרמת הביצוע של קבוצת הביקורת. לפי דיווחים על המחקר, בניסוי אחד נרשמה עלייה של כ-25 נקודות אחוז כאשר ה-AI צדק, אך ירידה של כ-15 נקודות אחוז כאשר הוא טעה. כלומר, אותם מנגנוני אמון שמייצרים יעילות במצב אחד, מייצרים פגיעות במצב אחר.

כאשר ה-AI סיפק תשובה נכונה, המשתתפים שיפרו את שיעור ההצלחה שלהם.
כאשר ה-AI סיפק תשובה שגויה, רבים אימצו אותה במקום לאתגר אותה.
הפגיעה לא נבעה רק מחוסר ידע, אלא גם מהנטייה להעניק משקל יתר לניסוח בטוח וזורם.
אמון גבוה ב-AI, צורך נמוך יותר במאמץ קוגניטיבי ויכולת חשיבה נוזלית נמוכה יותר נקשרו לפגיעות גבוהה יותר.

אחת הנקודות החשובות במחקר היא שהחוקרים אינם טוענים שכל שימוש ב-AI הוא שלילי. להפך: הם מראים מדוע ארגונים ואנשים פרטיים מאמצים את הכלים הללו במהירות כה רבה. הבעיה מתחילה כאשר המשתמש מפסיק להבחין בין עזר חיצוני לבין תחליף להכרעה. בסיקורים על המחקר הוזכר כי חלק מהמשתתפים השתמשו ב-AI בערך במחצית מהמשימות, אך כאשר ניתן להם פלט שגוי, שיעור גבוה במיוחד קיבל אותו. דיווחים ב-Forbes ועל בסיס דיונים שהפנו לעבודה ב-SSRN תיארו שיעורי קבלה גבוהים מאוד של תשובות שגויות, לעיתים סביב 70% ואף יותר, תלוי בתנאי הניסוי. גם אם המספר המדויק עשוי להשתנות בנוסחי עבודה שונים, הכיוון ברור: בעידן של ממשקים שיחתיים חלקים, המשתמש הממוצע אינו תמיד בודק את היסודות שעליהם נשענת התשובה.

למה זה קורה: שטף, ביטחון ונוחות

המחקר החדש אינו עומד לבדו. הוא משתלב בגל רחב יותר של מחקרים שמנסים להבין כיצד בני אדם מעריכים אמינות של מערכות שפה. מחקר של UC Irvine, שפורסם בתחילת 2025, הראה כי משתמשים נוטים להעריך ביתר את דיוק התשובות של מודלי שפה. החוקרים שם דיברו על "פער כיול" בין מה שהמודל יודע בפועל לבין מה שבני אדם חושבים שהוא יודע. עוד נמצא כי גם אורך ההסבר משפיע: תשובות ארוכות יותר מגבירות את ביטחון המשתמשים, גם כאשר התוספת המילולית אינה משפרת את הדיוק. זהו ממצא חשוב במיוחד לעידן שבו מודלים מייצרים טקסטים רהוטים ומפורטים מאוד. במקביל, מאמר תיאורטי שפורסם ב-arXiv בתחילת 2026 תיאר את מודלי השפה כמעין "סוס טרויאני קוגניטיבי": הם מציגים שטף, אדיבות ונכונות לסייע תכונות שבאינטראקציה אנושית נתפסות כסימני אמינות אף שבמערכת חישובית עלות הייצור שלהן כמעט אפסית.

במילים פשוטות, מודלי שפה אינם משכנעים רק מפני שהם חכמים, אלא מפני שהם נראים משכנעים. הם עונים מיד, אינם מהססים, מנסחים משפטים תקינים, משלבים מונחים מקצועיים ולעיתים גם מציגים שרשרת נימוקים שנשמעת עקבית. מבחינת המשתמש, כל אלה עלולים להיתפס כעדות לאיכות. אלא שלפי מחקרים עדכניים, זאת בדיוק נקודת הכשל: רהיטות לשונית אינה ערובה לאמת, וביטחון סגנוני אינו עדות לבדיקה עובדתית. כאשר הממשק השיחתי גם מפחית את החיכוך אין צורך לפתוח כמה מקורות, להשוות, לנתח או לקרוא מסמך מלא גדל הפיתוי "לסגור עניין" עם התשובה הראשונה. במובן הזה, הכניעה הקוגניטיבית אינה עצלות גרידא; היא תוצאה כמעט טבעית של ממשק שנבנה כדי להיות מהיר, נעים וחסר מאמץ.

ההשלכות על חינוך, עבודה ותחומים רגישים

המשמעות המעשית של הממצאים גדולה בהרבה מהוויכוח התיאורטי על "System 3". בעולם החינוך, למשל, השאלה כבר אינה רק האם סטודנטים משתמשים ב-ChatGPT כדי לנסח תשובה, אלא האם הם מפסיקים להתעכב על השאלה עצמה. אם תהליך החשיבה מתקצר לטובת קבלת פלט מיידי, הסטודנט עלול להחמיץ את שלב הבדיקה, ההצלבה וההפרכה כלומר את החלק שבו נבנית הבנה. בעולם העבודה התופעה דומה: עובדים נדרשים כיום לסכם מסמכים, להציע המלצות, לבנות מצגות ולנסח דוא"ל בקצב גבוה יותר, ו-AI אכן מאפשר זאת. אלא שכאשר ארגון מודד מהירות בלבד, בלי לייצר שלבי אימות, הוא עלול לעודד בפועל אימוץ לא ביקורתי של פלטים. כאן טמונה הסכנה למקצועות כמו משפטים, פיננסים, בריאות, תקשורת, אבטחת מידע ופיתוח תוכנה תחומים שבהם תשובה סבירה למראה עלולה להיות שגויה בצורה יקרה.

בחינוך: שחיקה של מיומנויות ניתוח, אימות והסקה עצמאית.
בארגונים: עלייה בפרודוקטיביות לצד סיכון להחדרת טעויות לתהליכי קבלת החלטות.
במקצועות עתירי אחריות: הסתמכות יתר על פלטים שנשמעים מקצועיים אך אינם עומדים בבקרה.
בציבור הרחב: קושי גובר להבחין בין תשובה טובה לשונית לבין תשובה נכונה עובדתית.

הסיכון אף גדל כאשר מחברים את התמונה הזאת לממצאים אחרים מהחודשים האחרונים. מחקר של MIT, שדווח בפברואר 2026, מצא כי צ'אטבוטים מובילים סיפקו לעיתים תשובות פחות מדויקות ופחות אמינות למשתמשים פגיעים יותר למשל דוברי אנגלית שאינה שפת אמם או בעלי השכלה פורמלית נמוכה יותר. אם משלבים זאת עם הנטייה האנושית לקבל תשובות שוטפות בביטחון גבוה, מקבלים בעיה כפולה: גם איכות הפלט אינה אחידה בין קבוצות משתמשים, וגם היכולת לזהות שגיאות אינה תמיד מספקת. זו כבר אינה רק שאלת UX או פרודוקטיביות, אלא סוגיה של הוגנות, נגישות ואחריות. מי שהכי זקוק לעזרה עלול להיות גם מי שהכי יתקשה לזהות מתי המערכת מטעה אותו.

הזווית הישראלית: אימוץ מהיר, צורך דחוף בבקרה

מנקודת מבט ישראלית, המחקר הזה רלוונטי במיוחד. ישראל היא שוק שמאמץ טכנולוגיות מהר, הן בחברות הייטק והן במגזר הציבורי, במערכת החינוך, בשיווק, בשירות לקוחות, בתקשורת ובמקצועות חופשיים. במציאות של מחסור בזמן, עומס משימות ותרבות של ביצוע מהיר, קל מאוד להפוך את AI מעוזר שימושי למקור סמכות בפועל. זה נכון במיוחד בסביבות עבודה דו-לשוניות או רב-לשוניות, שבהן משתמשים רבים שואלים באנגלית אך פועלים בהקשר מקומי בעברית. כאשר המודל מייצר תשובה כללית, אמריקאית באופייה או לא מעודכנת רגולטורית, והמשתמש אינו בודק אותה מול מקורות ישראליים, הטעות יכולה לגלוש למסמכי מדיניות, לייעוץ פנימי, להצעות מחיר, לתכנים שיווקיים ואפילו לדיווח עיתונאי. בעברית, האתגר גדול עוד יותר משום שהיקף התוכן, הכללים והמקורות קטן יותר יחסית לשוק האנגלי.

מכאן נגזרת גם המשמעות למעסיקים ולמערכות חינוך בישראל. לא די לקבוע "מותר להשתמש ב-AI" או "אסור להשתמש ב-AI". השאלה הנכונה היא באילו שלבים בתהליך מותר להסתמך על המערכת, ובאילו שלבים חובה לעצור, לבדוק ולהצליב. ארגונים שיטמיעו AI בלי פרוטוקול בדיקה עלולים לגלות שהפרודוקטיביות עלתה, אבל איכות השיפוט ירדה. מנגד, ארגונים שיבנו תהליכי עבודה חכמים למשל דרישה למקור שני, אימות נתונים מספריים, סימון אזורי אי-ודאות ובדיקת מומחה אנושי בנקודות קריטיות יוכלו ליהנות מהיתרונות בלי להרחיב את הסיכון. עבור מערכת החינוך הישראלית, זה אומר שהאתגר כבר אינו מניעת "העתקה", אלא בניית מיומנות של קריאה ביקורתית מול פלט מכונה.

להגדיר מתי AI הוא כלי עזר ומתי הוא רק טיוטה ראשונית.
לחייב אימות של נתונים, ציטוטים, חוקים, תקנים ונהלים ממקור עצמאי.
לעודד עובדים וסטודנטים להסביר כיצד בדקו את תשובת ה-AI ולא רק מה הייתה התשובה.
לעצב ממשקים שמדגישים אי-ודאות ולא רק ביטחון סגנוני.
להתאים מדיניות לשפה המקומית ולהקשר הישראלי, ולא להסתמך על ברירות מחדל גלובליות.

בסופו של דבר, המחקר מ-Wharton חשוב לא מפני שגילה ש-AI עלול לטעות את זה כבר ידענו אלא מפני שהוא מחדד עד כמה מהר בני אדם מוכנים למסור למערכת גם את פעולת השיפוט עצמה. זו הבחנה מהותית: הבעיה אינה רק hallucination של המודל, אלא הנטייה האנושית להשלים איתה. אם המונח "כניעה קוגניטיבית" יתפוס, סביר שהוא יהפוך לחלק מהשיח הניהולי, החינוכי והרגולטורי סביב Generative AI. מבחינת השוק, המסר ברור: המרוץ כעת אינו רק לבנות מודלים חכמים יותר, אלא גם מנגנוני שימוש שמקטינים אמון עיוור ומחזקים אחריות אנושית. במילים אחרות, השאלה הגדולה של עידן ה-AI כבר אינה רק מה המכונה יכולה לחשוב, אלא מה יישאר לאדם לבדוק בעצמו.