מחקר חדש של Google Research מציב סימן שאלה על אחת מאבני היסוד של תעשיית ה-AI: המדדים שבעזרתם מודדים מודלים, מדרגים אותם ומכריזים מי מוביל. לפי הפרסום של חוקרי Google מסוף מרץ 2026, רבות מהשוואות הביצועים המקובלות נשענות על הנחה בעייתית במיוחד שיש לכל שאלה או דוגמה תשובה אנושית אחת, יציבה וברורה. בפועל, בתחומים סובייקטיביים כמו רעילות, פוגענות, בטיחות, העדפות שיח או פרשנות לתוכן, בני אדם עצמם חלוקים לא פעם בדעתם. כאשר מערכי הערכה מצמצמים את ריבוי הדעות הזה ל"תווית זהב" אחת, הם לא רק מאבדים מידע; הם עלולים גם ליצור תמונה מטעה של יכולות המודל, ולפגוע ביכולת לשחזר תוצאות בין צוותים, ארגונים ומחקרים.
מה בעצם Google בדקה
לפי Google Research, הבעיה אינה רק גודל תקציב האנוטציה אלא האופן שבו מחלקים אותו. החוקרים בחנו את מה שהם מכנים הטרייד־אוף בין N ל-K: מספר הפריטים שמעריכים לעומת מספר המדרגים האנושיים לכל פריט. במקום לשאול רק אם צריך יותר דאטה, הם שאלו שאלה מדויקת יותר: האם עדיף למדוד הרבה דוגמאות עם מעט מדרגים, או פחות דוגמאות עם יותר מדרגים לכל דוגמה. לצורך הבדיקה הם בנו סימולטור על בסיס מערכי נתונים אמיתיים, ובהם משימות סובייקטיביות כמו זיהוי רעילות, בטיחות שיח, פוגענות חוצת תרבויות ותוכן הקשור לתעסוקה. בחלק מהמאגרים מדובר באלפי פריטים ובעשרות עד אלפי מדרגים, כך שניתן לראות לא רק את "תוצאת הרוב", אלא גם את מבנה אי־ההסכמה עצמו.
- המחקר מתמקד במהימנות ובשחזוריות של מדדי AI במשימות סובייקטיביות.
- החוקרים משווים בין רוחב המדגם לבין עומק השיפוט האנושי לכל פריט.
- הם משתמשים במאגרים קיימים מתחומי רעילות, בטיחות, פוגענות והקשרי תעסוקה.
- המסקנה המרכזית: לא די בתקציב גדול; צריך גם לחלק אותו נכון.
הממצא הבולט ביותר הוא שהסטנדרט המקובל בתעשייה שלושה עד חמישה מדרגים לכל דוגמה, ולעיתים אפילו מדרג יחיד לרוב אינו מספיק. לפי Google, תצורה כזאת אינה נותנת לא עומק אמיתי של שיפוט אנושי ולא תמונה רחבה מספיק של הווריאציה בין בני אדם. במקרים רבים, כדי להגיע להערכה שניתנת לשחזור ושבאמת מייצגת ניואנסים אנושיים, נדרשים יותר מעשרה מדרגים לכל דוגמה. במילים אחרות, כאשר מודל מקבל ציון גבוה על בנצ'מרק מסוים, ייתכן שההפרש בינו לבין מתחרה אינו משקף יתרון מהותי, אלא פשוט רגישות לדרך שבה נאספו השיפוטים האנושיים. זו טענה חשובה במיוחד בעידן שבו חברות מציגות שברי נקודות כאילו מדובר בהכרעה מדעית.
למה אי־הסכמה אנושית היא לא רעש סטטיסטי
החשיבות של המחקר אינה טכנית בלבד. בשנים האחרונות מתרחבת בספרות המקצועית הטענה שאי־הסכמה בין אנוטטורים אינה בהכרח טעות או רעש שיש למחוק, אלא לעיתים אות אמיתי על מורכבות המשימה. עבודות קודמות, בהן מחקרים על העדפות אנוטטורים ועל ייצוג עמדות מגוונות בנושאים שנויים במחלוקת, הראו שמודלים ושיטות הערכה רבות עדיין מניחות שיש "אמת אחת" גם כשבפועל קיימים פערי פרשנות לגיטימיים. זה בולט במיוחד בתחומים כמו moderation, בטיחות תוכן, שיח פוליטי, סיווג פוגענות ויישומי שירות לקוחות. מה שנחשב לתגובה חריפה, בלתי הולמת או מסוכנת עבור קבוצה אחת, עשוי להיתפס אחרת אצל קבוצה אחרת בגלל הקשר תרבותי, ניסיון חיים, גיל, שפה או רגישות נורמטיבית.
זו גם הסיבה שהמחקר של Google מתחבר לגל רחב יותר של ביקורת על עולם הבנצ'מרקים. בחודשים האחרונים התפרסמו מאמרים וניתוחים שטענו כי חלק גדול ממדדי ה-LLM סובל מהגדרות עמומות, דגימה חלקית, היעדר בדיקות זיהום דאטה, שימוש לא עקבי בסטטיסטיקה, ולעיתים גם פער בין מה שהמדד מתיימר למדוד לבין מה שהוא מודד בפועל. כשמוסיפים לכך את העובדה שהשיפוט האנושי עצמו אינו חד־ערכי, מתבהרת בעיה עמוקה יותר: הטבלאות שמשוות בין מודלים נראות מדויקות מאוד, אך לעיתים היסוד שעליו הן בנויות פחות יציב מכפי שנדמה. במובן הזה, Google לא רק מבקרת פרט מתודולוגי; היא תוקפת חולשה מערכתית בתרבות המדידה של תחום ה-AI.
המשמעות המעשית: לא רק כמה כסף מוציאים, אלא איך
אחת התרומות המעשיות ביותר של העבודה היא ההבחנה בין תקציב אנוטציה גדול לבין תקציב אנוטציה מנוהל היטב. בתעשייה נהוג לעיתים להניח שאם הוקדשו משאבים משמעותיים לאיסוף ציונים אנושיים, התוצאה בהכרח אמינה. אבל לפי Google, אותה כמות משאבים יכולה להוביל לתוצאות שונות מאוד, תלוי אם בחרו להרחיב את מספר הדוגמאות או להעמיק את מספר המדרגים לכל דוגמה. במצבים מסוימים, ובעיקר כשמדובר במשימות סובייקטיביות או בקטגוריות לא מאוזנות, תוספת של מדרגים לכל פריט עשויה לשפר את המהימנות יותר מאשר הוספת עוד אלפי דוגמאות עם תווית רדודה. זהו מסר חשוב למעבדות מחקר, לסטארטאפים שבונים evaluation pipelines, ולחברות שמצהירות על שיפור מהותי על בסיס פערים קטנים במדד.
- במשימות סובייקטיביות, עוד מדרגים לכל פריט עשויים להיות שווים יותר מעוד פריטים עם שיפוט רדוד.
- יש צורך להציג טווחי אי־ודאות ורווחי סמך, לא רק ציון כותרת אחד.
- השוואות בין מודלים צריכות להתחשב במבנה אי־ההסכמה האנושית, לא רק בתוצאת רוב.
- תקני הערכה עתידיים צפויים לדרוש שקיפות גדולה יותר על שיטת האנוטציה.
מכאן נובעת גם השלכה רחבה יותר על מוצרים מסחריים. אם benchmark מסוים קובע מי "טוב יותר" בזיהוי תוכן מסוכן, בהעדפות אנושיות או בהיענות בטוחה, ייתכן שהמוצר שייבחר לפרודקשן ייהנה מיתרון שנובע ממדידה חלקית ולא מיכולת טובה יותר בעולם האמיתי. עבור גופים פיננסיים, מערכות HR, מוקדי שירות, חברות סייבר ופלטפורמות תוכן זה אינו ויכוח אקדמי. אלה החלטות שמשפיעות על חסימת תוכן, תעדוף פניות, טיפול במשתמשים, סינון מועמדים או גילוי סיכונים. אם המדידה המקורית מתעלמת מהמחלוקת האנושית, גם מערכת ה-AI עלולה להיראות החלטית יותר ממה שמצדיק בסיס הידע שבאמת עומד לרשותה.
מה זה אומר עבור מודלי שפה, safety ו-AI כשופט
הדיון הזה רלוונטי במיוחד לשני תחומים חמים: מודלי שפה שמדרגים תשובות של מודלים אחרים, ומערכי safety שנשענים על אנוטציה אנושית כדי לקבוע מהו תוכן מסוכן או בלתי רצוי. בשני המקרים מקובל לעיתים להמיר שיפוט מורכב להכרעה בינארית או לציון יחיד. אלא שמחקרים נוספים מהשנה האחרונה הראו כי גם כאשר LLMs מתואמים במידה מסוימת עם בני אדם, רמת ההסכמה שלהם מושפעת מאוד מקושי הפריט וממבנה המחלוקת בין האנוטטורים. כלומר, אם בני אדם עצמם חלוקים, סביר שגם השופט האוטומטי יתנהג באופן פחות יציב ולעיתים יאמץ בעקביות את ההטיה של קבוצת הרוב. לכן, הטענה של Google נוגעת לא רק לבנצ'מרקים סטטיים, אלא לשאלה הרחבה יותר איך בכלל בונים "שיפוט" בעולם של AI.
במובן זה, המחקר מחזק מגמה של מעבר מהיגיון של "label אחד נכון" להיגיון של "distribution over judgments" כלומר, ייצוג מפורש של התפלגות השיפוטים האנושיים. גישה כזאת יכולה לעזור גם באימון מודלים וגם בהערכתם: במקום ללמד מערכת רק מהי תשובת הרוב, אפשר ללמד אותה לזהות מצבים שבהם הנושא שנוי במחלוקת, להציג חוסר ודאות, או להתאים תגובה לקבוצות הקשר שונות. עבור safety teams, המשמעות עשויה להיות מדיניות שמבחינה בין מקרים של קונצנזוס לבין מקרים אפורים. עבור חוקרי alignment, זו תזכורת לכך שהעדפות אנושיות אינן תמיד ישות אחידה, ושאי אפשר לצמצם אותן בקלות ליעד מספרי אחד.
הזווית הישראלית: למה זה חשוב גם כאן
מנקודת מבט ישראלית, המסר של Google חשוב במיוחד. ישראל היא שוק קטן, רב־לשוני ורב־תרבותי, שבו מערכות AI פועלות לא פעם בסביבה עם רגישויות גבוהות: עברית וערבית, שיח פוליטי מקוטב, הקשרים ביטחוניים, בדיחות מקומיות, סלנג, ולעיתים גם תוכן שמחליף רגיסטרים במהירות בין פורמלי, עממי וטעון. במציאות כזו, שימוש בבנצ'מרקים בינלאומיים שמניחים אחידות שיפוטית עלול להיות בעייתי אפילו יותר. אם באנגלית אמריקאית כבר קיימת מחלוקת ניכרת סביב פוגענות, בטיחות או העדפת ניסוח, בעברית ובשוק המקומי האתגר עשוי להיות חד יותר. עבור סטארטאפים ישראליים שמאמנים מסווגים, בונים מערכות moderation או מטמיעים עוזרי AI בארגונים, המשמעות ברורה: אי אפשר להסתפק בתוויות רדודות שנלקחו ממדד גנרי.
- הקשר לשוני מקומי בעברית ובערבית מגדיל את הסיכון לשיפוט לא אחיד.
- תחומי moderation, שירות ציבורי, בריאות דיגיטלית ו-HR רגישים במיוחד לטעויות הערכה.
- חברות ישראליות יצטרכו להשקיע יותר במדידה מקומית, מגוונת ושקופה.
- גם רגולטורים ורוכשי טכנולוגיה צריכים לדרוש פירוט על שיטת האנוטציה ולא רק על ציון סופי.
יש כאן גם היבט עסקי ישיר. ארגונים ישראליים שבוחנים ספקי AI נוטים להסתמך על leaderboards, מצגות מכירה ודוחות benchmark. אבל אם התעשייה תאמץ את הביקורת של Google, סביר שנראה מעבר משיח של "מי מקום ראשון" לשיח של "באילו תנאים המדד הזה בכלל אמין". זה שינוי בריא. במקום לקנות הבטחות על דיוק, ארגונים יידרשו לשאול כמה אנוטטורים השתתפו, מאילו אוכלוסיות, האם נשמרו חילוקי דעות, איך חושבו רווחי הסמך, והאם יש הבדל בין משימות בעלות קונצנזוס למשימות שנויות במחלוקת. עבור קהילת ה-AI המקומית חוקרים, משקיעים, קנייני טכנולוגיה ומקבלי החלטות זו תזכורת לכך שהערכת מודלים היא כבר חלק מהתשתית הקריטית, לא רק שלב טכני בשוליים.
בשורה התחתונה, המחקר של Google אינו אומר שבנצ'מרקים איבדו את ערכם, אלא שהגיע הזמן להתבגר באופן שבו משתמשים בהם. כשמדובר במשימות אובייקטיביות יחסית, דיוק מספרי עדיין יכול להיות מדד חזק. אבל ככל ש-AI נכנס לעולמות של שיפוט, בטיחות, העדפה ופרשנות, אי־אפשר להעמיד פנים שהאדם שמולו המודל נמדד הוא ישות אחידה. אם בני אדם חלוקים, גם המדד צריך לדעת לייצג את זה. המשמעות המעשית ברורה: יותר שקיפות, יותר עומק אנוטציה, פחות הסתמכות על מספר קסם אחד, והרבה יותר זהירות לפני שמסיקים ממדד בודד מי באמת מוביל. עבור תעשייה שבונה נרטיבים של עליונות על עשיריות נקודה, זהו תיקון חשוב ואולי הכרחי.