Alibaba, באמצעות צוות Qwen ובשיתוף חוקרים מאוניברסיטת Tsinghua, מציגה בימים אלה את HopChain מסגרת חדשה שנועדה להתמודד עם אחת מנקודות התורפה העמוקות ביותר של מודלי ראייה-שפה: קריסה של תהליך החשיבה כאשר נדרש היסק חזותי רב-שלבי. לפי המאמר שעלה ל-arXiv ולפי דיווח ב-The Decoder, הבעיה איננה רק שהמודל "טועה" בתמונה, אלא שטעות קטנה בשלב מוקדם ספירה שגויה, זיהוי לקוי של יחס מרחבי, קריאת טקסט שגויה או ייחוס לא נכון של אובייקט מתגלגלת לאורך כל שרשרת הנימוק ומובילה לתשובה סופית שגויה, לעיתים בניסוח בטוח ומשכנע. HopChain מנסה לפרק את הבעיה הזו לרצף של שאלות תלויות זו בזו, כך שהמודל נדרש לאמת בכל שלב מחדש את הפרט החזותי שעליו הוא נשען.
מה בדיוק HopChain מנסה לפתור
מודלי Vision-Language מתקדמים יודעים כיום לענות היטב על לא מעט משימות תמונה-טקסט, אך כאשר המשימה דורשת שרשרת היסק ארוכה, חולשה בסיסית מתחילה להיחשף. במקום שגיאה אחת מבודדת, מתקבלת תגובת שרשרת: המודל סופר נקודות על חיפושית לא נכון, מפרש כיוון תנועה של רכב באופן שגוי, או בוחר את הקשת הלא נכונה בתרשים אסטרונומי וכל השלב הבא כבר נשען על יסוד רעוע. לפי תקציר המאמר, החוקרים זיהו ארבע משפחות עיקריות של כשלים: שגיאות תפיסה, שגיאות היגיון, שימוש לקוי בידע והזיות. הבעיה המעשית היא שסטים נפוצים של אימון מבוסס Reinforcement Learning with Verifiable Rewards, או RLVR, כמעט שלא כוללים מטלות שבהן נדרשת תשומת לב חזותית צמודה לאורך כמה קפיצות היסק רצופות. במילים אחרות, המודלים אומנו לא רע על תשובות שניתן לבדוק, אבל פחות טוב על הדרך החזותית הארוכה שמובילה אליהן.
- טעות מוקדמת בזיהוי אובייקט או במספרו משפיעה על כל שלבי ההיסק שאחריה.
- מודלים נוטים להישמע בטוחים גם כשהבסיס החזותי שעליו נשענת התשובה פגום.
- מאגרי אימון רבים בודקים תשובה סופית, אך לא מאלצים את המודל לאמת כל שלב ביניים מול התמונה.
כאן נכנסת HopChain. לפי תיאור החוקרים, מדובר במסגרת סינתטית ליצירת שאלות חזותיות רב-שלביות שבהן כל שלב תלוי בקודמו. במקום לשאול שאלה אחת ישירה על התמונה, HopChain בונה רצף של "קפיצות" לוגיות: תחילה המודל מזהה מופע מסוים, אחר כך משתמש בו כדי למצוא אובייקט אחר, לאחר מכן קורא טקסט, משווה גדלים, סופר מופעים, ולבסוף מחשב תשובה מספרית חד-משמעית. הבחירה בתוצאה מספרית אינה מקרית: היא מאפשרת בדיקה אוטומטית של נכונות התשובה, ולכן מתאימה למסגרת RLVR. לפי The Decoder, אחד המקרים בדוגמה כולל ספירת עיניים על בובות, קריאת מילה שמופיעה על דף, ספירת אותיות, סדרת פעולות חשבוניות ולבסוף הכפלה במספר הדמויות בתמונה, עד לקבלת תשובה סופית אחת. בכך המודל אינו יכול "לדלג" ישירות למסקנה; הוא נדרש לעבור בכל תחנת ביניים.
איך נבנה המאגר: אוטומציה עם בקרת איכות אנושית
אחד ההיבטים המעניינים ב-HopChain הוא לא רק רעיון השאלות הרב-שלביות, אלא גם אופן בנייתן. לפי המאמר והסיקור ב-The Decoder, תהליך היצירה מתבצע בארבעה שלבים. בשלב הראשון מודל Qwen3-VL-235B-A22B-Thinking מזהה קטגוריות של אובייקטים בתמונה. בשלב השני נעשה שימוש במודל הסגמנטציה SAM3 של Meta כדי לאתר מופעים בודדים של אותם אובייקטים. בשלב השלישי נבנות שאלות מרובות-רמות סביב צירופים של שלושה עד שישה אובייקטים. בשלב הרביעי נכנסת בקרת האיכות האנושית: ארבעה מתייגים אנושיים פותרים כל שאלה בנפרד, ורק שאלות שבהן כל הארבעה מסכימים על התשובה נשמרות למאגר. בנוסף, שאלות שקל מדי לפתור מסוננות החוצה, כדי למקד את האימון דווקא במקרים שמאתגרים מודלים. לפי הדיווח, כך נוצרו בערך 60 אלף עד 80 אלף דוגמאות אימון לכל מודל.
מבחינה טכנית, הבחירה לחבר בין זיהוי אובייקטים, סגמנטציה ושרשרת שאלות תלויה היא צעד חשוב. בשוק המולטימודלי מקובל לא פעם לדבר על "reasoning" כאילו הוא שכבה נפרדת מן התפיסה, אבל HopChain נשענת על ההנחה ההפוכה: בהיסק חזותי אמיתי, התפיסה וההיגיון שלובים זה בזה בכל שלב. אם המודל לא בדק מחדש את מה שראה, או אם הוא החליף אובייקט אחד באחר, ההיגיון שאחר כך אינו באמת היגיון אלא רציונליזציה של טעות. זה גם מסביר מדוע החוקרים התמקדו בשאלות שבהן כל קפיצה נובעת מקודמתה, ולא באוסף מקרי של מיני-משימות. הם מנסים לאמן משמעת חישובית וחזותית, לא רק להרחיב עוד את מגוון הדוגמאות.
התוצאות: שיפור רחב, לא רק במדד אחד
לפי המאמר, החוקרים הוסיפו את נתוני HopChain לאימון RLVR של שני מודלים: Qwen3.5-35B-A3B ו-Qwen3.5-397B-A17B. לאחר מכן הם השוו בין אימון על הנתונים המקוריים בלבד לבין אימון על הנתונים המקוריים בתוספת הדוגמאות הרב-שלביות החדשות. הבדיקה בוצעה על פני 24 בנצ'מרקים בארבע קטגוריות: STEM וחידות, הבנת תמונה כללית, זיהוי טקסט והבנת מסמכים, והבנת וידאו. התוצאה המרכזית שעליה מצביעים החוקרים היא שיפור ב-20 מתוך 24 מבחנים עבור שני גדלי המודל. ב-The Decoder צוין, למשל, כי המודל הקטן שיפר את ציון EMMA מ-53 ל-58 ואת CharXiv מ-69 ל-73.1, בעוד המודל הגדול שיפר את BabyVision מ-28.61 ל-32.22, וב-ZeroBench אף הכפיל את הציון מ-4 ל-8. מאחר שהדוגמאות הסינתטיות לא נבנו עבור בנצ'מרק מסוים, החוקרים מציגים זאת כסימן להכללה אמיתית ולא לאופטימיזציה נקודתית.
- שיפור ב-20 מתוך 24 בנצ'מרקים שנבדקו.
- שיפור שנרשם בשני גדלי מודל שונים, ולא רק במערכת אחת.
- השפעה גם על מבחני וידאו, למרות שהאימון עצמו נשען על תמונות סטטיות.
- הקפיצה החדה ביותר הופיעה במשימות עם שרשראות היסק ארוכות במיוחד.
החלק המסקרן ביותר בתוצאות נוגע לאורך שרשרת החשיבה. לפי תקציר המאמר, כאשר החוקרים קיצרו את השאלות המלאות לגרסאות "חצי-רב-שלביות" או חד-שלביות, הציון הממוצע על חמישה מבחנים מייצגים ירד מ-70.4 ל-66.7 ואז ל-64.3. המשמעות ברורה: לא די בכך שהמודל יתאמן על השלב האחרון או על גרסה מקוצרת של הבעיה. דווקא הרצף המלא שבו כל שלב מחייב בדיקה מחודשת של נתון חזותי ושל תנאי ההיסק הוא זה שמייצר את השיפור. החוקרים אף מדווחים כי במשימות עם chain-of-thought חזותי ארוך במיוחד, השיפור חצה 50 נקודות במודל הגדול. זו אינדיקציה לכך שהתרומה של HopChain גדלה ככל שהמטלה פחות "מיידית" ויותר תהליכית.
למה זה חשוב מעבר ל-Alibaba
המשמעות הרחבה של HopChain חורגת מן השיפור המקומי במשפחת Qwen. בחודשים האחרונים הולך ומתברר שהתחום המולטימודלי כולו מתמודד עם פער בין ביצועים יפים בבנצ'מרקים לבין הבנה חזותית עקבית בעולם האמיתי. ב-The Decoder הזכירו בהקשר הזה גם את WorldVQA של Moonshot AI, שבו התברר עד כמה מודלים מתקשים לזהות נכונה אובייקטים, וכן עבודות מחקר עדכניות שמטילות ספק בשאלה עד כמה ציונים גבוהים במשימות תמונה באמת משקפים עיבוד חזותי ולא הסתמכות על רמזים סטטיסטיים מהטקסט. מאמר arXiv עדכני בשם Mirage The Illusion of Visual Understanding טוען שמודלים מולטימודליים עשויים לעיתים לייצר תיאורי תמונה מפורטים גם בלי לראות תמונה כלל, תופעה שממחישה עד כמה קל לבלבל בין שטף מילולי מרשים לבין תפיסה חזותית אמיתית. מול הרקע הזה, HopChain היא ניסיון מעשי לטפל לא רק בתשובה, אלא במשטר הבדיקה הפנימי של המודל.
מבחינת שוק ה-AI, המהלך גם משתלב בכיוון הרחב של Alibaba סביב Qwen3.5. לפי פרסומים רשמיים של Alibaba Cloud וסקירות תעשייה, החברה ממקמת את Qwen3.5 כפלטפורמה רחבה למודלים מולטימודליים וסוכנים אוטונומיים, עם דגש על reasoning, עבודה עם כלים, והבנה של טקסט, תמונה ווידאו. HopChain מתאים בדיוק לנקודת המפגש הזו: אם ארגונים רוצים שמודל לא רק יתאר מסמך או יזהה מסך, אלא גם יסיק מסקנות נכונות לאורך רצף של שלבים למשל בקריאת מסמכים מורכבים, בדיקות איכות בייצור, ניתוח צילומי מסך, רובוטיקה או הפעלה של ממשקים חזותיים הם צריכים אמינות גבוהה הרבה יותר בכל שלב ביניים. לכן, גם אם HopChain הוא מחקר אקדמי-תעשייתי, היישום האפשרי שלו מסחרי מאוד.
המגבלות והזווית הישראלית
לצד התוצאות החיוביות, חשוב לציין שגם ל-HopChain יש מגבלות ברורות. לפי The Decoder, תהליך הייצור תלוי ב-SAM3 כדי לאתר אובייקטים בתמונה, ולכן תמונות שאין בהן אובייקטים ניתנים לסגמנטציה עלולות להישאר מחוץ לצינור יצירת הנתונים. במילים אחרות, לא כל סוג של בעיה חזותית ייהנה באותה מידה מן השיטה. בנוסף, העובדה שהתשובה הסופית מתוכננת להיות מספרית וחד-משמעית היא יתרון גדול לאימות אוטומטי, אך היא גם עלולה להטות את האימון לעבר סוגים מסוימים של משימות שקל יותר לבדוק. השאלה הבאה היא האם אפשר להרחיב את הגישה גם למטלות פתוחות יותר, שבהן יש יותר מדרך אחת תקפה להסביר את התמונה או לנסח את המסקנה. זו כבר תהיה בעיה מורכבת בהרבה.
- הגישה תלויה ביכולת סגמנטציה של אובייקטים בתמונה.
- האימות הנוח ביותר מתקבל כשיש תשובה מספרית חד-משמעית.
- עדיין לא ברור עד כמה השיטה תעבוד באותה יעילות במשימות פתוחות ופחות מובנות.
- המעבר ממחקר לביצועים עקביים במוצרים מסחריים עוד דורש הוכחה בשטח.
מן הזווית הישראלית, מדובר בהתפתחות שכדאי לעקוב אחריה מקרוב. אקוסיסטם ה-AI המקומי פעיל במיוחד בתחומי ראיית מחשב, מסמכים, סייבר, בריאות דיגיטלית ותעשייה חכמה כל אחד מהם נשען במידה גוברת על שילוב בין זיהוי חזותי לבין היסק רב-שלבי. עבור חברות ישראליות שבונות מוצרים סביב בדיקת טפסים, ניתוח צילומי מסך, חיפוש חזותי, תפעול רובוטי, אבטחה, או עוזרים ארגוניים שמבינים מסמכים ותרשימים, המסר המרכזי מ-HopChain הוא שלא מספיק לבחור מודל עם ציון גבוה כללי. צריך לשאול איך הוא מתנהג כאשר נדרשות שלוש, ארבע או שש קפיצות היסק תלויות, ומה קורה אם השלב הראשון שלו שגוי. במובן הזה, HopChain עשויה להשפיע לא רק על בחירת מודלים, אלא גם על האופן שבו צוותי מוצר והנדסה בישראל יבנו בדיקות איכות, דאטה סינתטי ותהליכי ולידציה למערכות מולטימודליות.
השורה התחתונה היא ש-HopChain מסמנת מעבר חשוב בדיון על מולטימודליות: פחות התלהבות כללית מ"מודל שרואה וחושב", ויותר תשומת לב לשאלה האם הוא מסוגל לשמור על נאמנות חזותית לאורך כל הדרך. Alibaba וצוות Qwen אינם טוענים כאן שפתרו את בעיית ההבנה החזותית, אבל הם כן מציעים מתודולוגיה מדויקת יותר לאמן מודלים על המקומות שבהם הם נשברים באמת. אם הממצאים יעמדו במבחן של עבודות המשך ושל שימושים מסחריים, ייתכן ש-HopChain יהפוך לדוגמה חשובה לאופן שבו משפרים reasoning מולטימודלי: לא באמצעות עוד שכבת יחסי ציבור סביב "חשיבה", אלא באמצעות דאטה שמכריח את המודל להוכיח, שלב אחר שלב, שהוא באמת ראה את מה שהוא טוען שראה.