Alibaba חושפת את GSPO של Qwen: אלגוריתם למידת חיזוק חדש למודלי reasoning

Alibaba וקבוצת Qwen הציגו את GSPO, אלגוריתם למידת חיזוק חדש שנועד לשפר אימון של מודלי reasoning. לפי החומרים הטכניים, הוא מנסה לפתור בעיה מרכזית בתחום: חלוקת קרדיט לא מדויקת בין שלבי החשיבה. המטרה היא לייצב את האימון, לייעל את תהליך ההיסק ולשפר ביצועים.

תגיות
AlibabaQwenreasoningלמידת חיזוקמודלי שפהAI
מניות רלוונטיות:⚠️ ניתוח AI - אינו ייעוץ פיננסי
BABAAlibaba Group Holding Limited
החדשה מציגה התקדמות טכנולוגית ישירה של Alibaba בתחום ה-AI וה-reasoning דרך Qwen, מה שעשוי לחזק את מעמדה התחרותי ולשפר את תפיסת המשקיעים לגבי יכולות החדשנות שלה.
GOOGLAlphabet Inc.
הכתבה מדגישה התחזקות של Alibaba במרוץ הגלובלי למודלי reasoning, מה שמגביר את הלחץ התחרותי על Google בתחום ה-AI ועלול להיתפס כשלילי עבור יתרונה היחסי.

Alibaba ממשיכה לחזק את מעמדה במרוץ הגלובלי על מודלי reasoning, והפעם דרך שכבת האלגוריתמים שמאחורי האימון עצמו. לפי דיווח ב-The Decoder ולפי החומרים הטכניים שפרסמה קבוצת Qwen, החברה מתמקדת בבעיה בסיסית שהפכה לצוואר בקבוק בדור החדש של מודלים "חושבים": לא מספיק לתגמל את התשובה הסופית; צריך לדעת אילו חלקים בשרשרת החשיבה באמת תרמו אליה. האלגוריתם החדש, GSPO, נועד לשפר את חלוקת הקרדיט לאורך רצף הטוקנים והשלבים, כך שהמודל ילמד לא רק להגיע לתשובה נכונה, אלא גם לפתח מהלך פתרון יציב, עמוק ויעיל יותר. במונחים תעשייתיים, זהו ניסיון לעבור מאימון שמתגמל תוצאה בלבד לאימון שמבין טוב יותר את הדרך.

מה בעצם נשבר בלמידת חיזוק למודלי reasoning

הבעיה ש-Qwen מנסה לפתור מוכרת היטב לקהילת המחקר. בלמידת חיזוק למודלי שפה, ובמיוחד במשימות מתמטיקה, קוד והסקה לוגית, המודל מייצר רצף ארוך של צעדי ביניים לפני התשובה. בשיטות קודמות, ובהן גישות ממשפחת GRPO, התגמול מחושב לרוב ברמת התוצאה הכללית, אבל בפועל מתפזר על פני כל הטוקנים באופן גס למדי. התוצאה היא שכל שלב בשרשרת החשיבה מקבל כמעט אותו משקל, גם אם תרומתו האמיתית לפתרון שולית, ולעיתים דווקא הטוקן או המשפט ששינו את כיוון ההסקה לא מקבלים עדיפות מספקת. לפי מאמרים אקדמיים עדכניים בתחום, זה גורם לבזבוז דגימות, לאימון פחות יציב, ולעיתים גם להיסקים ארוכים אך לא יעילים. במודלי Mixture-of-Experts הבעיה אף מחריפה, משום שחוסר יציבות באימון משפיע גם על ניתוב המומחים ועל יעילות התשתית.

  • תגמול אחיד מדי על פני כל שרשרת החשיבה
  • קושי לזהות אילו צעדים באמת קידמו את הפתרון
  • אובדן יעילות באימון, במיוחד במשימות עם תשובה ניתנת לאימות
  • חוסר יציבות גדול יותר במודלי MoE ובאימון reasoning ארוך

במילים פשוטות, אם מודל פותר בעיית מתמטיקה אחרי חמישים צעדים, לא סביר שכל חמישים הצעדים היו חשובים באותה מידה. חלקם היו בדיקות ביניים, חלקם חזרות, ואולי רק כמה מהם יצרו את הקפיצה הלוגית שהובילה לפתרון. כשמערכת האימון לא יודעת להבחין בין השלבים האלה, היא מלמדת את המודל הרגלים מעורבים: גם לחשוב, אבל גם למרוח חשיבה; גם לבדוק אפשרויות, אבל בלי לדעת אילו מהן באמת בנו את התשובה. בדיוק במקום הזה נכנסת הטענה של Alibaba: אם משפרים את מנגנון הקרדיט, אפשר לקבל מודל שחושב יותר זמן כשצריך, אך בצורה ממוקדת ושימושית יותר.

כך פועל GSPO, ומה חדש בגישה של Qwen

לפי מאמר ה-arXiv של קבוצת Qwen, GSPO הוא קיצור של Group Sequence Policy Optimization. בניגוד לשיטות קודמות שמבצעות את חישוב היחסים והחיתוך ברמת הטוקן, GSPO מגדיר את האופטימיזציה ברמת הרצף כולו. כלומר, במקום להתייחס לכל טוקן כאילו הוא יחידת החלטה עצמאית עם קרדיט מקומי, האלגוריתם בוחן את ההסתברות והתגמול של רצף החשיבה כמכלול, ומבצע clipping וייעול ברמת sequence. לפי החוקרים, הגישה הזו מייצבת את האימון, משפרת יעילות, ומפחיתה את הבעיות שנוצרות כשמנסים להדביק תגמול ברמת תוצאה על רצף ארוך של החלטות מקומיות. Qwen טוענת שהיתרונות הללו תרמו ישירות לשיפור בדגמי Qwen3, במיוחד ביכולות reasoning.

הדרך הנכונה לקרוא את GSPO אינה כעוד ראשי תיבות, אלא כבחירה עקרונית: לעבור מחלוקת קרדיט מפורקת מדי לחלוקת קרדיט שמתאימה טוב יותר לאופי המשימה. כשמודל פותר בעיה מורכבת, הערך של צעד מסוים נובע לא רק ממה שנכתב בו, אלא גם מאיך שהוא משנה את ההמשך. זה הרעיון שעומד גם מאחורי האופן שבו The Decoder תיאר את החידוש: משקל שונה לכל שלב לפי ההשפעה שלו על מה שבא אחריו. גם אם הניסוח הפופולרי מפשט את המתמטיקה, הכיוון ברור: פחות תגמול אחיד, יותר רגישות למבנה הדינמי של ההיסק. מבחינת מפת המו"פ, זהו ניסיון להעניק למודלים "משמעת חשיבה" ולא רק "אומץ להאריך תשובות".

ההקשר הרחב: Qwen לא פועלת בוואקום

הסיפור הזה חשוב לא רק בגלל האלגוריתם עצמו, אלא גם בגלל התזמון. במהלך 2025 ותחילת 2026 Alibaba הרחיבה משמעותית את משפחת Qwen, עם דגש על מודלי thinking, agentic workflows, חלונות הקשר ארוכים במיוחד ושילוב של מודלי dense ו-MoE. לפי דפי GitHub הרשמיים של Qwen3, החברה מדגישה שיפורים ב-reasoning, בשימוש בכלים, בקידוד, במדע ובמתמטיקה, יחד עם תמיכה בריבוי שפות והקשר ארוך של עד מאות אלפי טוקנים ואף יותר בחלק מהגרסאות. במקביל, השוק כולו זז לכיוון מודלים שצריכים לא רק להשיב יפה, אלא לתכנן, לפתור, לבדוק, לקרוא כלים חיצוניים ולבצע משימות מרובות שלבים. בסביבה כזו, שיפור באלגוריתם האימון עשוי להיות משמעותי יותר מעוד עלייה נקודתית במדד benchmark.

כדאי גם לזכור את התחרות הגוברת בין Alibaba, DeepSeek, Google, OpenAI, Anthropic ושחקניות נוספות. בשנה האחרונה הפער בשכבת המודלים הפתוחים הצטמצם, ובכמה תחומים, במיוחד במתמטיקה, קוד ומודלים חסכוניים יותר לחישוב, שחקניות סיניות הצליחו להתקרב מאוד לחזית. לפי סיקור בינלאומי רחב, אחד המפתחות לכך הוא לא רק גודל המודל, אלא היעילות שבה מאמנים אותו. לכן, GSPO הוא גם מסר אסטרטגי: Qwen לא רק משחררת מודלים, אלא מנסה להגדיר מחדש את שיטת האימון של מודלי reasoning פתוחים. אם הטענה הזו תחזיק גם בשחזורים חיצוניים, היא עשויה להשפיע על כל האקוסיסטם של open-weight models.

  • Qwen מנסה לבדל את עצמה לא רק במודל, אלא גם באלגוריתם האימון
  • המעבר למודלי thinking ו-agentic מעלה את החשיבות של חלוקת קרדיט מדויקת
  • בשוק פתוח ותחרותי, יעילות אימון הופכת ליתרון עסקי ולא רק מחקרי
  • אם קהילת הקוד הפתוח תאמצו את הגישה, ההשפעה עשויה להיות רחבה בהרבה מ-Alibaba עצמה

מה אומרים המחקר והקהילה סביב התחום הזה

מעבר למאמר של GSPO עצמו, בחודשים האחרונים פורסמו עבודות נוספות שמנסות להתמודד עם אותה חולשה בסיסית: איך לבצע credit assignment טוב יותר במודלי reasoning. חלקן מתמקדות ברמת הטוקן, כמו Miner, שמציעה מנגנון focal credit assignment המבוסס על אי-ודאות פנימית של המודל; אחרות בוחנות מסגרות היברידיות שמערבבות בין החלטות ברמת טוקן לבין שיקולים ברמת הרצף. עצם ריבוי העבודות מעיד שהתחום עדיין רחוק מהכרעה, אבל גם שהבעיה אמיתית ולא קוסמטית. במובן הזה, הפרסום של Alibaba משתלב במגמה רחבה יותר: המרוץ על מודלי reasoning עובר מהשאלה "כמה גדול המודל" לשאלה "איך בדיוק מתגמלים אותו על חשיבה".

יש כאן גם נקודה מתודולוגית חשובה. בעולם ה-AI התעשייתי קל להתרשם מהבטחות כמו "חשיבה עמוקה יותר" או "פי שניים זמן היסק", אבל הערך האמיתי תלוי באיכות החשיבה ולא רק באורכה. חלק מהמחקרים בתחום כבר הראו שאפשר לעודד מודלים לכתוב יותר בלי לשפר משמעותית את הדיוק, ולעיתים אפילו להפך. לכן, השאלה המרכזית היא האם GSPO אכן מצליח להאריך את תהליך החשיבה תוך שיפור תוצאתי עקבי, ולא רק לייצר chain-of-thought ארוך יותר. לפי החומרים של Qwen, התשובה חיובית לפחות בניסויים שלהם, אולם כמו תמיד, הקהילה תחפש שחזורים, בדיקות בלתי תלויות והשוואות בתנאים אחידים.

  • התחום כולו מתכנס לבעיית credit assignment במודלי reasoning
  • יש כיום כמה גישות מתחרות: טוקן, רצף, או מסגרות היברידיות
  • אורך חשיבה לבדו אינו מדד מספק; נדרשת גם עלייה באיכות ובדיוק
  • השלב הבא יהיה אימות חיצוני על ידי חוקרים, מפתחים ופלטפורמות benchmark

למה זה חשוב גם לישראל ולשוק המקומי

מנקודת מבט ישראלית, הסיפור של GSPO חשוב מכמה סיבות. ראשית, קהילת ה-AI המקומית נשענת יותר ויותר על מודלים פתוחים לצורכי פיתוח, התאמה לארגון, עבודה בסביבות מאובטחות והורדה של עלויות inference. כשמודל פתוח כמו Qwen משתפר ב-reasoning, זה משפיע ישירות על סטארט-אפים, קבוצות מחקר, חברות סייבר, פינטק, בריאות דיגיטלית ומערכות תעשייתיות שרוצות מנוע היסק איכותי מבלי להיות תלויות לחלוטין ב-API סגור. שנית, השוק הישראלי רגיש במיוחד ליעילות חישובית. ארגונים רבים כאן לא מחזיקים תקציבי ענק של hyperscalers, ולכן כל שיפור באלגוריתם האימון וההסקה עשוי לתרגם לחיסכון אמיתי בעלויות ולביצועים טובים יותר על תשתיות מוגבלות.

מעבר לכך, יש כאן מסר אסטרטגי רחב יותר: מרכז הכובד של החדשנות ב-AI כבר אינו אמריקאי בלבד. Alibaba, DeepSeek ושחקניות סיניות נוספות מוכיחות שאפשר להוביל גם במחקר אלגוריתמי, גם בקצב שחרורים וגם במודלים פתוחים בעלי אימוץ רחב. עבור ישראל, שמשמשת גם כצרכנית טכנולוגיה וגם כיצרנית טכנולוגיה, זו תזכורת לכך שהערכת שוק, בחירת מודל, ותכנון תשתית AI צריכים להתבסס על בדיקה עניינית של ביצועים, רישוי, עלות, שקיפות ואקוסיסטם, ולא רק על הרגלי עבודה מול ספקים ותיקים. אם GSPO אכן יבסס את עצמו כתקן דה-פקטו חדש לאימון reasoning, נראה את השפעתו גם בכלים, גם בספריות קוד פתוח וגם בשיטות ה-fine-tuning שיאומצו על ידי צוותים מקומיים.

בשורה התחתונה, הסיפור של Alibaba ו-Qwen אינו רק ידיעה על עוד מודל או עוד benchmark. זהו מאבק על מנגנון הלמידה עצמו: איך מלמדים מודל לחשוב טוב יותר, ולא רק לענות נכון יותר בדיעבד. GSPO מציע תשובה אחת, ממוקדת ושאפתנית, לבעיה שהולכת ותופסת מקום מרכזי בדור החדש של ה-AI. אם הטענות של Qwen יתממשו גם מחוץ לחומרי החברה, המשמעות תהיה רחבה: מודלי reasoning יציבים יותר, יעילים יותר, ואולי גם שימושיים יותר בעולם האמיתי. עבור מפתחים, ארגונים וחוקרים בישראל, זהו תחום שכדאי לעקוב אחריו מקרוב, משום שהשינוי הבא בשוק ה-AI עשוי להגיע לא מעוד פרמטרים, אלא מאלגוריתם שמחלק טוב יותר את הקרדיט על הדרך.

טוען...