Baseten ממשיכה לערער על הדומיננטיות של ההייפרסקיילרים: החברה הודיעה על זמינות כללית (GA) ל‑Baseten Training שכבת תשתית לאימון ולכיוונון עדין של מודלים בקוד פתוח, שנבנתה מלמטה למעלה עבור פרודקשן. לפי דיווחים, קו המוצרים החדש מאפשר להריץ משימות אימון מרובות‑צמתים על אשכולות H100 ו‑B200, לבצע צ׳קפוינטינג אוטומטי, לתזמן ריצות בתוך פחות מדקה, ולחבר את האימון באופן טבעי לשכבת ההסקה של Baseten. ההכרזה מגיעה על רקע מגמת התחזקות המודלים הפתוחים (Llama, Qwen, GPT‑OSS) והלחץ בארגונים להפחית תלות ב‑APIs יקרים וסגורים. גולת הכותרת: הלקוח מחזיק בבעלות מלאה על קוד האימון, הנתונים ומשקלי המודל, ויכול להורידם בכל עת בניגוד למדיניות מגבילות אצל חלק מהמתחרים.
מה בדיוק הוכרז ולמה זה חשוב עכשיו
Baseten Training נבנה כ״שכבת מסילה״ תשתיתית: המשתמשים מביאים את קוד האימון וכלי הקוד הפתוח המועדפים (כגון Axolotl, Transformers, vLLM, W&B), בעוד שהפלטפורמה מטפלת באורקסטרציה, בהקצאת GPU רב‑עננית, באחסון מתמשך ובאחזור צ׳קפוינטים. החברה מחדדת כי אין כאן ״קסם שחור״ של בחירת היפר‑פרמטרים אוטומטית; לקח ממוצר עבר שנגנז לימד אותה לא להסתיר את המורכבות המקצועית מהמהנדסים. ההצעה ללקוח ארגוני ברורה: קבלו חופש בחירה וגמישות פריסה (עננים שונים ואזורים שונים), תוך קיצור זמן לאימון ותפעול, והימנעות ממלכודות נעילה (Lock‑in) שמקשות להוציא משקלים מאתרים סגורים. זה צעד אסטרטגי שמחבר בין אימון להסקה ומבקש להחזיר שליטה הנדסית ורגולטורית לידי הלקוח.
השכבה הטכנית: רב‑ענן, צ׳קפוינטים, תצפיות עמוקות
במרכז ההבדלה עומד MCM מנגנון Multi‑Cloud Management שמקצה ומאזן קיבולת GPU בין יותר מעשרה ספקי ענן ואזורים, כולל חומרה עדכנית דוגמת B200. המשמעות: פחות צווארי בקבוק בהיצע ה‑GPU, והימנעות מחוזים רב‑שנתיים קשיחים. בשטח, הפלטפורמה מוסיפה: צ׳קפוינטינג עמיד לתקלות, חידוש אימון (Resume from Checkpoint), מטמון מודלים ונתונים שמקצר סבבי ניסוי, ותצפיות מפורטות לרמת ה‑GPU הבודד בכל צומת. לצד זאת, ML Cookbook מספק “מתכונים” פתוחים למודלים פופולריים (Gemma, Qwen, GPT‑OSS ולחישות/Whisper), והפריסה מהצ׳קפוינט אל קצה ההפקה מתבצעת בלחיצה כולל פריסות ייעודיות ותמיכה בתרחישי צ׳אט ותמלול.
- אורקסטרציית GPU רב‑עננית: פריסה וסקיילינג חוצה ספקים ואזורים ללא שינוי בקוד.
- תזמון תת‑דקתי לריצות אימון: קיצור זמן ההמתנה לשניות בודדות.
- צ׳קפוינטינג וריסטור: הגנה מתקלות, חזרה מדויקת לנקודת עצירה.
- תצפיות פר‑GPU ופר‑צומת: לוגים, מדדים ואירועי תשתית בממשק מאוחד.
- Deploy‑from‑Checkpoint: העברת צ׳קפוינט חי להפקה לשירותי צ׳אט/אודיו.
- חיבורים מיידיים: S3, Hugging Face, Weights & Biases, סודות מאובטחים.
מבחן השטח: חיסכון בעלויות ומהירות נמוכה יותר מסף העסקי
ההשקה מגובה בסיפורי לקוח מוקדמים. Oxen AI בנתה את חוויית הלקוחות שלה על תשתית Baseten, והסתירה לחלוטין את הממשק מאחורי ה‑CLI וה‑API. לקוח קמעונאות בשם AlliumAI דיווח על חיסכון של 84% בעלויות מעבר מהסקת מדף יקרה למודל פתוח מותאם עם LoRA שחתך הוצאות באופן דרמטי, תוך ביטול כאבי תפעול (CUDA, כיבוי שרתים, ועוד). Parsed, שמסייעת לארגונים להפחית תלות ב‑OpenAI באמצעות מודלים ייעודיים לענפים רגישים, דיווחה על ירידה של 50% בזמן קצה‑לקצה במשימות תמלול, פריסה ניסיונית תואמת HIPAA באיחוד האירופי בתוך 48 שעות, והרצת יותר מ‑500 עבודות אימון. השיפורים נבעו גם מהטמעת מסגרות הסקה מבוססות vLLM ושימוש בספקולציה להאצת הפלט.
“בכל פעם שראיתי פלטפורמה שמנסה לעשות גם חומרה וגם תוכנה היא נכשלת באחת מהן. לכן, השותפות עם Baseten הייתה הבחירה המתבקשת: הם מטפלים בתשתית, ואנחנו בערך ללקוח.”
גרג שנינגר, מנכ"ל Oxen AI
“מודלים מהירים זה חשוב; מודלים מהירים שמשתפרים בלי הפסקה חשובים יותר. Baseten נתנה לנו גם קצה ביצועים היום וגם מסילה לשיפור רציף.”
צ׳רלס או׳ניל, מייסד‑שותף ו‑CSO ב‑Parsed
בעלות על משקלי המודל: לא רק עיקרון מנוף אסטרטגי
Baseten מבטיחה בפה מלא: המשקלים שלכם שלכם. במילים אחרות, לאחר כיוונון עדין, ניתן להוריד את המשקלים ולהריץ אותם בכל תשתית. זהו קונטראס ברור למודלים סגורים ולחלק מפלטפורמות האימון שמגבילות הורדת משקלים. בשוק יש גישות שונות: Together AI, לדוגמה, מאפשרת הורדת משקלי מודל לאחר אימון; לעומת זאת, אצל ספקים אחרים קיימות מגבלות מפורשות. עבור ארגונים, המשמעות אינה תאורטית: בעלות מלאה מקלה עמידה ברגולציה (Data Residency, GDPR/HIPAA), משפרת יכולת מיקוח מול ספקים, ומתירה הגירה חופשית בין עננים, אזורים ומסגרות ריצה כולל תרחישים היברידיים ועל‑אתר.
- ניידות והפחתת Lock‑in: מעבר תשתיות ללא אימון חוזר מאפס.
- ציות רגולטורי: שליטה במשקלים ובפריסה לפי אזור שיפוט.
- אופטימיזציית עלויות: בחירת חומרה וענן לפי מחיר‑ביצוע בזמן אמת.
- המשכיות עסקית: גיבוי, שיכפול ואסטרטגיות DR בין עננים.
- תכנון אסטרטגי: יכולת לחלק עומסים בין ספקי ענן לפי SLA ויעדי ביצועים.
הגבול המטושטש בין אימון להסקה: ספקולציה, EAGLE‑3 ו‑GPT‑OSS
אחד העקרונות שמנחים את Baseten הוא שהאימון משרת את ההסקה. צוות ביצועי‑המודלים משתמש בתשתית האימון כדי לאמן “מודלי טיוטה” לספקולציה טכניקה שמייצרת טוקנים‑טיוטה כדי להאיץ פלט של מודלים גדולים. לפי פרסומי החברה, שילוב EAGLE‑3 הקפיץ את קצב ה‑tokens/sec של GPT‑OSS 120B על חומרת NVIDIA בעשרות אחוזים, מבלי לפגוע באיכות. זהו חיבור מעשי: אותם כלי אימון צ׳קפוינטים, ניטור, מתכונים מזינים ישירות את שכבת ההסקה (TensorRT‑LLM, vLLM) כדי לספק גם יעילות וגם מהירות. במילים פשוטות: כשתשתית אחת מחזיקה את שני הקצוות, אפשר לשפר את זמן‑לאמת (TTFT) ואת קצב הפלט יחדיו.
עבידות רב‑עננית בזמן אמת: שיעור מאירועי אוקטובר
אירועי הענן של אוקטובר 2025 הדגישו עד כמה עדיף תכנון Active‑Active ומספר עננים. בהתאם לדיווחים, Baseten הצליחה לשמר זמינות הסקה באמצעות ניתוב אוטומטי בין ספקים בעת תקלה אזורית. כאן נכנס MCM לתמונה: בידול של תשתית המסוגלת להפוך משאבי GPU מפוזרים ל״מאגר״ אחיד ופונג׳יבילי עם פרוביז׳נינג מהיר, איזון לפי SLA והימנעות מנקודות כשל בודדות. עבור ארגונים שמריצים תמלול בזמן אמת, תמיכה קולית או עוזרים קוגניטיביים, רב‑ענן איננו מותרות; זהו מרכיב תפעולי שמקצר זמני התאוששות ומקטין סיכון לאובדן הכנסות ושחיקה במוניטין.
זירה צפופה: הייפרסקיילרים, ספקי GPU ייעודיים ופלטפורמות אנכיות
Baseten נכנסת לשדה תחרותי מול AWS, Google Cloud ו‑Azure שמוכרות חוות GPU ואופני אימון; מול ספקי GPU ייעודיים כמו Lambda ו‑CoreWeave; ומול פלטפורמות אנכיות כגון Hugging Face, Replicate ו‑Modal. ההבדל שהיא מציגה נשען על שלושה עמודים: רב‑ענן ברמת תפעול (MCM), מומחיות ביצועים שנבנתה מהסקה בקנה‑מידה, וחוויית מפתחים שמוכוונת לפרודקשן ולא רק לניסוי. גיוסי ההון של 2025 מספקים מרווח נשימה להשקעות עמוקות ב‑R&D ובכלי מפתחים, בעוד שפורטפוליו הלקוחות כולל שירותי תמלול, תמיכה לקוחות וקוד אסיסט שלושה תחומים שבהם התאמה אישית וביצועים הם פער תחרותי ממשי.
נקודת מבט ישראלית: ממשל, פיננסים ובריאות בדרך לפרקטיקה
לארגונים בישראל מוסדות פיננסיים, קופות חולים, גופי ממשל ותעשיות ביטחוניות החיבור בין אימון והסקה תחת בעלות מלאה על משקלים מציע מסלול ריאלי להפחתת תלות ב‑APIs סגורים ולהשגת ריבונות נתונים. יכולת לבחור אזור פריסה באיחוד האירופי או בארץ, לשכפל צ׳קפוינטים בין עננים, ולשנע מודלים מותאמים לסביבות On‑Prem הופכת את הכוונון העדין לכלי עבודה יציב. עבור סטארטאפים ישראליים, המשמעות היא קיצור דרך למודלים אנכיים: משפטי, בריאותי, סייבר תעשייתי תוך כימוס הידע הייחודי שלהם בתוך משקלים שבבעלותם. בשוק שבו מחסור ב‑GPU עדיין מורגש, רב‑ענן הוא לא רק יתרון מחיר, אלא גם יתרון זמינות.
- בדקו מדיניות משקלים: האם ניתן להוריד אותם ולפרוס במקומות אחרים?
- מיפוי רגולציות: היכן מותר לאחסן צ׳קפוינטים ומידע אימון רגיש.
- השוואת מודלים פתוחים: Qwen, Llama, GPT‑OSS מי מתאים למשימה שלכם.
- הערכת עלות‑ביצוע: H100 לעומת B200, תמחור לפי זמן לעומת נפח.
- SLA רב‑ענני ו‑DR: אוטומציה ל‑Failover והוכחת התנהגות ב״ימי קרב״.
מה חדש ב‑GA ומה הלאה במפת הדרכים
מאז הבטא ב‑מאי 2025 שודרגו יכולות המערכת: מתכוני Cookbook רחבים יותר (כולל GPT‑OSS 20B/120B, Qwen3, Gemma), תמיכה בצ׳קפוינטים בפורמטים מגוונים (FSDP, Megatron, VeRL), זמינות מוגברת לאימונים מרובי‑צמתים על InfiniBand, ותצפיות דקדקניות יותר בלוגים ובמדדים. מנגנון Deploy‑from‑Checkpoint מזרז מעבר לאנדפוינטים תואמי צ׳אט/אודיו, וה‑UI חודש סביב פרויקטי אימון. קדימה, Baseten רומזת על הרחבות לכיוונוני תמונה/אודיו/וידאו ועל טכניקות יעילות נוספות בהסקה (כגון פירוק Prefill‑Decode). עם זאת, החברה שומרת על עיקרון פשוט: “אנחנו קודם כל חברת הסקה; האימון בשירות ההסקה”.
“אנחנו, מהתחלה ועד הסוף, חברת הסקה. הסיבה שעשינו אימון היא כדי לשפר את ההסקה.”
אמיר חג׳יחאת, מייסד‑שותף ו‑CTO של Baseten
שורה תחתונה: התשתית קובעת והבעלות משיבה את הכוח למפתחים
ההכרזה של Baseten משקפת שינוי כיוון תעשייתי: כשמודלים פתוחים מתקרבים לביצועי הסגורים בתחומים ספציפיים, Fine‑Tuning הופך למנגנון המסה של ערך. אך Fine‑Tuning בלי בעלות על משקלים דומה לחוזה אחזקה ללא מפתחות. השילוב בין אימון רב‑ענני, יכולות תצפית ופריסה מהירה לצ׳קפוינטים סוגר מעגל טכני וכלכלי שמדבר בשפת צוותי פרודקשן. האם זה מספיק כדי לכבוש נתח שוק מול ענקי הענן? זה תלוי ביכולת לשמר קצב חדשנות, לא לבנות ״גני חומה״ מיותרים, ולהמשיך להוכיח עמידות וביצועים תחת לחץ. לעת עתה, מסילת התשתית של Baseten מציבה רף גבוה במיוחד עבור מי שרוצה להחזיק את המשקלים, את הנתונים ואת ההחלטות, אצלם.