על רקע זינוק בביקוש לחישוב עבור AI ומחסור מתמשך ב‑GPU, חברת ScaleOps הודיעה ב‑30 במרץ 2026 על גיוס 130 מיליון דולר בסבב C, לפי שווי של למעלה מ‑800 מיליון דולר. את הסבב הובילה Insight Partners והשתתפו בו המשקיעות הקיימות Lightspeed Venture Partners, NFX, Glilot Capital Partners ו‑Picture Capital. החברה, שמרכז פעילותה בניו יורק ומייסדיה ישראלים, מפתחת פלטפורמה אוטונומית המנהלת בזמן אמת משאבי Kubernetes ו‑GPU – כדי לצמצם בזבוז, לשפר עמידה ב‑SLOs ולהפחית דרמטית את עלויות הענן. לפי החברה, המימון החדש יואץ לפיתוח מוצרים נוספים ולפריסה גלובלית מואצת אצל לקוחות אנטרפרייז. במאמר זה נסביר מה בדיוק עושה ScaleOps, היכן היא משתלבת בנוף ה‑AI‑Infra, מי המתחרות המרכזיות, ומה המשמעויות המעשיות עבור ארגונים – ובפרט בישראל.
מי עומד מאחורי ScaleOps ומה הבעיה שהיא פותרת
ScaleOps נוסדה ב‑2022 על ידי המנכ"ל Yodar Shafrir (לשעבר Run:ai) וה‑CTO Guy Baron, לאחר שראו מקרוב כיצד ארגונים נתקעים בין קונפיגורציות סטטיות של Kubernetes לבין עומסי ייצור דינמיים – במיוחד כשיישומי AI נכנסים לפרודקשן. גם כאשר יש נראות (FinOps, observability), פעולות התיקון נותרות ידניות, איטיות ומפוצלות בין צוותים. התוצאה: ניצול חסר של GPU ו‑CPU, הפרות SLO, וקפיצה חדה בחשבון הענן. הפתרון של ScaleOps פועל כשכבת בקרה אוטונומית בתוך האשכולות עצמם: הוא מאזין לאותות עומס וביצועים, מתרגם אותם להחלטות תזמון והקצאה, ומבצע אותן בזמן אמת – בהתאם למדיניות הארגון. כך, הפלטפורמה מיישרת בין מה שהאפליקציה צריכה למה שהתשתית מספקת, ללא "טוויקים" ידניים מתישים.
- Real‑time Pod Rightsizing: התאמת CPU/זיכרון חכמה לפי התנהגות עומסים.
- Replica Optimization: הגדלה/הקטנה פרואקטיבית לשמירת ביצועים ורציפות.
- Automated GPU Optimization: חלוקה דינמית של GPUs, צמצום "חימום" מיותר וניהול warm pools.
- Smart Pod Placement: שיבוץ פודים מודע להקשרים (latency, NUMA, תחרות על משאבים).
- Karpenter & Node Optimization: בינה לניהול צמתים ו‑bin‑packing להפחתת עלות.
- Spot Optimization: מיצוי חסכונות בענן ללא פגיעה בעמידות.
- Observability ממוקדת ביצועים ועלות: שקיפות להחלטות האוטומציה וההשפעה הכספית.
AI‑Infra בפרודקשן: קיצור זמני "קולד סטארט" וחיסכון של עשרות אחוזים
בשנה האחרונה הרחיבה ScaleOps את היצע המוצר עם AI Infra – שכבת אוטומציה לארגונים שמריצים מודלים עצמיים (self‑hosted LLMs) ויישומי AI מבוססי GPU. המוצר מתמקד בשתי בעיות כואבות: זמני טעינת מודלים (cold start) ועלויות GPU גבוהות עקב ניצול חלקי. לפי דיווחים, לקוחות מוקדמים דיווחו על חיסכון של 50%–70% בעלויות GPU ושיפור מדדי השהיה, בין היתר באמצעות שמירת רפליקות "חמות" וניהול קיבולת פרואקטיבי לרגעי קפיצה בתעבורה – מבלי לשנות קוד או לפגוע בצנרת הפריסה הקיימת (GitOps, CI/CD). ההטמעה עצמה פשוטה יחסית, ובמצבים רגישים ניתן לפרוס את המערכת גם on‑prem או בסביבות מנותקות (air‑gapped) עם שליטה מדוקדקת במדיניות.
המספרים, הלקוחות והמהלך האסטרטגי
הסבב הנוכחי מגיע כשנה וחצי לאחר סבב B של 58 מיליון דולר (נובמבר 2024), ומעלה את סך ההון שגויס ליותר מ‑210 מיליון דולר. רשימת המשקיעים מצביעה על אמון מוסדי עמוק בתחום האוטומציה של תשתיות AI, ובפרט ב‑Kubernetes כבסיס ההרצה הדה‑פקטו. ScaleOps מציינת לקוחות אנטרפרייז גלובליים – בהם Adobe, Wiz, DocuSign, Salesforce ו‑Coupa – וטוענת לצמיחה שנתית של מעל 350% בשנה החולפת; בדיווחים אחרים הוזכרו אף שיעורי צמיחה גבוהים יותר. האסטרטגיה כעת: להרחיב את מפת המוצר (כולל יכולות AI‑SRE מבוססות הקשר), להעמיק footprint אצל לקוחות קיימים, ולהתרחב גיאוגרפית – בתקופה שבה ארגונים מאמצים במהירות אוטומציה "עם ידיים על ההגה" כדי לשלוט בעלויות ה‑AI.
קונטקסט שוקי: Kubernetes, מחסור ב‑GPU ועלויות ענן
לפי ה‑CNCF, בשנת 2025 הגיעה Kubernetes ל‑82% שימוש בפרודקשן בקרב משתמשי קונטיינרים – והיא נתפסת כ"מערכת ההפעלה" של AI בארגונים. במקביל, קפיצת ההשקעות של ההייפרסקלרים בתשתיות AI וענן בשנים 2025–2026, לצד מחסור רכיבי זיכרון ו‑HBM, מייצרת לחץ כפול: גם זמינות ה‑GPU מצטמצמת וגם המחיר לשעת חישוב נותר גבוה. המשמעות בשטח: כל אחוז ניצול נוסף שיודעים להפיק מהחומרה – בפרט ב‑inference – מתורגם ישירות לכסף וזמינות. כאן נכנסות מערכות אוטונומיות כמו ScaleOps: הן ממפות בזמן אמת את הביקוש, מחליטות על קיבולת ורפליקות, ומבצעות איזון עדין בין עלות, ביצועים ועמידות – בקצב שהאדם מתקשה לעמוד בו, ובמורכבות רב‑שכבתית שאינה טריוויאלית למימוש ידני.
תחרות ומיצוב: Cast AI, Kubecost, Spot – ואיפה הייחוד של ScaleOps
שוק ה‑AI‑Infra מתחלק גס לשני זרמים: FinOps/Cost‑Visibility (למשל Kubecost) שמעניק שקיפות, תיוג עלויות והמלצות; ומערכות אוטומציה פרואקטיביות (למשל Cast AI ו‑Spot by NetApp) שמבצעות אופטימיזציה בזמן אמת. הייחוד ש‑ScaleOps מדגישה הוא תכנון "Production‑first" – אוטונומיה מודעת הקשר, הפועלת בתוך האשכול, מכבדת מדיניות קיימת, ואינה דורשת שינויי קוד או מניפסטים. בעוד Cast AI, לדוגמה, מתקדמת גם היא לעבר אוטומציה עמוקה וגייסה בשנה שעברה 108 מיליון דולר כדי להרחיב יכולות, ב‑ScaleOps טוענים כי היתרון טמון בקישור הדוק בין צורכי היישום להחלטות התזמון וההקצאה – צעד‑אחרי‑צעד, שנבחן על פי SLOs והחזר השקעה מדיד בפרודקשן.
- הקרב נע בין "לראות ולמדוד" לבין "למדוד ולפעול" – יתרון ברור לפלטפורמות מבצעות.
- אוטונומיה אמינה מחייבת שקיפות: הצגת החלטות ומדדים שמאפשרים אמון של צוותי פרודקשן.
- הבדל קריטי: ניהול GPUs ו‑LLMs דורש טיפול ב‑cold starts, בזיכרון, וב‑bin‑packing חכם.
- סינרגיה עם Karpenter/Cluster Autoscaler חשובה – אך אינה מספיקה ללא הקשר עומקים.
משמעויות לארגונים בישראל: רגולציה, on‑prem ו‑ROI מהיר
לארגונים בישראל – בנקאות, ביטוח, בריאות, סייבר ותעשיות ביטחוניות – יש אתגר כפול: אימוץ AI בפרודקשן תחת מגבלות נתונים, רגולציה ואבטחת מידע; ומצד שני שליטה בתקציב ענן בתקופה של תנודתיות ועליית מחירים. היתרון של ScaleOps, כפי שמופיע במידע הציבורי, הוא תמיכה בפריסות ענן, on‑prem ואף בסביבות מנותקות – קריטי לארגונים רגישים. לצד זאת, רשימת הלקוחות כוללת שמות ישראליים מוכרים, והמשקיעים הבולטים (Glilot, NFX) משקפים זיקה חזקה לאקוסיסטם המקומי. התרבות ההנדסית הישראלית, שמקדישה משאבים לאוטומציה ו‑SRE, עשויה ליהנות במיוחד מפלטפורמה שמחברת בין SLA עסקי להחלטות הקצאה – בתנאי שנשמרת בקרה וניתנות "רגליים" למדידת תועלת אמיתית.
- מדדי הצלחה מוסכמים מראש: חיסכון כספי נטו, עמידה ב‑SLO, זמני תגובה בשעות עומס.
- טיפול ב‑cold start של מודלים: זמני עלייה, ניהול warm pools ו‑autoscaling פרואקטיבי.
- שקיפות ובקרה: הסבר החלטות, אינטגרציה עם observability קיים והרשאות לפי least privilege.
- התאמה ל‑GitOps/CI‑CD: הוכחה שאין צורך בשינויי קוד או מניפסטים, ושאין קונפליקט עם כלים קיימים.
- עמידות לתקלות: מה קורה בהשבתת רכיב? איך נשמרת המשכיות? בדיקות כאוס מבוקרות.
- תמיכה ב‑on‑prem/air‑gapped: חבילות התקנה, עדכונים ועמידה בדרישות אבטחת מידע.
סיכונים ואתגרים: לא כל אוטומציה נוצצת זהב
כמו בכל שכבת בקרה אוטונומית, עולה שאלת ה"קופסה השחורה": עד כמה המערכת מסבירה את החלטותיה, וכיצד מונעים רגרסיות ביצועים? נוסף לכך, יש לוודא היעדר קונפליקטים עם סקלרים ו‑Schedulers קיימים (HPA/VPA, Karpenter ופתרונות ייעודיים). איכות התוצאות תלויה בדפוסי העומס, באופטימיזציה של קוד ובטופולוגיית הרשת – ולא כל חיסכון של 70% בר‑שחזור בכל ארגון. גם נושאי אבטחה, הרשאות ומגבלות נתונים בסביבות רגישות מחייבים בחינה. סוף‑סוף, אוטומציה אמינה נשענת על שקיפות, לימוד הדרגתי (canary), ו‑guardrails חזקים. ארגונים צריכים לעגן מסלול rollback מיידי, ולבנות מנגנון של מדידה רציפה כדי לוודא שהחיסכון התקציבי אינו בא על חשבון חוויית משתמש או זמינות.
מבט קדימה: האוטונומיה כקטגוריה מובחנת
סבב C של ScaleOps ממקם את החברה בקדמת מרוץ מתגבש: "Autonomous Cloud & AI Infrastructure Resource Management" – קטגוריה שמנסה לייתר ניהול ידני של תשתית ולתרגם הקשרים אפליקטיביים להחלטות תפעוליות בזמן אמת. הסטנדרטיזציה שמובילה ה‑CNCF (כגון AI Conformance) צפויה להקל על ארגונים להשוות יכולות ולאמץ רבדים אוטומטיים מבלי להינעל לספק יחיד. במקביל, השוק ימדוד את השחקנים לפי ROI מוכח, עומק אינטגרציה והיכולת להקטין מורכבות במקום להוסיף. אם ScaleOps תמשיך להראות חיסכון עקבי ושיפור ב‑SLOים – במיוחד ב‑inference בקנה מידה – היא עשויה להפוך לאחד מעמודי התווך של תפעול AI מודרני. עבור השוק הישראלי, זו עדות נוספת לכך שאוטומציה חכמה היא לא מותרות – אלא תשתית עסקית.
בשורה התחתונה: ScaleOps מגייסת הון משמעותי כדי להפוך את ניהול התשתית ל"טייס אוטומטי" – בפרט בעולמות AI שבהם כל שנייה של זמני תגובה וכל אחוז ניצול GPU נספרים. השילוב בין יכולות פנימיות באשכול, מודעות הקשרית לרמת היישום ותמיכה בפריסות ענן ו‑on‑prem מספק חבילת ערך שמדברת לשוק ברגע הנכון. כדי לממש את ההבטחה, ארגונים צריכים להיכנס לפיילוטים עם מטריקות ברורות, שקיפות מלאה ו‑guardrails. עבור סטארטאפים וחברות אנטרפרייז בישראל – זהו כלי עבודה שיכול לקצר פערים בתקציב ובזמינות, כל עוד שומרים על שליטה הנדסית והתאמה לרגולציה. 2026 מסתמנת כשנה שבה אוטומציה מבוססת הקשר תהפוך מהבטחה לסטנדרט.