XDOF גייסה 70 מיליון דולר כדי לבנות את תשתית הדאטה לרובוטים

XDOF יוצאת ממצב חשאי עם גיוס של 70 מיליון דולר וטענה ברורה: צוואר הבקבוק של רובוטיקה מבוססת AI הוא לא רק המודל או החומרה, אלא בעיקר הנתונים. החברה רוצה להפוך את איסוף, הניקוי והתיוג של דאטה לרובוטים לשכבת תשתית מהלך שעשוי להשפיע על שוק ה-Physical AI כולו, כולל ההזדמנות הישראלית.

תגיות
XDOFphysical AIרובוטיקהנתוני אימוןOpenAIEmbodied AI

המאבק הבא בתעשיית ה-AI כבר אינו מתמקד רק במודלים גדולים, בשבבים או במרכזי נתונים. לפי דיווח של TechCrunch, הסטארט-אפ XDOF יוצא ממצב חשאי ומציג טענה שמתחילה להישמע בעוד ועוד מעבדות: אם רוצים שרובוטים ילמדו לבצע משימות בעולם האמיתי, צריך קודם לפתור את בעיית הנתונים. החברה גייסה 70 מיליון דולר ממשקיעים בולטים, ובהם Thrive Capital, Spark Capital, a16z, Lux ו-WndrCo, ומצהירה כי היא כבר עובדת עם 20 לקוחות, כולל כמה ממעבדות ה-AI המובילות בעולם. במילים אחרות, XDOF לא מנסה לבנות את הרובוט הבא שיככב בסרטון הדגמה, אלא את שכבת התשתית שממנה אפשר בכלל להתחיל לאמן רובוטים בקנה מידה תעשייתי.

למה נתוני אימון לרובוטים הם בעיה שונה לגמרי מנתוני טקסט

ההבדל המרכזי בין מהפכת ה-LLM לבין מה שמכונה כיום Physical AI או Embodied AI הוא חומר הגלם. מודלי שפה נהנו במשך שנים ממאגר כמעט אינסופי של טקסט ציבורי: אתרים, ספרים, פורומים, תיעוד טכני וקוד. ברובוטיקה, לעומת זאת, אין "אינטרנט של פעולות פיזיות". סרטוני YouTube או וידאו שצולם בידי עובדים מזדמנים יכולים לעזור לכל היותר בשלב ייצוג חזותי כללי, אבל הם לא מספקים את רמת הדיוק הדרושה כדי ללמד רובוט מה הייתה הזווית המדויקת של הזרוע, כמה כוח הופעל על חפץ, מה היה רצף המגעים, ואיך נראתה הסביבה מכל החיישנים בזמן אמת. לפי מקורות בתעשייה, זו בדיוק הנקודה שבה הרבה פרויקטים שאפתניים ברובוטיקה נתקעים: המודלים משתפרים, אבל בסיס הנתונים שעליו אפשר לאמן אותם עדיין דל, יקר ולא אחיד.

  • נתוני טקסט אפשר לאסוף מהרשת בקנה מידה עצום; נתוני רובוטיקה דורשים לכידה ייעודית בעולם הפיזי.
  • ברובוטיקה צריך סנכרון בין וידאו, עומק, מצב מפרקים, כוחות, מגע ותוצאות המשימה.
  • אי אפשר להסתפק רק ב"מה רואים"; צריך גם לדעת "מה הרובוט עשה" ו"איך".
  • העלות אינה רק בצילום, אלא בתחזוקה, כיול, ניקוי, תיוג ובקרת איכות.

מכאן גם נובע האופי הפחות זוהר של התחום. איסוף נתונים לרובוטים אינו דומה לאימון מודל על מאגר טקסטים, אלא יותר להפעלה של מערך לוגיסטי מלא: מחסנים, זרועות רובוטיות, מערכות טליאופרציה, מפעילים אנושיים, חיישנים, סביבת ניסוי, כיולים חוזרים, ובדיקה קפדנית של כל דוגמה. מנכ"ל XDOF, Philippe Wu, אמר ל-TechCrunch כי כדי לבנות מערך כזה נדרשים שטחי תפעול גדולים, מאות רובוטים, תחזוקה שוטפת והכשרת מפעילים. לכן, גם מעבדות עשירות במיוחד עשויות להעדיף להעביר את העבודה לגורם חיצוני שמתמחה בדיוק בכך. זהו היגיון שמוכר היטב גם מעולמות הענן והשבבים: כאשר התשתית מורכבת מדי, מתפתח שוק של ספקים שמתמקדים רק בה.

מה בדיוק XDOF בונה, ואיפה היא ממקמת את עצמה בשרשרת הערך

לפי הדיווח, XDOF מציגה את עצמה כשותפת תשתית עבור בוני רובוטים ומעבדות AI. החברה אינה מדברת רק על איסוף נתונים גולמיים, אלא על בניית צינור עבודה מלא: כלי איסוף, מערכות תיוג, ניקוי דאטה, תהליכי בקרת איכות ופידבק חוזר אל תהליך האימון. זוהי נקודה מהותית, משום שבתחום הזה לא מספיק לצבור עוד שעות צילום; צריך להפוך את המידע ל"דאטה בר-אימון". את אותו מסר אפשר לראות גם בחברות אחרות שפועלות סביב Physical AI: פלטפורמות חדשות מציעות רשתות מפעילים, מעבדות חומרה, אינטגרציית חיישנים, ואפילו בקרות אוטומטיות לסנכרון ולבדיקת שלמות אפיזודות. במילים אחרות, נולדת כאן תעשייה שלמה שמבקשת להיות עבור רובוטיקה מה שענן הנתונים היה עבור AI ארגוני.

אחד הפרטים המעניינים ביותר בדיווח הוא מבנה "פירמידת הנתונים" ש-XDOF מתכננת לפעול לפיה. השכבה היקרה והאיכותית ביותר היא נתוני טליאופרציה שנאספים על הרובוט הספציפי שיופעל בפועל. מתחתיה נמצאת שכבה כללית יותר של רובוטים שמופעלים מרחוק כדי לאסוף דוגמאות רחבות יותר, ובתחתית נמצאים נתונים אגוצנטריים כלומר, מידע שנאסף מבני אדם המבצעים פעולות יומיומיות, לעיתים באמצעות חיישנים לבישים ומצלמות גוף. הרעיון פשוט: לא כל משימה דורשת את אותה רמת נאמנות פיזית, אבל צריך רצף של מקורות נתונים שיאפשר גם קדם-אימון רחב וגם התאמה מדויקת יותר למשימות ולפלטפורמות ספציפיות.

  • שכבה ראשונה: נתוני טליאופרציה על הרובוט היעד עצמו יקרים, אך בעלי ערך גבוה במיוחד.
  • שכבה שנייה: איסוף כללי יותר באמצעות רובוטים נשלטים מרחוק, בדומה למערכות כמו GELLO.
  • שכבה שלישית: נתונים אגוצנטריים מבני אדם, שנועדו להרחיב כיסוי של משימות וסביבות.
  • מעל הכול: ניקוי, תיוג, בדיקות איכות והזנה חוזרת למודלי האימון.

מה הקשר ל-GELLO ול-ABC, ולמה הקהילה האקדמית עוקבת מקרוב

XDOF לא צמחה בחלל ריק. לפי TechCrunch, Wu והמייסד השותף וה-CTO Fred Shentu הגיעו מהעולם האקדמי של UC Berkeley, ושניהם היו מעורבים בפרויקט GELLO מסגרת טליאופרציה בעלות נמוכה יחסית שנועדה להקל על איסוף דוגמאות אנושיות לרובוטים. העבודה הזו השתלבה היטב במגמה רחבה יותר במחקר: הורדת חסמי העלות והמורכבות של שליטה אנושית ברובוט, כדי לייצר יותר הדגמות באיכות שימושית לאימון. לצד זאת, XDOF משתפת פעולה עם מעבדת המחקר של Berkeley בשחרור מאגר בשם ABC, שלדבריה הוא אוסף רחב במיוחד של נתוני מניפולציה רובוטית באיכות גבוהה, עם 130 אלף trajectories, כ-300 שעות סימולציה וכ-100 שעות הערכה. אם המספרים הללו יתורגמו גם לאימוץ בפועל, ייתכן שמדובר בצעד משמעותי עבור אקדמיה, שעד כה התקשתה לגשת למאגרים בקנה מידה שמאפיין תעשייה.

המשמעות של מהלכים כאלה רחבה יותר מעצם פתיחת מאגר נתונים נוסף. בעולמות ה-AI כבר ראינו שוב ושוב שמאגרי דאטה וכלי עבודה פתוחים למחצה או פתוחים לגמרי יוצרים האצה קהילתית: יותר קבוצות מחקר יכולות להשוות תוצאות, לשחזר ניסויים, להציע שיפורים ולבדוק גישות חדשות. אלא שברובוטיקה, הקפיצה הזו הייתה מוגבלת משום שהנתונים עצמם היו צוואר בקבוק. לכן XDOF מנסה למצב את עצמה לא רק כספקית שירותים מסחריים, אלא גם כשחקנית שמסייעת להגדיל את היצע חומר הגלם למחקר. זהו מהלך שיש בו גם אינטרס עסקי ברור: ככל שיותר חוקרים וחברות יתרגלו לעבוד עם סוגי הדאטה והכלים שהיא מספקת, כך יגדל הסיכוי שהיא תהפוך לשכבת תשתית מוכרת בשוק.

למה דווקא עכשיו: המרוץ של מעבדות ה-AI לעולם הפיזי

התזמון של XDOF אינו מקרי. TechCrunch מציין כי רק שבועיים לפני פרסום הכתבה OpenAI הודיעה על חידוש פעילותה ברובוטיקה, אחרי שסגרה את התוכנית הקודמת שלה ב-2021. גם בלי להישען על שחקנית אחת, הכיוון ברור: יותר ויותר חברות מנסות לחבר בין מודלים מולטימודליים, תפיסה מרחבית, תכנון פעולה ושליטה פיזית. במקביל, קמו בשנה האחרונה עוד חברות שמגדירות את עצמן כתשתית נתונים ל-Physical AI, ומציעות איסוף שטח, טליאופרציה, אנוטציה מולטימודלית ותהליכי QA. עצם הופעתן של כמה חברות שונות סביב אותה נקודת כאב מרמזת שהשוק מתחיל להכיר בכך שבלי שכבת נתונים מסודרת, ההבטחות הגדולות של רובוטים כלליים או דמויי-אדם יישארו מוגבלות להדגמות מרשימות אך צרות.

זה גם מסביר מדוע XDOF אינה נתפסת כעוד חברת שירותים אפורים, אלא כהימור על שכבה קריטית בשרשרת הערך. אם עולם ה-LLM לימד את השוק משהו, זה שמי ששולט בצינור האספקה בין אם של דאטה, מחשוב או אינטגרציה נהנה מעמדת מיקוח חזקה מאוד. במקרה של רובוטיקה, קיים פיתוי לחשוב שהחומרה היא הכוכבת הראשית, אבל בפועל, חומרה ללא נתונים מתאימים מתקשה להפוך למערכת לומדת. אפילו במערכי טליאופרציה פשוטים יחסית, בחירת מצלמה, שיטת עקיבת ידיים, קצב הדגימה, סנכרון חיישנים ואיכות כיול יכולים לשנות מהיסוד את איכות הסט שעליו המודל יתאמן. לכן, מאחורי כל דוגמה שנראית לכאורה פשוטה למשל קיפול חולצה או סידור קופסה מסתתרת שכבת הנדסה כבדה.

  • מעבדות גדולות חוזרות להשקיע ברובוטיקה וב-Embodied AI.
  • התעשייה מבינה שסימולציה לבדה אינה מספיקה לכל משימה בעולם האמיתי.
  • נולדות חברות תשתית חדשות שמוכרות איסוף, ניקוי ותיוג של נתוני Physical AI.
  • מי שיבנה סטנדרטים לדאטה איכותי עשוי להפוך לספק מרכזי של דור הרובוטים הבא.

המשמעות לישראל: הזדמנות בתשתיות, בחיישנים ובאוטומציה תעשייתית

מנקודת מבט ישראלית, הסיפור של XDOF חשוב דווקא משום שהוא מדגיש תחום שבו לא חייבים לבנות Humanoid מלא כדי להיות רלוונטיים. לישראל יש מסורת חזקה של רובוטיקה תעשייתית, אוטונומיה, ראייה ממוחשבת, חיישנים, מערכות בקרה, רחפנים, מערכות ביטחוניות, אגריטק ורובוטיקה רפואית. כל אחד מהתחומים הללו מייצר צורך בדאטה פיזי עשיר, מדויק ומסונכרן. לכן, גם אם שוק רובוטי השירות הכלליים עוד רחוק מבשלות מסחרית רחבה, ייתכן שהזדמנות קרובה יותר נמצאת דווקא בשכבות הביניים: כלי איסוף, סביבות כיול, מערכי אנוטציה, בדיקות אמינות, תוכנות טליאופרציה, תשתיות MLOps לנתונים מולטימודליים, וחומרת חישה שמאפשרת הפקת מידע איכותי יותר בעלות נמוכה יותר. אלו תחומים שמתאימים מאוד לאקו-סיסטם המקומי.

בנוסף, בישראל יש יתרון יחסי בעולמות שבהם נתוני שטח מורכבים הם חלק מה-DNA של המערכת: לוגיסטיקה, ייצור מתקדם, חקלאות מדייקת, בריאות ומערכות הגנה. אם המרוץ הבא ב-AI יוכרע בחלקו על בסיס איכות הדאטה הפיזי ולא רק על גודל המודל, חברות ישראליות יוכלו להשתלב כספקיות טכנולוגיה ולאו דווקא כמתחרות ישירות למעבדות הענק. האתגר, כמובן, הוא לא לזלזל במורכבות. הסיפור של XDOF מזכיר שהבעיה אינה רק טכנית, אלא גם תפעולית מאוד: צריך אנשים, תהליכים, כיולים, תקני איכות ויכולת לשנע מערכי איסוף בעולם האמיתי. מי שיצליח לשלב בין הנדסה עמוקה למשמעת ביצועית, ייהנה מעמדת פתיחה טובה בשוק שעדיין מעצב את עצמו.

בשורה התחתונה, XDOF מסמנת היטב את הכיוון שאליו שוק ה-AI זז: מהתלהבות ממודלים כלליים אל התמודדות עם עבודה תשתיתית, אפורה וקשה, שבלעדיה אין קפיצה אמיתית לעולם הפיזי. גיוס של 70 מיליון דולר ושיתוף פעולה עם Berkeley אינם מבטיחים הצלחה, אך הם מעידים שהמשקיעים והלקוחות הפוטנציאליים מאמינים שבעיית הנתונים ברובוטיקה הפכה סוף סוף לקטגוריה עסקית בפני עצמה. אם ההערכה הזו נכונה, מי שיבנה את פס הייצור של נתוני האימון ולא רק את הרובוטים עצמם עשוי להיות בין המרוויחים הגדולים של העשור הבא ב-AI.

טוען...