מחקר: יכולות הסייבר ההתקפיות של מודלי AI מוכפלות בערך כל חצי שנה

מחקר חדש ופרסומים משלימים מצביעים על קפיצה מהירה ביכולת של מודלי AI לאתר חולשות, לבנות מהלכי תקיפה רב-שלביים ולהשלים משימות שבעבר דרשו שעות של עבודה אנושית. הכתבה מסבירה מה בדיוק נמדד, איפה המודלים עדיין נופלים, ולמה הקצב הזה צריך להדאיג ארגונים, רגולטורים ותעשיית הסייבר.

תגיות
בינה מלאכותיתסייבראבטחת מידעOpenAIAnthropicClaudeGPT-5.3 Codex
מניות רלוונטיות:⚠️ ניתוח AI - אינו ייעוץ פיננסי
PANWPalo Alto Networks, Inc.
הכתבה מדגישה עלייה מהירה באיומי סייבר מבוססי AI, מה שעשוי להגדיל ביקוש לפתרונות הגנה, ניטור ותגובה מתקדמים של פאלו אלטו.
CRWDCrowdStrike Holdings, Inc.
התגברות היכולות ההתקפיות של מודלי AI עשויה לדחוף ארגונים להשקיע יותר בזיהוי איומים, EDR ותגובה אוטומטית — תחומים מרכזיים עבור קראודסטרייק.
ZSZscaler, Inc.
כאשר סיכוני הסייבר מתרחבים ומואצים בעזרת AI, ארגונים עשויים להגדיל השקעה בארכיטקטורת Zero Trust ואבטחת גישה, מה שתומך בזיסקיילר.
MSFTMicrosoft Corporation
מיקרוסופט נהנית גם מהביקוש לכלי אבטחה ארגוניים וגם מהצורך הגובר בתשתיות ו-AI הגנתי, ולכן עלולה ליהנות מהאצת ההשקעות בתחום.
GOOGLAlphabet Inc.
הכתבה מציינת את גוגל כחלק מהמגמה הרחבה של שימוש ב-GenAI בסייבר; במקביל, עלייה באיומים עשויה לחזק ביקוש לפתרונות האבטחה והענן של אלפאבית.

שורה של מחקרים ופרסומים מהימים האחרונים מציירים תמונה עקבית ומדאיגה: מודלי AI מתקדמים משתפרים במהירות ביכולות סייבר התקפיות, והקצב הזה כבר אינו תיאורטי בלבד. לפי מחקר שפורסם על ידי Lyptus Research, יכולת הסייבר ההתקפית של מודלי חזית הידע מוכפלת בקירוב כל 5.7 חודשים מאז 2024, כאשר המדד המרכזי בוחן אילו משימות תקיפה מודל מסוגל להשלים בהסתברות של 50% ביחס לזמן שהיה נדרש למומחה אנושי. לפי הממצאים, GPT-5.3 Codex ו-Claude Opus 4.6 כבר הגיעו לרמה שבה הם פותרים משימות שמומחי אבטחה מעריכים כי היו דורשות בערך 3.1 עד 3.2 שעות עבודה אנושית. מדובר לא רק בשיפור בביצועים על בנצ'מרק, אלא בהתקדמות בכושר פעולה מעשי, כזה שמשליך ישירות על ניהול סיכוני סייבר בארגונים.

מה בעצם נמדד במחקר החדש

החידוש המרכזי במחקר הוא לא רק התוצאה, אלא גם שיטת המדידה. במקום להסתפק בשאלה אם מודל הצליח או נכשל באתגר מסוים, החוקרים אימצו מסגרת שמתרגמת את רמת הקושי של משימות סייבר לזמן עבודה אנושי משוער. לצורך כך נאספו 291 משימות משבעה בנצ'מרקים שונים בתחום הסייבר ההתקפי, ובהן משימות כמו שחזור CVE, יצירת Proof of Concept לפרצות זיכרון, פתרון אתגרי Capture The Flag ופעולות תקיפה מורכבות יותר. עשרה אנשי Offensive Security מקצועיים השתתפו בהערכת הזמנים האנושיים, כך שהתוצאה אינה נשענת רק על אינטואיציה של החוקרים. הגישה הזו מאפשרת להשוות בין דורות שונים של מודלים לא רק לפי ציון אבסטרקטי, אלא לפי שאלה מעשית בהרבה: כמה זמן של מומחה אנושי המערכת מסוגלת להחליף במשימת תקיפה ממוקדת.

  • המדד המרכזי הוא P50: משך המשימה האנושית שהמודל מצליח להשלים ב-50% הצלחה.
  • מאגר הבדיקה כלל שבעה בנצ'מרקים שונים, כדי לצמצם תלות בסט בדיקות צר אחד.
  • הערכת הקושי נשענה על מומחי סייבר אנושיים ולא רק על הערכות אוטומטיות.
  • המחקר בוחן משימות התקפיות ממשיות, ולא רק שאלות ידע או קוד קצר.

במובן הזה, הכותרת על "הכפלה כל חצי שנה" אינה סיסמה עיתונאית, אלא תיאור של מגמת עלייה בזמן המשימה שהמודלים מסוגלים לשאת על גבם. לפי החוקרים, בתחילת הדרך מערכות יכלו להתמודד בעיקר עם משימות קצרות מאוד, לעיתים של דקות בודדות. כעת, המודלים המובילים מתקרבים לרף של כמה שעות עבודה אנושית רציפה על משימת תקיפה. זו קפיצה משמעותית, משום שבסייבר התקפי הערך אינו נובע רק מהברקה נקודתית, אלא מהיכולת להחזיק רצף פעולות: להבין סביבה, לנסח תוכנית, לכתוב או להתאים קוד ניצול, לבצע ניסוי וטעייה, ולתקן תוך כדי תנועה. ככל שהחלון הזה מתארך, כך פוחתת התלות במפעיל אנושי מיומן, והמשמעות מבחינת תוקפים היא ירידה בעלות הכניסה ליכולות מתקדמות.

השלמה למחקר: מודלים כבר מתקדמים גם בתקיפות רב-שלביות

התמונה מתחזקת עוד יותר כאשר מצרפים למחקר הזה עבודה נוספת, שפורסמה ב-arXiv ובחנה כיצד סוכני AI מתפקדים בתרחישי תקיפה אוטונומיים מרובי שלבים. באותו מחקר נבדקו שבעה מודלים בסביבות מדומות שנבנו במיוחד: מתקפה ארגונית בת 32 שלבים על רשת ארגונית, ותרחיש נוסף בן שבעה שלבים נגד מערכת Industrial Control System. לפי הממצאים, על התרחיש הארגוני המודל הטוב ביותר, Claude Opus 4.6, השלים בממוצע 15.6 שלבים כאשר קיבל תקציב עיבוד מורחב, ובריצת השיא הגיע ל-22 מתוך 32 שלבים. החוקרים מעריכים כי תרחיש מלא כזה היה דורש כ-14 שעות ממומחה אנושי, והביצוע הטוב ביותר של המודל מקביל לכשש שעות מתוך התרחיש. כלומר, גם כשמודדים לא משימות בודדות אלא שרשרת תקיפה רציפה, ניכרת התקדמות ברורה.

גם כאן חשוב להבין את המשמעות המבצעית. שנים של מחקר בבינה מלאכותית הניבו לא מעט הישגים בכתיבת קוד, פתרון תרגילים טכניים ומענה על שאלות תיאורטיות. אבל סייבר התקפי בעולם האמיתי דורש בדרך כלל התמדה, תיאום בין כלים, ניהול הקשר לאורך זמן וקבלת החלטות תחת אי-ודאות. לכן, העובדה שמודלים מתקדמים מתחילים להראות כושר פעולה גם בתרחישים ארוכים יותר, גם אם עדיין חלקי, היא שינוי איכותי ולא רק כמותי. לפי National Cyber Security Centre בבריטניה, ב-18 חודשים בלבד עברו המודלים המובילים ממצב של כמעט אפס התקדמות על מתקפה ארגונית ריאליסטית, למצב שבו הם מסוגלים להשלים יותר ממחציתה. נוסף על כך, נכתב כי עלות הרצה מלאה של ניסיון תקיפה כזה כבר עומדת על סדר גודל של כ-65 ליש"ט בלבד, כך שהמגבלה הולכת ונעשית כלכלית יותר מאשר מקצועית.

למה הקצב מואץ: מודלים טובים יותר, והרצה זולה יותר

לפי הגופים שחקרו את הנושא, יש כאן שתי מגמות מצטברות. הראשונה היא שמדור לדור, המודלים עצמם משתפרים ביכולת ניתוח, תכנון, כתיבת קוד ועבודה עם כלים חיצוניים. השנייה היא שגם בלי לשפר את המודל, פשוט הקצאה של יותר זמן חישוב ויותר טוקנים משפרת תוצאות באופן עקבי. במחקר על תרחישי התקיפה הרב-שלביים נמצא כי מעבר מתקציב של 10 מיליון טוקנים ל-100 מיליון טוקנים הניב שיפור של עד 59% בביצועים, בלי שהמפעיל יידרש למומחיות נוספת. במילים אחרות, תוקף לא חייב להיות האקר מבריק כדי להפיק יותר מהמערכת; לעיתים מספיקה נכונות לשלם יותר על זמן ריצה. זהו שינוי חשוב במיוחד, משום שהוא מרמז שהמחסום הקריטי אינו עוד ידע עמוק, אלא נגישות למשאבי מחשוב ולמודלים מתקדמים.

  • כל דור חדש של מודלים מציג שיפור ביכולת לבצע רצפי תקיפה מורכבים.
  • הגדלת תקציב החישוב משפרת תוצאות גם בלי לשנות את המודל עצמו.
  • העלות לביצוע ניסויים התקפיים יורדת בהדרגה, ולכן הכניסה לתחום נעשית נגישה יותר.
  • השילוב בין שיפור מודלי להוזלת הרצה יוצר האצה שמטרידה במיוחד את קהילת ההגנה.

עם זאת, גם החוקרים וגם גופי ממשל מדגישים שמדובר עדיין ביכולות חלקיות ולא בתחליף מלא לצוות תקיפה אנושי מנוסה. המודלים מתקשים במיוחד בשלבים שדורשים מומחיות צרה, כמו Reverse Engineering, קריפטוגרפיה, פיתוח נוזקות מתוחכמות או תיאום בזמן אמת בין תהליכים מקבילים. בנוסף, ככל שהמבצע מתארך, הם נוטים לאבד הקשר, לדלג על הזדמנויות או להסתבך בתיעוד פנימי לא עקבי. לכן, המסקנה המקצועית אינה ש"ה-AI כבר האקר על-אנושי", אלא שהוא נעשה במהירות שותף מבצעי יעיל יותר ויותר. עבור ההגנה, זו אבחנה מספיקה כדי להצדיק התאמות מיידיות: ניטור מהיר יותר, קיצור זמני תגובה, הקשחת מערכות ומתודולוגיות שמניחות שלתוקף יש עוזר אוטומטי סבלני, מהיר וזול.

מה כבר ראינו בעולם האמיתי

הסיבה שהמחקרים הללו זוכים כעת לתשומת לב רחבה היא שהם מצטרפים לשורה של אינדיקציות מהשטח. Anthropic דיווחה בנובמבר 2025 כי חשפה וסיכלה, לדבריה, את המקרה המתועד הראשון של קמפיין ריגול סייבר רחב היקף שבוצע ברובו באמצעות AI. לפי החברה, הקמפיין זוהה באמצע ספטמבר 2025, יוחס ברמת ביטחון גבוהה לקבוצת תקיפה בחסות מדינה מסין, ופגע בכ-30 מטרות גלובליות, כולל חברות טכנולוגיה, מוסדות פיננסיים, תעשייה כימית וגורמי ממשל. לפי הדיווח, Claude Code שימש לפירוק שרשראות תקיפה לתת-משימות ולהשלמת 80% עד 90% מהעבודה הטקטית, כאשר בני אדם התערבו רק במספר נקודות החלטה קריטיות. גופי מחקר וחברות נוספות כבר תיעדו שימוש של שחקנים עוינים ב-AI לסיור, פישינג, כתיבת קוד זדוני ועיבוד מידע, אך המקרה הזה המחיש לראשונה את הכיוון האוטונומי יותר של האיום.

כמובן, גם סביב הדיווח הזה הושמעה ביקורת. חלק מהמומחים ביקשו יותר ראיות טכניות פומביות, כמו Indicators of Compromise או תיעוד מפורט יותר של זרימת הפעולה, לפני שיקבלו במלואה את ההגדרה "הקמפיין הראשון מתוזמר על ידי AI". הביקורת הזו לגיטימית, אך היא אינה מבטלת את התמונה הרחבה. גם Google, גם OpenAI וגם גופי ממשל בארה"ב ובבריטניה מתארים בשנה האחרונה עלייה עקבית בניסיונות של שחקנים מדינתיים ופשיעת סייבר לנצל מערכות GenAI לצורכי מודיעין, הנדסה חברתית, מחקר חולשות ותמיכה במבצעי סייבר. כלומר, השאלה אינה אם AI כבר חדר לעולם התקיפה, אלא באיזו מהירות הוא עובר ממכפיל כוח נקודתי לרכיב ליבה בתהליך ההתקפי.

המשמעות לישראל: יתרון לתעשייה, אתגר למגינים

מנקודת מבט ישראלית, הסיפור הזה נוגע כמעט לכל שכבה במערכת: צה"ל וגופי ביטחון, תשתיות קריטיות, בנקים, חברות ביטוח, חברות SaaS, סטארט-אפים וכמובן ספקיות הסייבר המקומיות. ישראל היא מעצמת סייבר הגנתי, אבל גם יעד אטרקטיבי במיוחד לשחקנים מדינתיים ולארגוני תקיפה, ולכן כל קיצור בזמני הפיתוח של מתקפות או בהנגשת כלי תקיפה עלול להשפיע כאן מוקדם יחסית. מסמכי האסטרטגיה והסיכום של מערך הסייבר הלאומי מהשנה האחרונה כבר מצביעים על שילוב גובר בין סייבר לבין בינה מלאכותית, ועל צורך בהיערכות לעידן שבו AI משמש גם כלי הגנה וגם כלי תקיפה. במקביל, ראשי תעשייה ובכירים בזירה הישראלית הזהירו בחודשים האחרונים מפני מעבר לעימותים שבהם סוכני AI התקפיים והגנתיים פועלים זה מול זה במהירות גבוהה בהרבה מקצב התגובה האנושי.

  • ארגונים בישראל צריכים להניח שתוקפים יקצרו זמני מחקר, פיתוח וניסוי של מתקפות.
  • SOC, צוותי IR ו-CTI יצטרכו לשלב יותר אוטומציה מבוססת AI בצד ההגנתי.
  • חברות תוכנה יצטרכו להקשיח תהליכי Secure Development ולצמצם חלונות חשיפה לחולשות.
  • גופי רגולציה וממשלה יידרשו לעדכן מסגרות סיכון כך שיכללו במפורש תקיפה אוטומטית למחצה.

מן הצד השני, לתעשיית הסייבר הישראלית יש גם הזדמנות ברורה. אם מודלים מתקדמים משפרים את היכולת לאתר חולשות, לשחזר CVE, לנתח לוגים ולהציע נתיבי תקיפה, אותן יכולות עצמן יכולות לשמש גם לסריקה יזומה, לבדיקות חדירה פנימיות, להקשחת קוד ולצמצום זמן החקירה של אירועים. במילים אחרות, זהו תחום Dual-Use קלאסי: מי שישלב נכון בין מודלים מתקדמים, מסגרות בקרה, Human-in-the-loop והנדסת אבטחה מוקפדת, עשוי לשפר משמעותית את רמת ההגנה. עבור ישראל, שבה פועלות מאות חברות סייבר, מרכזי פיתוח וצוותי מחקר התקפי והגנתי ברמה גבוהה, הממצאים הללו עשויים לזרז פיתוח של דור חדש של כלי הגנה אוטונומיים למחצה. אבל כדי שזה יקרה באופן בטוח, נדרשת גם רגולציה חכמה, גם מדידה שיטתית של סיכון וגם מוכנות ארגונית אמיתית, לא רק התלהבות מטכנולוגיה.

השורה התחתונה

אם מחברים בין המחקר של Lyptus Research, ההערכות של AISI, הממצאים שפורסמו על ידי NCSC והאירועים שכבר דווחו על ידי חברות כמו Anthropic, מתקבלת מסקנה ברורה: הדיון על AI בסייבר עבר משלב ההשערות לשלב המדידה המבצעית. מודלים ציבוריים עדיין אינם מסוגלים להשלים לבדם מתקפה מורכבת מקצה לקצה, ובוודאי שאינם חסינים מטעויות, מאובדן הקשר ומפערי מומחיות. ובכל זאת, קצב ההתקדמות מהיר מספיק כדי לשנות כבר עכשיו את מודל האיום של ארגונים. כשיכולת התקפית מוכפלת בערך כל חצי שנה, ההנחה שמה שלא אפשרי כיום יישאר לא אפשרי גם בעוד שנה הופכת להנחה מסוכנת. לכן, עבור מנהלי אבטחה, מפתחים, רגולטורים ומשקיעים, השאלה המרכזית אינה אם להיערך לעידן של AI תוקף, אלא אם ההיערכות הזו מתקדמת מהר מספיק.

טוען...