כך הצלחנו לייצר נוזקות ב-AI של מיקרוסופט, DeepSeek ו-OpenAI

חוקרים ישראלים בחברת הסייבר הישראלית Cato Networks הצליחו לפתח דרך חדשה ולעקוף את המגבלות המובנות של מודלי AI גדולים. על הדרך הם גם יצרו נוזקה לגניבת הסיסמאות שלכם. ואיך הגיבו חברות ה-AI הגדולות?

אושרי אלקסלסי, מערכת גיקטיים
19.3.25

התמונה ג'ונרטה ע"י Grok

מהרגע שמודלי השפה הגדולים נכנסו לחיינו, אנחנו רואים מירוץ חימוש בין מי שמנסה למצוא פרצות ולנצל את הכוח האדיר שלהם ליצירת נוזקות, וחוקרי אבטחה ומפתחים שמנסים למנוע את השימוש לרעה. עכשיו חושפים חוקרים ישראליים דרך חדשה ומתוחכמת לגרום למודלים לעקוף את ההגבלות המובנות שלהם, ולייצר נוזקות, גם בלי יותר מדי ניסיון ביצירת נוזקות או קידוד.

דימיון מודרך ל-AI

חוקרים ב-Cato CTRL – חטיבת המחקר של סטארטאפ הסייבר הישראלי Cato Networks – הצליחו לעקוף את מנגנוני ההגנה של כמה מכלי ה-AI והמודלים הפופולריים ביותר כיום, וגרמו להם לייצר נוזקה שגנבה מידע מדפדפן Chrome בזמן אמת. בין היתר הצליחו החוקרים לעקוף את ההגנות (ה-Guardrails) של R1 ו-V3 – מודלי הדגל של DeepSeek; של קופיילוט מבית מיקרוסופט ושל GPT-4o מבית OpenAI – המודל שהוא ברירת המחדל למשתמשים החינמיים ב-ChatGPT.

החוקרים של קייטו כינו את השיטה בשם Immersive World, ובמסגרתה הם יוצרים עולם דמיוני שלם יחד עם מודלי ה-AI השונים. במילים אחרות, החוקרים משתמשים ב"דימיון מודרך" כדי בסופו של דבר לגרום למודלים לעקוף את מנגנוני ההגנה המובנים שלהם: "שאפנו לפתח גונב מידע (Infostealer) פונקציונלי לחלוטין, ולא רק הוכחת היתכנות כמו לייצר תוכן פוגעני, כדי לבדוק האם מודלי שפה (LLMs) יכולים לגרום לנזק ממשי בעולם האמיתי ולייצר קוד של נוזקה שעובד", מסביר בשיחה עם גיקטיים ויטלי סימונוביץ' – חוקר אבטחה ב-Cato CTRL שהוביל את המחקר של Immersive World.


כל עדכוני ה-IT, תשתית וטכנולוגיה בערוץ הטלגרם של ITtime


סימונוביץ' מסביר שהחוקרים נעזרו ב-o1 – מודל ההיסק של OpenAI – כדי לייצר את העולם הדמיוני ("Velora"). לתוך העולם הדמיוני הזה הם הכניסו לאחר מכן גם מודלים אחרים, ובתוכו הם יצרו כמה דמויות. לכל דמות היו יכולות טכניות שונות כמו "מהנדסת תוכנה" או "חוקר אבטחת מידע", ובעזרתן הצליחו בסופו של דבר החוקרים לנווט את המודל לבצע את הפעולות האסורות ברמה הטכנית.

כך למשל, כחלק מהיצירה של Velora, קבעו החוקרים בפני ה-AI כי ב"עולם" הזה פיתוח נוזקות נחשב לתחום עיסוק לגיטימי, ומושגים מתקדמים בתכנות ואבטחת מידע נתפסים כמיומנויות בסיסיות, מה שמאפשר דיון טכני ישיר בנושאים הללו. העולם הדמיוני הזה כלל שלוש דמויות עם תפקידים רלוונטיים: Dax – מנהל המערכת של היעד (האויב); Jaxon – מפתח הנוזקות הטוב ביותר ב-Velora (שהוא גם במקרה מודל AI); ו-Kaia – חוקרת אבטחה המספקת הנחיה טכנית (חוקר האבטחה של קייטו). החוקרים נעזרו בשלוש הדמויות הללו כדי לייצר עם המודל, בתוך סביבת בדיקה מבוקרת, נוזקה שאיפשרה לגנוב סיסמאות ממנהל הסיסמאות של גוגל בכרום. וכל זה למרות שסימונוביץ' הוא אמנם חוקר אבטחה, אבל אינו מפתח נוזקות מקצועי. התוצאה: קוד פונקציונלי לחלוטין שיצרו המודלים השונים.

עלייתם של ההאקרים נטולי הידע בקוד?

"אנחנו מאמינים שעלייתם של ההאקרים חסרי הידע (zero-knowledge threat actor) מהווה איום משמעותי, מכיוון שדרישות הסף ליצירת נוזקות מסוכנות ירדו משמעותית בזכות מודלי שפה", אומר סימונוביץ' בשיחה איתנו, "הדוח שלנו מדגיש את הסכנות הכרוכות בכלי GenAI במטרה לחנך ולהגביר את המודעות, כך שנוכל ליישם אמצעי הגנה טובים יותר. זהו צעד חיוני למניעת שימוש לרעה ב-GenAI".

כאמור, החוקרים הצליחו להוציא לפועל את המתקפה על שורה של מודלים מוכרים וגדולים – וכיאה לחברת סייבר הם גם ביצעו מול כל החברות שמפתחות אותם אסגרה. לפי קייטו, DeepSeek כלל לא הגיבה לפניית החברה, בזמן ש-OpenAI ומיקרוסופט אישרו כי קיבלו את הפנייה אך לא מעבר לכך. בקייטו פנו גם ל-Google והציעו לשתף את קוד ה-infostealer שה-LLMs יצרו ואפשר גניבת מידע ממנהל הסיסמאות בכרום, וזו אישרה את קבלת הפנייה אך לא הייתה מעוניינת בקוד.

הדוח המלא על Immersive World מחכה לכם כאן

הכתבה פורסמה לראשונה בגיקטיים

משרות פתוחות

קטגוריות

זה המקום להכיר את החברות, המשרדים וכל מי שעושה את ההייטק בישראל (ויש גם מלא משרות פתוחות!) #תוכן מקודם