לחזק את המבצר: למנוע דליפת מידע דרך הצ'אטבוט בחמש שכבות

כלי ה-Generative AI הם כבר חלק בלתי נפרד מחיינו. כעת, כשאנו משתפים לא מעט מידע רגיש עם צ'אטבוטים, צריך גם להבין איך ניתן למנוע מהמידע לדלוף החוצה

רועי ונונו
13.3.25

כלים חדשים, אתגרים חדשים למניעת דליפת מידע. תמונה: Pixabay

בינה מלאכותית הפכה לחלק בלתי נפרד מחיינו, ואיתה הגיע האתגר המורכב של שמירה על מידע רגיש. צ'אטבוטים חכמים כמו ChatGPT ודומיו אמנם משדרגים תהליכים עסקיים ומספקים תובנות יקרות ערך, אך גם ניזונים ממידע רגיש ולעיתים אף אישי שאנחנו משתפים איתם.

כדי להתמודד עם האיומים המתפתחים, חברות מטמיעות כלים חדשים שנועדו לחסום גישה לא מורשית ולמנוע דליפת מידע. אך עם כל פתרון חדש, מופיעות גם טקטיקות תקיפה מתוחכמות יותר – כמו מתקפת Flowbreaking, שבה תוקפים מזהים נקודות תורפה בזרימת המערכת, עוקפים את מנגנוני ההגנה ומצליחים לחלץ מידע רגיש או תשובות שהיו אמורות להיחסם, וזו רק דוגמה אחת.

חולשות במודלי שפה גדולים עלולות להוביל לדליפות מידע הרסניות, וכדי להגן על המידע שלנו צריך לבנות "מבצר דיגיטלי" רב שכבתי, שמתחיל בהבנה מעמיקה של זרימת המידע ומסתיים בהגנה אקטיבית בזמן אמת. תכינו את השפכטל, אנחנו מתחילים.

שכבה ראשונה: מיפוי השטח

כמו כל מבצר טוב שנבנה לאורך ההיסטוריה, גם ההגנה על מידע רגיש מתחילה במיפוי מדויק של השטח. עלינו להבין איזה מידע היה בשימוש לטובת אימון או דיוק מודל השפה, ובמילים אחרות – להבין את הקשר בין ה-datasets ל-models. היכן הם מאוחסנים וכיצד הם זורמים במערכות. הבנה זו, המכונה AI Lineage, מאפשרת לנו לצפות אילו נתונים עלולים לדלוף מתוך המודל.

ניקח לדוגמה חברת ביטוח המשתמשת במודל שפה כדי לנתח תביעות. על מנת להגן על המידע הרגיש של לקוחותיה, עליה להבין אילו נתונים פיננסיים ואישיים מוזנים לאותו המודל וכיצד הוא מעבד אותם. השכבה הראשונה כוללת מיפוי של כל מקורות הנתונים, סיווגם לפי רגישותם ומעקב אחר תנועתם במערכות החל מהרגע שבו הוזנו.

שכבה שנייה: ניקוי יסודי מבעוד מועד

לאחר המיפוי עלינו לנקות את השטח ממידע רגיש שאינו נחוץ למודל, עוד לפני שהמודל נחשף אליו. כאן נכנס לתמונה תהליך בשם ניקוי נתונים (Data Cleansing), המאפשר לזהות ולסנן מידע רגיש שאינו רלוונטי. אם אנו בונים מערכת   RAG (מערכת אחזור מבוסס ידע), הניקוי יבוצע כחלק אינטגרלי מתהליך ה-vectorization. אם אנו מחליטים לבצע עדכון והתאמה נוספת של המודל, נבטיח כי הנתונים והמידע סוננו לפני שהמודל יאומן עליהם.

נחזור לחברת הביטוח. באמצעות ניקוי נתונים, ניתן לסנן נתונים של משאבי אנוש שאינם רלוונטיים לניתוח תביעות, ובכך לצמצם את הסיכון לחשיפת מידע רגיש של עובדים. לדוגמה, נסיר מספרי תעודת זהות או כתובות מגורים מנתוני התביעות. תהליך זה כולל זיהוי וסילוק או שינוי של נתונים שגויים, לא רלוונטיים או רגישים.

שכבה שלישית: חומת אש דיגיטלית

לאחר שמיפינו וניקינו את השטח השלב הבא בבניית המבצר שלנו הוא הקמת חומת אש דיגיטלית, שתגן על המידע בזמן אמת. באמצעות LLM Gateway, ניתן לאכוף חוקים כמו "חסום כל כניסה או יציאה של מידע פיננסי רגיש".
לדוגמה, צ'אטבוט של חברה פיננסית עלול לחשוף בטעות נתוני חשבון בנק. באמצעות LLM Gateway, ניתן לחסום כל ניסיון להזין או לקבל מידע פיננסי רגיש דרך הצ'אטבוט. מנגנונים אלו מאפשרים להגדיר חוקים ואכיפתם בזמן אמת, למניעת חדירה וזליגה של מידע רגיש.

לאכוף מדיניות גישה מפורטת. תמונה: dreamstime

שכבה הרביעית: שומרי הסף

וכמו בכל מבצר בימי הביניים, גם למבצר שלנו צריך שומרים כדי להבטיח הגנה מקסימלית. לכן, עלינו להציב "שומרי סף" דיגיטליים שיאכפו מדיניות גישה מפורטת באמצעות יצירה של מדיניות גישה ברורה ומיפוי סוגי מידע לפי תפקיד המשתמש. רק משתמשים מורשים, בעלי הרשאות מתאימות, יוכלו לגשת למידע רגיש.

לדוגמה, רק עובדים ממחלקת הכספים יוכלו לגשת למידע פיננסי רגיש, בעוד שעובדי משאבי אנוש יוכלו לגשת למידע על עובדים, אך לא למידע פיננסי. בקרת גישה זו מבוססת על עקרון "הצורך לדעת", המבטיח שכל משתמש יקבל גישה רק למידע הנחוץ לו.

שכבה חמישית: מערך מודיעין

אחרי שהמבצר עומד על תילו והצבנו שומרים בכניסה, הגענו לבסוף אל עמדת הצריח ממנה נתצפת אל עבר השטח בניסיון לזהות איומים. הצריח שלנו הוא מערך מודיעין מתקדם, אשר יזהה איומים בזמן אמת. מערך זה כולל זיהוי אנומליות, ניתוח סמנטי של בקשות ואינטגרציה עם מערכות ארגוניות כמו SIEM (Security Information and Event Management) ו-XDR (Extended Detection and Response. מדובר על איום פנימי, מתוך הארגון, ונדרשת הצלבה עם דפוסי התנהגות שקורים גם מחוץ לצ׳אטבוט. טכנולוגיית הגנת מידע יודעת לספק את ההצלבות האלה.

מערכות SIEM ו-XDR הן מערכות אבטחה המרכזות מידע ממקורות שונים בארגון ומספקות תמונה רחבה של איומים פוטנציאליים. אינטגרציה עם מערכות אלו מאפשרת לזהות אנומליות ולפעול במהירות לנטרול סיכונים. אינטגרציה עם מערכות ארגוניות מאפשרת ליצור תמונת אבטחה מקיפה ולקבל התראות בזמן אמת. לדוגמה, גם אם המנכ"ל, שלו יש גישה לכל המידע בארגון, יבקש את רשימת חשבונות הבנק של כל העובדים, המערכת תזהה את הבקשה כחריגה ותחסום אותה. ניתוח סמנטי מאפשר להבין את הכוונה מאחורי בקשות משתמשים ולזהות בקשות זדוניות.

הכותב הוא מנהל מוצר בכיר בחברת BigID, המתמחה בגילוי וניהול מידע ארגוני

משרות פתוחות

קטגוריות

זה המקום להכיר את החברות, המשרדים וכל מי שעושה את ההייטק בישראל (ויש גם מלא משרות פתוחות!) #תוכן מקודם