מה זה Data Lake ולמה דווקא ארגוני אנטרפרייז צריכים את זה?

עם הכניסה של 2025 CIO's, CTO's ודירקטורים של ענן ו-IT בוחנים פתרונות של אגם נתונים. מה זה, כמה זה עולה, למי זה מתאים ולמה חשוב לשים לב?

עידו ופנר
5.1.25

תמונה: dreamstime

בעידן הדיגיטלי ארגונים מתמודדים עם כמויות אדירות של מידע המגיע ממקורות מגוונים – אתרי אינטרנט, אפליקציות, פלטפורמות מידע, רשתות חברתיות, מכשירים חכמים ועוד. המידע הזה לא רק מבוזר בין מערכות שונות, אלא לעיתים קרובות גם מאוחסן בסביבות שונות, כולל בסביבות מרובות עננים, פרטיים וציבוריים. התוצאה היא שקשה יותר לנתח, לנהל ולמצות את הערך העסקי האמיתי של המידע שנמצא ברשותנו, ויכולה להיות לכך השפעה על קבלת החלטות בארגון.

רגע לפני 2025, הקברניטים בארגונים- CIOs, CTOs, Director of Cloud/IT – בוחנים אם לבנות Data Lake לא רק כפתרון טכנולוגי, אלא כאסטרטגיה עסקית. אז בואו נבין מה זה אגם נתונים, למי הוא מתאים ולמה חשוב לשים לב?

כל המידע במקום אחד

"אגם נתונים" או בשפה המקצועית "Data Lake" הוא מאגר מידע מרכזי וגמיש המאפשר לארגונים לאחסן את כל המידע שברשותו במקום אחד. הוא יכול להכיל כמויות עצומות של נתונים מכל הסוגים, ללא תלות במבנה ובפורמט המקורי שלהם, ולעבד אותם בצורה יעילה; נתוני מסמכים, מידע מ-CRM, קובצי אקסל, תמונות, סרטונים, קובצי PDF, דוחות, מצגות ועוד – כולם נשמרים באותו המקום ללא שינוי פורמט.

מידע מסוג נתונים מובנים (Structured Data) – נתונים מ-CRM או מערכות מסוג ERP, מסד נתונים מסוג SQL וגם נתונים בפורמט קובץ אקסל כמו דוחות נחשבים לנתונים מובנים.

נתונים בלתי מובנים (Unstructured Data) – אלו נתונים שלא ניתן לסדר אותם בתוך טבלה ואין להם מבנה מוגדר כמו: קובצי וידאו, תמונות, מצגות, קובצי Word וגם PDF הנחשבים נתונים בלתי מובנים.

נתונים חצי מובנים (Semi-structured Data) – אלו נתונים בעלי מבנה חלקי כמו קבצי CSV, XML וגם JSON. לוגים של מערכת או אפליקציות גם יכולות להיכלל כנתונים חצי מובנים.

להפיק מידע איכותי ונקי

פתרונות מסוג Data Lake משמשים ארגונים במגוון סקטורים. בתחום ההייטק זה לרוב לצורך הבנת צורכי הלקוח, ניתוח נתוני משתמשים ופיתוח בתחום AI; בסקטור הפיננסי השימוש הנפוץ הוא לניהול סיכונים וגילוי הונאות; בתחום הבריאות לניתוח נתוני חולים ומחקר רפואי ועוד. פתרונות אלה פחות מתאימים לארגונים קטנים כמו סטארטאפים, המידע שברשותם אינו מסודר או עדיין לא מספיק לביצוע ניתוחים כדי לקבל החלטות. אלה לרוב יעדיפו להשתמש בפתרונות מסורתיים כמו Data Warehouse או פתרונות פשוטים כמו עבודה עם מסדי נתונים.


כל עדכוני ה-IT, תשתית וטכנולוגיה בערוץ הטלגרם של ITtime


אגם נתונים מסייע לקבל ראייה הוליסטית ורחבה של כלל הנתונים כדי שניתן יהיה לשפר את השירות, להביא חדשנות ואף להגדיל את היעילות הארגונית, אך יש לו גם תפקיד חשוב בהכנת הארגון להטמעה של טכנולוגיית AI.

כולנו מבינים שהמידע שברשותנו הוא אחד הנכסים החשובים ביותר עבור הארגון, אבל כדי להפיק תובנות משמעותיות ממנו באמצעות שירותי ענן, עלינו להבטיח שהוא איכותי, מדויק ונמצא במקום אחד. במידע שאינו איכותי, לא נקי או לא מסודר, לא ניתן לעבוד בצורה אפקטיבית עם בינה מלאכותית או למידת מכונה, שכן התוצאה תהיה מודלים לא אמינים ותובנות שאינן מספקות ערך אמיתי.

ספקיות הענן מציעות כיום ארסנל רחב של שירותים מתקדמים שיכולים לעזור בפיתוח ופריסה של מודלים מבוססי AI. למשל כדי לפתח ולאמן מודלים בתחום AI ו-Machine Learning, לאסוף מידע, לנקות אותו ולהכין את הנתונים בצורה טובה ויעילה, ואפילו שירותים ליצירת מודלים בתחום Gen-AI. כל אחד מאלה ממלא תפקיד ייחודי בתהליך, אך הם תלויים במידע איכותי ומותאם, ובלעדיו הם כמעט חסרי תועלת.

אז הבנו שריכוז כל המידע הארגוני במקום אחד נגיש הוא חשוב להפקת דאטה איכותי, ומכאן להטמעה טובה של כלי AI, אבל יש עוד צד שחשוב להכיר – חיסכון בעלויות ענן. ניהול מרכזי של כלל הנתונים יכול להוזיל בצורה משמעותית את העלויות של הארגון בעבור שירותי הענן שלו, שכן הוא חוסך פתרונות מבוזרים שנמצאים על מספר רב של סביבות שונות של עננים שלכל אחת עלות אחרת.

אם אתם שוקלים ללכת לכיוון של פתרון אגם נתונים בשנה הקרובה חשוב שתשימו לב לכמה דברים חשובים:

אבטחה – ראשית, נצטרך לבחון את המידע שנמצא ברשותנו. נתונים רגישים כגון מספרי אשראי, תעודת זהות או מספרי דרכונים נצטרך לא רק להצפין את המידע, אלא לדאוג לגישה מאובטחת, כולל הגדרת זהויות והפעולות שניתן לבצע במידע. אם המידע נמצא במסד נתונים, ישנם כלים ייעודיים שיוכלו לסרוק ולאתר את החשיפות לסיכונים, וכיום כל מסד נתונים בענן מכיל סט של יכולות אבטחת מידע כדי להגן על הנתונים.

אם ישנם קבצים מסוגים שונים שאינם מסדי נתונים ומכילים מידע רגיש, נוכל גם להצפין את המידע וגם להשתמש בכלים כדי לזהות דפוסי מידע רגיש, וגם כאן ניתן לקבוע מי רשאי לגשת לאיזו תיקייה, אפילו עד רמת הקובץ ובהתאם לרגישות. מומלץ להוסיף גם יכולות ניטור אבטחתיים שיוכלו לתעד את הגישה לקבצים, למסדי הנתונים לצורך תיעוד (Audit).

רגולציה – בימים אלו ניתן להשתמש בשירותי ענן מתקדמים על מנת לדאוג לזמינות (High Availability) ואמינות המידע שנמצאת ברשותנו, ואף ניתן בלחיצת כפתור לבחור את רמת השרידות הנדרשת לארגון. בעזרת השירותים המנוהלים נוכל לספק גיבוי והתאוששות מהירה לפי SLA שיוגדר על ידי צוות אבטחת המידע. ישנן עוד יכולות ,כמו לקרב את המידע למשתמשים כדי לאפשר נגישות וזמינות באמצעות שירותי ענן כמו באזור הזמן (Region) של מדינת ישראל לדוגמה, כדי למנוע איטיות ואף לעלות את רמת האבטחה לארגונים שרוצים שהמידע ישראל בגבולות מדינת ישראל. אך חשוב לזכור שהרגולציה מאפשרת לשמור את המידע (תלוי בסוג המידע) באזור זמן (Region) שאינם בגבולות ישראל כמו באירלנד.

עלויות הקמה – בניית פתרון מסוג Data Lake הוא אינו זול, אך ניתן להוזיל את העלויות בעזרת עבודה עם שירותי ענן ושימוש בפתרונות מסוג Serverless. משמע, ניתן לחסוך בעלויות תפעול תשתיות הענן ולשלוט בתדירות צריכת הנתונים. כדי שהפתרון יעבוד כמו שצריך ויהיה אפקטיבי, יש גם צורך לבנות אסטרטגיה מתאימה שתתאים לצורך העסקי ונדרשים אנשים עם כישורים מתאימים.

ארגונים בוחרים בימים אלו לבנות Data Lake לא רק כפתרון טכנולוגי, אלא כאסטרטגיה עסקית שמאפשרת התייעלות, הפקת תבונות וגם להביא גם חדשנות. ישנן פתרונות בשוק שמאפשרים להפוך את המידע שלנו ל"אגם נתונים", כך שהאחסון בארגון יהפוך לפטלפורמה חכמה, גמישה ומשתלמת.

הכותב הוא CTO for CEE&EM בחברת Kyndryl

משרות פתוחות

אולי פיספסת

קטגוריות

זה המקום להכיר את החברות, המשרדים וכל מי שעושה את ההייטק בישראל (ויש גם מלא משרות פתוחות!) #תוכן מקודם