תקלה במערכות גיבוי הביאה להשבתת שירותים בגוגל קלאוד למשך שעות

התקלה התרחשה בעקבות הפסקת חשמל חיצונית, אך מערכות הגיבוי שנועדו להתמודד איתה כשלו לחלוטין

{ כללי }

ניב גילינסקי

15.4.25

מחשוב ענן. אילוסטרציה: akitada31, pixabay

הפסקת חשמל שגרתית הפכה לאירוע חירום מתגלגל, כשמערכות האל-פסק כשלו והגנרטורים נחסמו. יותר מ-20 שירותים של Google Cloud הושבתו, חלקם הושפעו לזמן קצר, ואחרים לא חזרו לפעולה תקינה במשך כמעט שש שעות. בגוגל מבטיחים שינויים, אבל השאלה היא בעיקר איך זה עלול להשפיע עלינו?

כל עדכוני ה-IT, תשתית וטכנולוגיה בערוץ הטלגרם של ITtime

על פי הודעת Google Cloud, ב-29 במרץ 2025 נרשמה תקלה חמורה באחד ממרכזי הנתונים שלה באזור העיר קולומבוס שבאוהיו (ברשומות גוגל, האזור נרשם תחת השם us-east5-c). תקלה שהתחילה באובדן מתח חיצוני, תרחיש שגוגל וספקיות ענן גדולות אמורות להתמודד איתו בקלות, הפכה לאירוע מתגלגל עם תוצאה אחת ברורה: עשרות שירותים הושבתו, לקוחות נתקעו ומהנדסים נאלצו לעקוף את המערכות הקריטיות כדי להחזיר את הפעילות באופן ידני.

הפסקת חשמל? זה לא העניין

החשמל החיצוני נפל, וזה קורה. אלא שמערכת האל-פסק שאמורה לספק גיבוי מידי לא עשתה את העבודה. לפי הדו"ח הרשמי של גוגל, הסוללות קרסו ולא רק שלא הצליחו להזרים חשמל, הן גם חסמו את המעבר לגיבוי דרך גנרטורים. בפועל, במקום מעבר חלק לאספקת חשמל חלופית כפי שתוכנן, המהנדסים נאלצו לבצע מעקף פיזי למערכות האל-פסק. רק כמעט שעתיים לאחר ההפסקה הראשונית הצליחו להחזיר את הגנרטורים לפעולה.

התקלה השפיעה על יותר מ-20 שירותים קריטיים, בהם Compute Engine, Cloud SQL, Cloud Bigtable, Firestore, Kubernetes Engine, Cloud VPN, NAT, Filestore, Cloud Composer, Spanner, Cloud IAM ועוד. חלק מהשירותים הושבתו לחלוטין, ובאחרים נרשמה ירידה משמעותית בביצועים או חוסר זמינות זמני. לפי הדו"ח, רוב השירותים חזרו לפעולה עם השבת החשמל, אך שחזור מלא דרש לא מעט התערבות ידנית.

תגובת גוגל: מתנצלים ומבטיחים לתקן

גוגל פרסמה התנצלות רשמית והתחייבות לבצע מספר צעדים משמעותיים ובהם: חיזוק מסלולי התאוששות מאובדן חשמל, ביצוע תהליכי בקרה למערכות שלא עברו אוטומטית לגיבוי, סגירת פערים שהתגלו בתהליך, ושיתוף פעולה עם ספק ה-UPS כדי לחקור את כשל הסוללות ולמנוע הישנות.

האירוע הזה הוא לא רק בעיה של גוגל. הוא תזכורת למציאות שאנחנו חיים בה, גם אצל ספקיות הענן הגדולות ביותר, עם תשתיות חכמות, מערכות ניטור חזקות ומנגנוני בקרה, תקלות עדיין קורות.

וכשזה קורה, השאלה האמיתית היא עד כמה הארגון מוכן להגיב במהירות ובצורה נכונה. האם יש באמת תוכנית התאוששות מעודכנת, או שהיא סתם מסמך ישן שאף אחד לא פתח כבר שנתיים? האם מישהו יודע להצביע על אילו שירותים בענן אי-אפשר לוותר אפילו לדקה? והאם יש נהלים מסודרים למקרה ששירות קריטי פשוט מפסיק לעבוד, לא לדקות, אלא לשעות? זה לא הזמן להיכנס ללחץ, אבל כן הזמן לעצור ולבחון את ההנחות שנראה לנו שהן מובנות מאליהן.

תגיות: google cloud, גוגל קלאוד, גיבוי, הפסקת חשמל

Geektime Insider

לכל האירועים

משרות

לצפייה בכל המשרות

משרות פתוחות

לכל המשרות

קטגוריות

זה המקום להכיר את החברות, המשרדים וכל מי שעושה את ההייטק בישראל (ויש גם מלא משרות פתוחות!) #תוכן מקודם

תקלה במערכות גיבוי הביאה להשבתת שירותים בגוגל קלאוד למשך שעות

הפסקת חשמל? זה לא העניין

תגובת גוגל: מתנצלים ומבטיחים לתקן

Geektime Insider

אירועים קרובים

וובינר לקריירה בדבאופס עם עומרי ספקטור

How Do You Influence Decision-Making Processes in Your Company?

Fundrainig in pre-seed and seed stages

וובינר לקריירה בדבאופס עם עומרי ספקטור

Google Event | Building Security Products on Google Cloud Platform

משרות

משרות פתוחות

קטגוריות

רוצים שנעשה לכם פינג?