תקלה במערכות גיבוי הביאה להשבתת שירותים בגוגל קלאוד למשך שעות
התקלה התרחשה בעקבות הפסקת חשמל חיצונית, אך מערכות הגיבוי שנועדו להתמודד איתה כשלו לחלוטין

מחשוב ענן. אילוסטרציה: akitada31, pixabay
הפסקת חשמל שגרתית הפכה לאירוע חירום מתגלגל, כשמערכות האל-פסק כשלו והגנרטורים נחסמו. יותר מ-20 שירותים של Google Cloud הושבתו, חלקם הושפעו לזמן קצר, ואחרים לא חזרו לפעולה תקינה במשך כמעט שש שעות. בגוגל מבטיחים שינויים, אבל השאלה היא בעיקר איך זה עלול להשפיע עלינו?
כל עדכוני ה-IT, תשתית וטכנולוגיה בערוץ הטלגרם של ITtime
על פי הודעת Google Cloud, ב-29 במרץ 2025 נרשמה תקלה חמורה באחד ממרכזי הנתונים שלה באזור העיר קולומבוס שבאוהיו (ברשומות גוגל, האזור נרשם תחת השם us-east5-c). תקלה שהתחילה באובדן מתח חיצוני, תרחיש שגוגל וספקיות ענן גדולות אמורות להתמודד איתו בקלות, הפכה לאירוע מתגלגל עם תוצאה אחת ברורה: עשרות שירותים הושבתו, לקוחות נתקעו ומהנדסים נאלצו לעקוף את המערכות הקריטיות כדי להחזיר את הפעילות באופן ידני.
הפסקת חשמל? זה לא העניין
החשמל החיצוני נפל, וזה קורה. אלא שמערכת האל-פסק שאמורה לספק גיבוי מידי לא עשתה את העבודה. לפי הדו"ח הרשמי של גוגל, הסוללות קרסו ולא רק שלא הצליחו להזרים חשמל, הן גם חסמו את המעבר לגיבוי דרך גנרטורים. בפועל, במקום מעבר חלק לאספקת חשמל חלופית כפי שתוכנן, המהנדסים נאלצו לבצע מעקף פיזי למערכות האל-פסק. רק כמעט שעתיים לאחר ההפסקה הראשונית הצליחו להחזיר את הגנרטורים לפעולה.
התקלה השפיעה על יותר מ-20 שירותים קריטיים, בהם Compute Engine, Cloud SQL, Cloud Bigtable, Firestore, Kubernetes Engine, Cloud VPN, NAT, Filestore, Cloud Composer, Spanner, Cloud IAM ועוד. חלק מהשירותים הושבתו לחלוטין, ובאחרים נרשמה ירידה משמעותית בביצועים או חוסר זמינות זמני. לפי הדו"ח, רוב השירותים חזרו לפעולה עם השבת החשמל, אך שחזור מלא דרש לא מעט התערבות ידנית.
תגובת גוגל: מתנצלים ומבטיחים לתקן
גוגל פרסמה התנצלות רשמית והתחייבות לבצע מספר צעדים משמעותיים ובהם: חיזוק מסלולי התאוששות מאובדן חשמל, ביצוע תהליכי בקרה למערכות שלא עברו אוטומטית לגיבוי, סגירת פערים שהתגלו בתהליך, ושיתוף פעולה עם ספק ה-UPS כדי לחקור את כשל הסוללות ולמנוע הישנות.
האירוע הזה הוא לא רק בעיה של גוגל. הוא תזכורת למציאות שאנחנו חיים בה, גם אצל ספקיות הענן הגדולות ביותר, עם תשתיות חכמות, מערכות ניטור חזקות ומנגנוני בקרה, תקלות עדיין קורות.
וכשזה קורה, השאלה האמיתית היא עד כמה הארגון מוכן להגיב במהירות ובצורה נכונה. האם יש באמת תוכנית התאוששות מעודכנת, או שהיא סתם מסמך ישן שאף אחד לא פתח כבר שנתיים? האם מישהו יודע להצביע על אילו שירותים בענן אי-אפשר לוותר אפילו לדקה? והאם יש נהלים מסודרים למקרה ששירות קריטי פשוט מפסיק לעבוד, לא לדקות, אלא לשעות? זה לא הזמן להיכנס ללחץ, אבל כן הזמן לעצור ולבחון את ההנחות שנראה לנו שהן מובנות מאליהן.