Что привело к недавним даунтаймам ЦОД Amazon, Northrop Grumman и Salesforce

Незапланированные отключения центров обработки - дорогое удовольствие. Из года в год средний размер связанных с даунтаймом издержек только растет.

Согласно результатам недавнего исследования Ponemon Institute и Vertiv, размер издержек в настоящее время составляет $ 7900 в минуту (показатель увеличился на 41 процент по сравнению с 2010 годом). При этом увеличивается и имиджевый урон, с которым приходится считаться владельцам и операторам ненадежных ЦОД. Ведь в эпоху цифровой экономики репутация высокотехнологичной компании напрямую зависит от надежности ее вычислительной инфраструктуры. Причины даунтайма могут быть самыми разными. Рассмотрим свежие кейсы Amazon, Northrop Grumman и Salesforce.

Австралийский ЦОД Amazon ушел в офлайн из-за отключения электропитания после шторма

Аварийное отключение электропитания обрушило австралийское облако Amazon Web Services (AWS) в минувшее воскресенье. Даунтайм привел к уходу в офлайн множество сайтов, принадлежащих клиентам американской компании, включая ресурсы новостных агентств и служб доставки еды, а также сервисы потоковой трансляции медиа-контента.

На официальном сайте AWS впоследствии было опубликованы извинения за случившиеся. В тексте сообщения говорилось, что причиной проблем клиентов сервиса стал уход в офлайн облачного ЦОД в Сиднее из-за перебоев в подаче электроэнергии в результате крупного шторма, обрушившихся юго-восточное побережье Австралии в минувший уик-энд. Непогода стала причиной наводнений и перебоев в подаче электроэнергии по всему Новому Южному Уэльсу. На устранение неполадок в затронутом инцидентом сиднейском дата-центре ушло чуть менее двух часов.

Отметим, что уходы ЦОД в офлайн из-за климатических факторов - не редкость для Австралии. Ранее из-за неблагоприятных погодных условий произошел сбой в дата-центре компании iiNet в Перте. Причиной в тот раз стала экстремальная жара.

Даунтайм в дата-центре Northrop Grumman вызвал неисправный сетевой коммутатор

Около 60 государственных организаций американского штата Вирджиния потеряли доступ к своим IT-системам на несколько часов в конце мая в результате отключения местного дата-центра, который является собственностью и управляется компанией Northrop Grumman. Причиной оказался неисправный сетевой коммутатор, вызвавший отключение электричества. Проблема была решена примерно через пять часов после начала даунтайма в ЦОД в городе Честер. Инженеры заменили неисправное оборудование резервным с тестовой площадки.

В пресс-релизе местной администрации говорится, что отказ коммутатора в ЦОД Northrop Grumman «вызвал отключение исходящего и входящего трафика в рамках информационно-технологической инфраструктуры органов исполнительной власти». По мнению экспертов, этот даунтайм будет способствовать дальнейшему ухудшению и без того непростых отношений между властями и их подрядчиком. Ранее чиновники уже инициировали расторжение контракта на предоставление IT-услуг с Northrop Grumman на сумму $ 2,3 млрд., подписанного в 2006 году.

Американский ЦОД Salesforce ушел в офлайн из-за отказа автоматического выключателя

Отказ автоматического выключателя оказался первоначальной причиной ухода в офлайн дата-центра облачного гиганта Salesforce в городе Вашингтон, округ Колумбия (США). Из-за сбоя автомата произошло кратковременное отключение электричества, которое, в свою очередь, вызвало проявление неизвестного ранее бага микропрограммы. В итоге некоторые клиенты Salesforce из США оказались лишены возможности получить доступ к облачным сервисам на протяжение более чем одних суток.

Инцидент побудил генерального директора Salesforce Марка Бениоффа лично извиниться перед недовольными клиентами через Twitter. «Мы приносим извинения вам и вашей организации за последствия, вызванные этим инцидентом ,» говорится в сообщении главы компании. Топ-менеджер также постарался убедить клиентов в том, что, если подобное событие произойдет в будущем, проблема будет решена гораздо быстрее.

источник