
Вчерашний сбой Facebook, который затронул Facebook Messenger, Instagram и WhatsApp, а также основную службу, произошел по ошибке собственных сетевых инженеров компании.
Ошибка привела к недоступности всех служб Facebook. Одна из аналогий описывает ее как сбой в службе «управления воздушным движением» для сетевого трафика…
Вчера мы сообщали о масштабном сбое.
Это не только у вас: Facebook, Instagram и WhatsApp в настоящее время недоступны для пользователей по всему миру. Мы видим сообщения об ошибках во всех трех сервисах в приложениях для iOS, а также в веб-версии. Пользователи сталкиваются с такими сообщениями об ошибках, как: «Извините, что-то пошло не так», «Ошибка сервера 5xx» и другими.
Сбой затрагивает каждую платформу, принадлежащую Facebook, согласно данным на Downdetector и Twitter. Это включает Instagram, Facebook, WhatsApp и Facebook Messenger […] Хотя некоторые сбои Facebook, Instagram и WhatsApp затрагивают только определенные географические регионы, сегодня сервисы недоступны по всему миру.
Постепенно становилось ясно, что проблема может быть связана с DNS — серверами доменных имен, которые сообщают устройствам, какие IP-адреса использовать для доступа к службам, — но было неясно, что именно произошло и было ли это внешним взломом, злонамеренным действием инсайдера или катастрофической ошибкой.
Facebook теперь признал в своем блоге, что это была ошибка.
Наши инженерные команды узнали, что изменения конфигурации на магистральных маршрутизаторах, координирующих сетевой трафик между нашими центрами обработки данных, вызвали проблемы, которые прервали эту связь. Это нарушение сетевого трафика вызвало каскадный эффект на способ связи наших центров обработки данных, остановив наши сервисы.
Устранение проблемы заняло много времени, потому что недоступные системы включали серверы и инструменты, которые инженеры обычно использовали бы для удаленного решения проблемы. Согласно сообщениям, рядовым сотрудникам пришлось получать физический доступ к центрам обработки данных, а затем полагаться на пошаговые инструкции от более старших инженеров, чтобы исправить ошибку. Усугубляло ситуацию то, что из-за недоступности сетей также были отключены системы доступа в помещения Facebook, что физически препятствовало доступу.
Как понять причину сбоя Facebook
Мы, несомненно, узнаем полную историю со временем, но складывается консенсусное мнение, что проблема заключалась в некоторой комбинации конфигурации DNS (Domain Name Server) и BGP (Border Gateway Protocol).
Лучшая аналогия, которую я видел, заключается в том, чтобы представить сетевой трафик как самолеты. Ваше устройство хочет перейти на facebook.com. Вашему самолету сначала нужно знать GPS-координаты аэропорта назначения, то есть IP-адрес, к которому оно должно подключиться. Эту информацию оно получает, обращаясь к DNS, которая сообщает ему, что facebook.com находится по адресу (например) 66.220.144.0.
Но чтобы добраться до конечного пункта назначения — фактического сервера, который может выполнить желаемую задачу, — требуется система, подобная управлению воздушным движением для сетевого трафика, и это BGP. BGP указывает вашему устройству, по какому маршруту лететь через различные серверы на пути к конечному пункту назначения.
Похоже, что Facebook полностью потерял свои BGP-системы — поэтому Facebook не мог сообщить устройствам, как достичь их назначения. Это касалось и собственных инженеров Facebook, пытавшихся получить доступ к системам, которые им были нужны для исправления ошибки.
Кроме того, информированный источник предполагает, что с самой DNS Facebook проблем не было, скорее, из-за потери BGP не было возможности добраться до серверов доменных имен компании.
Сбой имеет огромные последствия
Если бы люди просто не могли публиковать видео с кошками в течение нескольких часов, это было бы одно (хотя, черт возьми, что такое жизнь без видео с кошками?). Но WhatsApp фактически является критически важным коммуникационным средством во многих странах, он регулярно используется для связи между пациентами и врачами, например, и многие используют его для платежей.
Длительный сбой привлек внимание к тому, насколько уязвим весь мир к сбоям такого рода.
Например, миллионы людей полагаются на серверы Google DNS для доступа ко всем серверам на планете. Представьте, что эти серверы выйдут из строя на длительный период. Это затронет не только потребителей, но и нарушит торговлю и критически важную инфраструктуру. Производство на заводах, транспортировка грузов, розничная торговля… всё.
Весь мир критически зависит от относительно небольшого числа серверов, каждый из которых может быть отключен ошибкой, подобной той, что произошла здесь. Необходимо многое продумать, чтобы предотвратить гораздо более значительный сбой интернета в будущем.
Фото: NASA