
Ранее на этой неделе сервисы Amazon Web Services (AWS) столкнулись со значительным сбоем, который привел к отключению ряда онлайн-сервисов и затронул собственную платформу Apple iCloud. Хотя на тот момент причина длительного сбоя была неизвестна, Amazon опубликовал новый пост в блоге, подробно описывающий произошедшее, и указал на человеческую ошибку.
В сообщении, опубликованном в блоге Amazon Web Services, Amazon пояснил, что команда Amazon Simple Storage Service (S3) занималась отладкой проблемы, вызывавшей медленную работу платежной платформы S3. В ходе этого процесса член команды S3 выполнил неверную команду и удалил больший набор серверов, чем было запланировано.
Amazon объясняет:
К сожалению, один из входных параметров команды был введен неверно, и был удален больший набор серверов, чем предполагалось. Серверы, которые были непреднамеренно удалены, поддерживали еще две подсистемы S3. Одна из этих подсистем, индексная подсистема, управляет метаданными и информацией о местоположении всех объектов S3 в регионе. Эта подсистема необходима для обработки всех запросов GET, LIST, PUT и DELETE.
Компания далее объясняет, что подсистемы S3 спроектированы так, чтобы поддерживать удаление или сбой значительной мощности без влияния на клиентов, но из-за экспоненциального роста, с которым столкнулся Amazon, процесс перезапуска серверов и выполнения проверок безопасности занял больше времени, чем ожидалось.
Чтобы предотвратить подобные проблемы в будущем, Amazon изменил свои подсистемы, чтобы удалять мощности серверов медленнее, и добавил дополнительные механизмы защиты для выполнения проверок и ускорения процесса перезапуска и выполнения этих проверок. Amazon также перераспределяет индексную подсистему, разделяя ее на более мелкие секции, что ускорит время восстановления.
Сбой Amazon Web Services оказал значительное влияние на Интернет во вторник, особенно в восточной части Соединенных Штатов. Apple полагается на AWS для некоторых операций iCloud, и поэтому производительность iCloud также замедлилась для некоторых пользователей. Amazon завершает свой сегодняшний пост извинениями за причиненные проблемы:
Наконец, мы хотим принести извинения за влияние, которое это событие вызвало у наших клиентов. Хотя мы гордимся нашим долгим послужным списком доступности Amazon S3, мы знаем, насколько критичен этот сервис для наших клиентов, их приложений и конечных пользователей, а также их бизнеса. Мы сделаем все возможное, чтобы извлечь уроки из этого события и использовать их для дальнейшего повышения нашей доступности.