s3 outage details posted

User avatar
mavr
Уже с Приветом
Posts: 5691
Joined: 01 Mar 2004 10:57
Location: Сибирь -> Aotearoa

Re: s3 outage details posted

Post by mavr »

Сабина wrote:А я думаю это просто элементарное нежелание или отсуствие времени автоматизировать какие то вещи
Ну заавтоматизирую подобное редкое сибытие. И?
Ну вставит автоматизатор похожую залепуху туда.
Будет кому то легче что легло оно не от введеной рукой комадны а от кривой автоматизации?
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: s3 outage details posted

Post by Сабина »

mavr wrote:
Сабина wrote:А я думаю это просто элементарное нежелание или отсуствие времени автоматизировать какие то вещи
Ну заавтоматизирую подобное редкое сибытие. И?
Ну вставит автоматизатор похожую залепуху туда.
Будет кому то легче что легло оно не от введеной рукой комадны а от кривой автоматизации?
какое же оно редкое ? Явно ето рутинная вешь какие то сервера прибивать из-за billing.
А валидация бы не позволила забить hostname системы, которая не просто бокс неплательшика, а отвечает за core S3 functionality
https://www.youtube.com/watch?v=wOwblaKmyVw
mskmel
Уже с Приветом
Posts: 946
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: s3 outage details posted

Post by mskmel »

Сабина wrote:А я думаю это просто элементарное нежелание или отсуствие времени автоматизировать какие то вещи
У них и есть автоматизированный скирпт по отключению серверов, проблема в human error при его использовании, которую можно было бы избежать вышеописанными средствами: code review and training.
Также проблема в баге в этом самом скрипте, который смог отключить больше серверов чем надо для жизнедеятельности сервиса. Тушил бы он их по одному, руками, без автоматизации, ничего бы такого не произошло.

Зато представьте радость ошибшегося при отключении части интернетов? :lol: Он(а) кстати не виноват(ая), виноваты кривые процессы.
User avatar
mavr
Уже с Приветом
Posts: 5691
Joined: 01 Mar 2004 10:57
Location: Сибирь -> Aotearoa

Re: s3 outage details posted

Post by mavr »

Сабина wrote:
mavr wrote:
Сабина wrote:А я думаю это просто элементарное нежелание или отсуствие времени автоматизировать какие то вещи
Ну заавтоматизирую подобное редкое сибытие. И?
Ну вставит автоматизатор похожую залепуху туда.
Будет кому то легче что легло оно не от введеной рукой комадны а от кривой автоматизации?
какое же оно редкое ? Явно ето рутинная вешь какие то сервера прибивать из-за billing.
А валидация бы не позволила забить hostname системы, которая не просто бокс неплательшика, а отвечает за core S3 functionality
Да, да да. Вот когда совершенно ВСЕ заавтоматизируют оно как раз и п..ся так, что не соберешь.
Потому что регулярно проверять DR процедуры совсем отвыкнут.
Ну как же. Все же идеально автоматизированно.
mskmel
Уже с Приветом
Posts: 946
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: s3 outage details posted

Post by mskmel »

Сабина wrote:А валидация бы не позволила забить hostname системы, которая не просто бокс неплательшика, а отвечает за core S3 functionality
Прочитайте внимательно.
"executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process"

Надо было отключить небольшую кучку серверов используемой для одной подсистемы, но рука дрогнула и отключилось больше чем было можно. Не было там юзеровых серверов.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: s3 outage details posted

Post by Сабина »

mskmel wrote:
Сабина wrote:А я думаю это просто элементарное нежелание или отсуствие времени автоматизировать какие то вещи
У них и есть автоматизированный скирпт по отключению серверов, проблема в human error при его использовании, которую можно было бы избежать вышеописанными средствами: code review and training.
Также проблема в баге в этом самом скрипте, который смог отключить больше серверов чем надо для жизнедеятельности сервиса. Тушил бы он их по одному, руками, без автоматизации, ничего бы такого не произошло.

Зато представьте радость ошибшегося при отключении части интернетов? :lol: Он(а) кстати не виноват(ая), виноваты кривые процессы.
Такое ощущение что мы с вами разные статьи читаем :pain1:
The Amazon Simple Storage Service (S3) team was debugging an issue causing the S3 billing system to progress more slowly than expected. At 9:37AM PST, an authorized S3 team member using an established playbook executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process. Unfortunately, one of the inputs to the command was entered incorrectly and a larger set of servers was removed than intended. The servers that were inadvertently removed supported two other S3 subsystems. One of these subsystems, the index subsystem, manages the metadata and location information of all S3 objects in the region.
https://www.youtube.com/watch?v=wOwblaKmyVw
mskmel
Уже с Приветом
Posts: 946
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: s3 outage details posted

Post by mskmel »

Сабина wrote:Явно ето рутинная вешь какие то сервера прибивать из-за billing.
Если это рутинная операция прибивать серверы в продакшене, то пациент или на стадии маразма, или еще нежной юности :) Ну не обслуживают так критичные системы в компаниях вышедших из тинейджерского возраста.
mskmel
Уже с Приветом
Posts: 946
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: s3 outage details posted

Post by mskmel »

Сабина wrote:Такое ощущение что мы с вами разные статьи читаем :pain1:
one of the inputs to the command was entered incorrectly
У меня тоже такое ощущение :)

Отвечая на ваш начальный упрёк в отсутствии автоматизации - она там есть, но неидеальная помноженная на кривые процессы. Одной командой с неверным параметром весь S3 в одном ДЦ в нокдаун на 4ч.
mskmel
Уже с Приветом
Posts: 946
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: s3 outage details posted

Post by mskmel »

mavr wrote:Да, да да. Вот когда совершенно ВСЕ заавтоматизируют
Программа с одной большой красной кнопкой "Выдать мне больше з.п."? :D
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: s3 outage details posted

Post by Сабина »

mskmel wrote:
Сабина wrote:Явно ето рутинная вешь какие то сервера прибивать из-за billing.
Если это рутинная операция прибивать серверы в продакшене, то пациент или на стадии маразма, или еще нежной юности :) Ну не обслуживают так критичные системы в компаниях вышедших из тинейджерского возраста.
Товариш, вы чего :)? Речь о тех кто там уже обслуживается и не уплатил, посему удаляют
https://www.youtube.com/watch?v=wOwblaKmyVw
StrangerR
Уже с Приветом
Posts: 38016
Joined: 14 Dec 2006 20:13
Location: USA

Re: s3 outage details posted

Post by StrangerR »

alex_127 wrote: 02 Mar 2017 19:01 Human parameter entry error...
https://aws.amazon.com/message/41926/" onclick="window.open(this.href);return false;
Забавно. Один долбодятел забыл выдать tune2fs -i 0 -c 0 <Big File system>, другой не перевызывал ничего в течении 5 лет (что запросто бывает, у меня такое есть в зоопарке), третий написал софт так что удаление нескольких серверов из зоопарка вызвало полный перевызов, а четвертый зачем то стал играться с клетками во время наплыва посетителей...

Но кстати да. Полного перевызова систем с НУЛЯ амазон, скорее всего, не вынесет уже. Как и много прочих облаков.
StrangerR
Уже с Приветом
Posts: 38016
Joined: 14 Dec 2006 20:13
Location: USA

Re: s3 outage details posted

Post by StrangerR »

mskmel wrote: 03 Mar 2017 02:19
Сабина wrote:А валидация бы не позволила забить hostname системы, которая не просто бокс неплательшика, а отвечает за core S3 functionality
Прочитайте внимательно.
"executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process"

Надо было отключить небольшую кучку серверов используемой для одной подсистемы, но рука дрогнула и отключилось больше чем было можно. Не было там юзеровых серверов.
там вообще не в том дело. Судя по всему, просто система так была написанна, что отключение чуть больше чем ожидалось - приводило к перевызову серверов. Которые, как легко понять, уже лет 5 никто не перевызывал. Которые, как тоже легко понять, скорее всего сказали на перевызове _а мы уже 5 лет не проверяли эти файловые системы, а дайте как мы их проверим_. Или что-то в том-же роде.

Я в такое влетал, благо на бэкап серверах - перевызываешь его и вдруг влетаешь на 5 часовую проверку. Даже если ее выключить, то просто старт с выполнением лога изменений может занять полчаса. И ничем ты это не победишь раз уже однажды влетел. Систему надо строить так, чтобы отвалился кусочек а не вся она... или с кластером (но кластер сам себе буратино, если сломается то еще надольше) или совсем децентраллизованно. У них и human error то не было, так что никакое тестирование и автоматизация тут бы ничем не помогли.

(Правильное решение - все регулярно перевызывать, в низкую нагрузку и по 1 элементу, и контролировать время и статус. У меня в облаке например после апгрейда вдруг перевызов стал занимать вместо 10 минут - 30, а апгрейд занял каких то несчастных 3 часа вместо ожидаемых 30 минут... и это небольшое сравнительно облако. ЧТо будет в большом, сказать сложно, надо такие вещи вылавливать вовремя и в тестовой лабе обезвреживать. Основная проблема Амазона тут была в том что они игрались на продакшене да еще и в пиковое время, ну и в том что перевызовы не тестировались. А не в том, что _кто-то что-то чуть не то ввел_.)
User avatar
АццкоМото
Уже с Приветом
Posts: 15276
Joined: 01 Mar 2007 05:18
Location: VVO->ORD->DFW->SFO->DFW->PDX

Re: s3 outage details posted

Post by АццкоМото »

mskmel wrote: 02 Mar 2017 23:42
Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.
Я с вами согласен, что Unix way - это когда думать принято очень немного, недолго и неглубоко
Мат на форуме запрещен, блдж!
User avatar
Dmitry67
Уже с Приветом
Posts: 28294
Joined: 29 Aug 2000 09:01
Location: SPB --> Gloucester, MA, US --> SPB --> Paris

Re: s3 outage details posted

Post by Dmitry67 »

А вот Виндовые сервера перегружаются часто, там нет этой проблемы )))
Зарегистрированный нацпредатель, удостоверение N 19719876044787 от 22.09.2014
User avatar
Dmitry67
Уже с Приветом
Posts: 28294
Joined: 29 Aug 2000 09:01
Location: SPB --> Gloucester, MA, US --> SPB --> Paris

Re: s3 outage details posted

Post by Dmitry67 »

Кстати у меня вопрос
Что если будет создана распределенная система куда будут постепенно добавляться компоненты
А потом выЯснится что зависимость компонент образует цикл
То есть запустить ее с нуля невозможно
Зарегистрированный нацпредатель, удостоверение N 19719876044787 от 22.09.2014

Return to “Работа и Карьера в IT”