s3 outage details posted

alex_127
Уже с Приветом
Posts: 7723
Joined: 29 Mar 2000 10:01
Location: Kirkland,WA

s3 outage details posted

Post by alex_127 »

Human parameter entry error...
https://aws.amazon.com/message/41926/" onclick="window.open(this.href);return false;
zhuravl
Уже с Приветом
Posts: 343
Joined: 20 Aug 2007 09:10
Location: So San Fran, CA

Re: s3 outage details posted

Post by zhuravl »

Одним словом, Интернет уже не стал децентрализованным, хотя создавался как военная сеть. Стоит северо-корейской ракете прилететь в один дата-центр, вся экономика США рухнет?
User avatar
Flash-04
Уже с Приветом
Posts: 63377
Joined: 03 Nov 2004 05:31
Location: RU -> Toronto, ON

Re: s3 outage details posted

Post by Flash-04 »

Дык не рухнул же ;)
Not everyone believes what I believe but my beliefs do not require them to.
zhuravl
Уже с Приветом
Posts: 343
Joined: 20 Aug 2007 09:10
Location: So San Fran, CA

Re: s3 outage details posted

Post by zhuravl »

Ну так весь факап произошел просто из-за того, что выключили и включили сервера :) А если цель ракет - сразу несколько датацентров, то во-первых 1) обратно не включишь 2) все бэкапы потеряны 3) урон в огромную сумму - не восстановишь все просто так уже никогда
User avatar
Сабина
Уже с Приветом
Posts: 19045
Joined: 11 Jan 2012 09:25
Location: CA

Re: s3 outage details posted

Post by Сабина »

zhuravl wrote:Ну так весь факап произошел просто из-за того, что выключили и включили сервера :) А если цель ракет - сразу несколько датацентров, то во-первых 1) обратно не включишь 2) все бэкапы потеряны 3) урон в огромную сумму - не восстановишь все просто так уже никогда
почему потерянные backups ? a replication ?
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
katit
Уже с Приветом
Posts: 23960
Joined: 05 Jul 2003 22:34
Location: Брест -> St. Louis, MO

Re: s3 outage details posted

Post by katit »

Сабина wrote: почему потерянные backups ? a replication ?
Если ракеты в 2 центра то для большинства будет уже все.
Лучше водки — хуже нет! ©
zhuravl
Уже с Приветом
Posts: 343
Joined: 20 Aug 2007 09:10
Location: So San Fran, CA

Re: s3 outage details posted

Post by zhuravl »

Ну так найдется отговорка почему это не сработало. Что-то вроде: мы делаем replication на несколько дата-центров, но т.к. данных много, по сети передавать долго. Поэтому мы их собираем в грузовик и отправляем. Как раз в этот день мы хотели отправить этот грузовик с данными за последние 2 месяца. Но ракета упала как раз, когда грузовик дискетами выехал за 1 сантиметр от забора. По условиям контракта мы не несем ответственности за то, что произошло вне нашего здания и тому подобрый бред.

Я, конечно, надеюсь, что у них все хорошо и репликация работает. Но судя по тому, что кто-то ввел неправильную команду и весь Интернет упал, сдается мне что это не так.

Поэтому репликацию я делаю сам (в штаты, в русское облако и в китайское). А то, что бэкапится кем-то автоматически - так это вообще не бэкап, а буквы на экране.
User avatar
Сабина
Уже с Приветом
Posts: 19045
Joined: 11 Jan 2012 09:25
Location: CA

Re: s3 outage details posted

Post by Сабина »

katit wrote:
Сабина wrote: почему потерянные backups ? a replication ?
Если ракеты в 2 центра то для большинства будет уже все.
А если в 3 ? Кто больше :D ?
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Сабина
Уже с Приветом
Posts: 19045
Joined: 11 Jan 2012 09:25
Location: CA

Re: s3 outage details posted

Post by Сабина »

Непонятно тут только одно - какого черта это не автоматизированно, или хотя бы поставлен какой то UI для запуска с валидацией полей ?
А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
https://www.youtube.com/watch?v=wOwblaKmyVw
mskmel
Уже с Приветом
Posts: 947
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: s3 outage details posted

Post by mskmel »

Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.
User avatar
Сабина
Уже с Приветом
Posts: 19045
Joined: 11 Jan 2012 09:25
Location: CA

Re: s3 outage details posted

Post by Сабина »

mskmel wrote:
Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.
Ну понятно что grep или ps-ef можно вводить безопасно для жизни окружаыщих. Ну не kill zhe :oops: ?
Тупизм as far as I am concerned ...
https://www.youtube.com/watch?v=wOwblaKmyVw
zhuravl
Уже с Приветом
Posts: 343
Joined: 20 Aug 2007 09:10
Location: So San Fran, CA

Re: s3 outage details posted

Post by zhuravl »

mskmel wrote:
Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.
Так и есть. Сколько людей уже от rm -rf / пострадало :)
User avatar
Alexander Troyansky
Уже с Приветом
Posts: 5665
Joined: 15 Aug 2008 00:52

Re: s3 outage details posted

Post by Alexander Troyansky »

вопрос телезрителей "Могло бы такое произойти на Мейнфрейме?"
I would hope that a wise white man with the richness of his experiences would more often than not reach a better conclusion than a latina female who hasn't lived that life
mskmel
Уже с Приветом
Posts: 947
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: s3 outage details posted

Post by mskmel »

Сабина wrote:
mskmel wrote:
Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.
Ну понятно что grep или ps-ef можно вводить безопасно для жизни окружаыщих. Ну не kill zhe :oops: ?
Тупизм as far as I am concerned ...
С таким "тупизмом" увы работает большинство критичных компонентов различных систем и как видно S3 не исключение.

Есть справедливое ожидание, что sudo дали кому-то знающему, внимательному и не нервному. Именно исполнение команд руками, а не через UI, исключает еще один слой со своими потенциальными ошибками - в самом UI. Особо продвинутые делают mirroring консоли, с таким же "знающим, внимательным и не нервным", который перед каждым Enter делает своё вербальное подтверждение. Следующий уровень продвинутости - третий человек, который отключает все внешние раздражители для этой пары, и отбивается от бьющихся в истерике менеджеров.

Начальный уровень продвинутости, который очевидно отсутствовал для S3 это проведение стресс тестов ("we have not completely restarted the index subsystem or the placement subsystem in our larger regions for many years."), которые тренируют исполнителей и проверяют, что таки написанные процедуры всё еще работают. В общем СамиСебеЗлыеБуратины. :food:
User avatar
Сабина
Уже с Приветом
Posts: 19045
Joined: 11 Jan 2012 09:25
Location: CA

Re: s3 outage details posted

Post by Сабина »

mskmel wrote:
Сабина wrote:
mskmel wrote:
Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.
Ну понятно что grep или ps-ef можно вводить безопасно для жизни окружаыщих. Ну не kill zhe :oops: ?
Тупизм as far as I am concerned ...
С таким "тупизмом" увы работает большинство критичных компонентов различных систем и как видно S3 не исключение.

Есть справедливое ожидание, что sudo дали кому-то знающему, внимательному и не нервному. Именно исполнение команд руками, а не через UI, исключает еще один слой со своими потенциальными ошибками - в самом UI. Особо продвинутые делают mirroring консоли, с таким же "знающим, внимательным и не нервным", который перед каждым Enter делает своё вербальное подтверждение. Следующий уровень продвинутости - третий человек, который отключает все внешние раздражители для этой пары, и отбивается от бьющихся в истерике менеджеров.

Начальный уровень продвинутости, который очевидно отсутствовал для S3 это проведение стресс тестов ("we have not completely restarted the index subsystem or the placement subsystem in our larger regions for many years."), которые тренируют исполнителей и проверяют, что таки написанные процедуры всё еще работают. В общем СамиСебеЗлыеБуратины. :food:
А я думаю это просто элементарное нежелание или отсуствие времени автоматизировать какие то вещи
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
mavr
Уже с Приветом
Posts: 6057
Joined: 01 Mar 2004 10:57
Location: Сибирь -> Aotearoa

Re: s3 outage details posted

Post by mavr »

Сабина wrote:А я думаю это просто элементарное нежелание или отсуствие времени автоматизировать какие то вещи
Ну заавтоматизирую подобное редкое сибытие. И?
Ну вставит автоматизатор похожую залепуху туда.
Будет кому то легче что легло оно не от введеной рукой комадны а от кривой автоматизации?
User avatar
Сабина
Уже с Приветом
Posts: 19045
Joined: 11 Jan 2012 09:25
Location: CA

Re: s3 outage details posted

Post by Сабина »

mavr wrote:
Сабина wrote:А я думаю это просто элементарное нежелание или отсуствие времени автоматизировать какие то вещи
Ну заавтоматизирую подобное редкое сибытие. И?
Ну вставит автоматизатор похожую залепуху туда.
Будет кому то легче что легло оно не от введеной рукой комадны а от кривой автоматизации?
какое же оно редкое ? Явно ето рутинная вешь какие то сервера прибивать из-за billing.
А валидация бы не позволила забить hostname системы, которая не просто бокс неплательшика, а отвечает за core S3 functionality
https://www.youtube.com/watch?v=wOwblaKmyVw
mskmel
Уже с Приветом
Posts: 947
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: s3 outage details posted

Post by mskmel »

Сабина wrote:А я думаю это просто элементарное нежелание или отсуствие времени автоматизировать какие то вещи
У них и есть автоматизированный скирпт по отключению серверов, проблема в human error при его использовании, которую можно было бы избежать вышеописанными средствами: code review and training.
Также проблема в баге в этом самом скрипте, который смог отключить больше серверов чем надо для жизнедеятельности сервиса. Тушил бы он их по одному, руками, без автоматизации, ничего бы такого не произошло.

Зато представьте радость ошибшегося при отключении части интернетов? :lol: Он(а) кстати не виноват(ая), виноваты кривые процессы.
User avatar
mavr
Уже с Приветом
Posts: 6057
Joined: 01 Mar 2004 10:57
Location: Сибирь -> Aotearoa

Re: s3 outage details posted

Post by mavr »

Сабина wrote:
mavr wrote:
Сабина wrote:А я думаю это просто элементарное нежелание или отсуствие времени автоматизировать какие то вещи
Ну заавтоматизирую подобное редкое сибытие. И?
Ну вставит автоматизатор похожую залепуху туда.
Будет кому то легче что легло оно не от введеной рукой комадны а от кривой автоматизации?
какое же оно редкое ? Явно ето рутинная вешь какие то сервера прибивать из-за billing.
А валидация бы не позволила забить hostname системы, которая не просто бокс неплательшика, а отвечает за core S3 functionality
Да, да да. Вот когда совершенно ВСЕ заавтоматизируют оно как раз и п..ся так, что не соберешь.
Потому что регулярно проверять DR процедуры совсем отвыкнут.
Ну как же. Все же идеально автоматизированно.
mskmel
Уже с Приветом
Posts: 947
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: s3 outage details posted

Post by mskmel »

Сабина wrote:А валидация бы не позволила забить hostname системы, которая не просто бокс неплательшика, а отвечает за core S3 functionality
Прочитайте внимательно.
"executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process"

Надо было отключить небольшую кучку серверов используемой для одной подсистемы, но рука дрогнула и отключилось больше чем было можно. Не было там юзеровых серверов.
User avatar
Сабина
Уже с Приветом
Posts: 19045
Joined: 11 Jan 2012 09:25
Location: CA

Re: s3 outage details posted

Post by Сабина »

mskmel wrote:
Сабина wrote:А я думаю это просто элементарное нежелание или отсуствие времени автоматизировать какие то вещи
У них и есть автоматизированный скирпт по отключению серверов, проблема в human error при его использовании, которую можно было бы избежать вышеописанными средствами: code review and training.
Также проблема в баге в этом самом скрипте, который смог отключить больше серверов чем надо для жизнедеятельности сервиса. Тушил бы он их по одному, руками, без автоматизации, ничего бы такого не произошло.

Зато представьте радость ошибшегося при отключении части интернетов? :lol: Он(а) кстати не виноват(ая), виноваты кривые процессы.
Такое ощущение что мы с вами разные статьи читаем :pain1:
The Amazon Simple Storage Service (S3) team was debugging an issue causing the S3 billing system to progress more slowly than expected. At 9:37AM PST, an authorized S3 team member using an established playbook executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process. Unfortunately, one of the inputs to the command was entered incorrectly and a larger set of servers was removed than intended. The servers that were inadvertently removed supported two other S3 subsystems. One of these subsystems, the index subsystem, manages the metadata and location information of all S3 objects in the region.
https://www.youtube.com/watch?v=wOwblaKmyVw
mskmel
Уже с Приветом
Posts: 947
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: s3 outage details posted

Post by mskmel »

Сабина wrote:Явно ето рутинная вешь какие то сервера прибивать из-за billing.
Если это рутинная операция прибивать серверы в продакшене, то пациент или на стадии маразма, или еще нежной юности :) Ну не обслуживают так критичные системы в компаниях вышедших из тинейджерского возраста.
mskmel
Уже с Приветом
Posts: 947
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: s3 outage details posted

Post by mskmel »

Сабина wrote:Такое ощущение что мы с вами разные статьи читаем :pain1:
one of the inputs to the command was entered incorrectly
У меня тоже такое ощущение :)

Отвечая на ваш начальный упрёк в отсутствии автоматизации - она там есть, но неидеальная помноженная на кривые процессы. Одной командой с неверным параметром весь S3 в одном ДЦ в нокдаун на 4ч.
mskmel
Уже с Приветом
Posts: 947
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: s3 outage details posted

Post by mskmel »

mavr wrote:Да, да да. Вот когда совершенно ВСЕ заавтоматизируют
Программа с одной большой красной кнопкой "Выдать мне больше з.п."? :D
User avatar
Сабина
Уже с Приветом
Posts: 19045
Joined: 11 Jan 2012 09:25
Location: CA

Re: s3 outage details posted

Post by Сабина »

mskmel wrote:
Сабина wrote:Явно ето рутинная вешь какие то сервера прибивать из-за billing.
Если это рутинная операция прибивать серверы в продакшене, то пациент или на стадии маразма, или еще нежной юности :) Ну не обслуживают так критичные системы в компаниях вышедших из тинейджерского возраста.
Товариш, вы чего :)? Речь о тех кто там уже обслуживается и не уплатил, посему удаляют
https://www.youtube.com/watch?v=wOwblaKmyVw

Return to “Работа и Карьера в IT”