s3 outage details posted

alex_127
Уже с Приветом
Posts: 7723
Joined: 29 Mar 2000 10:01
Location: Kirkland,WA

s3 outage details posted

Post by alex_127 »

Human parameter entry error...
https://aws.amazon.com/message/41926/" onclick="window.open(this.href);return false;
zhuravl
Уже с Приветом
Posts: 343
Joined: 20 Aug 2007 09:10
Location: So San Fran, CA

Re: s3 outage details posted

Post by zhuravl »

Одним словом, Интернет уже не стал децентрализованным, хотя создавался как военная сеть. Стоит северо-корейской ракете прилететь в один дата-центр, вся экономика США рухнет?
User avatar
Flash-04
Уже с Приветом
Posts: 63430
Joined: 03 Nov 2004 05:31
Location: RU -> Toronto, ON

Re: s3 outage details posted

Post by Flash-04 »

Дык не рухнул же ;)
Not everyone believes what I believe but my beliefs do not require them to.
zhuravl
Уже с Приветом
Posts: 343
Joined: 20 Aug 2007 09:10
Location: So San Fran, CA

Re: s3 outage details posted

Post by zhuravl »

Ну так весь факап произошел просто из-за того, что выключили и включили сервера :) А если цель ракет - сразу несколько датацентров, то во-первых 1) обратно не включишь 2) все бэкапы потеряны 3) урон в огромную сумму - не восстановишь все просто так уже никогда
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: s3 outage details posted

Post by Сабина »

zhuravl wrote:Ну так весь факап произошел просто из-за того, что выключили и включили сервера :) А если цель ракет - сразу несколько датацентров, то во-первых 1) обратно не включишь 2) все бэкапы потеряны 3) урон в огромную сумму - не восстановишь все просто так уже никогда
почему потерянные backups ? a replication ?
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
katit
Уже с Приветом
Posts: 23804
Joined: 05 Jul 2003 22:34
Location: Брест -> St. Louis, MO

Re: s3 outage details posted

Post by katit »

Сабина wrote: почему потерянные backups ? a replication ?
Если ракеты в 2 центра то для большинства будет уже все.
Лучше водки — хуже нет! ©
zhuravl
Уже с Приветом
Posts: 343
Joined: 20 Aug 2007 09:10
Location: So San Fran, CA

Re: s3 outage details posted

Post by zhuravl »

Ну так найдется отговорка почему это не сработало. Что-то вроде: мы делаем replication на несколько дата-центров, но т.к. данных много, по сети передавать долго. Поэтому мы их собираем в грузовик и отправляем. Как раз в этот день мы хотели отправить этот грузовик с данными за последние 2 месяца. Но ракета упала как раз, когда грузовик дискетами выехал за 1 сантиметр от забора. По условиям контракта мы не несем ответственности за то, что произошло вне нашего здания и тому подобрый бред.

Я, конечно, надеюсь, что у них все хорошо и репликация работает. Но судя по тому, что кто-то ввел неправильную команду и весь Интернет упал, сдается мне что это не так.

Поэтому репликацию я делаю сам (в штаты, в русское облако и в китайское). А то, что бэкапится кем-то автоматически - так это вообще не бэкап, а буквы на экране.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: s3 outage details posted

Post by Сабина »

katit wrote:
Сабина wrote: почему потерянные backups ? a replication ?
Если ракеты в 2 центра то для большинства будет уже все.
А если в 3 ? Кто больше :D ?
https://www.youtube.com/watch?v=wOwblaKmyVw
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: s3 outage details posted

Post by Сабина »

Непонятно тут только одно - какого черта это не автоматизированно, или хотя бы поставлен какой то UI для запуска с валидацией полей ?
А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
https://www.youtube.com/watch?v=wOwblaKmyVw
mskmel
Уже с Приветом
Posts: 946
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: s3 outage details posted

Post by mskmel »

Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: s3 outage details posted

Post by Сабина »

mskmel wrote:
Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.
Ну понятно что grep или ps-ef можно вводить безопасно для жизни окружаыщих. Ну не kill zhe :oops: ?
Тупизм as far as I am concerned ...
https://www.youtube.com/watch?v=wOwblaKmyVw
zhuravl
Уже с Приветом
Posts: 343
Joined: 20 Aug 2007 09:10
Location: So San Fran, CA

Re: s3 outage details posted

Post by zhuravl »

mskmel wrote:
Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.
Так и есть. Сколько людей уже от rm -rf / пострадало :)
User avatar
Alexander Troyansky
Уже с Приветом
Posts: 5753
Joined: 15 Aug 2008 00:52

Re: s3 outage details posted

Post by Alexander Troyansky »

вопрос телезрителей "Могло бы такое произойти на Мейнфрейме?"
I would hope that a wise white man with the richness of his experiences would more often than not reach a better conclusion than a latina female who hasn't lived that life
mskmel
Уже с Приветом
Posts: 946
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: s3 outage details posted

Post by mskmel »

Сабина wrote:
mskmel wrote:
Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.
Ну понятно что grep или ps-ef можно вводить безопасно для жизни окружаыщих. Ну не kill zhe :oops: ?
Тупизм as far as I am concerned ...
С таким "тупизмом" увы работает большинство критичных компонентов различных систем и как видно S3 не исключение.

Есть справедливое ожидание, что sudo дали кому-то знающему, внимательному и не нервному. Именно исполнение команд руками, а не через UI, исключает еще один слой со своими потенциальными ошибками - в самом UI. Особо продвинутые делают mirroring консоли, с таким же "знающим, внимательным и не нервным", который перед каждым Enter делает своё вербальное подтверждение. Следующий уровень продвинутости - третий человек, который отключает все внешние раздражители для этой пары, и отбивается от бьющихся в истерике менеджеров.

Начальный уровень продвинутости, который очевидно отсутствовал для S3 это проведение стресс тестов ("we have not completely restarted the index subsystem or the placement subsystem in our larger regions for many years."), которые тренируют исполнителей и проверяют, что таки написанные процедуры всё еще работают. В общем СамиСебеЗлыеБуратины. :food:
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: s3 outage details posted

Post by Сабина »

mskmel wrote:
Сабина wrote:
mskmel wrote:
Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.
Ну понятно что grep или ps-ef можно вводить безопасно для жизни окружаыщих. Ну не kill zhe :oops: ?
Тупизм as far as I am concerned ...
С таким "тупизмом" увы работает большинство критичных компонентов различных систем и как видно S3 не исключение.

Есть справедливое ожидание, что sudo дали кому-то знающему, внимательному и не нервному. Именно исполнение команд руками, а не через UI, исключает еще один слой со своими потенциальными ошибками - в самом UI. Особо продвинутые делают mirroring консоли, с таким же "знающим, внимательным и не нервным", который перед каждым Enter делает своё вербальное подтверждение. Следующий уровень продвинутости - третий человек, который отключает все внешние раздражители для этой пары, и отбивается от бьющихся в истерике менеджеров.

Начальный уровень продвинутости, который очевидно отсутствовал для S3 это проведение стресс тестов ("we have not completely restarted the index subsystem or the placement subsystem in our larger regions for many years."), которые тренируют исполнителей и проверяют, что таки написанные процедуры всё еще работают. В общем СамиСебеЗлыеБуратины. :food:
А я думаю это просто элементарное нежелание или отсуствие времени автоматизировать какие то вещи
https://www.youtube.com/watch?v=wOwblaKmyVw

Return to “Работа и Карьера в IT”