s3 outage details posted
-
- Уже с Приветом
- Posts: 7723
- Joined: 29 Mar 2000 10:01
- Location: Kirkland,WA
s3 outage details posted
Human parameter entry error...
https://aws.amazon.com/message/41926/" onclick="window.open(this.href);return false;
https://aws.amazon.com/message/41926/" onclick="window.open(this.href);return false;
-
- Уже с Приветом
- Posts: 343
- Joined: 20 Aug 2007 09:10
- Location: So San Fran, CA
Re: s3 outage details posted
Одним словом, Интернет уже не стал децентрализованным, хотя создавался как военная сеть. Стоит северо-корейской ракете прилететь в один дата-центр, вся экономика США рухнет?
-
- Уже с Приветом
- Posts: 63430
- Joined: 03 Nov 2004 05:31
- Location: RU -> Toronto, ON
Re: s3 outage details posted
Дык не рухнул же ![Wink ;)](./images/smilies/wink.gif)
![Wink ;)](./images/smilies/wink.gif)
Not everyone believes what I believe but my beliefs do not require them to.
-
- Уже с Приветом
- Posts: 343
- Joined: 20 Aug 2007 09:10
- Location: So San Fran, CA
Re: s3 outage details posted
Ну так весь факап произошел просто из-за того, что выключили и включили сервера
А если цель ракет - сразу несколько датацентров, то во-первых 1) обратно не включишь 2) все бэкапы потеряны 3) урон в огромную сумму - не восстановишь все просто так уже никогда
![Smile :)](./images/smilies/icon_smile.gif)
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: s3 outage details posted
почему потерянные backups ? a replication ?zhuravl wrote:Ну так весь факап произошел просто из-за того, что выключили и включили сервераА если цель ракет - сразу несколько датацентров, то во-первых 1) обратно не включишь 2) все бэкапы потеряны 3) урон в огромную сумму - не восстановишь все просто так уже никогда
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 23804
- Joined: 05 Jul 2003 22:34
- Location: Брест -> St. Louis, MO
Re: s3 outage details posted
Если ракеты в 2 центра то для большинства будет уже все.Сабина wrote: почему потерянные backups ? a replication ?
Лучше водки — хуже нет! ©
-
- Уже с Приветом
- Posts: 343
- Joined: 20 Aug 2007 09:10
- Location: So San Fran, CA
Re: s3 outage details posted
Ну так найдется отговорка почему это не сработало. Что-то вроде: мы делаем replication на несколько дата-центров, но т.к. данных много, по сети передавать долго. Поэтому мы их собираем в грузовик и отправляем. Как раз в этот день мы хотели отправить этот грузовик с данными за последние 2 месяца. Но ракета упала как раз, когда грузовик дискетами выехал за 1 сантиметр от забора. По условиям контракта мы не несем ответственности за то, что произошло вне нашего здания и тому подобрый бред.
Я, конечно, надеюсь, что у них все хорошо и репликация работает. Но судя по тому, что кто-то ввел неправильную команду и весь Интернет упал, сдается мне что это не так.
Поэтому репликацию я делаю сам (в штаты, в русское облако и в китайское). А то, что бэкапится кем-то автоматически - так это вообще не бэкап, а буквы на экране.
Я, конечно, надеюсь, что у них все хорошо и репликация работает. Но судя по тому, что кто-то ввел неправильную команду и весь Интернет упал, сдается мне что это не так.
Поэтому репликацию я делаю сам (в штаты, в русское облако и в китайское). А то, что бэкапится кем-то автоматически - так это вообще не бэкап, а буквы на экране.
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: s3 outage details posted
А если в 3 ? Кто большеkatit wrote:Если ракеты в 2 центра то для большинства будет уже все.Сабина wrote: почему потерянные backups ? a replication ?
![Very Happy :D](./images/smilies/biggrin.gif)
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: s3 outage details posted
Непонятно тут только одно - какого черта это не автоматизированно, или хотя бы поставлен какой то UI для запуска с валидацией полей ?
А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 946
- Joined: 24 Sep 2013 05:58
- Location: US\GA
Re: s3 outage details posted
Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: s3 outage details posted
Ну понятно что grep или ps-ef можно вводить безопасно для жизни окружаыщих. Ну не kill zhemskmel wrote:Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
![Embarassed :oops:](./images/smilies/blush.gif)
Тупизм as far as I am concerned ...
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 343
- Joined: 20 Aug 2007 09:10
- Location: So San Fran, CA
Re: s3 outage details posted
Так и есть. Сколько людей уже от rm -rf / пострадалоmskmel wrote:Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
![Smile :)](./images/smilies/icon_smile.gif)
-
- Уже с Приветом
- Posts: 5753
- Joined: 15 Aug 2008 00:52
Re: s3 outage details posted
вопрос телезрителей "Могло бы такое произойти на Мейнфрейме?"
I would hope that a wise white man with the richness of his experiences would more often than not reach a better conclusion than a latina female who hasn't lived that life
-
- Уже с Приветом
- Posts: 946
- Joined: 24 Sep 2013 05:58
- Location: US\GA
Re: s3 outage details posted
С таким "тупизмом" увы работает большинство критичных компонентов различных систем и как видно S3 не исключение.Сабина wrote:Ну понятно что grep или ps-ef можно вводить безопасно для жизни окружаыщих. Ну не kill zhemskmel wrote:Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо?
Тупизм as far as I am concerned ...
Есть справедливое ожидание, что sudo дали кому-то знающему, внимательному и не нервному. Именно исполнение команд руками, а не через UI, исключает еще один слой со своими потенциальными ошибками - в самом UI. Особо продвинутые делают mirroring консоли, с таким же "знающим, внимательным и не нервным", который перед каждым Enter делает своё вербальное подтверждение. Следующий уровень продвинутости - третий человек, который отключает все внешние раздражители для этой пары, и отбивается от бьющихся в истерике менеджеров.
Начальный уровень продвинутости, который очевидно отсутствовал для S3 это проведение стресс тестов ("we have not completely restarted the index subsystem or the placement subsystem in our larger regions for many years."), которые тренируют исполнителей и проверяют, что таки написанные процедуры всё еще работают. В общем СамиСебеЗлыеБуратины.
![food :food:](./images/smilies/eda.gif)
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: s3 outage details posted
А я думаю это просто элементарное нежелание или отсуствие времени автоматизировать какие то вещиmskmel wrote:С таким "тупизмом" увы работает большинство критичных компонентов различных систем и как видно S3 не исключение.Сабина wrote:Ну понятно что grep или ps-ef можно вводить безопасно для жизни окружаыщих. Ну не kill zhemskmel wrote:Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо?
Тупизм as far as I am concerned ...
Есть справедливое ожидание, что sudo дали кому-то знающему, внимательному и не нервному. Именно исполнение команд руками, а не через UI, исключает еще один слой со своими потенциальными ошибками - в самом UI. Особо продвинутые делают mirroring консоли, с таким же "знающим, внимательным и не нервным", который перед каждым Enter делает своё вербальное подтверждение. Следующий уровень продвинутости - третий человек, который отключает все внешние раздражители для этой пары, и отбивается от бьющихся в истерике менеджеров.
Начальный уровень продвинутости, который очевидно отсутствовал для S3 это проведение стресс тестов ("we have not completely restarted the index subsystem or the placement subsystem in our larger regions for many years."), которые тренируют исполнителей и проверяют, что таки написанные процедуры всё еще работают. В общем СамиСебеЗлыеБуратины.
https://www.youtube.com/watch?v=wOwblaKmyVw