s3 outage details posted
-
- Уже с Приветом
- Posts: 4207
- Joined: 10 Jan 2004 01:22
- Location: n-sk -> MD -> VA
Re: s3 outage details posted
удивительно что в амазоне что-то работает, учитывая что там ротация оффисных рабочих как в индусском бадишопе
-
- Уже с Приветом
- Posts: 63430
- Joined: 03 Nov 2004 05:31
- Location: RU -> Toronto, ON
Re: s3 outage details posted
Можно, но с помощью какой-то матери (с)Dmitry67 wrote:Кстати у меня вопрос
Что если будет создана распределенная система куда будут постепенно добавляться компоненты
А потом выЯснится что зависимость компонент образует цикл
То есть запустить ее с нуля невозможно
Not everyone believes what I believe but my beliefs do not require them to.
-
- Уже с Приветом
- Posts: 15420
- Joined: 30 Apr 2003 16:43
- Has thanked: 1 time
Re: s3 outage details posted
Я полагаю что в случае с mainframe для решения "an issue causing the S3 billing system to progress more slowly than expected." не понадобилось бы "to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process.".Alexander Troyansky wrote: 03 Mar 2017 01:10 вопрос телезрителей "Могло бы такое произойти на Мейнфрейме?"
Если предположить что аналогом "tool to remove capacity" является HMC (Hardware Management Console), то могу сказать что HMC критические операции сопровождает в несколько шагов ("more slowly") и требует ввода пароля a нажатие клавиши "Enter" по умолчанию означает отмену операции, т.е. для выполнения операции нужно подвести указатель на кнопу "Yes" и кликнуть.
-
- Уже с Приветом
- Posts: 15420
- Joined: 30 Apr 2003 16:43
- Has thanked: 1 time
Re: s3 outage details posted
Странно что Амазон строит критические системы на файловой системе с указателями целость которых нужно проверять при холодном старте (после аварийного останова как я понял).
Файловая система zOS/ MVS устроена так что файлы (наборы данных) оккупируют область дисков заданного размера (может быть несколько дисков сразу) и в дальнейшем расширяются заданными кусками (extent) которые можно и отменить. Таким образом холодный старт после аварии системы лишь проверяет были ли завершены операции расширения наборов данных на диске - это проверка одного бита на диске - и если такая операция была прервана, то идет проверка extents всех наборов данных и сопоставление их с данными о свободных участках. Эта проверка позволяет починить диск гораздо быстрее чем в случае блочной файловой системы с цепочками блоков.
Примерно так и надо было поступать Амазону.
Файловая система zOS/ MVS устроена так что файлы (наборы данных) оккупируют область дисков заданного размера (может быть несколько дисков сразу) и в дальнейшем расширяются заданными кусками (extent) которые можно и отменить. Таким образом холодный старт после аварии системы лишь проверяет были ли завершены операции расширения наборов данных на диске - это проверка одного бита на диске - и если такая операция была прервана, то идет проверка extents всех наборов данных и сопоставление их с данными о свободных участках. Эта проверка позволяет починить диск гораздо быстрее чем в случае блочной файловой системы с цепочками блоков.
Примерно так и надо было поступать Амазону.
-
- Уже с Приветом
- Posts: 15420
- Joined: 30 Apr 2003 16:43
- Has thanked: 1 time
Re: s3 outage details posted
Недавно распечатал ибм-скую книжку по zSeries (for dummies. Слабая книжонка, с сильным коммерческим уклоном). Там есть такая фраза мол беда распределенных систем как раз в распределенности и состоит, из нее так сказать вытекает.Dmitry67 wrote: 16 Mar 2017 16:50 Кстати у меня вопрос
Что если будет создана распределенная система куда будут постепенно добавляться компоненты
А потом выЯснится что зависимость компонент образует цикл
То есть запустить ее с нуля невозможно
Вы, Дима, правильно подметели что с ростом количества конпонент могут быть всякие зацепки так что выход из строя компонета приведет к серии отказов из-за зависимостей, вплодь до оставки всей инфраструктуры. Виртулизации с failover-ами добавляют этот риск, в нас уже были проблемы, и не раз, когда не очень понятно чем вызванный failover приводил к отказу сервиса просто потому что виртуальная то машина поднялась, а вот Оракл на ней нет. Оракл конечно поднимали, но уходило слишком много времени и клиент был недоволен и штрафовал нас. Недавно я рассказывал как мы потеряли деньги на DR TEST основанном на такой технологии.
-
- Уже с Приветом
- Posts: 19935
- Joined: 30 Aug 2000 09:01
- Location: WA
Re: s3 outage details posted
zVlad, каков лимит размера дисковой системы у вашего MФ? Сравните это с объемом данных, которые хранит Амазон с S3.zVlad wrote: 17 Mar 2017 19:38 Файловая система zOS/ MVS устроена так что файлы (наборы данных) оккупируют область дисков заданного размера (может быть несколько дисков сразу) и в дальнейшем расширяются заданными кусками (extent) которые можно и отменить. Таким образом холодный старт после аварии системы лишь проверяет были ли завершены операции расширения наборов данных на диске - это проверка одного бита на диске - и если такая операция была прервана, то идет проверка extents всех наборов данных и сопоставление их с данными о свободных участках. Эта проверка позволяет починить диск гораздо быстрее чем в случае блочной файловой системы с цепочками блоков.
Примерно так и надо было поступать Амазону.
У меня на домашнем компьютере тоже все с пол-пинка перезапускается. Но там всего 24ТБ - сравнимо с вашим МФ, я думаю, и до Амазона - как до Луны пешком.
-
- Уже с Приветом
- Posts: 15420
- Joined: 30 Apr 2003 16:43
- Has thanked: 1 time
Re: s3 outage details posted
С какого перепуга 24ТБ может быть сравнимо типичным размером дисков на МФ?uncle_Pasha wrote: 18 Mar 2017 06:40zVlad, каков лимит размера дисковой системы у вашего MФ? Сравните это с объемом данных, которые хранит Амазон с S3.zVlad wrote: 17 Mar 2017 19:38 Файловая система zOS/ MVS устроена так что файлы (наборы данных) оккупируют область дисков заданного размера (может быть несколько дисков сразу) и в дальнейшем расширяются заданными кусками (extent) которые можно и отменить. Таким образом холодный старт после аварии системы лишь проверяет были ли завершены операции расширения наборов данных на диске - это проверка одного бита на диске - и если такая операция была прервана, то идет проверка extents всех наборов данных и сопоставление их с данными о свободных участках. Эта проверка позволяет починить диск гораздо быстрее чем в случае блочной файловой системы с цепочками блоков.
Примерно так и надо было поступать Амазону.
У меня на домашнем компьютере тоже все с пол-пинка перезапускается. Но там всего 24ТБ - сравнимо с вашим МФ, я думаю, и до Амазона - как до Луны пешком.
Вы давно меня читаете и должны бы помнить что никаких дисков в собственно МФ нет (не считая SSD для страничной памяти в последних моделях). Диски подключаются внешние и их может быть столько сколько нужно и сколько может себе позволить владелец.
Дисковые подсистемы нынче используются одни и теже что для МФ что для серверов других платформ. В этом разницы нет. Разница есть в том что прочие сервера, поскольку их много, подключаются к дискам через свитчи, а МФ без свитчей (свитчи используются для удаленного подключения и для мироринга).
Приэтом один МФ может иметь несколько сотен каналов ввода-вывода. Количество различаемых дисков 65536 на каждую из нескольких CSS - channel subsystem. Каждый диск раньше, давным давно, имел модельное ограничение размера. Например у нас используются диски ~10ГБ. Даже в этом случае для 24ТБ нужно всего 2400 дисков, а по максимуму на одну CSS получается 650 ТБ (если я не ошибся в вычислениях). И это если использовать модель с 10 ГБ. Но с введением модели с расширенной адресацией (это где-то начало 2000) размер диска (каждого из 65536 per CSS) может быть каким угодно большим (с ограничением конечно, но намного больше 10ГБ).
Вот и считайте сколько дисков может быть на одном МФ. Всего лишь на одном.
-
- Уже с Приветом
- Posts: 15420
- Joined: 30 Apr 2003 16:43
- Has thanked: 1 time
Re: s3 outage details posted
Дядя Паша, наша конкретная установка МФ имеет 50ТБ дисков. Но что это за МФ? Это 4 активных кора с установленной мощностью в шкале от A до Z на букве О. RAM 32 GB. это не только Production, но и вообще все инстансы ERP приложения компании с 10 тысячами сотрудников. Это и БД бизнес логика, все в одном.
При этом по дискам мы очень далеки от пределов. Мы даже не используем модель дисков с расширенной адресацией, обходимся моделью, наверное начала 90-х годов.
Мы не знаем сколько дисков у Амазон s3. И сколько серверов эти диски качает.
При этом по дискам мы очень далеки от пределов. Мы даже не используем модель дисков с расширенной адресацией, обходимся моделью, наверное начала 90-х годов.
Мы не знаем сколько дисков у Амазон s3. И сколько серверов эти диски качает.
-
- Уже с Приветом
- Posts: 3481
- Joined: 02 Jan 2005 22:10
Re: s3 outage details posted
Мне cloud scalability нравиться, когда правильно сконфигурена. Трафик ритэйла в сезон распродаж в 5 раз больше чем в мертвый сезон. Трафик от банков сильно больше в день получки, и есть дни когда совпадают дни получки для контракторов и фултаймеров когда трафик в 10 раз больше чем в обычные дни. У телевизионщиков трафик в праймтайм. Грамотно сконфигуренное облако рентует больше ресурсов у Амазона в момент нагрузки и отдает в момент расслабухи. Грамотно написанные программы запускают только те сервисы/пакетники которые нужны в данный момент. МФ и суперкомп хороши если нагрузка ровная и известная. Например, для обсчета телеметрии от радиотелескопа или от спутников. Сконфигурили утилизацию 50%, посадили парочку админов типа "накорми собак и ничего не трогай", и нормально.uncle_Pasha wrote: 18 Mar 2017 06:40zVlad, каков лимит размера дисковой системы у вашего MФ? Сравните это с объемом данных, которые хранит Амазон с S3
-
- Уже с Приветом
- Posts: 15420
- Joined: 30 Apr 2003 16:43
- Has thanked: 1 time
Re: s3 outage details posted
Полистав мануалы насчет лимитов на МФ я насчитал что на нашем более чем скромном мф образца 2013 года и с версией zOS неподдерживаемой ИБМ с сентября прошлого года я могу сконфигурировать, а значит и использовать, больше 60 000 ТБ. Это следует из того что максимум дисков на единственную нашу CSS равен 65536, а максимальный размер диска (логического) -1 ТБ.uncle_Pasha wrote: 18 Mar 2017 06:40
zVlad, каков лимит размера дисковой системы у вашего MФ? Сравните это с объемом данных, которые хранит Амазон с S3.
У меня на домашнем компьютере тоже все с пол-пинка перезапускается. Но там всего 24ТБ - сравнимо с вашим МФ, я думаю, и до Амазона - как до Луны пешком.
Сейчас у нас примерно 50 ТБ используется на нашем мф.
-
- Уже с Приветом
- Posts: 15420
- Joined: 30 Apr 2003 16:43
- Has thanked: 1 time
Re: s3 outage details posted
Абсолютно неверное представление. Начиная с того что МФ и суперкомп это две большие разницы.Kolbasoff wrote: 18 Mar 2017 15:48 ..... МФ и суперкомп хороши если нагрузка ровная и известная. Например, для обсчета телеметрии от радиотелескопа или от спутников. Сконфигурили утилизацию 50%, посадили парочку админов типа "накорми собак и ничего не трогай", и нормально.
Подробней я, в сотый наверное раз, попытаюсь разъяснить позже, а пока ограничусь тем что в пиковые часы наш МФ нагружается, по CPU, на 100%. Ввод-вывод никогда не превышает 10% загрузки.
-
- Уже с Приветом
- Posts: 15420
- Joined: 30 Apr 2003 16:43
- Has thanked: 1 time
Re: s3 outage details posted
Kolbassov, пока я по делам отъеду поясните, пожалуйста, алгоритм рентования серверов в облаке Амазона и их освобождения. Делается ли это автоматом и на основании каких показателей, как эти показатели измеряются.
-
- Уже с Приветом
- Posts: 3481
- Joined: 02 Jan 2005 22:10
Re: s3 outage details posted
Для начального ознакомления почитайте здесь: https://aws.amazon.com/autoscaling/ Кстати, студентам это было бы намного интереснее и полезнее чем обзор компьютеров типа Z. Сейчас тенденция "lease not own" во многих отраслях.zVlad wrote: 18 Mar 2017 16:53 Kolbassov, пока я по делам отъеду поясните, пожалуйста, алгоритм рентования серверов в облаке Амазона и их освобождения. Делается ли это автоматом и на основании каких показателей, как эти показатели измеряются.
-
- Уже с Приветом
- Posts: 15420
- Joined: 30 Apr 2003 16:43
- Has thanked: 1 time
Re: s3 outage details posted
Прочитал. И это все?Kolbasoff wrote: 18 Mar 2017 21:20Для начального ознакомления почитайте здесь: https://aws.amazon.com/autoscaling/ Кстати, студентам это было бы намного интереснее и полезнее чем обзор компьютеров типа Z. Сейчас тенденция "lease not own" во многих отраслях.zVlad wrote: 18 Mar 2017 16:53 Kolbassov, пока я по делам отъеду поясните, пожалуйста, алгоритм рентования серверов в облаке Амазона и их освобождения. Делается ли это автоматом и на основании каких показателей, как эти показатели измеряются.
-
- Уже с Приветом
- Posts: 3481
- Joined: 02 Jan 2005 22:10
Re: s3 outage details posted
Амазон довел до совершенства обезличивание рабочей массы. При этом все работает на удивление хорошо, по сравнению с пропраеторными инфрастуктурами.fruit6 wrote: 16 Mar 2017 16:53 удивительно что в амазоне что-то работает, учитывая что там ротация оффисных рабочих как в индусском бадишопе