Мальчик-Одуванчик wrote: 20 Jan 2021 01:32
zVlad wrote: 20 Jan 2021 01:22
На МФ отказов не бувает под любой нагрузкой. Это тестируется в IBM. А какие отказы, интересно, Вы симулируете?
Разумеется что проверяются приложения, а не железо.
Например, для того же приложения, написанного на Джаве, поведение сборщика мусора, работа с потоками и тд может отличаться в зависимости от нагрузки.
И это приложение весело рухнет вне зависимости от того, на каком железе оно работает - будь то захудалый писюк или продвинутый мейнфрейм.
Куча сторонних библиотек, написанных за долгое время дают этому широкое раздолье.
И я даже полагаю что на мейнфрейме эти приложения будут падать чаще просто потому что система исполнения джавы под экзотическое железо всяко оттестирована не лучше, нежели на типовом.
Поэтому интересно как наша система справится с отказом одного или нескольких приложений.
Под нагрузкой.
Сюда так же входит отказ базы данных или потеря связи.
Я Вас понимаю. Мне приходилось иметь дело с приложениями на Java и я много могу сказать, но скажу меньше - формат форумa не предполагает долгих речей.
Есть у нас приложение, работающее на сервере в контакте с DB2 на МФ, прямом контакте. И вот когда МФ нагружен тем о чем я писал выше (но может быть и по другой причине. Я это оставляю не доказаным достоверно) то это приложение начинает "бомбиыь" конекциями. Количество одновременных активных коннекций, которое обычно не выходит за пару десятков начинает превышать число 200 - йето условный максимум, свыше которого запросы на присоедение ставятся в очередь.
Пару месяцев назад это же приложение в подобных условиях достигало другого предела - 1000 неактивных коннекций. Тогда вендор заявил о баге и пофиксал его. Эта проблема ушла, проблема с неконтролируемым ростом активных осталась. Я вижу это из данных мониторинга, сообщаю - никакой реакции. Будь[ это в рамках МФ я бы уже докопался, но это на серверах.
Отказов БД на МФ - DB2 не было никогда у нас (был один, лет 17 назад, из-за бага. Был устранен с помощью IBM за пару-тройку дней). Потеря связи, особенно после перевода серверов в Azure - обычное явление, сегодня репликация рухнула из-за этого. Решение - перрезапуск репликации и самосинхронизация. Можно легко автоматизировать, но из-за редкости этого остается неавтоматизированно. Возможно из-за Azure придется автоматизировать.