JP Morgan Chase Oracle database outage

oMoses · Post by **oMoses** » 18 Sep 2010 20:32

KinDzaDza wrote:Читая zVladа (не только в этой теме), складывается впечатление, что везде (ну кроме ИБМ конечно же), работают одни криворукие идиоты. И все, кто не работает на МФ - ущербные, жалкие людишки, которые чужие на этом празднике жизни и им всем крупно не повезло, потому что богоподобные творения непогрешимой ИБМ прошли мимо них.

Пусть zVlad это откомментирует, но с Вами сложно не согласится!

KinDzaDza wrote:Пока не известно, что именно там случилось и почему, как-то странно обвинять именно Оракл. А особенно странно говорить, что вот если бы там была DB2 на МФ, то такого (а какого?) никогда бы не произошло. В Оракле глюков конечно хватает, но конкретно в этой ситуации там может быть все что угодно.

Согласен - достоверных данных очень мало. Я более чем уверен, что индусы в IT Chase bank валят вину на все, что не движется, как-то Oracle, EMC и "third-party software" - это нормально потому как ставки высоки и непременно последуют (если уже не последовали) оргвыводы...

oMoses · Post by **oMoses** » 18 Sep 2010 20:35

crypto5 wrote:Коррапшн в оракл вполне может быть != коррапшн из-за ошибки в оракл.

Совершенно правильное утверждение. Такое, скорее всего случится по вине OS или hardware...

zVlad · Post by **zVlad** » 18 Sep 2010 20:35

oMoses wrote:
Dmitry67 wrote:По моему тут как раз все логично. Если верхний уровень попросил записать бредовый блок в базу, то нижние уровни должны as is этот бред отмиррорить и в бэкап положить - им же пофиг что на странице записано.
Не совсем так. Если по минимуму, то нижний уровень должен был отрапортовать о наличии плохого блока, а правильный DBA - выловить это сообщение и вовремя, а главное верно, отреагировать.

Нижний уровень - это миррор. Это аппаратная фича которой глубоко наплевать наданные как таковые. Все что миррор дисков делает - это, как и в обычной жизни, отражает то что есть. Вот если бы у них была репликация, то тогда могла бы быть разница.

crypto5 · Post by **crypto5** » 18 Sep 2010 20:36

zVlad wrote:
crypto5 wrote:
Использование 8-ми Соляр с Оракл в крупном банке - это глупость.
1. Почему?

она принесла плоды как мы видим.
2. Это неправда, пока что не выяснили почему именно случился outage.
1. Потому что 1000 РС серверов заменили бы 8-мь Соляр за меньшие деньги. Интересно что у нас одна атомная станция два года назад тоже почему то ушли с одного МФ на 8 System p серверов.

Да уж, серьезный аргумент..

2. Но разве о том что делалось восстановление БД с бэкапа мы не знаем? А какие еще могут причины для этого если технических не было?

Очевидно что кроме бага в оракле могло быть куча других проблем, например проблемы с storage system, или какой нибудь логический баг в банковском ПО.

zVlad · Post by **zVlad** » 18 Sep 2010 20:37

crypto5 wrote:....
Очевидно что кроме бага в оракле могло быть куча других проблем, например проблемы с storage system, или какой нибудь логический баг в банковском ПО.

А Вы ссылку то в первом сообщении этой темы изучали?

oMoses · Post by **oMoses** » 18 Sep 2010 20:38

crypto5 wrote:
oMoses wrote:
Dmitry67 wrote:По моему тут как раз все логично. Если верхний уровень попросил записать бредовый блок в базу, то нижние уровни должны as is этот бред отмиррорить и в бэкап положить - им же пофиг что на странице записано.
Не совсем так. Если по минимуму, то нижний уровень должен был отрапортовать о наличии плохого блока, а правильный DBA - выловить это сообщение и вовремя, а главное верно, отреагировать.
А как нижний уровень догадается что блок плохой?

Интеллектуальный нижний уровень должен проверять data block checksum перед и после записи. Правда, это неплохо работает для intrablock corruptions, но вовсе не так просто вычислить при interblock corruptions.

Dmitry67 · Post by **Dmitry67** » 18 Sep 2010 20:39

Я тоже хотел спросить. Чаще всего нижний уровень об этом догадаться не может
С другой стороны, в этом случае просто были бы на одной страницы неправильные данные, типа вместо Varchar 'John Smith' было бы 'Jo@@MJ@*$&%*#@Mith'
Под '4 corrupted files' понимается чтото куда большее.
Вообще конечно без технических деталей это гадание на кофейной гуще.

zVlad · Post by **zVlad** » 18 Sep 2010 20:39

oMoses wrote:... Согласен - достоверных данных очень мало. Я более чем уверен, что индусы в IT Chase bank валят вину на все, что не движется, как-то Oracle, EMC и "third-party software" - это нормально потому как ставки высоки и непременно последуют (если уже не последовали) оргвыводы...

Похоже что и Вы тоже не читали ссылку, с которой начали свою же тему. Про ЕМС там написано в частности явно и про другое что ускользнуло от Вашего в том числе внимания.

crypto5 · Post by **crypto5** » 18 Sep 2010 20:42

zVlad wrote:
crypto5 wrote:....
Очевидно что кроме бага в оракле могло быть куча других проблем, например проблемы с storage system, или какой нибудь логический баг в банковском ПО.
А Вы ссылку то в первом сообщении этой темы изучали?

Изучил. А вы?

oMoses · Post by **oMoses** » 18 Sep 2010 20:42

zVlad wrote:
crypto5 wrote:
Использование 8-ми Соляр с Оракл в крупном банке - это глупость.

4-node Oracle RAC + 4-node standby (Oracle Max Availability Architecture) = это как раз the must! Другое дело, похоже, что именно этого-то у Chase и не было. Иначе бы не было и столь длительного outage...

oMoses · Post by **oMoses** » 18 Sep 2010 20:48

zVlad wrote:Похоже что и Вы тоже не читали ссылку, с которой начали свою же тему. Про ЕМС там написано в частности явно и про другое что ускользнуло от Вашего в том числе внимания.

Да помню-помню - дескать, после тщательного изучения, EMC storage was ruled out! Просто кто-то от EMC быстрее подсуетился и доказал, что storage здесь был не при чем. Оно и понятно - репутация целой конторыц была поставлена на кон. Oracle отбится будет сложнее... Еще и потому, что Oracle + Sun теперь одна контора!

Dmitry67 · Post by **Dmitry67** » 18 Sep 2010 20:55

oMoses wrote: А как нижний уровень догадается что блок плохой?

Интеллектуальный нижний уровень должен проверять data block checksum перед и после записи. Правда, это неплохо работает для intrablock corruptions, но вовсе не так просто вычислить при interblock corruptions.[/quote]

Это работает если вы прочитали блок и checksum не совпала
В случае же записи:

1 формируем данные на странице
2 считаем checksum
3 записываем в базу

checksum никак не помогает если #1 сформировал бред.

zVlad · Post by **zVlad** » 18 Sep 2010 20:56

oMoses wrote:
zVlad wrote:
crypto5 wrote:
Использование 8-ми Соляр с Оракл в крупном банке - это глупость.
4-node Oracle RAC + 4-node standby (Oracle Max Availability Architecture) = это как раз the must! Другое дело, похоже, что именно этого-то у Chase и не было. Иначе бы не было и столь длительного outage...

Опять же, по разному мы читаем одно и тоже. Как я понял, из прочитанного, переходить на standby смысла не было потому что и standby имел те же карраптед данные. Поэтому делалось восстановление с субботнего кажется бэкапа (на лентах по всей видимости) и накат журнала изменений. Что и объясняет столь длительное восстановление.

Before long, JPMorgan Chase DBAs realized that the Oracle database was corrupted in about 4 files, and the corruption was mirrored on the hot backup. Hence the manual database restore starting early Tuesday morning.

# The Oracle database was restored from a Saturday night backup. 874K transactions were reapplied, starting early Tuesday morning and ending late Tuesday night.
# $132 million in ACH transfers were held up by the JPMorgan Chase database outage.

Dmitry67 · Post by **Dmitry67** » 18 Sep 2010 20:57

oMoses wrote:
zVlad wrote:Похоже что и Вы тоже не читали ссылку, с которой начали свою же тему. Про ЕМС там написано в частности явно и про другое что ускользнуло от Вашего в том числе внимания.
Да помню-помню - дескать, после тщательного изучения, EMC storage was ruled out! Просто кто-то от EMC быстрее подсуетился и доказал, что storage здесь был не при чем. Оно и понятно - репутация целой конторыц была поставлена на кон. Oracle отбится будет сложнее... Еще и потому, что Oracle + Sun теперь одна контора!

Интересно, как они это доказали
Типа, у нас в логе ошибок нет?

oMoses · Post by **oMoses** » 18 Sep 2010 20:59

Кстати, я не исключаю самого тривиального случая - кто-то (а может как раз то самое пресловутое third-party software) просто дропнул ценную табличку с данными (скажем, паролями on-line пользователей веб-серверов банка). Естественно, что это-же послушно произошло и на standby database, если данные с primary db туда накатываются без задержки. или ошибка была обнаружена уже по истечению таковой. Далее, конечно, постребовалось восстанавливаться с бэкапов, поскольку, вероятно, содержать flashback для такой напряженной базы было очень накладно...

Ну а восстановление - это целая отдельная песня. Быстро спеть её (посредством уникальных и дорогих средств EMC/Veritas/Solaris) почему-то не получилось, и пришлось петь медленно (Oracle RMAN?). А три дня потеряли на анализ ситуации и различные попытки восстановления... Oracle datafile corruption вполне могли вылезти вследствии неудачных первых попыток и усугубить ситуацию - ведь наверняка сделать копию всего сервера перед восстановлением было некогда....

crypto5 · Post by **crypto5** » 18 Sep 2010 21:00

Dmitry67 wrote:
oMoses wrote:
zVlad wrote:Похоже что и Вы тоже не читали ссылку, с которой начали свою же тему. Про ЕМС там написано в частности явно и про другое что ускользнуло от Вашего в том числе внимания.
Да помню-помню - дескать, после тщательного изучения, EMC storage was ruled out! Просто кто-то от EMC быстрее подсуетился и доказал, что storage здесь был не при чем. Оно и понятно - репутация целой конторыц была поставлена на кон. Oracle отбится будет сложнее... Еще и потому, что Oracle + Sun теперь одна контора!
Интересно, как они это доказали
Типа, у нас в логе ошибок нет?

Там проверяли версию с проблемой в контроллере, о полной верификации абсолютной правильности решения от ЕМС речь конечно же не идет.

Dmitry67 · Post by **Dmitry67** » 18 Sep 2010 21:07

Вообще к сожалению ситуация сейчас еще больше усугубляется.

Я наблюдаю конторы где production сервера SQL server держат базы в SIMPLE mode (для людей из мира Oracle и DB2 - это когда транзакции после записи в transaction log сразу оттуда чистятся, так что есть только FULL backups, как правило раз в день, а 'накатка' невозможна). Объяснение - 'ну, SAN же никогда не ошибается' (знаю. дважды помогал восстанавливать базы изза проблем с SAN). Сами бэкапы пишут, конечно же, на то же устройство. Мир сошел с ума.

Dmitry67 · Post by **Dmitry67** » 18 Sep 2010 21:09

Еще меня умиляет когда клиенты A и B требуют, чтобы их базы лежали на разных Windows server/SQL server.
То, что эти виртуальные сервера лежат на одном ESX server, и базы лежат на одном SAN, их не волнует.

zVlad · Post by **zVlad** » 18 Sep 2010 21:25

oMoses wrote:Кстати, я не исключаю самого тривиального случая - кто-то (а может как раз то самое пресловутое third-party software) просто дропнул ценную табличку с данными (скажем, паролями on-line пользователей веб-серверов банка). Естественно, что это-же послушно произошло и на standby database, если данные с primary db туда накатываются без задержки. или ошибка была обнаружена уже по истечению таковой. Далее, конечно, постребовалось восстанавливаться с бэкапов, поскольку, вероятно, содержать flashback для такой напряженной базы было очень накладно...

Ну а восстановление - это целая отдельная песня. Быстро спеть её (посредством уникальных и дорогих средств EMC/Veritas/Solaris) почему-то не получилось, и пришлось петь медленно (Oracle RMAN?). А три дня потеряли на анализ ситуации и различные попытки восстановления... Oracle datafile corruption вполне могли вылезти вследствии неудачных первых попыток и усугубить ситуацию - ведь наверняка сделать копию всего сервера перед восстановлением было некогда....

Из сказанного Вами следует что Вы подозреваете DBAs JPMorgan Chase в том что они плохо знают свою работу, свои обязанности и у них нет плана действий в подобной ситуации, они не тренируются и не тестируют свои ресторайшн процедуры?

oMoses · Post by **oMoses** » 18 Sep 2010 22:56

zVlad wrote:
oMoses wrote:Кстати, я не исключаю самого тривиального случая - кто-то (а может как раз то самое пресловутое third-party software) просто дропнул ценную табличку с данными (скажем, паролями on-line пользователей веб-серверов банка). Естественно, что это-же послушно произошло и на standby database, если данные с primary db туда накатываются без задержки. или ошибка была обнаружена уже по истечению таковой. Далее, конечно, постребовалось восстанавливаться с бэкапов, поскольку, вероятно, содержать flashback для такой напряженной базы было очень накладно...

Ну а восстановление - это целая отдельная песня. Быстро спеть её (посредством уникальных и дорогих средств EMC/Veritas/Solaris) почему-то не получилось, и пришлось петь медленно (Oracle RMAN?). А три дня потеряли на анализ ситуации и различные попытки восстановления... Oracle datafile corruption вполне могли вылезти вследствии неудачных первых попыток и усугубить ситуацию - ведь наверняка сделать копию всего сервера перед восстановлением было некогда....
Из сказанного Вами следует что Вы подозреваете DBAs JPMorgan Chase в том что они плохо знают свою работу, свои обязанности и у них нет плана действий в подобной ситуации, они не тренируются и не тестируют свои ресторайшн процедуры?

Скажем так, если допустить, что доля индусского аутсорсинга в IT банка Chase достаточно велика, то это весьма вероятно. Иначе сложно оправдать столь длительный system outage длительностью в три дня. Если бы я командовал дибиэями этого банка, такого бы не было.

oMoses · Post by **oMoses** » 18 Sep 2010 22:59

P.S. Dmitry67, Komissar, zVlad - приятно было с Вами опять поболтать!
Увы, редко сюда заглядываю (даже сам не знаю почему), но убедился, что таки "не старееют душой ветераны!"

Post by **Flying Hen** » 19 Sep 2010 03:08

oMoses wrote: В общем и целом, согласен, консервативный подход в деле администрирования баз данных есть благо. Но столь кардинально менять платформу в надежде, что все после этого станет очень и очень хорошо - большая глупость. К таким вещам нужно относиться философски и не спешить делать столь нелепые выводы.

Все это очень резонно. Только сейчас появилась такая тенденция убегать на DB2 с других СУБД. Может это следствие маркетинговой активности IBM, может у людей действительно проблемы. Одна контора даже middleware пишет (ANTS SsacSA ), который на лету транслирует T-SQL и PL/SQL в DB2 SQL.

crypto5 · Post by **crypto5** » 19 Sep 2010 03:25

Flying Hen wrote:
oMoses wrote: В общем и целом, согласен, консервативный подход в деле администрирования баз данных есть благо. Но столь кардинально менять платформу в надежде, что все после этого станет очень и очень хорошо - большая глупость. К таким вещам нужно относиться философски и не спешить делать столь нелепые выводы.
Все это очень резонно. Только сейчас появилась такая тенденция убегать на DB2 с других СУБД.

А откуда информация про тенденции?

Может это следствие маркетинговой активности IBM, может у людей действительно проблемы. Одна контора даже middleware пишет (ANTS SsacSA ), который на лету транслирует T-SQL и PL/SQL в DB2 SQL.

Оракл уже давно такое ПО написал (в другую сторону конечно) и распространяет его бесплатно в составе sql developer.

CompuGeek · Post by **CompuGeek** » 19 Sep 2010 04:02

Flying Hen wrote: Все это очень резонно. Только сейчас появилась такая тенденция убегать на DB2 с других СУБД. Может это следствие маркетинговой активности IBM, может у людей действительно проблемы. Одна контора даже middleware пишет (ANTS SsacSA ), который на лету транслирует T-SQL и PL/SQL в DB2 SQL.

Компания супруги отказалась от продления многолетнего контракта с IBM.

А по теме Чейза - последние две недели онлайн аккаунты работали отвратительно, медленно, постоянные таймауты. Так что проблема скорее всего была не внезапной, но по индусской традиции все было ОК пока не наступил конец.

uncle_Pasha · Post by **uncle_Pasha** » 19 Sep 2010 04:44

Dmitry67 wrote:
oMoses wrote:
zVlad wrote:Похоже что и Вы тоже не читали ссылку, с которой начали свою же тему. Про ЕМС там написано в частности явно и про другое что ускользнуло от Вашего в том числе внимания.
Да помню-помню - дескать, после тщательного изучения, EMC storage was ruled out! Просто кто-то от EMC быстрее подсуетился и доказал, что storage здесь был не при чем. Оно и понятно - репутация целой конторыц была поставлена на кон. Oracle отбится будет сложнее... Еще и потому, что Oracle + Sun теперь одна контора!
Интересно, как они это доказали
Типа, у нас в логе ошибок нет?

IMHO, инфу для статьи слил представитель EMC, участвовавший в escalation.

Удачи!

Привет

JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage

Re: JP Morgan Chase Oracle database outage