Миф: как IBM победил БЭСМ

Dmitry67 · Post by **Dmitry67** » 24 Oct 2014 09:58

Ну как я уже писал, sync редим привот к совершенно катастрофическому падению производительности
async же вы скорее потеряете секунду две максимум.
А в случае реального DR (ядрена бомба, нашествие зомби, эбола в DataCenter) секунду вам простят

А в случае Planned DR (снежный апокалипсис, нет электричества, генератор без топлива скоро остановится) все данные перельются корректно

P.S.
Тут я где то читал про то как куча фирм при DR получали несколько часовой split brain и ничего

StrangerR · Post by **StrangerR** » 24 Oct 2014 10:15

Easbayguy wrote:Класно когда базы такие маленькие что их можно кликнув мышкой перетащить. Или целый МФ с 5ТБ данных!

Ну я под теребайт перетаскивал. И 2 терабайта документов. Без особых проблем. Взяли стендбай базу, мышкой кликнули, подождали часов 10. База на SAN. Мышкой кликнули, перетащили на новый сервер. Мышкой клинкнули, подождали 10 часов, база на локальных дисках. Переключили стендбай и праймари, повторили. Все заняло две пятницы. Какие проблемы то?

StrangerR · Post by **StrangerR** » 24 Oct 2014 10:19

Easbayguy wrote:
Dmitry67 wrote:StrangeR, так представьте сколько IBM заломит за DR...
Oracle license, они тоже кусаются!

У вас всегда будет продакшен сервер, стейджинг, что -то еще. Между ними и делается стендбай. Да и если сервер выделенный Оракл вполне идет навстречу по льготному лицензированию.

StrangerR · Post by **StrangerR** » 24 Oct 2014 10:20

Первичное зеркало всегда синхронное. Асинхронное нужно для DR на другом сайте, хотя я обошелся просто реплицированием бэкапов. В Оракле основное зеркало тоже чисто синхронное всегда.

Dmitry67 wrote:
Easbayguy wrote:
Dmitry67 wrote:StrangeR, так представьте сколько IBM заломит за DR...
Oracle license, они тоже кусаются!
Это да. Или ms sql, для полноценного mirroring нужно asynchronous, а это enterprise. Не говоря уже о availability groups...

P.S.
Мы тут считали стоимость Enterprise MS SQL, так вот, стоимостью железа можно пренебречь

StrangerR · Post by **StrangerR** » 24 Oct 2014 10:23

Dmitry67 wrote:Ну как я уже писал, sync редим привот к совершенно катастрофическому падению производительности
async же вы скорее потеряете секунду две максимум.
А в случае реального DR (ядрена бомба, нашествие зомби, эбола в DataCenter) секунду вам простят

А в случае Planned DR (снежный апокалипсис, нет электричества, генератор без топлива скоро остановится) все данные перельются корректно

P.S.
Тут я где то читал про то как куча фирм при DR получали несколько часовой split brain и ничего

Да ни к какому заметному падению производительности синк редим не приводит. Мы меряли много раз. Все зеркала абсолютно синхронны и находятся рядом. Но это не ДР а именно локальный кластер базы данных. Передачса на DR естественно асинхронно должна идти. Но он на то и ДР, на случай ядреной бомбы или там падения самолета на дата центр.

Dmitry67 · Post by **Dmitry67** » 24 Oct 2014 10:28

Ну так я про DR и говорю, он асинхронен

StrangerR · Post by **StrangerR** » 24 Oct 2014 10:33

ДР это не первичная база. Он то как раз не обязателен. А вот зеркало у первичной базы - абсолютно обязательно. Хотя асинхронный ДР в принципе может его заменить, все таки главная цель оного зеркала не защита от сбоя а возможность вывести базу из работы на пару часов.

iDesperado · Post by **iDesperado** » 24 Oct 2014 11:48

Dmitry67 wrote:Ну как я уже писал, sync редим привот к совершенно катастрофическому падению производительности
async же вы скорее потеряете секунду две максимум.
А в случае реального DR (ядрена бомба, нашествие зомби, эбола в DataCenter) секунду вам простят

А в случае Planned DR (снежный апокалипсис, нет электричества, генератор без топлива скоро остановится) все данные перельются корректно

ну вот в случае с ораклом не очень понятно нафига Async, если "Planned DR" то можно совершенно бесплатно просто раз в пару минут скидывать архивные логи на стебай, который будет их накатывать. в случае надобности я просто дам команду switch logs и переключу на Async ноду, которая после switch logs, получит архивный лог с последней транзакцией. умельцы такой "стендбай" для оракла даже продают http://www.dbvisit.com
дорого стоит гарантия каждой транзакции, но я честно не знаю используется ли у нас Sync, где-то, но мне кажется должны. иначе катастрофа, всего в паре байтов одной транзакции могли миллионы перемещаться, если транзакция потеряется, это пипец

zVlad · Post by **zVlad** » 24 Oct 2014 13:12

StrangerR wrote:А мешает похоже стоимость. Потому что все таки у того же Гугла огромная, надежная сторейдж состоит из дешевых массовых железок, которые могут ломаться как хотят и системе хоть бы хны.

Я не случайно про это пишу. Мне об этом тренде - переход на дешевые железки, уход с железных райдов и всякого спец железа, как пример - идет уход с супер-пупер FC на простую софтверную iSCSI, причем мы например даже при наличии железной поддержки юзаем чисто софтовую - надежнее и гибче - говорят на каждом семинаре по сторейджу.

Это слишком дорого. В нашей отрасли - энергетика так не делают, (хотя за всю отрасль мне наверно не стоит зарекаться).
С ума сойти. У меня первое требование к любой продакшен базе - всегда, без исключений, physical standby (не зеркало дисков и тем паче не РАК а именно Data Guard ну или MS SQL mirror. Причем это не дорого, у всех провайдеров базы если стендбай только стендбаит его можно не лицензировать отдельно, да и никто не мешает на нем стейджинг делать и взаимно миррорить. СУБД без зеркала вообще не способна выполнять требования по SLA на продакшен. Как вы ее простите апгрейдить будете, сам сервер или там OS? Или перетаскивать на новое железо /даже в VMWARE даже онлайн перетаскивание легко делается на средне нагруженном стендбае но плохо на первичной базе, есть шанс алармы поиметь).

Или я Вас не понимаю или Вы меня.

Я правильно понимаю что Вы говорите о двух систем instances с двумya базами которые между собой занимаются репликацией данных в реальном времени (online)? Один instance работает с юзерами второй только отслеживает изменение данных. Если первый сдох юзера перекидываются на второй.

У нас используется реальный дисковый mirror (похоже с легкой руки MS термин "mirror" стал использоваться и для "репликация"). Всех дисков на которых размещается Production. В случае дизастера, на DR сайте делается загрузка системы и стартуют БД и app. serevra. Чем этот подход лучше по нашему по МФ-скому? DR сайт - это второй МФ на котором выполняются другие Production, других приложений. Если на нем держать "горячий" standby, то для него нужны дополнительные MIPS. Посколько DR не так уж и часто происходит, а за доп MIPS платить придется всегда, то это по крайней мере некрасиво, а на самом деле было бы идиотизмом (я понимаю у Вас все дешевое, $10000 тута 10 сюда, это ж ведь не миллионы).

Фактически в ожидании DR для DR мы не тратим цента за МФ, мы платим только за диски и за их возможность самореплицироваться.

zVlad · Post by **zVlad** » 24 Oct 2014 15:49

Кто там цены спрашивал на МФ? Google says:

http://www.tech-news.com/publib/pl2818.html

Dmitry67 · Post by **Dmitry67** » 24 Oct 2014 16:10

О, спасибо за конкретику
$1500/1Gb RAM
Только память одного нашего ESX стоила бы 288K
А всех десяти 2.88M
Это только PROD, и только в одном Datacenter, и только память

zVlad · Post by **zVlad** » 24 Oct 2014 16:26

Dmitry67 wrote:О, спасибо за конкретику
$1500/1Gb RAM
Только память одного нашего ESX стоила бы 288K
А всех десяти 2.88M
Это только PROD, и только в одном Datacenter, и только память

Ужас!

Dmitry67 · Post by **Dmitry67** » 24 Oct 2014 16:51

Да, я думаю память такая дорогая потому что там особенные, неметрические байты

zVlad · Post by **zVlad** » 24 Oct 2014 17:06

Dmitry67 wrote:Да, я думаю память такая дорогая потому что там особенные, неметрические байты

Там обычные байты, но это МФ и эта memory - redundant array of independent memory (RAIM).

А у Вас это во-первых не МФ мемори, а во-вторых... как там у Вас с RAIM?

Easbayguy · Post by **Easbayguy** » 24 Oct 2014 19:19

iDesperado wrote:
Dmitry67 wrote:Ну как я уже писал, sync редим привот к совершенно катастрофическому падению производительности
async же вы скорее потеряете секунду две максимум.
А в случае реального DR (ядрена бомба, нашествие зомби, эбола в DataCenter) секунду вам простят

А в случае Planned DR (снежный апокалипсис, нет электричества, генератор без топлива скоро остановится) все данные перельются корректно
ну вот в случае с ораклом не очень понятно нафига Async, если "Planned DR" то можно совершенно бесплатно просто раз в пару минут скидывать архивные логи на стебай, который будет их накатывать. в случае надобности я просто дам команду switch logs и переключу на Async ноду, которая после switch logs, получит архивный лог с последней транзакцией. умельцы такой "стендбай" для оракла даже продают http://www.dbvisit.com
дорого стоит гарантия каждой транзакции, но я честно не знаю используется ли у нас Sync, где-то, но мне кажется должны. иначе катастрофа, всего в паре байтов одной транзакции могли миллионы перемещаться, если транзакция потеряется, это пипец

А что maximum protection mode уже отменили в data guard?

StrangerR · Post by **StrangerR** » 24 Oct 2014 19:57

zVlad wrote:
Dmitry67 wrote:Да, я думаю память такая дорогая потому что там особенные, неметрические байты
Там обычные байты, но это МФ и эта memory - redundant array of independent memory (RAIM).

А у Вас это во-первых не МФ мемори, а во-вторых... как там у Вас с RAIM?

Можно включать RAIM, но мы никогда не делали, так как проще зеркалить то что критическое.

StrangerR · Post by **StrangerR** » 24 Oct 2014 20:08

zVlad wrote:
Dmitry67 wrote:О, спасибо за конкретику
$1500/1Gb RAM
Только память одного нашего ESX стоила бы 288K
А всех десяти 2.88M
Это только PROD, и только в одном Datacenter, и только память
Ужас!

Даа. У нас 4 терабайта пампяти в двух облаках. Это что, 6 миллионов нам заплатить надо было бы??

StrangerR · Post by **StrangerR** » 24 Oct 2014 20:14

zVlad wrote:
Или я Вас не понимаю или Вы меня.

Я правильно понимаю что Вы говорите о двух систем instances с двумya базами которые между собой занимаются репликацией данных в реальном времени (online)? Один instance работает с юзерами второй только отслеживает изменение данных. Если первый сдох юзера перекидываются на второй.

У нас используется реальный дисковый mirror (похоже с легкой руки MS термин "mirror" стал использоваться и для "репликация"). Всех дисков на которых размещается Production. В случае дизастера, на DR сайте делается загрузка системы и стартуют БД и app. serevra. Чем этот подход лучше по нашему по МФ-скому? DR сайт - это второй МФ на котором выполняются другие Production, других приложений. Если на нем держать "горячий" standby, то для него нужны дополнительные MIPS. Посколько DR не так уж и часто происходит, а за доп MIPS платить придется всегда, то это по крайней мере некрасиво, а на самом деле было бы идиотизмом (я понимаю у Вас все дешевое, $10000 тута 10 сюда, это ж ведь не миллионы).

Фактически в ожидании DR для DR мы не тратим цента за МФ, мы платим только за диски и за их возможность самореплицироваться.

ТО что вы пишете, тоже иногда делается. Но это совсем не эквивалентно зеркалу базы данных, это намного слабее. Ну например, как вы патчи на сервер базы данных будете накладывать?

У нас
- накладываем на стендбай
- переключаем базу
- накладываем на праймари

Или вот мы делали апгрейд MS SQL 2005 -> 2008. Даунтайм был 2 минуты суммарно. Потому что операция выглядела так
- делаем апгрейд на стендбае. Праймари работает на 2005, стендбай на 2008. 2008 может миррорить 2005. Сам апгрейд занимает где то пару часов, так как там -патч, апгрейд, сервиспак, патч- надо наложить.
- сделали, все проверили. Переключили. Даунтайм 1 минута.
- так как 2005 не может миррорить 2008 то зеркало встало на паузу. Апгрейдим бывший праймари.
- заапгрейдили, запустили, зеркало синхронизовалось.
- переключили назад на основной праймари. Даунтайм еще 1 минута.

Как бы тут нам помогло реплицирование дисков? Зеркало в первую очередь нужно не для защиты от сбоя железа хотя и это не вредно (а если база напишеть чушь в файл?) а для бесперебойности сервиса. Аналогично с кластером NFS - он еще ни разу не был нужен для защиты от сбоя но постоянно используется для разных апдейтов и прочего... без прерывания сервиса.

"Planned DR" то можно совершенно бесплатно просто раз в пару минут скидывать архивные логи на стебай, который будет их накатывать

Так это и есть DG в режиме ARCH. Он так и работает. А я так примерно реализую DR в случае MS SQL (реплицирую бэкапы и имею скрипт для их автоматического накатывания)

Dmitry67 · Post by **Dmitry67** » 24 Oct 2014 20:21

StrangerR wrote:
zVlad wrote:
Dmitry67 wrote:О, спасибо за конкретику
$1500/1Gb RAM
Только память одного нашего ESX стоила бы 288K
А всех десяти 2.88M
Это только PROD, и только в одном Datacenter, и только память
Ужас!
Даа. У нас 4 терабайта пампяти в двух облаках. Это что, 6 миллионов нам заплатить надо было бы??

А у нас 2терабайта на datacenter в Prod. Таких 4. Плюс dev, qa, vdi. Итого около 12т

Dmitry67 · Post by **Dmitry67** » 24 Oct 2014 20:22

А у нас с downtime хорошо... в общем, весь викенд )

StrangerR · Post by **StrangerR** » 24 Oct 2014 20:32

Dmitry67 wrote:А у нас с downtime хорошо... в общем, весь викенд )

Неа, мы тут супер мажорный апгрейд системы (переход на другие базовые библиотеки) загоняем в 12 часов, чтобы уложиться в 1 сутки. Больше - ни за что! В крайнем случае придется RO режим делать или SSD ставить для ускорения.

(Девелоперы блин. Загоняют загоняют.

Первый запуск. 100 часов и 400 гиг лог. Надавали по шапкам.
Второй запуск, выкинули ненужное - 40 часов.

(Я уж скриптик написал переписав роскошные drop from TABLE where УСЛОВИЕ - нельзя ТАКИЕ конструкции писать для массовых удалений!)

...
Десятый запуск. Основной liquibase 26 часов, миграция документов 2 часа.
...
Очередной. Основной 12 часов (ура!) зато миграция документов 24 часа (сломали!)

И так далее. Хвост вытащят нос увязне. Нос вытащят лапа увязнет... Основную. починят, доки починят, месячная обработка 4 дня идет... и все по кругу...
Уже 3 месяца отладка и еще пару месяцев впереди. Но даунтайм будет 10 - 12 часов максимум. Больше - никто не даст. Какие _весь викенд_?

Palych · Post by **Palych** » 24 Oct 2014 20:34

Dmitry67 wrote:
StrangerR wrote:Даа. У нас <до фига>
А у нас <до фигища>

Не флейма ради, ещё раз спрошу - вы как-то замеряете необходимое количество памяти, или просто берёте самое большое что есть?

Dmitry67 · Post by **Dmitry67** » 24 Oct 2014 20:34

У нас биржа, они отдыхают на выходных )

Easbayguy · Post by **Easbayguy** » 24 Oct 2014 20:40

В общем программисты/базы все хреновей и хреновей, необходимость держать все в памяти указывает на очень плохой дизайн приложения, фиговый движок и маленький обьем данных.

StrangerR · Post by **StrangerR** » 24 Oct 2014 20:49

Palych wrote:
Dmitry67 wrote:
StrangerR wrote:Даа. У нас <до фига>
А у нас <до фигища>
Не флейма ради, ещё раз спрошу - вы как-то замеряете необходимое количество памяти, или просто берёте самое большое что есть?

Есть инвентори, есть репорт сколько имеется сколько разместили сколько ОС (ВМваря) не дала. Обычная цифра например
- сервер 144 гига
- размещено 190 гигов
- ВМ хост не додал где то 12 гигов,

Причем есть статистика примерно сколько можно наплодить vCPU до того как система начнет уже недодавать CPU вм-кам.

Все естественно по разному в девелопменте (цифры выше из девелопмента) и в продакшенах (там всегда 100% и часто резервирование стоит). Примерно HP G7 сервер набивается 144 - 192 гигов до того как по процессору его скушают. Кое какие приложения кушают быстрее но при наличии нескольких десятков хостов их удается раскидать ровным слоем.

Привет

Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ

Re: Миф: как IBM победил БЭСМ