Что стреляет лучше по баблу Spark или ML?

Где деньги?

Spark
5
6%
Spark
5
6%
ML
1
1%
ML
1
1%
Spark+ML
6
8%
Spark+ML
6
8%
Ты кто
10
13%
Ты кто
10
13%
Кто эти люди
17
22%
Кто эти люди
18
23%
 
Total votes: 79

sp123
Уже с Приветом
Posts: 1962
Joined: 24 Feb 2001 10:01
Location: Челябинск -> Everett, WA

Re: Что стреляет лучше по баблу Spark или ML?

Post by sp123 »

- Вы любите Кафку?
- Да, офобенно грефневую!


Sent from my iPhone using Tapatalk Pro
User avatar
АццкоМото
Уже с Приветом
Posts: 15276
Joined: 01 Mar 2007 05:18
Location: VVO->ORD->DFW->SFO->DFW->PDX

Re: Что стреляет лучше по баблу Spark или ML?

Post by АццкоМото »

sp123 wrote: 09 Jan 2018 06:53 - Вы любите Кафку?
- Да, офобенно грефневую!


Sent from my iPhone using Tapatalk Pro
Следующая остановка — кое-кого. Повторяю, Максима кое-кого.
Мат на форуме запрещен, блдж!
User avatar
valchkou
Уже с Приветом
Posts: 4195
Joined: 27 Apr 2011 03:43
Location: Сергели ->Chicago

Re: Что стреляет лучше по баблу Spark или ML?

Post by valchkou »

Sergunka wrote: 09 Jan 2018 06:23
valchkou wrote: 09 Jan 2018 05:49
Sergunka wrote: 09 Jan 2018 05:45
valchkou wrote: 09 Jan 2018 05:34
Sergunka wrote: 18 Dec 2017 22:47 По спарку сейчас гоняем связку кашка-спарки-кассандра
спарки-кассандра так с этим понятно.
а кафка зачем в этой цепи? какую проблему решает? не лишнее ли звено?
Там типо загрузил в блобстор файло большое плюнул в кашку что кушать подано... прогнал плюнул что кушать подали надо агрегирорвать уже из касандры касандра агрегировала плюнул в кашку что результат такой. Результат такой подписчик поднял в вебсокет - вебсокет выдавил в дашбоарду.

Так же есть варианты если файло мекое в пределах разумного то льется сразу в кашку ну и тд.
понятно спасибо. А почему каффка, а не rabbitmq к примеру?
Просто кашка вроде как лучше интегрируется в нашем облаке https://www.predix.io/ cо спарком т.е. просто наша местная заморочка
в таком случае еще несколько вопросов:
1) кассандра-спарк от датастакс или опенсурс?
2) если опенсурс используете ли вендора для 24х7 суппорта кассандры, если да то можно контакт
3) прикручен ли какой нибудь SQL транслятор над спарком?
4) на каких языках написаны апы которые говорят со спарком и кассандрой?

поясню почему спрашиваю.
мы тоже строим iot.
некоторой время назад перевели несколько процессов с оракла на кассандру.
первое время использовали датастакс, но их сверх агрессивная ценовая политика вынудила нас перейти на опенсурс.
пока не имелось нужды натягивать спарк на кассандру, более менее большие запросы распарралеливаются самим приложением используя, java parallel streams, fork/join or BlockinqQ/CountdownLatch.
Но недавно появились более сложные задачи.
mskmel
Уже с Приветом
Posts: 946
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: Что стреляет лучше по баблу Spark или ML?

Post by mskmel »

valchkou wrote: 09 Jan 2018 16:11 мы тоже строим iot.
некоторой время назад перевели несколько процессов с оракла на кассандру.
первое время использовали датастакс, но их сверх агрессивная ценовая политика вынудила нас перейти на опенсурс
Какие объёмы? Почему перешли?
User avatar
Sergunka
Уже с Приветом
Posts: 34164
Joined: 03 Dec 2000 10:01
Location: Vladivostok->San Francisco->Los Angeles->San Francisco

Re: Что стреляет лучше по баблу Spark или ML?

Post by Sergunka »

valchkou wrote: 09 Jan 2018 16:11
Sergunka wrote: 09 Jan 2018 06:23
valchkou wrote: 09 Jan 2018 05:49
Sergunka wrote: 09 Jan 2018 05:45
valchkou wrote: 09 Jan 2018 05:34
спарки-кассандра так с этим понятно.
а кафка зачем в этой цепи? какую проблему решает? не лишнее ли звено?
Там типо загрузил в блобстор файло большое плюнул в кашку что кушать подано... прогнал плюнул что кушать подали надо агрегирорвать уже из касандры касандра агрегировала плюнул в кашку что результат такой. Результат такой подписчик поднял в вебсокет - вебсокет выдавил в дашбоарду.

Так же есть варианты если файло мекое в пределах разумного то льется сразу в кашку ну и тд.
понятно спасибо. А почему каффка, а не rabbitmq к примеру?
Просто кашка вроде как лучше интегрируется в нашем облаке https://www.predix.io/ cо спарком т.е. просто наша местная заморочка
в таком случае еще несколько вопросов:
1) кассандра-спарк от датастакс или опенсурс?
2) если опенсурс используете ли вендора для 24х7 суппорта кассандры, если да то можно контакт
3) прикручен ли какой нибудь SQL транслятор над спарком?
4) на каких языках написаны апы которые говорят со спарком и кассандрой?

поясню почему спрашиваю.
мы тоже строим iot.
некоторой время назад перевели несколько процессов с оракла на кассандру.
первое время использовали датастакс, но их сверх агрессивная ценовая политика вынудила нас перейти на опенсурс.
пока не имелось нужды натягивать спарк на кассандру, более менее большие запросы распарралеливаются самим приложением используя, java parallel streams, fork/join or BlockinqQ/CountdownLatch.
Но недавно появились более сложные задачи.
Я открою отдельный топик и попытаюсь более подробно раскрыть тему у меня даже презентация есть про "Digital Twins" :D
"A patriot must always be ready to defend his country against his government." Edward Abbey
User avatar
valchkou
Уже с Приветом
Posts: 4195
Joined: 27 Apr 2011 03:43
Location: Сергели ->Chicago

Re: Что стреляет лучше по баблу Spark или ML?

Post by valchkou »

mskmel wrote: 09 Jan 2018 17:10
valchkou wrote: 09 Jan 2018 16:11 мы тоже строим iot.
некоторой время назад перевели несколько процессов с оракла на кассандру.
первое время использовали датастакс, но их сверх агрессивная ценовая политика вынудила нас перейти на опенсурс
Какие объёмы?
пока небольшие, несколько миллионов записей в день.
но нагрузка растет и возможно достигнет сотни миллионов/день уже в этом году
mskmel wrote: 09 Jan 2018 17:10 Почему перешли?
в данный момент с кассандры репортаем real-time metrics.
У нас бизнес такой, что кастомеры по всему миру и данные читаются\пишутся беспрерывно.
Когда начали трансформировать процессы причин уйти оказалось много:
и желание иметь одну базу но разбросанную по разным клаудам и географическим регионам и возможность читать одни и те же данные независимо от географии и базу супортить по частям чтобы не отрубать кастомеров, но основная причина все же непомерные поборы оракла c учетом того что у нас не только продакшн, но и туча тестовых процессов, включая практически полную копию продакшн для тестирования перформанса. Оракл что за тест, что за прод берет одинаково.

после нескольких недель кропотливых исследований, прототипов, тестов единогласно был выбран мой вариант - кассандра.
другая альтернатива касандре над которым начали недвно думать это GOOGLE CLOUD SPANNER.
mskmel
Уже с Приветом
Posts: 946
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: Что стреляет лучше по баблу Spark или ML?

Post by mskmel »

valchkou wrote: 09 Jan 2018 18:45 основная причина все же непомерные поборы оракла c учетом того что у нас не только продакшн, но и туча тестовых процессов, включая практически полную копию продакшн для тестирования перформанса. Оракл что за тест, что за прод берет одинаково.
Спасибо!

ULA @Cloud пробовали?

Хотя против бесплатного opensource конечно не попрёшь :)
User avatar
valchkou
Уже с Приветом
Posts: 4195
Joined: 27 Apr 2011 03:43
Location: Сергели ->Chicago

Re: Что стреляет лучше по баблу Spark или ML?

Post by valchkou »

mskmel wrote: 09 Jan 2018 18:58 ULA @Cloud пробовали?
даже не знаю, тут была туча оракловых экспертов.
но для нас нет пути назад, оракл это пройденный этап для данной компании.
User avatar
valchkou
Уже с Приветом
Posts: 4195
Joined: 27 Apr 2011 03:43
Location: Сергели ->Chicago

Re: Что стреляет лучше по баблу Spark или ML?

Post by valchkou »

Sergunka wrote: 09 Jan 2018 17:45
valchkou wrote: 09 Jan 2018 16:11
Sergunka wrote: 09 Jan 2018 06:23
valchkou wrote: 09 Jan 2018 05:49
Sergunka wrote: 09 Jan 2018 05:45

Там типо загрузил в блобстор файло большое плюнул в кашку что кушать подано... прогнал плюнул что кушать подали надо агрегирорвать уже из касандры касандра агрегировала плюнул в кашку что результат такой. Результат такой подписчик поднял в вебсокет - вебсокет выдавил в дашбоарду.

Так же есть варианты если файло мекое в пределах разумного то льется сразу в кашку ну и тд.
понятно спасибо. А почему каффка, а не rabbitmq к примеру?
Просто кашка вроде как лучше интегрируется в нашем облаке https://www.predix.io/ cо спарком т.е. просто наша местная заморочка
в таком случае еще несколько вопросов:
1) кассандра-спарк от датастакс или опенсурс?
2) если опенсурс используете ли вендора для 24х7 суппорта кассандры, если да то можно контакт
3) прикручен ли какой нибудь SQL транслятор над спарком?
4) на каких языках написаны апы которые говорят со спарком и кассандрой?

поясню почему спрашиваю.
мы тоже строим iot.
некоторой время назад перевели несколько процессов с оракла на кассандру.
первое время использовали датастакс, но их сверх агрессивная ценовая политика вынудила нас перейти на опенсурс.
пока не имелось нужды натягивать спарк на кассандру, более менее большие запросы распарралеливаются самим приложением используя, java parallel streams, fork/join or BlockinqQ/CountdownLatch.
Но недавно появились более сложные задачи.
Я открою отдельный топик и попытаюсь более подробно раскрыть тему у меня даже презентация есть про "Digital Twins" :D
и долго ждать еще
Easbayguy
Уже с Приветом
Posts: 10633
Joined: 17 Jul 2003 22:11

Re: Что стреляет лучше по баблу Spark или ML?

Post by Easbayguy »

valchkou wrote: 09 Jan 2018 18:45
mskmel wrote: 09 Jan 2018 17:10
valchkou wrote: 09 Jan 2018 16:11 мы тоже строим iot.
некоторой время назад перевели несколько процессов с оракла на кассандру.
первое время использовали датастакс, но их сверх агрессивная ценовая политика вынудила нас перейти на опенсурс
Какие объёмы?
пока небольшие, несколько миллионов записей в день.
но нагрузка растет и возможно достигнет сотни миллионов/день уже в этом году
mskmel wrote: 09 Jan 2018 17:10 Почему перешли?
в данный момент с кассандры репортаем real-time metrics.
У нас бизнес такой, что кастомеры по всему миру и данные читаются\пишутся беспрерывно.
Когда начали трансформировать процессы причин уйти оказалось много:
и желание иметь одну базу но разбросанную по разным клаудам и географическим регионам и возможность читать одни и те же данные независимо от географии и базу супортить по частям чтобы не отрубать кастомеров, но основная причина все же непомерные поборы оракла c учетом того что у нас не только продакшн, но и туча тестовых процессов, включая практически полную копию продакшн для тестирования перформанса. Оракл что за тест, что за прод берет одинаково.

после нескольких недель кропотливых исследований, прототипов, тестов единогласно был выбран мой вариант - кассандра.
другая альтернатива касандре над которым начали недвно думать это GOOGLE CLOUD SPANNER.
Мы от Кассандры откзались года три назад, когда выяснилось что таблички с десятками миллиардов записей оказались очень трудны в обслуживании. Интересно сейчас это все пофиксано? Кстати, Oracle enterprise license и не особенно дорогая, можно за пару миллионов в год иметь.
Пх'нглуи мглв'нафх Ктулху Р'лайх угахнагл фхтагн
User avatar
valchkou
Уже с Приветом
Posts: 4195
Joined: 27 Apr 2011 03:43
Location: Сергели ->Chicago

Re: Что стреляет лучше по баблу Spark или ML?

Post by valchkou »

Easbayguy wrote: 09 Jan 2018 19:42 Мы от Кассандры откзались года три назад, когда выяснилось что таблички с десятками миллиардов записей оказались очень трудны в обслуживании. Интересно сейчас это все пофиксано? Кстати, Oracle enterprise license и не особенно дорогая, можно за пару миллионов в год иметь.
пару миллионов в год для нас это охрененно дорого. Недавно прибили базу за 140 тыс. еще 2 на очереди, но они поболее будут.
в кассандре миллиардов не держим, для нас это больше некая временная база, куда сваливается весь мусор но вскоре исчезает по time to live.
Easbayguy
Уже с Приветом
Posts: 10633
Joined: 17 Jul 2003 22:11

Re: Что стреляет лучше по баблу Spark или ML?

Post by Easbayguy »

valchkou wrote: 09 Jan 2018 20:00
Easbayguy wrote: 09 Jan 2018 19:42 Мы от Кассандры откзались года три назад, когда выяснилось что таблички с десятками миллиардов записей оказались очень трудны в обслуживании. Интересно сейчас это все пофиксано? Кстати, Oracle enterprise license и не особенно дорогая, можно за пару миллионов в год иметь.
пару миллионов в год для нас это охрененно дорого. Недавно прибили базу за 140 тыс. еще 2 на очереди, но они поболее будут.
в кассандре миллиардов не держим, для нас это больше некая временная база, куда сваливается весь мусор но вскоре исчезает по time to live.
я видел очень большие оракловские базы на standard edition за копейки. Но если у вас мусорные данные, то тогда без разницы.
Пх'нглуи мглв'нафх Ктулху Р'лайх угахнагл фхтагн
mskmel
Уже с Приветом
Posts: 946
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: Что стреляет лучше по баблу Spark или ML?

Post by mskmel »

Easbayguy wrote: 09 Jan 2018 19:42 Oracle enterprise license и не особенно дорогая, можно за пару миллионов в год иметь.
Quarter Rack X6 (88 cores) - 40k\month всего. Сторговать еще точно получится.

Если не экзадату, то там ЕЕ можно и за 2к\мес иметь.
User avatar
valchkou
Уже с Приветом
Posts: 4195
Joined: 27 Apr 2011 03:43
Location: Сергели ->Chicago

Re: Что стреляет лучше по баблу Spark или ML?

Post by valchkou »

Easbayguy wrote: 09 Jan 2018 20:24 Мы от Кассандры откзались года три назад
на что перешли?
Easbayguy
Уже с Приветом
Posts: 10633
Joined: 17 Jul 2003 22:11

Re: Что стреляет лучше по баблу Spark или ML?

Post by Easbayguy »

valchkou wrote: 09 Jan 2018 22:34
Easbayguy wrote: 09 Jan 2018 20:24 Мы от Кассандры откзались года три назад
на что перешли?
На фигову тучу mysql clusters, часть осталась в Окакле! Если данные надо хранить долго и искать по куче индексов и они постоянно растут, то
извиняйте!
Пх'нглуи мглв'нафх Ктулху Р'лайх угахнагл фхтагн

Return to “Работа и Карьера в IT”