Что стреляет лучше по баблу Spark или ML?

Где деньги?

Spark
5
6%
Spark
5
6%
ML
1
1%
ML
1
1%
Spark+ML
6
8%
Spark+ML
6
8%
Ты кто
10
13%
Ты кто
10
13%
Кто эти люди
17
22%
Кто эти люди
18
23%
 
Total votes: 79

User avatar
Sergunka
Уже с Приветом
Posts: 29173
Joined: 03 Dec 2000 10:01
Location: Vladivostok->San Francisco->Los Angeles->San Francisco

Re: Что стреляет лучше по баблу Spark или ML?

Post by Sergunka » 09 Jan 2018 05:45

valchkou wrote:
09 Jan 2018 05:34
Sergunka wrote:
18 Dec 2017 22:47
По спарку сейчас гоняем связку кашка-спарки-кассандра
спарки-кассандра так с этим понятно.
а кафка зачем в этой цепи? какую проблему решает? не лишнее ли звено?
Там типо загрузил в блобстор файло большое плюнул в кашку что кушать подано... прогнал плюнул что кушать подали надо агрегирорвать уже из касандры касандра агрегировала плюнул в кашку что результат такой. Результат такой подписчик поднял в вебсокет - вебсокет выдавил в дашбоарду.

Так же есть варианты если файло мекое в пределах разумного то льется сразу в кашку ну и тд.
"A patriot must always be ready to defend his country against his government." Edward Abbey

User avatar
valchkou
Уже с Приветом
Posts: 3283
Joined: 27 Apr 2011 03:43
Location: Сергели ->Chicago

Re: Что стреляет лучше по баблу Spark или ML?

Post by valchkou » 09 Jan 2018 05:49

Sergunka wrote:
09 Jan 2018 05:45
valchkou wrote:
09 Jan 2018 05:34
Sergunka wrote:
18 Dec 2017 22:47
По спарку сейчас гоняем связку кашка-спарки-кассандра
спарки-кассандра так с этим понятно.
а кафка зачем в этой цепи? какую проблему решает? не лишнее ли звено?
Там типо загрузил в блобстор файло большое плюнул в кашку что кушать подано... прогнал плюнул что кушать подали надо агрегирорвать уже из касандры касандра агрегировала плюнул в кашку что результат такой. Результат такой подписчик поднял в вебсокет - вебсокет выдавил в дашбоарду.

Так же есть варианты если файло мекое в пределах разумного то льется сразу в кашку ну и тд.
понятно спасибо. А почему каффка, а не rabbitmq к примеру?

User avatar
Sergunka
Уже с Приветом
Posts: 29173
Joined: 03 Dec 2000 10:01
Location: Vladivostok->San Francisco->Los Angeles->San Francisco

Re: Что стреляет лучше по баблу Spark или ML?

Post by Sergunka » 09 Jan 2018 06:23

valchkou wrote:
09 Jan 2018 05:49
Sergunka wrote:
09 Jan 2018 05:45
valchkou wrote:
09 Jan 2018 05:34
Sergunka wrote:
18 Dec 2017 22:47
По спарку сейчас гоняем связку кашка-спарки-кассандра
спарки-кассандра так с этим понятно.
а кафка зачем в этой цепи? какую проблему решает? не лишнее ли звено?
Там типо загрузил в блобстор файло большое плюнул в кашку что кушать подано... прогнал плюнул что кушать подали надо агрегирорвать уже из касандры касандра агрегировала плюнул в кашку что результат такой. Результат такой подписчик поднял в вебсокет - вебсокет выдавил в дашбоарду.

Так же есть варианты если файло мекое в пределах разумного то льется сразу в кашку ну и тд.
понятно спасибо. А почему каффка, а не rabbitmq к примеру?
Просто кашка вроде как лучше интегрируется в нашем облаке https://www.predix.io/ cо спарком т.е. просто наша местная заморочка
"A patriot must always be ready to defend his country against his government." Edward Abbey

sp123
Уже с Приветом
Posts: 1791
Joined: 24 Feb 2001 10:01
Location: Челябинск -> Everett, WA

Re: Что стреляет лучше по баблу Spark или ML?

Post by sp123 » 09 Jan 2018 06:53

- Вы любите Кафку?
- Да, офобенно грефневую!


Sent from my iPhone using Tapatalk Pro

User avatar
АццкоМото
Уже с Приветом
Posts: 15242
Joined: 01 Mar 2007 05:18
Location: VVO->ORD->DFW->SFO->DFW->PDX

Re: Что стреляет лучше по баблу Spark или ML?

Post by АццкоМото » 09 Jan 2018 06:59

sp123 wrote:
09 Jan 2018 06:53
- Вы любите Кафку?
- Да, офобенно грефневую!


Sent from my iPhone using Tapatalk Pro
Следующая остановка — кое-кого. Повторяю, Максима кое-кого.
Мат на форуме запрещен, блдж!

User avatar
valchkou
Уже с Приветом
Posts: 3283
Joined: 27 Apr 2011 03:43
Location: Сергели ->Chicago

Re: Что стреляет лучше по баблу Spark или ML?

Post by valchkou » 09 Jan 2018 16:11

Sergunka wrote:
09 Jan 2018 06:23
valchkou wrote:
09 Jan 2018 05:49
Sergunka wrote:
09 Jan 2018 05:45
valchkou wrote:
09 Jan 2018 05:34
Sergunka wrote:
18 Dec 2017 22:47
По спарку сейчас гоняем связку кашка-спарки-кассандра
спарки-кассандра так с этим понятно.
а кафка зачем в этой цепи? какую проблему решает? не лишнее ли звено?
Там типо загрузил в блобстор файло большое плюнул в кашку что кушать подано... прогнал плюнул что кушать подали надо агрегирорвать уже из касандры касандра агрегировала плюнул в кашку что результат такой. Результат такой подписчик поднял в вебсокет - вебсокет выдавил в дашбоарду.

Так же есть варианты если файло мекое в пределах разумного то льется сразу в кашку ну и тд.
понятно спасибо. А почему каффка, а не rabbitmq к примеру?
Просто кашка вроде как лучше интегрируется в нашем облаке https://www.predix.io/ cо спарком т.е. просто наша местная заморочка
в таком случае еще несколько вопросов:
1) кассандра-спарк от датастакс или опенсурс?
2) если опенсурс используете ли вендора для 24х7 суппорта кассандры, если да то можно контакт
3) прикручен ли какой нибудь SQL транслятор над спарком?
4) на каких языках написаны апы которые говорят со спарком и кассандрой?

поясню почему спрашиваю.
мы тоже строим iot.
некоторой время назад перевели несколько процессов с оракла на кассандру.
первое время использовали датастакс, но их сверх агрессивная ценовая политика вынудила нас перейти на опенсурс.
пока не имелось нужды натягивать спарк на кассандру, более менее большие запросы распарралеливаются самим приложением используя, java parallel streams, fork/join or BlockinqQ/CountdownLatch.
Но недавно появились более сложные задачи.

mskmel
Уже с Приветом
Posts: 930
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: Что стреляет лучше по баблу Spark или ML?

Post by mskmel » 09 Jan 2018 17:10

valchkou wrote:
09 Jan 2018 16:11
мы тоже строим iot.
некоторой время назад перевели несколько процессов с оракла на кассандру.
первое время использовали датастакс, но их сверх агрессивная ценовая политика вынудила нас перейти на опенсурс
Какие объёмы? Почему перешли?

User avatar
Sergunka
Уже с Приветом
Posts: 29173
Joined: 03 Dec 2000 10:01
Location: Vladivostok->San Francisco->Los Angeles->San Francisco

Re: Что стреляет лучше по баблу Spark или ML?

Post by Sergunka » 09 Jan 2018 17:45

valchkou wrote:
09 Jan 2018 16:11
Sergunka wrote:
09 Jan 2018 06:23
valchkou wrote:
09 Jan 2018 05:49
Sergunka wrote:
09 Jan 2018 05:45
valchkou wrote:
09 Jan 2018 05:34

спарки-кассандра так с этим понятно.
а кафка зачем в этой цепи? какую проблему решает? не лишнее ли звено?
Там типо загрузил в блобстор файло большое плюнул в кашку что кушать подано... прогнал плюнул что кушать подали надо агрегирорвать уже из касандры касандра агрегировала плюнул в кашку что результат такой. Результат такой подписчик поднял в вебсокет - вебсокет выдавил в дашбоарду.

Так же есть варианты если файло мекое в пределах разумного то льется сразу в кашку ну и тд.
понятно спасибо. А почему каффка, а не rabbitmq к примеру?
Просто кашка вроде как лучше интегрируется в нашем облаке https://www.predix.io/ cо спарком т.е. просто наша местная заморочка
в таком случае еще несколько вопросов:
1) кассандра-спарк от датастакс или опенсурс?
2) если опенсурс используете ли вендора для 24х7 суппорта кассандры, если да то можно контакт
3) прикручен ли какой нибудь SQL транслятор над спарком?
4) на каких языках написаны апы которые говорят со спарком и кассандрой?

поясню почему спрашиваю.
мы тоже строим iot.
некоторой время назад перевели несколько процессов с оракла на кассандру.
первое время использовали датастакс, но их сверх агрессивная ценовая политика вынудила нас перейти на опенсурс.
пока не имелось нужды натягивать спарк на кассандру, более менее большие запросы распарралеливаются самим приложением используя, java parallel streams, fork/join or BlockinqQ/CountdownLatch.
Но недавно появились более сложные задачи.
Я открою отдельный топик и попытаюсь более подробно раскрыть тему у меня даже презентация есть про "Digital Twins" :D
"A patriot must always be ready to defend his country against his government." Edward Abbey

User avatar
valchkou
Уже с Приветом
Posts: 3283
Joined: 27 Apr 2011 03:43
Location: Сергели ->Chicago

Re: Что стреляет лучше по баблу Spark или ML?

Post by valchkou » 09 Jan 2018 18:45

mskmel wrote:
09 Jan 2018 17:10
valchkou wrote:
09 Jan 2018 16:11
мы тоже строим iot.
некоторой время назад перевели несколько процессов с оракла на кассандру.
первое время использовали датастакс, но их сверх агрессивная ценовая политика вынудила нас перейти на опенсурс
Какие объёмы?
пока небольшие, несколько миллионов записей в день.
но нагрузка растет и возможно достигнет сотни миллионов/день уже в этом году
mskmel wrote:
09 Jan 2018 17:10
Почему перешли?
в данный момент с кассандры репортаем real-time metrics.
У нас бизнес такой, что кастомеры по всему миру и данные читаются\пишутся беспрерывно.
Когда начали трансформировать процессы причин уйти оказалось много:
и желание иметь одну базу но разбросанную по разным клаудам и географическим регионам и возможность читать одни и те же данные независимо от географии и базу супортить по частям чтобы не отрубать кастомеров, но основная причина все же непомерные поборы оракла c учетом того что у нас не только продакшн, но и туча тестовых процессов, включая практически полную копию продакшн для тестирования перформанса. Оракл что за тест, что за прод берет одинаково.

после нескольких недель кропотливых исследований, прототипов, тестов единогласно был выбран мой вариант - кассандра.
другая альтернатива касандре над которым начали недвно думать это GOOGLE CLOUD SPANNER.

mskmel
Уже с Приветом
Posts: 930
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: Что стреляет лучше по баблу Spark или ML?

Post by mskmel » 09 Jan 2018 18:58

valchkou wrote:
09 Jan 2018 18:45
основная причина все же непомерные поборы оракла c учетом того что у нас не только продакшн, но и туча тестовых процессов, включая практически полную копию продакшн для тестирования перформанса. Оракл что за тест, что за прод берет одинаково.
Спасибо!

ULA @Cloud пробовали?

Хотя против бесплатного opensource конечно не попрёшь :)

User avatar
valchkou
Уже с Приветом
Posts: 3283
Joined: 27 Apr 2011 03:43
Location: Сергели ->Chicago

Re: Что стреляет лучше по баблу Spark или ML?

Post by valchkou » 09 Jan 2018 19:30

mskmel wrote:
09 Jan 2018 18:58
ULA @Cloud пробовали?
даже не знаю, тут была туча оракловых экспертов.
но для нас нет пути назад, оракл это пройденный этап для данной компании.

User avatar
valchkou
Уже с Приветом
Posts: 3283
Joined: 27 Apr 2011 03:43
Location: Сергели ->Chicago

Re: Что стреляет лучше по баблу Spark или ML?

Post by valchkou » 09 Jan 2018 19:39

Sergunka wrote:
09 Jan 2018 17:45
valchkou wrote:
09 Jan 2018 16:11
Sergunka wrote:
09 Jan 2018 06:23
valchkou wrote:
09 Jan 2018 05:49
Sergunka wrote:
09 Jan 2018 05:45


Там типо загрузил в блобстор файло большое плюнул в кашку что кушать подано... прогнал плюнул что кушать подали надо агрегирорвать уже из касандры касандра агрегировала плюнул в кашку что результат такой. Результат такой подписчик поднял в вебсокет - вебсокет выдавил в дашбоарду.

Так же есть варианты если файло мекое в пределах разумного то льется сразу в кашку ну и тд.
понятно спасибо. А почему каффка, а не rabbitmq к примеру?
Просто кашка вроде как лучше интегрируется в нашем облаке https://www.predix.io/ cо спарком т.е. просто наша местная заморочка
в таком случае еще несколько вопросов:
1) кассандра-спарк от датастакс или опенсурс?
2) если опенсурс используете ли вендора для 24х7 суппорта кассандры, если да то можно контакт
3) прикручен ли какой нибудь SQL транслятор над спарком?
4) на каких языках написаны апы которые говорят со спарком и кассандрой?

поясню почему спрашиваю.
мы тоже строим iot.
некоторой время назад перевели несколько процессов с оракла на кассандру.
первое время использовали датастакс, но их сверх агрессивная ценовая политика вынудила нас перейти на опенсурс.
пока не имелось нужды натягивать спарк на кассандру, более менее большие запросы распарралеливаются самим приложением используя, java parallel streams, fork/join or BlockinqQ/CountdownLatch.
Но недавно появились более сложные задачи.
Я открою отдельный топик и попытаюсь более подробно раскрыть тему у меня даже презентация есть про "Digital Twins" :D
и долго ждать еще

Easbayguy
Уже с Приветом
Posts: 10244
Joined: 17 Jul 2003 22:11

Re: Что стреляет лучше по баблу Spark или ML?

Post by Easbayguy » 09 Jan 2018 19:42

valchkou wrote:
09 Jan 2018 18:45
mskmel wrote:
09 Jan 2018 17:10
valchkou wrote:
09 Jan 2018 16:11
мы тоже строим iot.
некоторой время назад перевели несколько процессов с оракла на кассандру.
первое время использовали датастакс, но их сверх агрессивная ценовая политика вынудила нас перейти на опенсурс
Какие объёмы?
пока небольшие, несколько миллионов записей в день.
но нагрузка растет и возможно достигнет сотни миллионов/день уже в этом году
mskmel wrote:
09 Jan 2018 17:10
Почему перешли?
в данный момент с кассандры репортаем real-time metrics.
У нас бизнес такой, что кастомеры по всему миру и данные читаются\пишутся беспрерывно.
Когда начали трансформировать процессы причин уйти оказалось много:
и желание иметь одну базу но разбросанную по разным клаудам и географическим регионам и возможность читать одни и те же данные независимо от географии и базу супортить по частям чтобы не отрубать кастомеров, но основная причина все же непомерные поборы оракла c учетом того что у нас не только продакшн, но и туча тестовых процессов, включая практически полную копию продакшн для тестирования перформанса. Оракл что за тест, что за прод берет одинаково.

после нескольких недель кропотливых исследований, прототипов, тестов единогласно был выбран мой вариант - кассандра.
другая альтернатива касандре над которым начали недвно думать это GOOGLE CLOUD SPANNER.
Мы от Кассандры откзались года три назад, когда выяснилось что таблички с десятками миллиардов записей оказались очень трудны в обслуживании. Интересно сейчас это все пофиксано? Кстати, Oracle enterprise license и не особенно дорогая, можно за пару миллионов в год иметь.

User avatar
valchkou
Уже с Приветом
Posts: 3283
Joined: 27 Apr 2011 03:43
Location: Сергели ->Chicago

Re: Что стреляет лучше по баблу Spark или ML?

Post by valchkou » 09 Jan 2018 20:00

Easbayguy wrote:
09 Jan 2018 19:42
Мы от Кассандры откзались года три назад, когда выяснилось что таблички с десятками миллиардов записей оказались очень трудны в обслуживании. Интересно сейчас это все пофиксано? Кстати, Oracle enterprise license и не особенно дорогая, можно за пару миллионов в год иметь.
пару миллионов в год для нас это охрененно дорого. Недавно прибили базу за 140 тыс. еще 2 на очереди, но они поболее будут.
в кассандре миллиардов не держим, для нас это больше некая временная база, куда сваливается весь мусор но вскоре исчезает по time to live.

Easbayguy
Уже с Приветом
Posts: 10244
Joined: 17 Jul 2003 22:11

Re: Что стреляет лучше по баблу Spark или ML?

Post by Easbayguy » 09 Jan 2018 20:24

valchkou wrote:
09 Jan 2018 20:00
Easbayguy wrote:
09 Jan 2018 19:42
Мы от Кассандры откзались года три назад, когда выяснилось что таблички с десятками миллиардов записей оказались очень трудны в обслуживании. Интересно сейчас это все пофиксано? Кстати, Oracle enterprise license и не особенно дорогая, можно за пару миллионов в год иметь.
пару миллионов в год для нас это охрененно дорого. Недавно прибили базу за 140 тыс. еще 2 на очереди, но они поболее будут.
в кассандре миллиардов не держим, для нас это больше некая временная база, куда сваливается весь мусор но вскоре исчезает по time to live.
я видел очень большие оракловские базы на standard edition за копейки. Но если у вас мусорные данные, то тогда без разницы.

mskmel
Уже с Приветом
Posts: 930
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: Что стреляет лучше по баблу Spark или ML?

Post by mskmel » 09 Jan 2018 21:01

Easbayguy wrote:
09 Jan 2018 19:42
Oracle enterprise license и не особенно дорогая, можно за пару миллионов в год иметь.
Quarter Rack X6 (88 cores) - 40k\month всего. Сторговать еще точно получится.

Если не экзадату, то там ЕЕ можно и за 2к\мес иметь.

User avatar
valchkou
Уже с Приветом
Posts: 3283
Joined: 27 Apr 2011 03:43
Location: Сергели ->Chicago

Re: Что стреляет лучше по баблу Spark или ML?

Post by valchkou » 09 Jan 2018 22:34

Easbayguy wrote:
09 Jan 2018 20:24
Мы от Кассандры откзались года три назад
на что перешли?

Easbayguy
Уже с Приветом
Posts: 10244
Joined: 17 Jul 2003 22:11

Re: Что стреляет лучше по баблу Spark или ML?

Post by Easbayguy » 09 Jan 2018 22:42

valchkou wrote:
09 Jan 2018 22:34
Easbayguy wrote:
09 Jan 2018 20:24
Мы от Кассандры откзались года три назад
на что перешли?
На фигову тучу mysql clusters, часть осталась в Окакле! Если данные надо хранить долго и искать по куче индексов и они постоянно растут, то
извиняйте!

User avatar
ALV00
Уже с Приветом
Posts: 1226
Joined: 08 Mar 2002 10:01
Location: NJ

Re: Что стреляет лучше по баблу Spark или ML?

Post by ALV00 » 22 Jan 2018 20:54

Снежная Королева wrote:
20 Dec 2017 23:01
Комиссар, лично у меня ушло лет 5 от механического знания формулы Байеса до настоящего понимания conditional probability. Когда с лету понимаешь 3-door Monty Hall problem и подобные им.
Не хотите задачку решить?
Мысленый эксперимент

User avatar
Sergunka
Уже с Приветом
Posts: 29173
Joined: 03 Dec 2000 10:01
Location: Vladivostok->San Francisco->Los Angeles->San Francisco

Re: Что стреляет лучше по баблу Spark или ML?

Post by Sergunka » 25 Jan 2018 05:53

Petya77 wrote:
24 Jan 2018 04:30
Sergunka wrote:
18 Dec 2017 03:25
Вполне возможно, что с января начнется оплачиваемый отпуск за счет работадателя на 60 дней хотелось бы с пользой провести время, чтоб не было мучительно больно за зря прожитые годы.
Больше всего платят за комбинацию когда человек может написать правильную МЛ модель так чтобы она эффективно работала на больших данных.
Сколько нынче "больше"?
"A patriot must always be ready to defend his country against his government." Edward Abbey

User avatar
Мальчик-Одуванчик
Уже с Приветом
Posts: 10783
Joined: 27 Sep 2007 22:53

Re: Что стреляет лучше по баблу Spark или ML?

Post by Мальчик-Одуванчик » 25 Jan 2018 09:48

Sergunka wrote:
25 Jan 2018 05:53
Сколько нынче "больше"?
В среднем - не так уж и много: 170-220К. Но и требования начинаются - не ниже мастера в одном из топовых вузов.

User avatar
valchkou
Уже с Приветом
Posts: 3283
Joined: 27 Apr 2011 03:43
Location: Сергели ->Chicago

Re: Что стреляет лучше по баблу Spark или ML?

Post by valchkou » 25 Jan 2018 18:56

Мальчик-Одуванчик wrote:
25 Jan 2018 09:48
Sergunka wrote:
25 Jan 2018 05:53
Сколько нынче "больше"?
В среднем - не так уж и много: 170-220К. Но и требования начинаются - не ниже мастера в одном из топовых вузов.
Вилка для таких чуваков должна буть 300-400. А иначе зачем же так Ж рвать?
нужно окончить топовый вуз, в который еще нужно умудриться попасть,
получить минимум мастера, а лучше PHD, накачать мозг нетривиальной математикой,
освоить пару языков программирования, добавить к этому бигдатые фреймворки и всего лишь 170-220? и это в кали!
те же 170-220 можно получить имея бакалавра из любого провинциального и даже не американского техникума +5 лет.

User avatar
Мальчик-Одуванчик
Уже с Приветом
Posts: 10783
Joined: 27 Sep 2007 22:53

Re: Что стреляет лучше по баблу Spark или ML?

Post by Мальчик-Одуванчик » 26 Jan 2018 00:32

valchkou wrote:
25 Jan 2018 18:56
те же 170-220 можно получить имея бакалавра из любого провинциального и даже не американского техникума +5 лет.
Бакалавру всего этого достичь гораздо труднее, особенно при отсутствии базового образования и хорошего вуза.
А так - да не шибко и много.

User avatar
Сабина
Уже с Приветом
Posts: 17354
Joined: 11 Jan 2012 09:25
Location: CA

Re: Что стреляет лучше по баблу Spark или ML?

Post by Сабина » 26 Jan 2018 05:30

История... на предмет какие перцы ходят на интервью на Senior Big data Engineer...
Пришел один позавчера. В резюме какие то жуткие страсти: сто, ceo, machine learning, data science, стенфорд ... короче прячься кто может. Первые минут пять рассказывал как он продал один из своих стартапов ораклу. Потом пытался начать "мне вопросы задавать", но я его успешно заткнула и перешла к технической части.
Начинаю спрашивать какие то базовые вещи про сергунькин любимый спарк и кафку - вообще все по нулям. :yad:
Есть же такие отчаянные :roll:
https://www.youtube.com/watch?v=wOwblaKmyVw

User avatar
Sergunka
Уже с Приветом
Posts: 29173
Joined: 03 Dec 2000 10:01
Location: Vladivostok->San Francisco->Los Angeles->San Francisco

Re: Что стреляет лучше по баблу Spark или ML?

Post by Sergunka » 26 Jan 2018 06:02

Сабина wrote:
26 Jan 2018 05:30
Начинаю спрашивать какие то базовые вещи про сергунькин любимый спарк и кафку - вообще все по нулям. :yad:
Сабин,

вот нафига ты человека обломила? Все одно же не взяли бы так дала бы челу хотя бы на интервью расслабится :angry:

phpBB [video]
"A patriot must always be ready to defend his country against his government." Edward Abbey

Return to “Работа и Карьера в IT”