Что стреляет лучше по баблу Spark или ML?
-
- Уже с Приветом
- Posts: 1962
- Joined: 24 Feb 2001 10:01
- Location: Челябинск -> Everett, WA
Re: Что стреляет лучше по баблу Spark или ML?
- Вы любите Кафку?
- Да, офобенно грефневую!
Sent from my iPhone using Tapatalk Pro
- Да, офобенно грефневую!
Sent from my iPhone using Tapatalk Pro
-
- Уже с Приветом
- Posts: 15276
- Joined: 01 Mar 2007 05:18
- Location: VVO->ORD->DFW->SFO->DFW->PDX
Re: Что стреляет лучше по баблу Spark или ML?
Следующая остановка — кое-кого. Повторяю, Максима кое-кого.
Мат на форуме запрещен, блдж!
-
- Уже с Приветом
- Posts: 4195
- Joined: 27 Apr 2011 03:43
- Location: Сергели ->Chicago
Re: Что стреляет лучше по баблу Spark или ML?
в таком случае еще несколько вопросов:Sergunka wrote: ↑09 Jan 2018 06:23Просто кашка вроде как лучше интегрируется в нашем облаке https://www.predix.io/ cо спарком т.е. просто наша местная заморочкаvalchkou wrote: ↑09 Jan 2018 05:49понятно спасибо. А почему каффка, а не rabbitmq к примеру?Sergunka wrote: ↑09 Jan 2018 05:45Там типо загрузил в блобстор файло большое плюнул в кашку что кушать подано... прогнал плюнул что кушать подали надо агрегирорвать уже из касандры касандра агрегировала плюнул в кашку что результат такой. Результат такой подписчик поднял в вебсокет - вебсокет выдавил в дашбоарду.
Так же есть варианты если файло мекое в пределах разумного то льется сразу в кашку ну и тд.
1) кассандра-спарк от датастакс или опенсурс?
2) если опенсурс используете ли вендора для 24х7 суппорта кассандры, если да то можно контакт
3) прикручен ли какой нибудь SQL транслятор над спарком?
4) на каких языках написаны апы которые говорят со спарком и кассандрой?
поясню почему спрашиваю.
мы тоже строим iot.
некоторой время назад перевели несколько процессов с оракла на кассандру.
первое время использовали датастакс, но их сверх агрессивная ценовая политика вынудила нас перейти на опенсурс.
пока не имелось нужды натягивать спарк на кассандру, более менее большие запросы распарралеливаются самим приложением используя, java parallel streams, fork/join or BlockinqQ/CountdownLatch.
Но недавно появились более сложные задачи.
-
- Уже с Приветом
- Posts: 946
- Joined: 24 Sep 2013 05:58
- Location: US\GA
-
- Уже с Приветом
- Posts: 34164
- Joined: 03 Dec 2000 10:01
- Location: Vladivostok->San Francisco->Los Angeles->San Francisco
Re: Что стреляет лучше по баблу Spark или ML?
Я открою отдельный топик и попытаюсь более подробно раскрыть тему у меня даже презентация есть про "Digital Twins"valchkou wrote: ↑09 Jan 2018 16:11в таком случае еще несколько вопросов:Sergunka wrote: ↑09 Jan 2018 06:23Просто кашка вроде как лучше интегрируется в нашем облаке https://www.predix.io/ cо спарком т.е. просто наша местная заморочкаvalchkou wrote: ↑09 Jan 2018 05:49понятно спасибо. А почему каффка, а не rabbitmq к примеру?Sergunka wrote: ↑09 Jan 2018 05:45Там типо загрузил в блобстор файло большое плюнул в кашку что кушать подано... прогнал плюнул что кушать подали надо агрегирорвать уже из касандры касандра агрегировала плюнул в кашку что результат такой. Результат такой подписчик поднял в вебсокет - вебсокет выдавил в дашбоарду.
Так же есть варианты если файло мекое в пределах разумного то льется сразу в кашку ну и тд.
1) кассандра-спарк от датастакс или опенсурс?
2) если опенсурс используете ли вендора для 24х7 суппорта кассандры, если да то можно контакт
3) прикручен ли какой нибудь SQL транслятор над спарком?
4) на каких языках написаны апы которые говорят со спарком и кассандрой?
поясню почему спрашиваю.
мы тоже строим iot.
некоторой время назад перевели несколько процессов с оракла на кассандру.
первое время использовали датастакс, но их сверх агрессивная ценовая политика вынудила нас перейти на опенсурс.
пока не имелось нужды натягивать спарк на кассандру, более менее большие запросы распарралеливаются самим приложением используя, java parallel streams, fork/join or BlockinqQ/CountdownLatch.
Но недавно появились более сложные задачи.
"A patriot must always be ready to defend his country against his government." Edward Abbey
-
- Уже с Приветом
- Posts: 4195
- Joined: 27 Apr 2011 03:43
- Location: Сергели ->Chicago
Re: Что стреляет лучше по баблу Spark или ML?
пока небольшие, несколько миллионов записей в день.
но нагрузка растет и возможно достигнет сотни миллионов/день уже в этом году
в данный момент с кассандры репортаем real-time metrics.
У нас бизнес такой, что кастомеры по всему миру и данные читаются\пишутся беспрерывно.
Когда начали трансформировать процессы причин уйти оказалось много:
и желание иметь одну базу но разбросанную по разным клаудам и географическим регионам и возможность читать одни и те же данные независимо от географии и базу супортить по частям чтобы не отрубать кастомеров, но основная причина все же непомерные поборы оракла c учетом того что у нас не только продакшн, но и туча тестовых процессов, включая практически полную копию продакшн для тестирования перформанса. Оракл что за тест, что за прод берет одинаково.
после нескольких недель кропотливых исследований, прототипов, тестов единогласно был выбран мой вариант - кассандра.
другая альтернатива касандре над которым начали недвно думать это GOOGLE CLOUD SPANNER.
-
- Уже с Приветом
- Posts: 946
- Joined: 24 Sep 2013 05:58
- Location: US\GA
Re: Что стреляет лучше по баблу Spark или ML?
-
- Уже с Приветом
- Posts: 4195
- Joined: 27 Apr 2011 03:43
- Location: Сергели ->Chicago
-
- Уже с Приветом
- Posts: 4195
- Joined: 27 Apr 2011 03:43
- Location: Сергели ->Chicago
Re: Что стреляет лучше по баблу Spark или ML?
и долго ждать ещеSergunka wrote: ↑09 Jan 2018 17:45Я открою отдельный топик и попытаюсь более подробно раскрыть тему у меня даже презентация есть про "Digital Twins"valchkou wrote: ↑09 Jan 2018 16:11в таком случае еще несколько вопросов:Sergunka wrote: ↑09 Jan 2018 06:23Просто кашка вроде как лучше интегрируется в нашем облаке https://www.predix.io/ cо спарком т.е. просто наша местная заморочкаvalchkou wrote: ↑09 Jan 2018 05:49понятно спасибо. А почему каффка, а не rabbitmq к примеру?Sergunka wrote: ↑09 Jan 2018 05:45
Там типо загрузил в блобстор файло большое плюнул в кашку что кушать подано... прогнал плюнул что кушать подали надо агрегирорвать уже из касандры касандра агрегировала плюнул в кашку что результат такой. Результат такой подписчик поднял в вебсокет - вебсокет выдавил в дашбоарду.
Так же есть варианты если файло мекое в пределах разумного то льется сразу в кашку ну и тд.
1) кассандра-спарк от датастакс или опенсурс?
2) если опенсурс используете ли вендора для 24х7 суппорта кассандры, если да то можно контакт
3) прикручен ли какой нибудь SQL транслятор над спарком?
4) на каких языках написаны апы которые говорят со спарком и кассандрой?
поясню почему спрашиваю.
мы тоже строим iot.
некоторой время назад перевели несколько процессов с оракла на кассандру.
первое время использовали датастакс, но их сверх агрессивная ценовая политика вынудила нас перейти на опенсурс.
пока не имелось нужды натягивать спарк на кассандру, более менее большие запросы распарралеливаются самим приложением используя, java parallel streams, fork/join or BlockinqQ/CountdownLatch.
Но недавно появились более сложные задачи.
-
- Уже с Приветом
- Posts: 10632
- Joined: 17 Jul 2003 22:11
Re: Что стреляет лучше по баблу Spark или ML?
Мы от Кассандры откзались года три назад, когда выяснилось что таблички с десятками миллиардов записей оказались очень трудны в обслуживании. Интересно сейчас это все пофиксано? Кстати, Oracle enterprise license и не особенно дорогая, можно за пару миллионов в год иметь.valchkou wrote: ↑09 Jan 2018 18:45пока небольшие, несколько миллионов записей в день.
но нагрузка растет и возможно достигнет сотни миллионов/день уже в этом году
в данный момент с кассандры репортаем real-time metrics.
У нас бизнес такой, что кастомеры по всему миру и данные читаются\пишутся беспрерывно.
Когда начали трансформировать процессы причин уйти оказалось много:
и желание иметь одну базу но разбросанную по разным клаудам и географическим регионам и возможность читать одни и те же данные независимо от географии и базу супортить по частям чтобы не отрубать кастомеров, но основная причина все же непомерные поборы оракла c учетом того что у нас не только продакшн, но и туча тестовых процессов, включая практически полную копию продакшн для тестирования перформанса. Оракл что за тест, что за прод берет одинаково.
после нескольких недель кропотливых исследований, прототипов, тестов единогласно был выбран мой вариант - кассандра.
другая альтернатива касандре над которым начали недвно думать это GOOGLE CLOUD SPANNER.
Пх'нглуи мглв'нафх Ктулху Р'лайх угахнагл фхтагн
-
- Уже с Приветом
- Posts: 4195
- Joined: 27 Apr 2011 03:43
- Location: Сергели ->Chicago
Re: Что стреляет лучше по баблу Spark или ML?
пару миллионов в год для нас это охрененно дорого. Недавно прибили базу за 140 тыс. еще 2 на очереди, но они поболее будут.Easbayguy wrote: ↑09 Jan 2018 19:42 Мы от Кассандры откзались года три назад, когда выяснилось что таблички с десятками миллиардов записей оказались очень трудны в обслуживании. Интересно сейчас это все пофиксано? Кстати, Oracle enterprise license и не особенно дорогая, можно за пару миллионов в год иметь.
в кассандре миллиардов не держим, для нас это больше некая временная база, куда сваливается весь мусор но вскоре исчезает по time to live.
-
- Уже с Приветом
- Posts: 10632
- Joined: 17 Jul 2003 22:11
Re: Что стреляет лучше по баблу Spark или ML?
я видел очень большие оракловские базы на standard edition за копейки. Но если у вас мусорные данные, то тогда без разницы.valchkou wrote: ↑09 Jan 2018 20:00пару миллионов в год для нас это охрененно дорого. Недавно прибили базу за 140 тыс. еще 2 на очереди, но они поболее будут.Easbayguy wrote: ↑09 Jan 2018 19:42 Мы от Кассандры откзались года три назад, когда выяснилось что таблички с десятками миллиардов записей оказались очень трудны в обслуживании. Интересно сейчас это все пофиксано? Кстати, Oracle enterprise license и не особенно дорогая, можно за пару миллионов в год иметь.
в кассандре миллиардов не держим, для нас это больше некая временная база, куда сваливается весь мусор но вскоре исчезает по time to live.
Пх'нглуи мглв'нафх Ктулху Р'лайх угахнагл фхтагн
-
- Уже с Приветом
- Posts: 946
- Joined: 24 Sep 2013 05:58
- Location: US\GA
-
- Уже с Приветом
- Posts: 4195
- Joined: 27 Apr 2011 03:43
- Location: Сергели ->Chicago
-
- Уже с Приветом
- Posts: 10632
- Joined: 17 Jul 2003 22:11
Re: Что стреляет лучше по баблу Spark или ML?
На фигову тучу mysql clusters, часть осталась в Окакле! Если данные надо хранить долго и искать по куче индексов и они постоянно растут, то
извиняйте!
Пх'нглуи мглв'нафх Ктулху Р'лайх угахнагл фхтагн
-
- Уже с Приветом
- Posts: 1494
- Joined: 08 Mar 2002 10:01
- Location: NJ
Re: Что стреляет лучше по баблу Spark или ML?
Не хотите задачку решить?Снежная Королева wrote: ↑20 Dec 2017 23:01 Комиссар, лично у меня ушло лет 5 от механического знания формулы Байеса до настоящего понимания conditional probability. Когда с лету понимаешь 3-door Monty Hall problem и подобные им.
Мысленый эксперимент
-
- Уже с Приветом
- Posts: 34164
- Joined: 03 Dec 2000 10:01
- Location: Vladivostok->San Francisco->Los Angeles->San Francisco
Re: Что стреляет лучше по баблу Spark или ML?
Сколько нынче "больше"?
"A patriot must always be ready to defend his country against his government." Edward Abbey
-
- Уже с Приветом
- Posts: 15526
- Joined: 27 Sep 2007 22:53
-
- Уже с Приветом
- Posts: 4195
- Joined: 27 Apr 2011 03:43
- Location: Сергели ->Chicago
Re: Что стреляет лучше по баблу Spark или ML?
Вилка для таких чуваков должна буть 300-400. А иначе зачем же так Ж рвать?Мальчик-Одуванчик wrote: ↑25 Jan 2018 09:48В среднем - не так уж и много: 170-220К. Но и требования начинаются - не ниже мастера в одном из топовых вузов.
нужно окончить топовый вуз, в который еще нужно умудриться попасть,
получить минимум мастера, а лучше PHD, накачать мозг нетривиальной математикой,
освоить пару языков программирования, добавить к этому бигдатые фреймворки и всего лишь 170-220? и это в кали!
те же 170-220 можно получить имея бакалавра из любого провинциального и даже не американского техникума +5 лет.
-
- Уже с Приветом
- Posts: 15526
- Joined: 27 Sep 2007 22:53
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Что стреляет лучше по баблу Spark или ML?
История... на предмет какие перцы ходят на интервью на Senior Big data Engineer...
Пришел один позавчера. В резюме какие то жуткие страсти: сто, ceo, machine learning, data science, стенфорд ... короче прячься кто может. Первые минут пять рассказывал как он продал один из своих стартапов ораклу. Потом пытался начать "мне вопросы задавать", но я его успешно заткнула и перешла к технической части.
Начинаю спрашивать какие то базовые вещи про сергунькин любимый спарк и кафку - вообще все по нулям.
Есть же такие отчаянные
Пришел один позавчера. В резюме какие то жуткие страсти: сто, ceo, machine learning, data science, стенфорд ... короче прячься кто может. Первые минут пять рассказывал как он продал один из своих стартапов ораклу. Потом пытался начать "мне вопросы задавать", но я его успешно заткнула и перешла к технической части.
Начинаю спрашивать какие то базовые вещи про сергунькин любимый спарк и кафку - вообще все по нулям.
Есть же такие отчаянные
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 34164
- Joined: 03 Dec 2000 10:01
- Location: Vladivostok->San Francisco->Los Angeles->San Francisco
Re: Что стреляет лучше по баблу Spark или ML?
Сабин,
вот нафига ты человека обломила? Все одно же не взяли бы так дала бы челу хотя бы на интервью расслабится
"A patriot must always be ready to defend his country against his government." Edward Abbey
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Что стреляет лучше по баблу Spark или ML?
видео впечатлило
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Что стреляет лучше по баблу Spark или ML?
вот еще тебе Сергунька немного про ML от https://www.udemy.com/user/mikewest2/
In this post I’d like to talk about some of the myths I’ve seen on various blogs, my reviews and other machine learning boards.
Let’s jump right in.
Myth: Machine learning engineers spend all day building deep learning and other kinds of machine learning models.
Reality: A recent Kaggle poll found that most machine learning is cleaning dirty day. Most respondents, regardless of their position (machine learning engineer, data scientist) said that 70% of their day involved massaging data into a shape it could be modeled.
Myth: You must know how deep learning models are designed to use them.
Reality: I’ve been driving for over 30 years and can’t tell you how an engine works. It’s the same in the machine learning space. The majority of data scientists and machine leaning engineers don’t author any kind of models. They use really well-designed frameworks that already exist. They use Keras on TensorFlow or SciKit-Learn.
Myth: You can get a job without any experience just be taking some online courses.
Reality: Online courses will show you the basics, the frameworks, modeling but the end to end machine learning process will take experience. If you aren’t in IT right now, take any position involving data. You can learn machine learning engineering while you are learning data manipulation.
Myth: I can get a job as a machine learning engineer if I know R.
Reality: Almost all applied machine learning is Python. A recent Kaggle poll showed that 80% of those working in the applied space use Python as their core language for model building and data wrangling.
Myth: You can participate in Kaggle and if you do well you’ll get a job.
Reality: Again, since most real-world machine learning is data wrangling you’ll need to know how to wrangle data before you get hired. Model building alone won’t get you a job.
Myth: The model is the most important aspect of machine learning process.
Reality: As Sift Science CTO Fred Sadaghiani puts it, “data is orders of magnitude more important than the algorithm you use or any technique that you’re applying.” In terms of data, think both quantity and quality. The more data you provide the system, the better results you’ll get. And providing the right data is equally (or even more) important.
Myth: The laptop I have is big enough to build real world models.
Reality: Laptops are great for learning machine learning and data science using toy data sets. There’s no laptop in the world that can run most real world deep learning models. These are run in a cloud or on large servers.
Myth: I need to be a math wizard to learn machine learning
Reality: You need a solid foundation in math, especially statistics and eventually linear algebra. You don’t need to have a master’s in computational mathematics to do this job.
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 946
- Joined: 24 Sep 2013 05:58
- Location: US\GA
Re: Что стреляет лучше по баблу Spark или ML?
Примеры новых сотрудников в прошлом году. Возможности делать 10 интервью и 2-3 на полный день on site не было.Сабина wrote: ↑26 Jan 2018 05:30 Первые минут пять рассказывал как он продал один из своих стартапов ораклу. Потом пытался начать "мне вопросы задавать", но я его успешно заткнула и перешла к технической части.
Начинаю спрашивать какие то базовые вещи про сергунькин любимый спарк и кафку - вообще все по нулям.
Есть же такие отчаянные
№1 - не самые яркие тех скиллы, но умение систематизировать несколько задач и декомпозировать каждую. Отсутствие скромности посоветоваться, с тем кто знает детали. Умение самому раскопать ответы на вопросы и варианты решения задач, и забыть через несколько недель Результат - очень ценный сотрудник.
№2 - не самые яркие тех скиллы, скажет даже на 3-. Умение автоматизировать всё что шевелится. При чем не только своё, но и видя проблемы других. Результат - ценный сотрудник.
№3 - почти идеальные ответы на тех вопросы интервью. Приличный список компаний где работал перед этим и список проектов. Не умение анализировать и применять свои знания. Не умение гуглить! Уж лучше бы был graduate. Результат - PIP.
К чему это всё... Не всегда идеальные ответы на тех интервью говорят, что человек подходит. А может человек подходит на другие задачи в команде, а не на то на что открыта позиция