Machine Learning again

blanko27
Уже с Приветом
Posts: 2264
Joined: 17 Jun 2003 04:41
Location: Just like US

Re: Machine Learning again

Post by blanko27 »

Deckel wrote:Hastie - Elements of Statistical Learning. И вторая там его книжка есть.
Из ревью на эту книгу
don't bother reading this book if you aren't willing to learn at least the basics of linear algebra first
Я думаю, что это очень верный совет: мне пришлось с "refreshment" курса по линейной алгебре начать. :-)
...а мы такой компанией, возьмем, да и припремся к Элис!
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

blanko27 wrote:
Deckel wrote:Hastie - Elements of Statistical Learning. И вторая там его книжка есть.
Из ревью на эту книгу
don't bother reading this book if you aren't willing to learn at least the basics of linear algebra first
Я думаю, что это очень верный совет: мне пришлось с "refreshment" курса по линейной алгебре начать. :-)
Плюс констрейнт оптимизейшен :D , дуал проблем. А так, книга очень хорошая, одна из моих настольных. Вторую ещё не читал, но планирую купить.
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Что ещё интересного появилось почитать за последнее время? Я стараюсь следить, но может что и упустил.
User avatar
Kolbasoff
Уже с Приветом
Posts: 3481
Joined: 02 Jan 2005 22:10

Re: Machine Learning again

Post by Kolbasoff »

Снежная Королева wrote:Я копаю в ширину, Extreme Value Theory, special stochastic processes. Из практического хочу освоить shiny и делать dashboards в виде web apps, а то весь front end в Excel, я его ненавижу.
Так вы Мастера в математике получили или в процессе?
DropAndDrag
Уже с Приветом
Posts: 6024
Joined: 11 Mar 2011 05:36

Re: Machine Learning again

Post by DropAndDrag »

Сабина wrote:Кстати - вот мой самый любимый machine learning example :)
Все работает на AWS Kinesis ( альтернатива Kafke)
Компания Sushiro - use case is described in video - https://www.youtube.com/watch?v=lkRoQlh ... 121.052322" onclick="window.open(this.href);return false;

Суть в том что они помещают sensor на каждую sushi тарелку and keep track of what was on plate, when plate was taken off the carousel, etc etc.
В обшем 100% держат руку на пульсе рынка своего продукта :)

Вот это я понимаю - big data i machine learning
Screen Shot 2016-02-16 at 8.53.12 PM.png
если это БД, то я тогда балерина 8)
пипец, да и только :pain1:
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

DropAndDrag wrote:
Сабина wrote:Кстати - вот мой самый любимый machine learning example :)
Все работает на AWS Kinesis ( альтернатива Kafke)
Компания Sushiro - use case is described in video - https://www.youtube.com/watch?v=lkRoQlh ... 121.052322" onclick="window.open(this.href);return false;

Суть в том что они помещают sensor на каждую sushi тарелку and keep track of what was on plate, when plate was taken off the carousel, etc etc.
В обшем 100% держат руку на пульсе рынка своего продукта :)

Вот это я понимаю - big data i machine learning
Screen Shot 2016-02-16 at 8.53.12 PM.png
если это БД, то я тогда балерина 8)
пипец, да и только :pain1:
А какая у вас линейка БД или не БД :)? Вот у нас типа тоже фигня - собираем статистику по рекламным компаниям с разных соушал медиа для своих клиентов. И не часто собираем кстати, что то раз в час, что то даже реже. Но количество данных приходится колбасить немалое, в той же Кафке 500 partitions задействованы при сборе. Посчитали на днях throughput для проекта по мигрвции на Kinesis, получилось about a billion of records per month . Причём record - это строго говоря message, может быть json объектом 4-20 KB. Ну и где в не БД компании столько данных умудряются собирать, обрабатывать, анализировать и хранить для online транзакций ?

А тут считывают непрерывно статистику с каждой тарелки во всех ресторанах чейна во все рабочие часы. Конечно БД. И по размеру данных и по throughput
https://www.youtube.com/watch?v=wOwblaKmyVw
DropAndDrag
Уже с Приветом
Posts: 6024
Joined: 11 Mar 2011 05:36

Re: Machine Learning again

Post by DropAndDrag »

да нету у меня никакой БД и в примере с тарелками она не особо то и нужна.
вышла тарелка на конвейер, отследили, что ее взяли. реально какая информация может быть интересна с этой тарелки?
1. сколько одинаковы блюд бегает по конвейеру - БД не нужна
2. сколько каждая тарелка бегает и если старая, то пора в помойку - БД не нужна
3. приготовит счет для клиента - БД не нужна
4. сколько продали каждых блюд и может быть с какой частотой за год, ну другой - информации практически 0.

приведите еще информацию, которая может понадобиться.

и вообще ну что такое биллион records per month - это большой throughput?
а вот давайте-ка я другой пример приведу. 400 датчиков, каждый выдает 2 сигнала по 400 floats с частотой 60 HZ. Понятно что ни один сигнал не должен потерятся, кроме того строго в промежутках между измерениями делаются простецские операции. Все сигналы обрабатываются и в случае чего выключается система - ибо может жахнуть хорошо :umnik1: а для восстановления будет нужна куча бабла, длительное время ожидания из-за высокой радиации, что тоже в итоге выливается в бабло ... Средние значения записываются все, а иной раз и весь сигнал. А теперь приделайте свою БеДу :wink: (я потом напишу сколько и как использовались компьютеры)
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

DropAndDrag wrote:да нету у меня никакой БД и в примере с тарелками она не особо то и нужна.
вышла тарелка на конвейер, отследили, что ее взяли. реально какая информация может быть интересна с этой тарелки?
1. сколько одинаковы блюд бегает по конвейеру - БД не нужна
2. сколько каждая тарелка бегает и если старая, то пора в помойку - БД не нужна
3. приготовит счет для клиента - БД не нужна
4. сколько продали каждых блюд и может быть с какой частотой за год, ну другой - информации практически 0.

приведите еще информацию, которая может понадобиться.

и вообще ну что такое биллион records per month - это большой throughput?
а вот давайте-ка я другой пример приведу. 400 датчиков, каждый выдает 2 сигнала по 400 floats с частотой 60 HZ. Понятно что ни один сигнал не должен потерятся, кроме того строго в промежутках между измерениями делаются простецские операции. Все сигналы обрабатываются и в случае чего выключается система - ибо может жахнуть хорошо :umnik1: а для восстановления будет нужна куча бабла, длительное время ожидания из-за высокой радиации, что тоже в итоге выливается в бабло ... Средние значения записываются все, а иной раз и весь сигнал. А теперь приделайте свою БеДу :wink: (я потом напишу сколько и как использовались компьютеры)
Бигдата дата меряется цифрами и очень конкретно - в bytes and bytes per second. Ваш пример сдатчиками не содержит этой информации потому что издаваемый ими сигнал должен регистрироваться какой то системой, а про неё ничегошеньки неизвестно, наверное есть вебсокеты, а вот например как записываются показания ? Timestamp-value ? Куда? В логи ? Потом куда? Сколько основная data pipeline компонента пропускает в секунду и все такое прочее. А дальше тарелки это или датчики или веб запросы или хня малиновая - не так уж и важно :)

У нас у платформеной компоненты billion records per month и 5000 messages (2-5 bytes each on average) per second в пик нагрузки. Думаю у "умной ленты" с тарелками запросто может быть больше
https://www.youtube.com/watch?v=wOwblaKmyVw
DropAndDrag
Уже с Приветом
Posts: 6024
Joined: 11 Mar 2011 05:36

Re: Machine Learning again

Post by DropAndDrag »

мы вроде бы начинали, что бывают 5 минутные интервалы, когда стоимость электричества подскакивает. надеюсь понятно, никого не волнует ни 5 минутная задержка, да и минутная расхлябанность тоже. надо ведь говорить о slope ;-)

если уж говорить про биг дата, то эксперимент Алиса - это классический пример!
платформенная компонента (не знаю, что это такое) с 5000 message per second - это какое-то недоразумение - это около 1% от 1 Gbps сети ... я не ошибся :wink:
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

Снежная Королева wrote:Я копаю в ширину, Extreme Value Theory, special stochastic processes. Из практического хочу освоить shiny и делать dashboards в виде web apps, а то весь front end в Excel, я его ненавижу.
Extreme Value Theory - как на этом деньги зарабатывать, есть уже конкретные применения так чтобы каждый месяц денюжка капала?
special stochastic processes - гугл такого не знает, это что за зверь?
Shiny это конечно data exploration а не machine learning. Таких еще куча - Qlikview, Tableau. Я работаю с Qlikview, туда реально миллиард строк загрузить.
User avatar
flip_flop
Уже с Приветом
Posts: 4379
Joined: 20 Jun 2001 09:01

Re: Machine Learning again

Post by flip_flop »

Случайно наткнулся, может кому понадобится best of unpublished machine learning and statistics books
User avatar
35ED
Posts: 14
Joined: 11 Apr 2015 04:30
Location: Ufa->Chicago->Pasadena

Re: Machine Learning again

Post by 35ED »

Extreme Value, Weibull,Gumbel and similar long-tail distribution это все достаточно старые вещи. И point processes подавно. Интерсно может быть методы разработанные уже после 90х.
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

35ED wrote:Extreme Value, Weibull,Gumbel and similar long-tail distribution это все достаточно старые вещи. И point processes подавно. Интерсно может быть методы разработанные уже после 90х.
Из последнего я думаю бустинг, дип лернинг, кернел методы.
User avatar
Kolbasoff
Уже с Приветом
Posts: 3481
Joined: 02 Jan 2005 22:10

Re: Machine Learning again

Post by Kolbasoff »

А как звучат типичные бизнес-задачи, где используется биг-дата стэк и машинное обучение?
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

Kolbasoff wrote:А как звучат типичные бизнес-задачи, где используется биг-дата стэк и машинное обучение?
Fraud Protection
Crosselling

Return to “Работа и Карьера в IT”