Machine Learning again

tessob
Уже с Приветом
Posts: 549
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

Физик-Лирик wrote: 14 Mar 2017 13:41Всё-таки ДС - это не только количество данных, а больше аналитика. И из нескольких гигабайт можно извлечь ценную инфу. Мне кажется, сейчас движение идёт в двух направлениях. Первое - хранение, второе - алгоритмы для аналитики. Первое как бы не совсем ДС, а вот второе как раз ДС.
Все что касается хранения данных мне очень нравится, сегодня огромная конкуренция идей на рынке и это великолепно. Все что касается алгоритмической обработки уже не так однозначно. Спектр задач для ML достаточно узок. Грубо говоря все машинное обучение это про:
  • А или B - классификация
  • B при условии A - регрессия
  • Разобрать кучу на A, B, C ... - кластеризация
Экзотику вроде fp-growth сознательно не трогаю.

Convex optimization решает гораздо больше проблем бизнеса, чем ML. Только двигать ее никто не будет, т.к. боль-и-страдания. :D
User avatar
АццкоМото
Уже с Приветом
Posts: 15276
Joined: 01 Mar 2007 05:18
Location: VVO->ORD->DFW->SFO->DFW->PDX

Re: Machine Learning again

Post by АццкоМото »

Kolbasoff wrote: 14 Mar 2017 03:55 Саентологи колдуют над алгоритмами
Вот эти чоле? https://ru.wikipedia.org/wiki/%D0%A1%D0 ... 0%B8%D1%8F
Мат на форуме запрещен, блдж!
User avatar
АццкоМото
Уже с Приветом
Posts: 15276
Joined: 01 Mar 2007 05:18
Location: VVO->ORD->DFW->SFO->DFW->PDX

Re: Machine Learning again

Post by АццкоМото »

tessob wrote: 14 Mar 2017 14:40 Спектр задач для ML достаточно узок.
он намного ширее, чем кажется
у меня книжка лежит про МЛ на прикроватной тумбочке, вырубает в сон двумя страницами. бигфарма в панике. а ведь это только начало. страниц 10 убьют лошадь. а если ее перемолоть, можно опрыскивать поля от колорадского жука.

классификации/регрессии/кластеризации это мелочь для начинающих
Мат на форуме запрещен, блдж!
tessob
Уже с Приветом
Posts: 549
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

АццкоМото wrote: 14 Mar 2017 16:18у меня книжка лежит про МЛ на прикроватной тумбочке, вырубает в сон двумя страницами.
У меня есть еще по теории расписаний. Вырубает двумя абзацами.
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

tessob wrote: 14 Mar 2017 14:40 Спектр задач для ML достаточно узок. Грубо говоря все машинное обучение это про:
  • А или B - классификация
  • B при условии A - регрессия
  • Разобрать кучу на A, B, C ... - кластеризация
Экзотику вроде fp-growth сознательно не трогаю.

Convex optimization решает гораздо больше проблем бизнеса, чем ML. Только двигать ее никто не будет, т.к. боль-и-страдания. :D
Наверное, Вы имеете в виду спектр алгоритмов, а не задач. Задач, как раз, много решить можно.
Насчёт оптимизации ... Во-первых, МЛ и есть оптимизация. Во-вторых, далеко не все задачи сводятся именно к выпуклой оптимизации. Пример из МЛ - глубокое обучение и нетворк. А уж если брать задачи из "жизни" ... недаром возникла, например, область генетических алгоритмов. Я люблю использовать термин quantitative methods. Сюда можно и ряды поставить, и диффуры и другие.
tessob
Уже с Приветом
Posts: 549
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

Физик-Лирик wrote: 14 Mar 2017 18:13Наверное, Вы имеете в виду спектр алгоритмов, а не задач. Задач, как раз, много решить можно.
Нет, я имею ввиду именно задачи. Я просто не вижу этого значительного числа задач, которые можно было бы решать с помощью ML. Большая часть попыток имплементации алгоритмов ML к прикладным задачам бизнеса, из тех, что я видел/слышал, закончилась полным провалом. Градус недоверия к DS хайпу со стороны бизнеса, на мой взгляд, только растет.

Под ML я тут понимаю алгоритмы регрессии, классификации и кластеризации.

Физик-Лирик wrote: 14 Mar 2017 18:13Насчёт оптимизации ... Во-первых, МЛ и есть оптимизация. Во-вторых, далеко не все задачи сводятся именно к выпуклой оптимизации. Пример из МЛ - глубокое обучение и нетворк. А уж если брать задачи из "жизни" ... недаром возникла, например, область генетических алгоритмов.
Как это ни странно, но очень широкий спектр реальных задач хорошо сводится к задаче линейного программирования и является вполне себе выпуклыми. Даже 7/12 землекопа часто не являются проблемой, если, например, ЛП используется для оценки качества целочисленной оптимизации. Что касается метаэвристик, то в моей практике они имеют очень широкое применение. Правда я предпочитаю алгоритмы Дориго (муравьиные алгоритмы). Мне удавалось добиваться с их помощью лучших результатов, чем с другими. Хотя тут выбор алгоритма - больше вкусовщина.

Физик-Лирик wrote: 14 Mar 2017 18:13Я люблю использовать термин quantitative methods. Сюда можно и ряды поставить, и диффуры и другие.
Использую абсолютно аналогичный термин. :D
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

tessob wrote: 15 Mar 2017 00:17 Нет, я имею ввиду именно задачи. Я просто не вижу этого значительного числа задач, которые можно было бы решать с помощью ML. Большая часть попыток имплементации алгоритмов ML к прикладным задачам бизнеса, из тех, что я видел/слышал, закончилась полным провалом. Градус недоверия к DS хайпу со стороны бизнеса, на мой взгляд, только растет.
Под ML я тут понимаю алгоритмы регрессии, классификации и кластеризации.
Возможно, мы работаем в разных областях, но я наоборот придерживаясь мнения, что круг (бизнес) задач достаточно большой. Другое дело, что бизнес относится с недоверием в силу непонимания того, на что способны алгоритмы.
К какому типу алгоритмов Вы относите задачи эпидемиологии? Например, функции риска (хазардные функции)?
Или временные ряды? Ведь авторегрессионная модель - чистая линейная регрессия.
tessob wrote: 15 Mar 2017 00:17 Как это ни странно, но очень широкий спектр реальных задач хорошо сводится к задаче линейного программирования и является вполне себе выпуклыми.
В основном, к линейном программированию сводятся "бюджетные" задачи эҡонометрики. И тогда берём симлекс и фигарим. Большинство же оптимизационных задач явно нелинейные. И даже невыпуклые. И многие даже плохообусловленные. :D Опять, зависит от области. Ещё более прикольные задачи оптимизации в гильбертовых пространствах, например, нахождения оптимальных функций. Они вообще могут быть сведены к решению диффуров в частных производных. В общем, всё зависит.
tessob
Уже с Приветом
Posts: 549
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

Физик-Лирик wrote: 15 Mar 2017 03:12Возможно, мы работаем в разных областях, но я наоборот придерживаясь мнения, что круг (бизнес) задач достаточно большой. Другое дело, что бизнес относится с недоверием в силу непонимания того, на что способны алгоритмы.
Если вы из R&D, тогда в разных. Весь мой круг интересов сосредоточен в Operations. Соответственно, чаще сталкиваюсь со следующими задачами, куда пытаются "прикладывать" ML:
  • IoT и прогнозирование отказов. На практике навешивать на оборудование датчики достаточно проблематично по целому ряду причин. Во-первых, нужно обучать инженеров как обслуживать все это. Во-вторых, нужно организовывать передачу данных, что довольно проблематично делать по воздуху, т.к. кругом, как правило, метал. Далее никто не гарантирует, что после этого в данных будет обнаружен сигнал. Более того, никто не гарантирует, что модель окажется переносимой и сможет работать на другом аналогичном оборудовании. Без переносимости такая модель скорее всего будет перекрывать по стоимости само оборудование, и иногда в разы. У среднего серийного производства от пары тысяч уникальных единиц оборудования, которое может не дублироваться. Соответственно под каждое нужно обучать свою модель. Про проблемы обучения модели я уже писал в какой-то другой теме.
  • Прогнозирование спроса (запасов). На практике не всегда получается проводить даже "like-for-like" анализ. Многие позиции не живут в ассортименте более пары лет. Значительная часть может участвовать в различных акциях (скидки, подарки и т.п.). Продукция на время может замещаться акционной (+20%). Причем просто факт акции добавить в модель недостаточно, т.к. провальные акции тоже случаются (когда продажи падают во время акции). Еще бывает смена артикулов поставщика. Продукция отличающаяся только цветом может вестись как разные SKU.
  • Ценообразование. В теории можно взять KNN, сказать, что К=4 и считать цену. На практике элементарно может получится, что равноудаленными окажутся 15-20 аналогичных позиций. Взять, например, какое-нибудь вино. В теории у него полно различных признаков (цвет, сорт, кислотность, медали, сульфаты, регион и т.п.). Только по факту никто это в своих ERP системах не ведет, т.к. трудоемко. В итоге вино за 100$ будет иметь идентичные признаки с вином за 5$.
Можно еще долго продолжать перечислять популярные кейсы и их проблемы. Если говорить про актуарные и скоринговые модели, то там ML применяли еще до хайпа и вполне успешно. Только доверие бизнеса к технологиям, на мой взгляд, подрывают факты, когда подобные проекты продают клиенту, а на выходе он получает облако и кучу бесполезных данных со странными отчетами.

Физик-Лирик wrote: 15 Mar 2017 03:12К какому типу алгоритмов Вы относите задачи эпидемиологии? Например, функции риска (хазардные функции)? Или временные ряды? Ведь авторегрессионная модель - чистая линейная регрессия.
Временные ряды отношу скорее к ML. С остальным не сталкивался.

Физик-Лирик wrote: 15 Mar 2017 03:12В основном, к линейном программированию сводятся "бюджетные" задачи эҡонометрики. И тогда берём симлекс и фигарим. Большинство же оптимизационных задач явно нелинейные. И даже невыпуклые. И многие даже плохообусловленные. :D Опять, зависит от области. Ещё более прикольные задачи оптимизации в гильбертовых пространствах, например, нахождения оптимальных функций. Они вообще могут быть сведены к решению диффуров в частных производных. В общем, всё зависит.
Иногда (в моей области) можно притвориться, что все линейное и фигарить симплекс-методом. Как-то в книжке по исследованию операций встретил хорошую фразу: "Исследование операций - это искусство давать плохие ответы в ситуации, когда все остальные ответы еще хуже."
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Снежная Королева wrote: 15 Mar 2017 12:51 Вообще, ML и алгоритмы - это очень малая и самая простая часть DS.
Напрашивается естественный вопрос, а что есть самая большая и самая сложная часть ДС?
Я то как раз и считаю, что ДС - это именно МЛ и алгоритмы. Данные, их подготовка и обработка - это составная часть алгоритмов. Анализ данных, их понимание, анализ модели, её валидация - неотъемлемые части алгоритмов. Что же тогда осталось? Хранение данных и ЕТЛ - это не ДС, а дейта инжиниринг. Собственно чем раньше занимались сиквельщики, а теперь ещё и хадубщики.
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

tessob wrote: 15 Mar 2017 07:29 Если вы из R&D, тогда в разных. Весь мой круг интересов сосредоточен в Operations. Соответственно, чаще сталкиваюсь со следующими задачами, куда пытаются "прикладывать" ML:
Так и в R&D - тоже МЛ прикладывают. Хотя разные R&D бывают :D
Кстати, возвращаясь к МЛ, есть ещё рекомендации, типа маркет баскет.
iDesperado
Уже с Приветом
Posts: 1349
Joined: 28 Nov 2008 17:50

Re: Machine Learning again

Post by iDesperado »

Физик-Лирик wrote: 15 Mar 2017 13:26 Напрашивается естественный вопрос, а что есть самая большая и самая сложная часть ДС?
Я то как раз и считаю, что ДС - это именно МЛ и алгоритмы. Данные, их подготовка и обработка - это составная часть алгоритмов. Анализ данных, их понимание, анализ модели, её валидация - неотъемлемые части алгоритмов. Что же тогда осталось? Хранение данных и ЕТЛ - это не ДС, а дейта инжиниринг. Собственно чем раньше занимались сиквельщики, а теперь ещё и хадубщики.
со стороны программера это звучит и выглядит очень, очень странно. у нас точно так же каждый аналитик воротит свой анализ, свои очистки и валидации. в результате под каждое понятие создается 100500 интерпритаций с мизерными отличиями. дальше вся эта дребедень с мизерными отличиями (зачастую различия лишь в форматировании) идет в отчетные системы, KPI и модели.
Last edited by iDesperado on 15 Mar 2017 15:28, edited 1 time in total.
tessob
Уже с Приветом
Posts: 549
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

Снежная Королева wrote: 15 Mar 2017 12:38Я работаю в электричестве. Работы непочатый край. Оптимизировать можно очень много, если улучшить элементарный прогноз потребления электроэнергии и газа на ближайший день. В настоящий момент ошибка прогноза 10-25%, работает линейная регрессия в Excel, переменные - температура и её производные, всё.
Я работал с аналогичной задачей несколько раз. Правда, каждый раз в генерации. Кстати тема очень хорошо изучена в СССР. Полно монографий и статей. Так что, оооочень рекомендую обратиться к сокральным знаниям исторической родины. :wink:

Если кратко, то у вас есть несколько явных циклов: дневной, недельный, годовой. Это покрывает суточные колебания, недельные, сезонность и праздники. Есть менее явные двухгодовой и четырехлетний. Последние два описывают всякие спортивные мероприятия и т.п. Для некоторых регионов России, в теплое время года значим погодный фактор. В плохую погоду потребление выше. Все эти циклы легко снимаются послойно простой AR моделью. Причем AR будет значительно лучше, чем ARMA, т.к. скользящее среднее будет сильно загрязнять модель. Далее, если вычесть полученную модель из исходных данных, то останется только шум и разовые фестивали. Шум - это следствие случайного процесса, лучшее, что вы сможете из него получить - это только дисперсия. Если дисперсия мала - хорошо. Если нет, то вы на это никак не повлияете.

Снежная Королева wrote: 15 Mar 2017 12:38Такая ситуация в большинстве электрических компаний сейчас в Австралии, однако, уже наступил кризис в индустрии. Начались black-outs, и цены на электричество выросли в выросли в 3 раза за последний год. Население бунтует. Политики забегали. Появляются новые мелкие retailers, которые строят бизне исключительно на data science: all-you-can-eat plans, дают торговать электричеством простым клиентам, а также virtual power plant системы.
У вас кризис скорее всего и обусловлен попыткой экономить. Просто генерация должна четко понимать сколько нужно выдать на следующий день, т.к. от этого зависит схема включения турбин и режимы их работы. Перепроизводство в любом случае должен кто-то оплачивать из своего кармана. Иначе будут отключения. Собственно, что вы и имеете. Единственный способ избегать перепроизводства - это заставить конечного потребителя приобретать ЭЭ по предоплате. Только мне кажется, что тогда этот потребитель придет на следующие выборы в плохом настроении. Мне кажется, что в данном случае вместо DS бума найдут крайнего, кто возьмет на себя потери от перепроизводства. Хотя это может подтолкнуть рынок аккумуляторов, чтоб можно было скупать излишки ЭЭ по низкой цене и использовать позже.

З.Ы. И ващще вы тут последняя индустрия на паровой тяге! 8)
tessob
Уже с Приветом
Posts: 549
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

Физик-Лирик wrote: 15 Mar 2017 13:33Кстати, возвращаясь к МЛ, есть ещё рекомендации, типа маркет баскет.
Да, целый один алгоритм (fp-growth). :D
Я согласен, что он хорошо должен работать в Amazon. Однако в магазине утюгов он уже работать так хорошо не будет, т.к. мало кто покупает утюги наборами. Его полезность очень сильно зависит от ассортимента. Однако, думаю, во всяких медиа-сервисах он должен хорошо себя показывать, т.к. их задача максимально долго удерживать внимание пользователя.
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

tessob wrote: 15 Mar 2017 15:34
Физик-Лирик wrote: 15 Mar 2017 13:33Кстати, возвращаясь к МЛ, есть ещё рекомендации, типа маркет баскет.
Да, целый один алгоритм (fp-growth). :D
Ну почему один? Существуют разные типы сравнения, основанные на разных функциях расстояния. Также рекомендации на основе сравнения пользователей и товаров. Существуют модификации "корзин", не зависящих и зависящих от времени.
Опять возвращаясь к МЛ, ... аутлайеры. Очень популярная тема сейчас. Большое количество методов. Применение для очень многомерных пространств. Аутлайеры посредством супервайзд МЛ (типа одноклассовых методов, например, СВМ).
Выше Вы упомянули метод ближайшего соседа. Но ведь он может не сработать в многомерных пространствах в силу своей нелокальности. Что тогда?
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

tessob wrote: 15 Mar 2017 15:23 Если кратко, то у вас есть несколько явных циклов: дневной, недельный, годовой. Это покрывает суточные колебания, недельные, сезонность и праздники. Есть менее явные двухгодовой и четырехлетний. Последние два описывают всякие спортивные мероприятия и т.п. Для некоторых регионов России, в теплое время года значим погодный фактор. В плохую погоду потребление выше. Все эти циклы легко снимаются послойно простой AR моделью. Причем AR будет значительно лучше, чем ARMA, т.к. скользящее среднее будет сильно загрязнять модель. Далее, если вычесть полученную модель из исходных данных, то останется только шум и разовые фестивали. Шум - это следствие случайного процесса, лучшее, что вы сможете из него получить - это только дисперсия. Если дисперсия мала - хорошо. Если нет, то вы на это никак не повлияете.
Скорее SARIMA. Можно попробовать ЕТС (экспоненциальное сглаживание). Кстати, для моделирования временных процессов временные ряды могут быть не лучшим выбором.

Return to “Работа и Карьера в IT”