Machine Learning again

tessob
Уже с Приветом
Posts: 549
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

Физик-Лирик wrote: 15 Mar 2017 16:16Ну почему один? Существуют разные типы сравнения, основанные на разных функциях расстояния. Также рекомендации на основе сравнения пользователей и товаров. Существуют модификации "корзин", не зависящих и зависящих от времени.
Не поделитесь ссылками? Это не совсем моя тематика, но с удовольствием почитаю.

Физик-Лирик wrote: 15 Mar 2017 16:16Выше Вы упомянули метод ближайшего соседа. Но ведь он может не сработать в многомерных пространствах в силу своей нелокальности. Что тогда?
Я его упомянул в контексте задачи ценообразования. Там у него несколько огромных плюсов:
  1. Его легко объяснить, т.к. мы всегда можем вытащить те товары, которые приняли участие в скоринге.
  2. Можно легко ограничить аутлаеров. Так как если мы "неожиданно" включили в ассортимент очень дорогой товар, можно настроить модель таким образом, чтобы она отдавала решение человеку, а не назначала слишком низкую цену.
  3. Аутлаеры влияют на модель, даже если их не очень много.
tessob
Уже с Приветом
Posts: 549
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

Физик-Лирик wrote: 15 Mar 2017 16:20Скорее SARIMA. Можно попробовать ЕТС (экспоненциальное сглаживание). Кстати, для моделирования временных процессов временные ряды могут быть не лучшим выбором.
Сложные модели не дают значимого прироста качества. Имея априорные знания о циклах их уже достаточно просто можно вытащить слой за слоем. Тут больший эффект может дать знание о начале и конце рабочего дня, времени проводимом в пробках, среднем возрасте популяции. Еще форма суточных графиков может отличаться между городами и регионами. Умение включить в выборку "правильные" данные имеет значительно больший вес, чем выбор алгоритма.
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

tessob wrote: 15 Mar 2017 16:43 Не поделитесь ссылками? Это не совсем моя тематика, но с удовольствием почитаю.
Например, первая книга по Махауту, который в действии :lol: (хотя, может она и последняя :D ). Очень неплохо описаны методы.
Аутлайеры - это целая область. Согласен, много где используется.
Ваш последний пост - хорошая иллюстрация по поводу "самой малой и самой простой части ДС". Собственно, это и есть настоящий ДС.
iDesperado wrote: 15 Mar 2017 14:17 со стороны программера это звучит и выглядит очень, очень странно. у нас точно так же каждый аналитик воротит свой анализ, свои очистки и валидации. в результате под каждое понятие создается 100500 интерпритаций с мизерными отличиями. дальше вся эта дребедень с мизерными отличиями (зачастую различия лишь в форматировании) идет в отчетные системы, KPI и модели.
Увы, такое тоже бывает.
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Снежная Королева wrote: 15 Mar 2017 23:04 Совершенно верно, правильные данные важнее алгоритма.
И то и другое важно. :D

Общий вопрос. Есть ли какие вести с полей, где урожай пожирает злобный товарищ по имени bias? Что-нибудь новенькое в теории есть?
User avatar
Flash-04
Уже с Приветом
Posts: 63430
Joined: 03 Nov 2004 05:31
Location: RU -> Toronto, ON

Re: Machine Learning again

Post by Flash-04 »

Кстати Амазоне стал предлагать сервис распознавания изображений. Rekognit.
Not everyone believes what I believe but my beliefs do not require them to.
tessob
Уже с Приветом
Posts: 549
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

Снежная Королева wrote: 15 Mar 2017 23:01Вторая причина, почему такая высокая ошибка, - мы (это я про всю индустрию сейчас говорю) не знаем точно потребление электричества в предыдущую единицу времени.
Честно говоря я тогда не очень понимаю, что именно вы пытаетесь спрогнозировать и для какой цели. Просто, с моей колокольни, электрическая генерация - это очень высокоинертная система. Любое управляющее воздействие будет идти с огромным лагом (часы). Смысл оперативного прогнозирования?

Флешмоб сварщиков предсказать все равно не получится, если они собираются не каждый вторник. :D Все остальное у вас достаточно хорошо объясняется историческими данными. У вас же основные потребители: крупные предприятия, городская инфраструктура и домохозяйства.
tessob
Уже с Приветом
Posts: 549
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

Снежная Королева wrote: 16 Mar 2017 11:06У нас не только retail utility, но ещё и электростанции. Если мы знаем, сколько наши клиенты потребляют электричества, мы можем соответственно делать dynamic hedging, т.е. on/off генераторы в реальном времени.
Вам просто нужно подойти к энергетикам на станции и попросить данные по разнице мощностей. Вы в реальном времени увидите сколько они генерируют и сколько потребляется в сети. Кроме того у них есть SCADA-системы, с которых вы можете собирать эти данные удаленно, если у вас несколько станций. Более того, вы можете вытаскивать из SCADA ваш dynamic hedging, т.к. энергетики в течении дня динамически хеджат режимы работы турбин (схема чуть сложнее, чем вкл/выкл генератора).

Что касается самой задачи, то она, мягко говоря, странная. Ее можно сформулировать немного проще. Предположим, что есть ассиметричная монетка, где орел выпадает с вероятностью 0.7 (решка 0.3). Вы играете в игру с единственным оппонентом и называете сторону, которая выпадет следующей. Если вы выигрываете, то получаете 1$, если проигрываете, то платите его. Нужно просто ставить на орла. Вы же пытаетесь строить модель случайного процесса, основывая свой выбор на предыдущих значениях. Это только математическая сторона. С практической стороны к сети подключены не только ваши станции, и они тоже делают dynamic hedging. По-хорошему, еще у вас на рынке должен быть регулятор, который разделяет мощности между станциями. Просто станции работают далеко не на 100% своей мощности, т.к. как конкуренция.

Я уверен, что скоро бум DS в Австралийской энергетике сойдет на нет.
blanko27
Уже с Приветом
Posts: 2264
Joined: 17 Jun 2003 04:41
Location: Just like US

Re: Machine Learning again

Post by blanko27 »

tessob wrote: 16 Mar 2017 15:59Вам просто нужно подойти к энергетикам на станции и попросить данные по разнице мощностей.
8O Шурик, вы комсомолец? Это же не наш метод!

Image
...а мы такой компанией, возьмем, да и припремся к Элис!
RedPanda
Уже с Приветом
Posts: 246
Joined: 30 Nov 2015 19:33

Re: Machine Learning again

Post by RedPanda »

Снежная Королева wrote: 20 Oct 2016 22:33 3-4 часа в день - это афигеть как много. Я занимаюсь 1-2 час в день, в выходные 2-3 часа в день. Заканчиваю седьмой год, за это время прошла 2 года бакалавра, плюс два года мастера в статистике, параллельно научилась программировать. Фултайм работу и семью никто не отменял.
А кем же вы изначально работали, если все образование получили уже работая и программировать не умели?
Let her sleep
For when she wakes,
She will move mountains.
tessob
Уже с Приветом
Posts: 549
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

Снежная Королева wrote: 20 Mar 2017 07:21Вы не поняли мою проблему, может быть я плохо объясняю. Мне не надо ходить на станции, у меня есть все данные по генераторам в реальном времени, включая scada и dispatch, это как бы public knowledge. Чего у меня нет, это данных по потреблению каждым клиентом в реальном времени, и я уверена, что если бы эти данные были доступны, решились бы многие проблемы на уровне страны. Не все, но многие.
Я правда не понимаю как знания об объеме потребления каждым отдельным клиентом могут улучшить существующую модель управления режимами работы турбин. Объем потребления конечных потребителей будет всегда меньше величины генерации на случайную величину с большой дисперсией. Просто на практике наблюдается большой "падеж" электронов. Далеко не всем из них суждено благополучно добраться до потребителя. Часть рассеется в воздухе, часть сгинет в трансформаторах...

Более того, если такие потери являются случайной величиной, а сама задача является попыткой оптимизировать функцию от объема потребления и случайной величины, то результатом такой функции тоже будет случайная величина. Можно заменить случайную величину потерь мат ожиданием, но при большой дисперсии это будет уже "оптимизация средней по больнице".

Вот, что-то внутри меня негодуэ от осознания всего этого... :(
User avatar
Think_Different
Уже с Приветом
Posts: 4867
Joined: 21 Oct 2016 14:32
Location: NYC

Re: Machine Learning again

Post by Think_Different »

вы, скорее всего, не понимаете что такое dynamic hedging. dynamic hedging это не оптимизационная задача. it's a replication problem.
tessob
Уже с Приветом
Posts: 549
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

Think_Different wrote: 20 Mar 2017 13:49it's a replication problem.
:sorry:
Впервые встречаю этот термин. А Google, собака, отправляет меня генетику учить...
User avatar
Think_Different
Уже с Приветом
Posts: 4867
Joined: 21 Oct 2016 14:32
Location: NYC

Re: Machine Learning again

Post by Think_Different »

https://en.wikipedia.org/wiki/Replicating_portfolio

http://www.efrag.org/Assets/Download?as ... eSupport=1

Думаю будет проще если Королева вам на пальцах объяснит суть задачи :roll:
tessob
Уже с Приветом
Posts: 549
Joined: 07 Jan 2016 13:04

Re: Machine Learning again

Post by tessob »

Think_Different wrote: 20 Mar 2017 16:27Думаю будет проще если Королева вам на пальцах объяснит суть задачи :roll:
Как я понял, это про commodity (приобретение топлива). Мне казалось, что мы говорили про генерацию (сжигание топлива).
Да, думаю нужно подождать Королеву.
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Machine Learning again

Post by Deckel »

Хорошая статья по теме http://www.kdnuggets.com/2017/03/6-busi ... icorn.html

Return to “Работа и Карьера в IT”