Датасатанисты и иже с ними

Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Датасатанисты и иже с ними

Post by Сабина »

Обращусь тут, потому что в вопросы IT больше никто не ходит видимо :)
Вопрос к датасатанистам. В частности к тем кто и за своих дата инженеров работает .. И прочти ML инженерам кто у ФААНГов оттяпал длинных доллар :mrgreen:

Слабо подсказать хорошую питоновскую библиотеку , а заодно и алгоритмы обсчёта и визуализации timeseries data .
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Komissar
Уже с Приветом
Posts: 64875
Joined: 12 Jul 2002 16:38
Location: г.Москва, ул. Б. Лубянка, д.2

Re: Датасатанисты и иже с ними

Post by Komissar »

Сабина wrote: 03 Oct 2021 05:23 Обращусь тут, потому что в вопросы IT больше никто не ходит видимо :)
Вопрос к датасатанистам. В частности к тем кто и за своих дата инженеров работает .. И прочти ML инженерам кто у ФААНГов оттяпал длинных доллар :mrgreen:

Слабо подсказать хорошую питоновскую библиотеку , а заодно и алгоритмы обсчёта и визуализации timeseries data .
Py.org
User avatar
kyk
Уже с Приветом
Posts: 31589
Joined: 21 Nov 2004 05:12
Location: камбуз на кампусе

Re: Датасатанисты и иже с ними

Post by kyk »

Komissar wrote: 03 Oct 2021 06:11Py.org
нагуглил или фишку сечёшь?
Лучше переесть, чем недоспать! © Обратное тоже верно :umnik1:
User avatar
Big W
Уже с Приветом
Posts: 920
Joined: 22 Jun 2007 20:41
Location: Santa Rosita

Re: Датасатанисты и иже с ними

Post by Big W »

Сам не датасатанист, но недавно в каком-то форуме на глаза попалось вот такое на эту тему:
https://github.com/salesforce/Merlion
Merlion is a Python library for time series intelligence. It provides an end-to-end machine learning framework that includes loading and transforming data, building and training models, post-processing model outputs, and evaluating model performance. It supports various time series learning tasks, including forecasting and anomaly detection for both univariate and multivariate time series. This library aims to provide engineers and researchers a one-stop solution to rapidly develop models for their specific time series needs, and benchmark them across multiple time series datasets.

Merlion's key features are

Standardized and easily extensible data loading & benchmarking for a wide range of forecasting and anomaly detection datasets.
A library of diverse models for both anomaly detection and forecasting, unified under a shared interface. Models include classic statistical methods, tree ensembles, and deep learning approaches. Advanced users may fully configure each model as desired.
Abstract DefaultDetector and DefaultForecaster models that are efficient, robustly achieve good performance, and provide a starting point for new users.
AutoML for automated hyperaparameter tuning and model selection.
Practical, industry-inspired post-processing rules for anomaly detectors that make anomaly scores more interpretable, while also reducing the number of false positives.
Easy-to-use ensembles that combine the outputs of multiple models to achieve more robust performance.
Flexible evaluation pipelines that simulate the live deployment & re-training of a model in production, and evaluate performance on both forecasting and anomaly detection.
Native support for visualizing model predictions.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Датасатанисты и иже с ними

Post by Сабина »

Big W wrote: 03 Oct 2021 19:17 Сам не датасатанист, но недавно в каком-то форуме на глаза попалось вот такое на эту тему:
https://github.com/salesforce/Merlion
Merlion is a Python library for time series intelligence. It provides an end-to-end machine learning framework that includes loading and transforming data, building and training models, post-processing model outputs, and evaluating model performance. It supports various time series learning tasks, including forecasting and anomaly detection for both univariate and multivariate time series. This library aims to provide engineers and researchers a one-stop solution to rapidly develop models for their specific time series needs, and benchmark them across multiple time series datasets.

Merlion's key features are

Standardized and easily extensible data loading & benchmarking for a wide range of forecasting and anomaly detection datasets.
A library of diverse models for both anomaly detection and forecasting, unified under a shared interface. Models include classic statistical methods, tree ensembles, and deep learning approaches. Advanced users may fully configure each model as desired.
Abstract DefaultDetector and DefaultForecaster models that are efficient, robustly achieve good performance, and provide a starting point for new users.
AutoML for automated hyperaparameter tuning and model selection.
Practical, industry-inspired post-processing rules for anomaly detectors that make anomaly scores more interpretable, while also reducing the number of false positives.
Easy-to-use ensembles that combine the outputs of multiple models to achieve more robust performance.
Flexible evaluation pipelines that simulate the live deployment & re-training of a model in production, and evaluate performance on both forecasting and anomaly detection.
Native support for visualizing model predictions.
Спасибо попробую. В итоге записалась на класс своего любимого препода, если что интересное узнаю - поделюсь
Моя цель - нарисовать charts которые помогут быстренько понять trends входных данных. Последние как обычно multidimensional timeseries и хочется посмотреть как одно и то же property меняется в зависимости от времени для разных dimensions etc. Наложить все это дело на upstream business events, посмотреть как коррелируется. Предсказания в данном случае бессмысленны, просто хочется понять trends
https://www.youtube.com/watch?v=wOwblaKmyVw
Mmodel
Уже с Приветом
Posts: 8209
Joined: 27 Mar 2016 23:56

Re: Датасатанисты и иже с ними

Post by Mmodel »

Сабина wrote: 03 Oct 2021 21:58 Моя цель - нарисовать charts которые помогут быстренько понять trends входных данных
тобишь прогнать на каких-то данных и получить продукт как функции.
И эти функции будут рисовать вам charts для потока данных?
User avatar
Komissar
Уже с Приветом
Posts: 64875
Joined: 12 Jul 2002 16:38
Location: г.Москва, ул. Б. Лубянка, д.2

Re: Датасатанисты и иже с ними

Post by Komissar »

Сабина wrote: 03 Oct 2021 21:58 хочется посмотреть как одно и то же property меняется в зависимости от времени для разных dimensions etc. Наложить все это дело на upstream business events, посмотреть как коррелируется. Предсказания в данном случае бессмысленны, просто хочется понять trends
Всегда помогает четко знать, что именно хочешь узнать от данных.
Mmodel
Уже с Приветом
Posts: 8209
Joined: 27 Mar 2016 23:56

Re: Датасатанисты и иже с ними

Post by Mmodel »

Сабина wrote: 03 Oct 2021 21:58 просто хочется понять trends
Если я правильно понял, сидеть и пытатся понять что за функция получилась.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Датасатанисты и иже с ними

Post by Сабина »

Mmodel wrote: 03 Oct 2021 23:09
Сабина wrote: 03 Oct 2021 21:58 просто хочется понять trends
Если я правильно понял, сидеть и пытатся понять что за функция получилась.
Нет. Но это узкая domain , нет смысла лезть в детали.
Если примитивно, допустим у вас есть данные по тому сколько денег тратит каждый человек на планете. Понятно что у человека есть куча всяких dimensions - возраст, страна проживания, образование, доход, семейное положение. Вы хотите выявить trends - в какой стране больше тратят деньги в июле месяце ? Или какая возрастная категория потратила больше всего денег за лето. И проч и так далее . Функция не волнует, хочется посмотреть на эти trends и наложить на какие то business events, посмотреть как влияют на расходы. Пример business event - начало Ковида например , или период летних каникул и т.д.
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Komissar
Уже с Приветом
Posts: 64875
Joined: 12 Jul 2002 16:38
Location: г.Москва, ул. Б. Лубянка, д.2

Re: Датасатанисты и иже с ними

Post by Komissar »

Сабина wrote: 04 Oct 2021 03:42 Вы хотите выявить trends - в какой стране больше тратят деньги в июле месяце ? Или какая возрастная категория потратила больше всего денег за лето.
На это есть SQL. Не слышала раньше?
Andrey Strelnikov
Уже с Приветом
Posts: 608
Joined: 17 Dec 2009 11:27

Re: Датасатанисты и иже с ними

Post by Andrey Strelnikov »

Сабина wrote: 03 Oct 2021 05:23 Обращусь тут, потому что в вопросы IT больше никто не ходит видимо :)
Вопрос к датасатанистам. В частности к тем кто и за своих дата инженеров работает .. И прочти ML инженерам кто у ФААНГов оттяпал длинных доллар :mrgreen:

Слабо подсказать хорошую питоновскую библиотеку , а заодно и алгоритмы обсчёта и визуализации timeseries data .
Могу только книжку создателя pandas на русском подсказать -
Маккини У. Python и анализ данных
Wes McKinney. Python for Data Analysis.
Библиотеки описаны конечно по состоянию на 2017 год. Визуализация не самая модная описана.
Вполне хватит и этого для начала.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Датасатанисты и иже с ними

Post by Сабина »

Снежная Королева wrote: 05 Oct 2021 02:46 Сабина, если для работы, вам оно не надо, поверьте мне. Дата сайенс это 80% DE, еще 10% знание конкретного бизнеса, 5% анализ и 5% sales (виз, презентации, snake oil stakeholder influence).

Анализ делать стоит армия желающих business majors etc, и за это не платят. Sales надо иметь credentials + харизма. Простые смертные делают деньги в DE.

Не надо вам time series, выучите лучше Airflow, db, Medallion, Holistic, Looker или ещё какой модный DE tool.
Вы не понимаете. Как раз таки Data engineering tools ( airflow, spark, streaming, GCP ML stack etc ) я владею на А+. В данном случае мне нужно представить данные чтобы отстоять свою идею - development project . А когда у тебя час времени и большая аудитория - Visualization is the key
https://www.youtube.com/watch?v=wOwblaKmyVw
Andrey Strelnikov
Уже с Приветом
Posts: 608
Joined: 17 Dec 2009 11:27

Re: Датасатанисты и иже с ними

Post by Andrey Strelnikov »

Сабина wrote: 06 Oct 2021 02:36
Снежная Королева wrote: 05 Oct 2021 02:46 Сабина, если для работы, вам оно не надо, поверьте мне. Дата сайенс это 80% DE, еще 10% знание конкретного бизнеса, 5% анализ и 5% sales (виз, презентации, snake oil stakeholder influence).

Анализ делать стоит армия желающих business majors etc, и за это не платят. Sales надо иметь credentials + харизма. Простые смертные делают деньги в DE.

Не надо вам time series, выучите лучше Airflow, db, Medallion, Holistic, Looker или ещё какой модный DE tool.
Вы не понимаете. Как раз таки Data engineering tools ( airflow, spark, streaming, GCP ML stack etc ) я владею на А+. В данном случае мне нужно представить данные чтобы отстоять свою идею - development project . А когда у тебя час времени и большая аудитория - Visualization is the key
Сам был примерно в такой ситуации при защите первого data science проекта. Помогло штудирование всякой теории при ответе на всякие вопросы. Плюс в пилоте проект был - почти готовую сетку взяли из книги :). Те на вопросы "как" тоже смогли ответить.
Снежная Королева пытается донести мысль, что Вам может не хватить теоретических знаний при защите. Хотя они у Вас возможно есть.
Мы примерно год вспоминали линейную алгебру, тервер и статистику. Плюс ковыряли на курсах библиотеки.

Ничего там страшного нет - все проходили в универе. Я лично два раза мимо проходил.
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: Датасатанисты и иже с ними

Post by Физик-Лирик »

Снежная Королева wrote: 05 Oct 2021 02:46 Не надо вам time series,
Оно может и надо, но без знания математики все скорее всего сведется к "ижи с ними", т.е. имплементации взятого с Интернета кода.
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: Датасатанисты и иже с ними

Post by Физик-Лирик »

Andrey Strelnikov wrote: 06 Oct 2021 09:27 Мы примерно год вспоминали линейную алгебру, тервер и статистику. Плюс ковыряли на курсах библиотеки.
Матан не назвали :D .

Return to “Работа и Карьера в IT”