Датасатанисты и иже с ними

Сабина · Post by **Сабина** » 03 Oct 2021 05:23

Обращусь тут, потому что в вопросы IT больше никто не ходит видимо

Вопрос к датасатанистам. В частности к тем кто и за своих дата инженеров работает .. И прочти ML инженерам кто у ФААНГов оттяпал длинных доллар

Слабо подсказать хорошую питоновскую библиотеку , а заодно и алгоритмы обсчёта и визуализации timeseries data .

Komissar · Post by **Komissar** » 03 Oct 2021 06:11

Сабина wrote: 03 Oct 2021 05:23 Обращусь тут, потому что в вопросы IT больше никто не ходит видимо
Вопрос к датасатанистам. В частности к тем кто и за своих дата инженеров работает .. И прочти ML инженерам кто у ФААНГов оттяпал длинных доллар

Слабо подсказать хорошую питоновскую библиотеку , а заодно и алгоритмы обсчёта и визуализации timeseries data .

Py.org

kyk · Post by **kyk** » 03 Oct 2021 07:11

Komissar wrote: 03 Oct 2021 06:11Py.org

нагуглил или фишку сечёшь?

Big W · Post by **Big W** » 03 Oct 2021 19:17

Сам не датасатанист, но недавно в каком-то форуме на глаза попалось вот такое на эту тему:
https://github.com/salesforce/Merlion

Merlion is a Python library for time series intelligence. It provides an end-to-end machine learning framework that includes loading and transforming data, building and training models, post-processing model outputs, and evaluating model performance. It supports various time series learning tasks, including forecasting and anomaly detection for both univariate and multivariate time series. This library aims to provide engineers and researchers a one-stop solution to rapidly develop models for their specific time series needs, and benchmark them across multiple time series datasets.

Merlion's key features are

Standardized and easily extensible data loading & benchmarking for a wide range of forecasting and anomaly detection datasets.
A library of diverse models for both anomaly detection and forecasting, unified under a shared interface. Models include classic statistical methods, tree ensembles, and deep learning approaches. Advanced users may fully configure each model as desired.
Abstract DefaultDetector and DefaultForecaster models that are efficient, robustly achieve good performance, and provide a starting point for new users.
AutoML for automated hyperaparameter tuning and model selection.
Practical, industry-inspired post-processing rules for anomaly detectors that make anomaly scores more interpretable, while also reducing the number of false positives.
Easy-to-use ensembles that combine the outputs of multiple models to achieve more robust performance.
Flexible evaluation pipelines that simulate the live deployment & re-training of a model in production, and evaluate performance on both forecasting and anomaly detection.
Native support for visualizing model predictions.

Сабина · Post by **Сабина** » 03 Oct 2021 21:58

Big W wrote: 03 Oct 2021 19:17 Сам не датасатанист, но недавно в каком-то форуме на глаза попалось вот такое на эту тему:
https://github.com/salesforce/Merlion
Merlion is a Python library for time series intelligence. It provides an end-to-end machine learning framework that includes loading and transforming data, building and training models, post-processing model outputs, and evaluating model performance. It supports various time series learning tasks, including forecasting and anomaly detection for both univariate and multivariate time series. This library aims to provide engineers and researchers a one-stop solution to rapidly develop models for their specific time series needs, and benchmark them across multiple time series datasets.

Merlion's key features are

Standardized and easily extensible data loading & benchmarking for a wide range of forecasting and anomaly detection datasets.
A library of diverse models for both anomaly detection and forecasting, unified under a shared interface. Models include classic statistical methods, tree ensembles, and deep learning approaches. Advanced users may fully configure each model as desired.
Abstract DefaultDetector and DefaultForecaster models that are efficient, robustly achieve good performance, and provide a starting point for new users.
AutoML for automated hyperaparameter tuning and model selection.
Practical, industry-inspired post-processing rules for anomaly detectors that make anomaly scores more interpretable, while also reducing the number of false positives.
Easy-to-use ensembles that combine the outputs of multiple models to achieve more robust performance.
Flexible evaluation pipelines that simulate the live deployment & re-training of a model in production, and evaluate performance on both forecasting and anomaly detection.
Native support for visualizing model predictions.

Спасибо попробую. В итоге записалась на класс своего любимого препода, если что интересное узнаю - поделюсь
Моя цель - нарисовать charts которые помогут быстренько понять trends входных данных. Последние как обычно multidimensional timeseries и хочется посмотреть как одно и то же property меняется в зависимости от времени для разных dimensions etc. Наложить все это дело на upstream business events, посмотреть как коррелируется. Предсказания в данном случае бессмысленны, просто хочется понять trends

Mmodel · Post by **Mmodel** » 03 Oct 2021 22:38

Сабина wrote: 03 Oct 2021 21:58 Моя цель - нарисовать charts которые помогут быстренько понять trends входных данных

тобишь прогнать на каких-то данных и получить продукт как функции.
И эти функции будут рисовать вам charts для потока данных?

Komissar · Post by **Komissar** » 03 Oct 2021 22:56

Сабина wrote: 03 Oct 2021 21:58 хочется посмотреть как одно и то же property меняется в зависимости от времени для разных dimensions etc. Наложить все это дело на upstream business events, посмотреть как коррелируется. Предсказания в данном случае бессмысленны, просто хочется понять trends

Всегда помогает четко знать, что именно хочешь узнать от данных.

Mmodel · Post by **Mmodel** » 03 Oct 2021 23:09

Сабина wrote: 03 Oct 2021 21:58 просто хочется понять trends

Если я правильно понял, сидеть и пытатся понять что за функция получилась.

Сабина · Post by **Сабина** » 04 Oct 2021 03:42

Mmodel wrote: 03 Oct 2021 23:09
Сабина wrote: 03 Oct 2021 21:58 просто хочется понять trends
Если я правильно понял, сидеть и пытатся понять что за функция получилась.

Нет. Но это узкая domain , нет смысла лезть в детали.
Если примитивно, допустим у вас есть данные по тому сколько денег тратит каждый человек на планете. Понятно что у человека есть куча всяких dimensions - возраст, страна проживания, образование, доход, семейное положение. Вы хотите выявить trends - в какой стране больше тратят деньги в июле месяце ? Или какая возрастная категория потратила больше всего денег за лето. И проч и так далее . Функция не волнует, хочется посмотреть на эти trends и наложить на какие то business events, посмотреть как влияют на расходы. Пример business event - начало Ковида например , или период летних каникул и т.д.

Komissar · Post by **Komissar** » 04 Oct 2021 05:54

Сабина wrote: 04 Oct 2021 03:42 Вы хотите выявить trends - в какой стране больше тратят деньги в июле месяце ? Или какая возрастная категория потратила больше всего денег за лето.

На это есть SQL. Не слышала раньше?

Andrey Strelnikov · Post by **Andrey Strelnikov** » 04 Oct 2021 13:58

Сабина wrote: 03 Oct 2021 05:23 Обращусь тут, потому что в вопросы IT больше никто не ходит видимо
Вопрос к датасатанистам. В частности к тем кто и за своих дата инженеров работает .. И прочти ML инженерам кто у ФААНГов оттяпал длинных доллар

Слабо подсказать хорошую питоновскую библиотеку , а заодно и алгоритмы обсчёта и визуализации timeseries data .

Могу только книжку создателя pandas на русском подсказать -
Маккини У. Python и анализ данных
Wes McKinney. Python for Data Analysis.
Библиотеки описаны конечно по состоянию на 2017 год. Визуализация не самая модная описана.
Вполне хватит и этого для начала.

Сабина · Post by **Сабина** » 06 Oct 2021 02:36

Снежная Королева wrote: 05 Oct 2021 02:46 Сабина, если для работы, вам оно не надо, поверьте мне. Дата сайенс это 80% DE, еще 10% знание конкретного бизнеса, 5% анализ и 5% sales (виз, презентации, snake oil stakeholder influence).

Анализ делать стоит армия желающих business majors etc, и за это не платят. Sales надо иметь credentials + харизма. Простые смертные делают деньги в DE.

Не надо вам time series, выучите лучше Airflow, db, Medallion, Holistic, Looker или ещё какой модный DE tool.

Вы не понимаете. Как раз таки Data engineering tools ( airflow, spark, streaming, GCP ML stack etc ) я владею на А+. В данном случае мне нужно представить данные чтобы отстоять свою идею - development project . А когда у тебя час времени и большая аудитория - Visualization is the key

Andrey Strelnikov · Post by **Andrey Strelnikov** » 06 Oct 2021 09:27

Сабина wrote: 06 Oct 2021 02:36
Снежная Королева wrote: 05 Oct 2021 02:46 Сабина, если для работы, вам оно не надо, поверьте мне. Дата сайенс это 80% DE, еще 10% знание конкретного бизнеса, 5% анализ и 5% sales (виз, презентации, snake oil stakeholder influence).

Анализ делать стоит армия желающих business majors etc, и за это не платят. Sales надо иметь credentials + харизма. Простые смертные делают деньги в DE.

Не надо вам time series, выучите лучше Airflow, db, Medallion, Holistic, Looker или ещё какой модный DE tool.
Вы не понимаете. Как раз таки Data engineering tools ( airflow, spark, streaming, GCP ML stack etc ) я владею на А+. В данном случае мне нужно представить данные чтобы отстоять свою идею - development project . А когда у тебя час времени и большая аудитория - Visualization is the key

Сам был примерно в такой ситуации при защите первого data science проекта. Помогло штудирование всякой теории при ответе на всякие вопросы. Плюс в пилоте проект был - почти готовую сетку взяли из книги

. Те на вопросы "как" тоже смогли ответить.
Снежная Королева пытается донести мысль, что Вам может не хватить теоретических знаний при защите. Хотя они у Вас возможно есть.
Мы примерно год вспоминали линейную алгебру, тервер и статистику. Плюс ковыряли на курсах библиотеки.

Ничего там страшного нет - все проходили в универе. Я лично два раза мимо проходил.

Физик-Лирик · Post by **Физик-Лирик** » 06 Oct 2021 13:24

Снежная Королева wrote: 05 Oct 2021 02:46 Не надо вам time series,

Оно может и надо, но без знания математики все скорее всего сведется к "ижи с ними", т.е. имплементации взятого с Интернета кода.

Физик-Лирик · Post by **Физик-Лирик** » 06 Oct 2021 13:27

Andrey Strelnikov wrote: 06 Oct 2021 09:27 Мы примерно год вспоминали линейную алгебру, тервер и статистику. Плюс ковыряли на курсах библиотеки.

Матан не назвали

.

Привет

Датасатанисты и иже с ними

Датасатанисты и иже с ними

Re: Датасатанисты и иже с ними

Re: Датасатанисты и иже с ними

Re: Датасатанисты и иже с ними

Re: Датасатанисты и иже с ними

Re: Датасатанисты и иже с ними

Re: Датасатанисты и иже с ними

Re: Датасатанисты и иже с ними

Re: Датасатанисты и иже с ними

Re: Датасатанисты и иже с ними

Re: Датасатанисты и иже с ними

Re: Датасатанисты и иже с ними

Re: Датасатанисты и иже с ними

Re: Датасатанисты и иже с ними

Re: Датасатанисты и иже с ними