Обращусь тут, потому что в вопросы IT больше никто не ходит видимо
Вопрос к датасатанистам. В частности к тем кто и за своих дата инженеров работает .. И прочти ML инженерам кто у ФААНГов оттяпал длинных доллар
Слабо подсказать хорошую питоновскую библиотеку , а заодно и алгоритмы обсчёта и визуализации timeseries data .
Сабина wrote: 03 Oct 2021 05:23
Обращусь тут, потому что в вопросы IT больше никто не ходит видимо
Вопрос к датасатанистам. В частности к тем кто и за своих дата инженеров работает .. И прочти ML инженерам кто у ФААНГов оттяпал длинных доллар
Слабо подсказать хорошую питоновскую библиотеку , а заодно и алгоритмы обсчёта и визуализации timeseries data .
Merlion is a Python library for time series intelligence. It provides an end-to-end machine learning framework that includes loading and transforming data, building and training models, post-processing model outputs, and evaluating model performance. It supports various time series learning tasks, including forecasting and anomaly detection for both univariate and multivariate time series. This library aims to provide engineers and researchers a one-stop solution to rapidly develop models for their specific time series needs, and benchmark them across multiple time series datasets.
Merlion's key features are
Standardized and easily extensible data loading & benchmarking for a wide range of forecasting and anomaly detection datasets.
A library of diverse models for both anomaly detection and forecasting, unified under a shared interface. Models include classic statistical methods, tree ensembles, and deep learning approaches. Advanced users may fully configure each model as desired.
Abstract DefaultDetector and DefaultForecaster models that are efficient, robustly achieve good performance, and provide a starting point for new users.
AutoML for automated hyperaparameter tuning and model selection.
Practical, industry-inspired post-processing rules for anomaly detectors that make anomaly scores more interpretable, while also reducing the number of false positives.
Easy-to-use ensembles that combine the outputs of multiple models to achieve more robust performance.
Flexible evaluation pipelines that simulate the live deployment & re-training of a model in production, and evaluate performance on both forecasting and anomaly detection.
Native support for visualizing model predictions.
Merlion is a Python library for time series intelligence. It provides an end-to-end machine learning framework that includes loading and transforming data, building and training models, post-processing model outputs, and evaluating model performance. It supports various time series learning tasks, including forecasting and anomaly detection for both univariate and multivariate time series. This library aims to provide engineers and researchers a one-stop solution to rapidly develop models for their specific time series needs, and benchmark them across multiple time series datasets.
Merlion's key features are
Standardized and easily extensible data loading & benchmarking for a wide range of forecasting and anomaly detection datasets.
A library of diverse models for both anomaly detection and forecasting, unified under a shared interface. Models include classic statistical methods, tree ensembles, and deep learning approaches. Advanced users may fully configure each model as desired.
Abstract DefaultDetector and DefaultForecaster models that are efficient, robustly achieve good performance, and provide a starting point for new users.
AutoML for automated hyperaparameter tuning and model selection.
Practical, industry-inspired post-processing rules for anomaly detectors that make anomaly scores more interpretable, while also reducing the number of false positives.
Easy-to-use ensembles that combine the outputs of multiple models to achieve more robust performance.
Flexible evaluation pipelines that simulate the live deployment & re-training of a model in production, and evaluate performance on both forecasting and anomaly detection.
Native support for visualizing model predictions.
Спасибо попробую. В итоге записалась на класс своего любимого препода, если что интересное узнаю - поделюсь
Моя цель - нарисовать charts которые помогут быстренько понять trends входных данных. Последние как обычно multidimensional timeseries и хочется посмотреть как одно и то же property меняется в зависимости от времени для разных dimensions etc. Наложить все это дело на upstream business events, посмотреть как коррелируется. Предсказания в данном случае бессмысленны, просто хочется понять trends
Сабина wrote: 03 Oct 2021 21:58
хочется посмотреть как одно и то же property меняется в зависимости от времени для разных dimensions etc. Наложить все это дело на upstream business events, посмотреть как коррелируется. Предсказания в данном случае бессмысленны, просто хочется понять trends
Всегда помогает четко знать, что именно хочешь узнать от данных.
Сабина wrote: 03 Oct 2021 21:58
просто хочется понять trends
Если я правильно понял, сидеть и пытатся понять что за функция получилась.
Нет. Но это узкая domain , нет смысла лезть в детали.
Если примитивно, допустим у вас есть данные по тому сколько денег тратит каждый человек на планете. Понятно что у человека есть куча всяких dimensions - возраст, страна проживания, образование, доход, семейное положение. Вы хотите выявить trends - в какой стране больше тратят деньги в июле месяце ? Или какая возрастная категория потратила больше всего денег за лето. И проч и так далее . Функция не волнует, хочется посмотреть на эти trends и наложить на какие то business events, посмотреть как влияют на расходы. Пример business event - начало Ковида например , или период летних каникул и т.д.
Сабина wrote: 04 Oct 2021 03:42
Вы хотите выявить trends - в какой стране больше тратят деньги в июле месяце ? Или какая возрастная категория потратила больше всего денег за лето.
Сабина wrote: 03 Oct 2021 05:23
Обращусь тут, потому что в вопросы IT больше никто не ходит видимо
Вопрос к датасатанистам. В частности к тем кто и за своих дата инженеров работает .. И прочти ML инженерам кто у ФААНГов оттяпал длинных доллар
Слабо подсказать хорошую питоновскую библиотеку , а заодно и алгоритмы обсчёта и визуализации timeseries data .
Могу только книжку создателя pandas на русском подсказать -
Маккини У. Python и анализ данных
Wes McKinney. Python for Data Analysis.
Библиотеки описаны конечно по состоянию на 2017 год. Визуализация не самая модная описана.
Вполне хватит и этого для начала.
Снежная Королева wrote: 05 Oct 2021 02:46
Сабина, если для работы, вам оно не надо, поверьте мне. Дата сайенс это 80% DE, еще 10% знание конкретного бизнеса, 5% анализ и 5% sales (виз, презентации, snake oil stakeholder influence).
Анализ делать стоит армия желающих business majors etc, и за это не платят. Sales надо иметь credentials + харизма. Простые смертные делают деньги в DE.
Не надо вам time series, выучите лучше Airflow, db, Medallion, Holistic, Looker или ещё какой модный DE tool.
Вы не понимаете. Как раз таки Data engineering tools ( airflow, spark, streaming, GCP ML stack etc ) я владею на А+. В данном случае мне нужно представить данные чтобы отстоять свою идею - development project . А когда у тебя час времени и большая аудитория - Visualization is the key
Снежная Королева wrote: 05 Oct 2021 02:46
Сабина, если для работы, вам оно не надо, поверьте мне. Дата сайенс это 80% DE, еще 10% знание конкретного бизнеса, 5% анализ и 5% sales (виз, презентации, snake oil stakeholder influence).
Анализ делать стоит армия желающих business majors etc, и за это не платят. Sales надо иметь credentials + харизма. Простые смертные делают деньги в DE.
Не надо вам time series, выучите лучше Airflow, db, Medallion, Holistic, Looker или ещё какой модный DE tool.
Вы не понимаете. Как раз таки Data engineering tools ( airflow, spark, streaming, GCP ML stack etc ) я владею на А+. В данном случае мне нужно представить данные чтобы отстоять свою идею - development project . А когда у тебя час времени и большая аудитория - Visualization is the key
Сам был примерно в такой ситуации при защите первого data science проекта. Помогло штудирование всякой теории при ответе на всякие вопросы. Плюс в пилоте проект был - почти готовую сетку взяли из книги . Те на вопросы "как" тоже смогли ответить.
Снежная Королева пытается донести мысль, что Вам может не хватить теоретических знаний при защите. Хотя они у Вас возможно есть.
Мы примерно год вспоминали линейную алгебру, тервер и статистику. Плюс ковыряли на курсах библиотеки.
Ничего там страшного нет - все проходили в универе. Я лично два раза мимо проходил.