Machine Learning again

Физик-Лирик · Post by **Физик-Лирик** » 21 Oct 2016 02:07

Снежная Королева wrote:
Larsonsager wrote:Интерпретируемость у одиночных деревьев или у маленьких лесов (рощиц?) превосходная.
Да, но ошибка большая. Надо gradient boosting вводить, а там уже не обьяснить ничего. Кроме того, деревья очень плохо предсказывают out of range. Регрессия тоже плохо предсказывает out of range, но лучше.

Кроме того, Вы когда нибудь пытались объяснить GBM риск менеджеру? Человек имеет phd в математике и 15 лет опыта в индустрии. Phd было в applied maths, статистику не изучал. Понимает только регрессию. Мне не верит (у меня нет phd, мало опыта да и говорю с акцентом). Ничего нового читать не желает. Good luck применять сложные модели с таким business owner-ом.

Я, конечно, могу предположить, что типа народ коэффициентик хочет увидеть. Именно поэтому, как я упоминал выше, логическая регрессия так популярна в определённых кругах. А зачем градиенты бустинг объяснять? Куча ссылок в Интернете. Чего, собственно говорить то? Ну можно сказать, что любой бустиг - лишь применение цепочки слабых классификаторов. Линейная регрессия - хорошая теоретическая модель. Куча литературы. Красивая теория. Однако, выбирать предикторы, да ещё их нелинейные взаимодействия - ещё то удовольствие.
А что есть описание out of range?

Физик-Лирик · Post by **Физик-Лирик** » 21 Oct 2016 02:09

Снежная Королева wrote:Gradient boosting machine

Все-таки Метод а не машин.

Физик-Лирик · Post by **Физик-Лирик** » 21 Oct 2016 02:12

blanko27 wrote:
Снежная Королева wrote:Вы когда нибудь пытались объяснить GBM риск менеджеру?
Was ist das - GBM?

Там прикольчик есть, называться сжатием (shrinkage). Он то и погоду делает. Не только он, конечно. Обычно в качестве слабого классификатора деревья используют.

Larsonsager · Post by **Larsonsager** » 21 Oct 2016 02:27

Снежная Королева wrote:Да, но ошибка большая. Надо gradient boosting вводить, а там уже не обьяснить ничего. ... Кроме того, Вы когда нибудь пытались объяснить GBM риск менеджеру?

Ну почему же? Так и объяснить: вот есть решающее правило, дерево. А вот другое. Вот десяток. Каждое из них принимает решение, а мы его с такими-то весами усредним (или проголосуем, или еще что). Еще у нас сто других деревьев, но у них вес поменьше. Объяснять менеджеру в тонкости, почему это бустинг, а не беггинг, не случайный лес и что там еще бывает, совершенно не обязательно.

Снежная Королева wrote:Кроме того, деревья очень плохо предсказывают out of range. Регрессия тоже плохо предсказывает out of range, но лучше деревьев.

Стыдно сказать, но не понял, что такое out of range.

blanko27 · Post by **blanko27** » 21 Oct 2016 03:53

blanko27 · Post by **blanko27** » 21 Oct 2016 03:53

Larsonsager wrote:Стыдно сказать, но не понял, что такое out of range.

Она, видимо, имеет в виду экстрополяцию.

Снежная Королева wrote:Машина, метод или модель, это все одно и то же: GBM

Спасибо, узнал новый акроним, а то Гугл все заладил Glioblastoma-Glioblastoma - какая Glioblastoma, не пойму?

The method goes by a variety of names. Friedman introduced his regression technique as a "Gradient Boosting Machine" (GBM). Mason, Baxter et. el. described the generalized abstract class of algorithms as "functional gradient boosting".

A popular open-source implementation[10] for R calls it "Generalized Boosting Model". Commercial implementations from Salford Systems use the names "Multiple Additive Regression Trees" (MART) and TreeNet, both trademarked.

Alexandr · Post by **Alexandr** » 21 Oct 2016 07:19

ystar wrote: это все хорошо, но есть несколько но. Время теоретически ограничено, хотелось бы быть в теме, хотя бы в течении года, максимум двух, чтобы смог бы претендовать на middle role.

плюс например я работаю, и не могу уделять математике и изучению всего всего (да оно на самом деле и не нужно) больше 3-4 часов в день, и то это будет максимум.

4 часа в день - это более, чем достаточно
всего всего - не надо, я имел ввиду "все" с практической точки зрения
+ я параллельно повторяю и математику и смотрю машинное обучение
мне кажется это оптимально

Alexandr · Post by **Alexandr** » 21 Oct 2016 07:21

Физик-Лирик wrote: P.S. Вот хорошо вам всем. Книги читаете, новый материал изучаете. Цели разные преследуете. А мне вот что делать? ....

вам лет то сколько? может уже и не надо?

Deckel · Post by **Deckel** » 21 Oct 2016 08:10

How to Get a Data Science Job: A Ridiculously Specific Guide

http://brohrer.github.io/get_data_science_job.html" onclick="window.open(this.href);return false;

ystar · Post by **ystar** » 21 Oct 2016 08:22

Снежная Королева wrote:3-4 часа в день - это афигеть как много. Я занимаюсь 1-2 час в день, в выходные 2-3 часа в день. Заканчиваю седьмой год, за это время прошла 2 года бакалавра, плюс два года мастера в статистике, параллельно научилась программировать. Фултайм работу и семью никто не отменял.

по старту примерно столько же и выходит. я ж и на работе, тоже изучаю материал.

но тут какое дело, что читая книжки по программированию, ты не научишься программировать. а если программировать без прочтения книжек/материала, то скажем так, качество будет далеко от хорошего. в общем палка о двух концах.

Физик-Лирик · Post by **Физик-Лирик** » 21 Oct 2016 13:08

ystar wrote: но тут какое дело, что читая книжки по программированию, ты не научишься программировать. а если программировать без прочтения книжек/материала, то скажем так, качество будет далеко от хорошего. в общем палка о двух концах.

В дейта сайнс важно не программировать, а ставить и решать задачи. А этому можно научиться, соответственно решая задачи. А учить язык ... я давно уже на это забил. Надо будет - быстро выучу. И стимул будет. А учить на всякий случай - бессмысленно. Лучше фундаментальные книжки читать по теории. Вон надо мне Скалу было освоить - навалился с энтузиазмом. Потом программирование на Спарке.

Alexandr wrote:
Физик-Лирик wrote: P.S. Вот хорошо вам всем. Книги читаете, новый материал изучаете. Цели разные преследуете. А мне вот что делать? ....
вам лет то сколько? может уже и не надо?

А на сколько я выгляжу?

Think_Different · Post by **Think_Different** » 21 Oct 2016 14:49

Снежная Королева wrote:Gradient boosting machine

может он не понимает т.к. ты разговариваешь аббревиатурами?
GBM может быть еще geometric Brownian motion

Think_Different · Post by **Think_Different** » 21 Oct 2016 14:51

Larsonsager wrote:
Снежная Королева wrote:Да, но ошибка большая. Надо gradient boosting вводить, а там уже не обьяснить ничего. ... Кроме того, Вы когда нибудь пытались объяснить GBM риск менеджеру?
Стыдно сказать, но не понял, что такое out of range.

видимо имелось в виду out-of-sample.

Think_Different · Post by **Think_Different** » 21 Oct 2016 14:56

ystar wrote:кто что может сказать про следующую книжку:
Trevor Hastie
Robert Tibshirani
Jerome Friedman
Springer Series in Statistics
The Elements of
Statistical Learning
Data Mining, Inference, and Prediction

отличная книжка "An Introduction to Statistical Learning" by Daniela Witten (дочь Эдварда Виттена)

Alexandr · Post by **Alexandr** » 21 Oct 2016 14:59

Физик-Лирик wrote: А на сколько я выгляжу?

не знаю, но пишите зрело

Привет

Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again