Machine Learning again

Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Machine Learning again

Post by Сабина »

Прочла сегодня в БАРТе рекламку и поняла почему меня КредитКарма всегла записывает в "х...е заёмщики", в то время как тот же Минт говорит что лучше меня нету :).
Рекламка на стене гласила "I apply machine learning to make credit more human...." И подпись какого то индуса-инженера из Кредит кармы. Ну а че все правильно - потеряй я работу и все мои скоры, которые может и высокие по подсчетам агенств в течении последних 10+ лет , полетят к чертовой матери.
Получается machine learning - это вам не просто так :)
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Komissar
Уже с Приветом
Posts: 64875
Joined: 12 Jul 2002 16:38
Location: г.Москва, ул. Б. Лубянка, д.2

Re: Machine Learning again

Post by Komissar »

Снежная Королева wrote:Ничего не поняла, что значит "не просто так"? Вы не знали, что credit scores - это чистой воды machine learning algorithms?
австралийцы - как дети, всем байкам верят. 8O :food: Ни machine, ни learning там и рядом не стояло, сплошной угадательный маркетинг.
User avatar
Medium-rare
Уже с Приветом
Posts: 9195
Joined: 04 Mar 2011 03:04
Location: SFBA

Re: Machine Learning again

Post by Medium-rare »

Сабина wrote:Ну а че все правильно - потеряй я работу и все мои скоры, которые может и высокие по подсчетам агенств в течении последних 10+ лет , полетят к чертовой матери.
Мне кажется, если им сам человек не сообщит, что он без работы, то кредитные агенства и не узнают. Между работами и новые кредитки предлагают, и всё, как обычно. Кроме как на мортгидж работодателя подтверждать, не помню, чтобы спрашивали.
... and even then it's rare that you'll be going there...
User avatar
fruit6
Уже с Приветом
Posts: 4207
Joined: 10 Jan 2004 01:22
Location: n-sk -> MD -> VA

Re: Machine Learning again

Post by fruit6 »

Да, 'credit score' отражает 'past performance' а не то что могут подумать иностранцы.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

Medium-rare wrote:
Сабина wrote:Ну а че все правильно - потеряй я работу и все мои скоры, которые может и высокие по подсчетам агенств в течении последних 10+ лет , полетят к чертовой матери.
Мне кажется, если им сам человек не сообщит, что он без работы, то кредитные агенства и не узнают. Между работами и новые кредитки предлагают, и всё, как обычно. Кроме как на мортгидж работодателя подтверждать, не помню, чтобы спрашивали.
Я думаю там не все так примитивно просто "есть работа, нет работы", наверняка machine learner-ы изощряются и анализируют все что можно :), а подписалось на ету Кредит Карму ой-ей-ей скока народу :). Грубо говоря они вам точно посчитают чем 790 у single mom отличаются от 790 of a young guy in his 20s.
Ну а что мы только крепчаем от такого знания :). Вон UCBerkley на днях вывесило Data Science degree , все в онлайне :)
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Medium-rare
Уже с Приветом
Posts: 9195
Joined: 04 Mar 2011 03:04
Location: SFBA

Re: Machine Learning again

Post by Medium-rare »

Сабина wrote:Вон UCBerkley на днях вывесило Data Science degree , все в онлайне :)
Кто подпишется на тот degree, его score куда пойдёт?
... and even then it's rare that you'll be going there...
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

Medium-rare wrote:
Сабина wrote:Вон UCBerkley на днях вывесило Data Science degree , все в онлайне :)
Кто подпишется на тот degree, его score куда пойдёт?
Надеюсь что в диплом :)
https://www.youtube.com/watch?v=wOwblaKmyVw
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

Снежная Королева wrote:Ничего не поняла, что значит "не просто так"? Вы не знали, что credit scores - это чистой воды machine learning algorithms?
Точно знала что нет, собственно говоря как то раз даже сто лет назад читала статьи как три бюро по разному обсчитывают. Но бюро как репортили мне хороший скор, так и продолжают. Одна кредит карма выпендривается Хотя конечно смотря что считать machine learning? Может нынче любой обсчёт исторических данных по формуле - это автоматически machine learning.
https://www.youtube.com/watch?v=wOwblaKmyVw
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

Снежная Королева wrote:Я имела в виду, что несмотря на то, Что credit score - это просто формула, решение о выдачи кредита - это machine learning algorithm, в котором credit score только одна из inputs.

Это даже несмешно :(. Все равно что сказать "зачем собирать бигдата, формула пойдёт ;)"
https://www.youtube.com/watch?v=wOwblaKmyVw
dasilva
Уже с Приветом
Posts: 4052
Joined: 18 Nov 2014 06:20

Re: Machine Learning again

Post by dasilva »

Вроде бы настоящий Machine Learning по прежнему фиговатый. Т.е. если что-то и есть, то оно типа IBM-овского ватсона. А IBM у нас одно. Ну, еще палантир есть. Остальные, вручную смотрят данные и экспериментируют с разными критериями и параметрами. Какие критерии использовать решает, обычно человек. Выбрать параметры помогает комп.

Например, человек смотрит и думает, а давайте-ка, в качестве критерия возьмем возраст. Дальше берут исторические данные (модно называть big data) и подбираем точные значения возрастов для определения возрастных категорий. Далее назначем этим категориям разные страховки или кредит скоры.

В некоторых (большинстве) приложениях Machine Learning не очевидно, какие критереии надо брать. Ну, народ и пробует разные варианты и пишет диссертации на эту тему. Результат получается не очень, но для написания диссертаций подходит. Например, если угадывание случайным образом дает 50% распознавания (угадывания), то после обучения - 60%. Т.е. типа машина научилась, но ничего реального с такой вероятностью ей не доверишь.
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

Вообще-то кроме ватсона есть еще много полуавтоматизированых хреней. В sklearn это примерно так делается: непрерывные данные скалировать на [-1,1] если нет intrinsic scale, а все остальные кодировать one hot encoder. Потом на это напустить случайный лес GBM или спуск по градиенту SGD либо classifier либо regressor, если зависимая переменная непрерывная. Гиперпараметры алгоритмов подбираются методом монте-карло или прогоном по списку и cross validation, для этого тоже есть готовый фреймворк. Какие из зависимых переменных приносят пользу можно посмотреть по score который им выдает алгоритм, а потом убрать ненужные. Но с современным объемом памяти это наверное уже и не обязательно.
Остается проблема мультиколлинеарности - ну можно еще методом главных компонент PCA понизить размерность после причесывания данных.
Может я какие-то особенные случаи не учел, пусть старшие товарищи меня поправят.
andmed
Posts: 7
Joined: 13 Sep 2015 20:48

Re: Machine Learning again

Post by andmed »

На udacity google только начал курс deep learning со своим tensorFlow
на coursera Яндекс с ВШЭ неделю назад запустили machine learning (питон, pandas etc)
вещи интересные, в принципе, для начинающих.
jfyi
User avatar
geek7
Уже с Приветом
Posts: 20297
Joined: 01 Dec 2003 23:16
Location: Russia->USA

Re: Machine Learning again

Post by geek7 »

Komissar wrote:
Снежная Королева wrote:Ничего не поняла, что значит "не просто так"? Вы не знали, что credit scores - это чистой воды machine learning algorithms?
австралийцы - как дети, всем байкам верят. 8O :food: Ни machine, ни learning там и рядом не стояло, сплошной угадательный маркетинг.
+1
Говори что думаешь, думай что говоришь!
Маразм крепчал и скрепы гнулись
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

dasilva wrote:Вроде бы настоящий Machine Learning по прежнему фиговатый.
Например, человек смотрит и думает, а давайте-ка, в качестве критерия возьмем возраст. Дальше берут исторические данные (модно называть big data) и подбираем точные значения возрастов для определения возрастных категорий. Далее назначем этим категориям разные страховки или кредит скоры.

В некоторых (большинстве) приложениях Machine Learning не очевидно, какие критереии надо брать. Ну, народ и пробует разные варианты и пишет диссертации на эту тему. Результат получается не очень, но для написания диссертаций подходит. Например, если угадывание случайным образом дает 50% распознавания (угадывания), то после обучения - 60%. Т.е. типа машина научилась, но ничего реального с такой вероятностью ей не доверишь.
Критерии, категории, целевые функции (в особенности) выбираются исходя из бизнес постановки задачи. Входные переменные можно и угадать, но все же тоже определяются бизнес задачей. И все-таки Биг-дата не прости модное слово. Это технологии, алгоритмы, концепции. Последнее тоже очень важно, т.к. многомерные пространства концептуально ведут себя по другому (называется курсе оф дименсионалити). Диалектики однако, количественные изменения переходят в качественные. Проблема с маш. обучением в том, что бизнес зачастую не знает, зачем ему все это надо. А все должно начинаться с бизнес задачи, а не наоборот.
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Deckel wrote:Вообще-то кроме ватсона есть еще много полуавтоматизированых хреней. В sklearn это примерно так делается: непрерывные данные скалировать на [-1,1] если нет intrinsic scale, а все остальные кодировать one hot encoder. Потом на это напустить случайный лес GBM или спуск по градиенту SGD либо classifier либо regressor, если зависимая переменная непрерывная. Гиперпараметры алгоритмов подбираются методом монте-карло или прогоном по списку и cross validation, для этого тоже есть готовый фреймворк. Какие из зависимых переменных приносят пользу можно посмотреть по score который им выдает алгоритм, а потом убрать ненужные. Но с современным объемом памяти это наверное уже и не обязательно.
Остается проблема мультиколлинеарности - ну можно еще методом главных компонент PCA понизить размерность после причесывания данных.
Может я какие-то особенные случаи не учел, пусть старшие товарищи меня поправят.
Оно как бы в теории все так, но на практике все будет иначе. Я уже говорил выше, что все начинается с постановки бизнес задачи. Отсюда надо и плясать. Алгоритмов много, но надо знать какой и где применять не только с точки зрения самой задачи, но и времени вычислений, устойчивости к оферфиттингу, точности и т.п. Выборка основных переменных производится автоматически, но вопрос в том, насколько все это точно. Вы уже упоминали мультиколинеарность. Об этом сейчас много дискутируют. Т.к. оценки важности переменных будут неточными, алгоритмы, основанные на выборке по данному критерию, могут полететь. В случае линейной регрессии все кулинарные переменные могут оказаться незначимыми (их же вычисляют как маргинальные переменные), так что степ вайз селекция может не сработать. Принципиальные компоненты, да, но как их интерпретировать? А как метрику выбирать, например, для кластеров или аутлаеров. А про байес в исходных данных я вообще молчу. Так что заменить все фреймверками не получится. А ещё проблема распараллелить алгоритмы.
Короче, наблюдаем некий бум, сходный (масштаб, конечно, не тот) с концом 90-х. Только в отличие от программирования здесь математику знать надо. А вот здесь будут явные проблемы.

Return to “Работа и Карьера в IT”