как живется data scientistам нынче?

notknown
Уже с Приветом
Posts: 17496
Joined: 25 Jan 2005 00:59

Re: как живется data scientistам нынче?

Post by notknown »

KotKot wrote:
Снежная Королева wrote:
Отличный курс (free) c приложением очень хорошей (free) книжки есть у станфорда, statistical machine learning называется. Это начальный уровень, он сильно упрощен, но качество очень хорошее. Опять же, без линейной алгебры, калькулюса и теории оптимизации там делать нечего.
Этот курс? https://www.coursera.org/learn/machine-learning" onclick="window.open(this.href);return false;

Который Andrew Ng?
Jон Хопкинские на Курсере сказали что их курс про машине леарнинг = краткий обзор курса Андреш Нг. А если взять Андреш Нг, то бушь хорошо знать machine learning.

Кстати, на kaggle.com есть линки на туториалс на machine learning на елементарную задачу с Титаник. Для быстрого вступления (такого что за день) очень неплохо.
notknown
Уже с Приветом
Posts: 17496
Joined: 25 Jan 2005 00:59

Re: как живется data scientistам нынче?

Post by notknown »

Снежная Королева wrote:Notknown, я Hadley Wickham тоже по гроб жизни благодарна, он поднял язык на новый уровень. Но он не статистикой занимается, а пишет пакеты для элементарной работы с данными.
Но он в первую очередь статистик и программер, а то что он сейчас работает на RStudio и может заниматься чем ему нравится - польза только всем. Кстати, он оказывается еще и с биологии начинал:

http://had.co.nz/portfolio/cv.pdf" onclick="window.open(this.href);return false;

А так в целом я понимаю разницу между елементарной работой с данными и статистикой. Говорю же в прошлой жини я проходила и статистику, и матиматику, и программирование, и бизнес. Просто давно ето было. Но зато я хорошо понимаю что я многое забыла или никогда не учила. :-)
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: как живется data scientistам нынче?

Post by Сабина »

KotKot wrote: 1 и 2) Согласен, спасибо
3) Изучал Hadoop, Pig and Hive. На практике почти не использовал, но общее представление имею и при необходимости могу быстро повторить, все материалы имеются и даже доступ к данным и tools. Считаете, что лучше на это налечь сперва, чем на R?
4 и 5 и 6) В разное время я изучал hypothesis testing - t-test, anova & chi-square время от времени даже применял на практике. Кроме этого, изучал матрицы, основы вероятности и мат статистику, регрессионный анализ (mostly linear regression), а также оптимизацию (linear programming). В настоящее время то, что осталось в голове - смесь знаний и терминов на русском и английском, так что все это привести в порядок, конечно, легче, чем начинать с нуля, но это задача не на пару месяцев, конечно.

Наконец, уточнение что касается цели. Начнем того, что бесплатно я бы не стал этим заниматься, как и вообще любой работой. То есть, цель в данном случае не выучить что-то ради личного интереса, а максимизировать свой leverage на рынке труда, чтобы потом уже его использовать как захочется: повысить зарплату, не работать на _удаков, минимизировать стресс, работать удаленно и т д по желанию. СтОит ли, исходя из этой цели и имеющихся ресурсов, сильно углубляться в математические/cтатистические дебри? Я не уверен. Если есть ниша, допустим, в области data preparation/quality, business analytics, compliance, etc, где можно добиться указанного выше, то я бы не углублялся в machine learning/heavy math/statistics. Однако, как я уже указал выше, в наше время многие 23-летние индусы и китайцы могут сделать то же самое, готовы работать в 2 раза больше и за меньшие деньги, так что приходится двигаться вперед.
Изучите вот этот проект от и до - https://github.com/killrweather/killrweather" onclick="window.open(this.href);return false;
К нему прилагается видео - если не пожалеете денег или контора оплатит - то вот оно http://shop.oreilly.com/product/0636920043652.do" onclick="window.open(this.href);return false;

После того как вы в вышеупомянутом стаке сможете все пользовать легко и просто - вас в SF или NY оторвут с руками и ногами :)

Data scientist - это напускное, нету на них еще столько спроса, сколько создано ажиотажа вокруг терминов big data , data scientist etc
В реальной жизни люди с деньгами еще только строят настоящие event driven systems, big data, real time event processing etc.
Туда надо рваться - в building the infrastructure, а не в R programming, где по моему уже желающих больше чем спроса :mrgreen:
https://www.youtube.com/watch?v=wOwblaKmyVw
Космос
Уже с Приветом
Posts: 340
Joined: 04 Jun 2008 03:26

Re: как живется data scientistам нынче?

Post by Космос »

Ученые, а задачку слабо решить? Hadoop, Spark, Pig, R, SAS вам не помогут :twisted: ?
при какой статистической значимости данное в статье заключение, о том что data scientist лучшная работа, верно на основании выборки, приведенной в статье ?
http://www.today.com/money/best-jobs-wo ... ore-t51326" onclick="window.open(this.href);return false;
проще - каково p-value что data scientist лучшая работа изходя из данных статьи?
Рассуждения пожалста...
Last edited by Космос on 11 Nov 2015 18:29, edited 1 time in total.
KotKot
Уже с Приветом
Posts: 5401
Joined: 04 Feb 2009 05:05

Re: как живется data scientistам нынче?

Post by KotKot »

Космос, журналисты, как обычно, не говорят про слона в комнате. А этот слон - IQ. У большинства людей он слишком низкий не то, что для Data Science, но даже чтобы толком на Excel научиться работать.

А помимо этого, все верно. С другой стороны, я думаю, что топ моделью тоже хорошо работать. Давайте все пойдём в топ модели.
Из своей головы не эмигрируешь.
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Космос wrote:Ученые, а задачку слабо решить? Hadoop, Spark, Pig, R, SAS вам не помогут :twisted: ?
при какой статистической значимости данное в статье заключение, о том что data scientist лучшная работа, верно на основании выборки, приведенной в статье ?
http://www.today.com/money/best-jobs-wo ... ore-t51326" onclick="window.open(this.href);return false;
Проще - каков significance level заключения что data scientist лучшая работа изходя из данных статьи?
Рассуждения пожалста...
Статью посмотрел по вертикали. Если грубо, то конфиденс интервал = стандарное отклонение, деленное
на квадратный корень из сабпопуляции и умноженное на 1.96. На самом деле несколько ньюансов. Во первых,
ответы даны по ординальной шкале, так что перевод ответов в дробные числа не совсем корректен. Во-вторых,
чтобы понять, являются ли ответы статистически разными, нужно гонять анову. В-третьих, не ясно (может
невнимательно читал 2 минуты), является ли выборка случайной по стране. Если нет, тогда может присутствовать
байес. А вообще Вы зря иронизируете по этому поводу. Анализ (и дизайн) экспериментов не такая уж тривиальная
вещь. Сурвеи (обзоры) - целая наука. У меня вон на полке классика (книга) по выборке лежит.
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Сабина wrote:
Data scientist - это напускное, нету на них еще столько спроса, сколько создано ажиотажа вокруг терминов big data , data scientist etc
В реальной жизни люди с деньгами еще только строят настоящие event driven systems, big data, real time event processing etc.
Туда надо рваться - в building the infrastructure, а не в R programming, где по моему уже желающих больше чем спроса :mrgreen:
Ну это Вы зря. Востребованность приличная. А программирование на R тут не причем. Это лишь средство
(одно из). R программеры как таковые не нужны (был отдельный топик про это). Это да. Но дейта сайнс - это
не программирование на R . Это все-таки анализ прежде всего. Другое дело, что не каждый, носящий титул
дейта сайнтиста, таковым является. Но эта уже другая история.
Космос
Уже с Приветом
Posts: 340
Joined: 04 Jun 2008 03:26

Re: как живется data scientistам нынче?

Post by Космос »

Физик-Лирик wrote: Статью посмотрел по вертикали. Если грубо, то конфиденс интервал = стандарное отклонение, деленное
на квадратный корень из сабпопуляции и умноженное на 1.96. На самом деле несколько ньюансов. Во первых,
ответы даны по ординальной шкале, так что перевод ответов в дробные числа не совсем корректен. Во-вторых,
чтобы понять, являются ли ответы статистически разными, нужно гонять анову. В-третьих, не ясно (может
невнимательно читал 2 минуты), является ли выборка случайной по стране. Если нет, тогда может присутствовать
байес. А вообще Вы зря иронизируете по этому поводу. Анализ (и дизайн) экспериментов не такая уж тривиальная
вещь. Сурвеи (обзоры) - целая наука. У меня вон на полке классика (книга) по выборке лежит.
Не понятно, при чем тут конфиденс интервал и 1.96? 95% вроде не было нигде упомянуто.
На счет "перевод ответов в дробные числа" вообще не ясно о чем речь идет.
Нужно всего лишь дать p-value предположения что data scientist №1 во всей популяции.
На счет случайности да! справедливое замечание - будем исходить из предположения что выбрка случайная, без баеса (в рамках задачки). Да и с чего вы взяли что я иронизирую, все серьезно на счет задачки.
Хотя видится мне что если никто из дата сайнтистов не решит ее, то тем более вывод напрашивается то "дата сайнтистам" хорошо живется, даже слишком хорошо :D
Last edited by Космос on 12 Nov 2015 08:30, edited 1 time in total.
Космос
Уже с Приветом
Posts: 340
Joined: 04 Jun 2008 03:26

Re: как живется data scientistам нынче?

Post by Космос »

кстати с ановой, тоже есть проблема - вариаций то нет, есть только параметры сэмплов и их размер. Согласно статье 200 замеров для зарплат на каждую работу. Откуда Work-Life Balance Rating взяли в статье не сказано, job openings тоже отбросим, т.к. не ясно чем сравнивать должности зарпатой или job openings. Давайте зарплатой :)

Короче:
есть 25 должностей, для каждой из них были случайно взяты 200 замеров зарплат и высчитано среднее значение, которое приведено. Вариация не известна. Предполжим данные случайные, выборки для должностей нормальные.
Нуль гипотеза - данные для должности data scientist не отличаются от других и находятся в пределах статистической погрешности.
Альтернативная гипотеза - data scientist статистически отличается.
p-value - в студию!! :D
....признаюсь я его сам пока не знаю.
давайте думать, зодно и выясним есть ли на форуме data scientists :-)
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Космос wrote:кстати с ановой, тоже есть проблема - вариаций то нет, есть только параметры сэмплов и их размер. Согласно статье 200 замеров для зарплат на каждую работу. Откуда Work-Life Balance Rating взяли в статье не сказано, job openings тоже отбросим, т.к. не ясно чем сравнивать должности зарпатой или job openings. Давайте зарплатой :)

Короче:
есть 25 должностей, для каждой из них были случайно взяты 200 замеров зарплат и высчитано среднее значение, которое приведено. Вариация не известна. Предполжим данные случайные, выборки для должностей нормальные.
Нуль гипотеза - данные для должности data scientist не отличаются от других и находятся в пределах статистической погрешности.
Альтернативная гипотеза - data scientist статистически отличается.
p-value - в студию!! :D
....признаюсь я его сам пока не знаю.
давайте думать, зодно и выясним есть ли на форуме data scientists :-)
Собственно Королева Вам все грамотно объяснила, поэтому добавить особо нечего. Правильный подход - это анова. Если данных нет, то ничего не подсчитать. Что тут обсуждать тогда? Каким образом Вы собираетесь считать пи-велью? Вы же сами говорите, что надо проверить,
является ли разность статистически значимой. А на чем это основано? На сравнении разницы с "неточностью", что и определяется дисперсией. Короче, оценивается среднее из подгруппы плюс погрешность оценки (т.е. конфиденс интервал). Зачем конфиденс интервал? Для оценки ошибки. Можно посмотреть, отличаются ли значения больше чем величина ошибки (Central Limit Theorem). Очень хороший способ. Т.к. задача многогрупповая, то правильнее будет анова. Предположение о нормальности распределений - это в теории,
чтобы использовать "формулы". На практике все будет неплохо работать, даже если есть отклонения. Наверняка и вариации в каждой группе разные будут.
Учитывая, что подавляющее количество работ дейта сайнтистов в Кали, НЙ и Сиэтле, то даже при репрезентативной выборке и правильной оценке средних величин не уверен, что можно просто сравнивать зарплаты, т.к. в вышеупомянутых местах все дороже. В результате, на основе анализа получим высокие цифры, а это будет результатом того, что речь идет о дорогих местах. Т.е. расчет правильный,
а выводу могут "интересные".
User avatar
x.angie
Уже с Приветом
Posts: 191
Joined: 13 Mar 2006 19:01
Location: Earth -> Moon -> Mars

Re: как живется data scientistам нынче?

Post by x.angie »

Сабина wrote: Изучите вот этот проект от и до - https://github.com/killrweather/killrweather" onclick="window.open(this.href);return false;
К нему прилагается видео - если не пожалеете денег или контора оплатит - то вот оно http://shop.oreilly.com/product/0636920043652.do" onclick="window.open(this.href);return false;

После того как вы в вышеупомянутом стаке сможете все пользовать легко и просто - вас в SF или NY оторвут с руками и ногами :)

Data scientist - это напускное, нету на них еще столько спроса, сколько создано ажиотажа вокруг терминов big data , data scientist etc
В реальной жизни люди с деньгами еще только строят настоящие event driven systems, big data, real time event processing etc.
Туда надо рваться - в building the infrastructure, а не в R programming, где по моему уже желающих больше чем спроса :mrgreen:
Вспомнилось
Image
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: как живется data scientistам нынче?

Post by Сабина »

Ну Databricks то всяко немальчик :), причем не намешал а именно использовал все по делу. Потому и привела пример что грамотный и работающий
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Dweller
Уже с Приветом
Posts: 12262
Joined: 20 Dec 2000 10:01
Location: Bellevue, WA

Re: как живется data scientistам нынче?

Post by Dweller »

А мы, например, не берем в ученые с одним только R - нам нужны те кто сможет не только что-то сделать с готовым dataset но сможет еще и сам его подготовить в pig/hive/hadoop, да еще и запустить алгоритмы там же
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Снежная Королева wrote:
А старый добрый R (или SAS или питон) в сочетании со знанием статистики кормит людей не один десяток лет. И будет продолжать еще столько же. Data scientist - профессия древняя, не один десяток лет они работают. Ажиотаж вокруг них только потому, что недавно вдруг все вокруг дорвались до данных, и дата сайентистов стало резко не хватать. Оно неудивительно, чтобы натренировать толкового, надо 4 года бакалавра и 1-2 мастера плюс опыт работы, плюс мозги умные. А с умными хорошо тренированными математикой мозгами, в любой профессии напряжёнка. :)
+ 100
Dweller wrote:А мы, например, не берем в ученые с одним только R - нам нужны те кто сможет не только что-то сделать с готовым dataset но сможет еще и сам его подготовить в pig/hive/hadoop, да еще и запустить алгоритмы там же
+ 100

:lol:
Космос
Уже с Приветом
Posts: 340
Joined: 04 Jun 2008 03:26

Re: как живется data scientistам нынче?

Post by Космос »

Физик-Лирик wrote:
Космос wrote:кстати с ановой, тоже есть проблема - вариаций то нет, есть только параметры сэмплов и их размер. Согласно статье 200 замеров для зарплат на каждую работу. Откуда Work-Life Balance Rating взяли в статье не сказано, job openings тоже отбросим, т.к. не ясно чем сравнивать должности зарпатой или job openings. Давайте зарплатой :)

Короче:
есть 25 должностей, для каждой из них были случайно взяты 200 замеров зарплат и высчитано среднее значение, которое приведено. Вариация не известна. Предполжим данные случайные, выборки для должностей нормальные.
Нуль гипотеза - данные для должности data scientist не отличаются от других и находятся в пределах статистической погрешности.
Альтернативная гипотеза - data scientist статистически отличается.
p-value - в студию!! :D
....признаюсь я его сам пока не знаю.
давайте думать, зодно и выясним есть ли на форуме data scientists :-)
Собственно Королева Вам все грамотно объяснила, поэтому добавить особо нечего. Правильный подход - это анова. Если данных нет, то ничего не подсчитать. Что тут обсуждать тогда? Каким образом Вы собираетесь считать пи-велью? Вы же сами говорите, что надо проверить,
является ли разность статистически значимой. А на чем это основано? На сравнении разницы с "неточностью", что и определяется дисперсией. Короче, оценивается среднее из подгруппы плюс погрешность оценки (т.е. конфиденс интервал). Зачем конфиденс интервал? Для оценки ошибки. Можно посмотреть, отличаются ли значения больше чем величина ошибки (Central Limit Theorem). Очень хороший способ. Т.к. задача многогрупповая, то правильнее будет анова. Предположение о нормальности распределений - это в теории,
чтобы использовать "формулы". На практике все будет неплохо работать, даже если есть отклонения. Наверняка и вариации в каждой группе разные будут.
Учитывая, что подавляющее количество работ дейта сайнтистов в Кали, НЙ и Сиэтле, то даже при репрезентативной выборке и правильной оценке средних величин не уверен, что можно просто сравнивать зарплаты, т.к. в вышеупомянутых местах все дороже. В результате, на основе анализа получим высокие цифры, а это будет результатом того, что речь идет о дорогих местах. Т.е. расчет правильный,
а выводу могут "интересные".
как же нет данных? А 25 значений и размер сэмплов известен это что разве не данные? Вариаций нет - согласен. Однако анова не единственный подход, есть еще непараметрика и order statistics. Возможно не достаточно данных чтобы дать такой p-value который бы опроверг или поддержал гипотезу, но это еще нужно доказать.
Вообщем вы быстро управились. Нет данных 8) Походу хорошие условия труда в data science :-)

Return to “Работа и Карьера в IT”