как живется data scientistам нынче?

Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Космос wrote:Ученые, а задачку слабо решить? Hadoop, Spark, Pig, R, SAS вам не помогут :twisted: ?
при какой статистической значимости данное в статье заключение, о том что data scientist лучшная работа, верно на основании выборки, приведенной в статье ?
http://www.today.com/money/best-jobs-wo ... ore-t51326" onclick="window.open(this.href);return false;
Проще - каков significance level заключения что data scientist лучшая работа изходя из данных статьи?
Рассуждения пожалста...
Статью посмотрел по вертикали. Если грубо, то конфиденс интервал = стандарное отклонение, деленное
на квадратный корень из сабпопуляции и умноженное на 1.96. На самом деле несколько ньюансов. Во первых,
ответы даны по ординальной шкале, так что перевод ответов в дробные числа не совсем корректен. Во-вторых,
чтобы понять, являются ли ответы статистически разными, нужно гонять анову. В-третьих, не ясно (может
невнимательно читал 2 минуты), является ли выборка случайной по стране. Если нет, тогда может присутствовать
байес. А вообще Вы зря иронизируете по этому поводу. Анализ (и дизайн) экспериментов не такая уж тривиальная
вещь. Сурвеи (обзоры) - целая наука. У меня вон на полке классика (книга) по выборке лежит.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Сабина wrote:
Data scientist - это напускное, нету на них еще столько спроса, сколько создано ажиотажа вокруг терминов big data , data scientist etc
В реальной жизни люди с деньгами еще только строят настоящие event driven systems, big data, real time event processing etc.
Туда надо рваться - в building the infrastructure, а не в R programming, где по моему уже желающих больше чем спроса :mrgreen:
Ну это Вы зря. Востребованность приличная. А программирование на R тут не причем. Это лишь средство
(одно из). R программеры как таковые не нужны (был отдельный топик про это). Это да. Но дейта сайнс - это
не программирование на R . Это все-таки анализ прежде всего. Другое дело, что не каждый, носящий титул
дейта сайнтиста, таковым является. Но эта уже другая история.
Космос
Уже с Приветом
Posts: 340
Joined: 04 Jun 2008 03:26

Re: как живется data scientistам нынче?

Post by Космос »

Физик-Лирик wrote: Статью посмотрел по вертикали. Если грубо, то конфиденс интервал = стандарное отклонение, деленное
на квадратный корень из сабпопуляции и умноженное на 1.96. На самом деле несколько ньюансов. Во первых,
ответы даны по ординальной шкале, так что перевод ответов в дробные числа не совсем корректен. Во-вторых,
чтобы понять, являются ли ответы статистически разными, нужно гонять анову. В-третьих, не ясно (может
невнимательно читал 2 минуты), является ли выборка случайной по стране. Если нет, тогда может присутствовать
байес. А вообще Вы зря иронизируете по этому поводу. Анализ (и дизайн) экспериментов не такая уж тривиальная
вещь. Сурвеи (обзоры) - целая наука. У меня вон на полке классика (книга) по выборке лежит.
Не понятно, при чем тут конфиденс интервал и 1.96? 95% вроде не было нигде упомянуто.
На счет "перевод ответов в дробные числа" вообще не ясно о чем речь идет.
Нужно всего лишь дать p-value предположения что data scientist №1 во всей популяции.
На счет случайности да! справедливое замечание - будем исходить из предположения что выбрка случайная, без баеса (в рамках задачки). Да и с чего вы взяли что я иронизирую, все серьезно на счет задачки.
Хотя видится мне что если никто из дата сайнтистов не решит ее, то тем более вывод напрашивается то "дата сайнтистам" хорошо живется, даже слишком хорошо :D
Last edited by Космос on 12 Nov 2015 08:30, edited 1 time in total.
Космос
Уже с Приветом
Posts: 340
Joined: 04 Jun 2008 03:26

Re: как живется data scientistам нынче?

Post by Космос »

кстати с ановой, тоже есть проблема - вариаций то нет, есть только параметры сэмплов и их размер. Согласно статье 200 замеров для зарплат на каждую работу. Откуда Work-Life Balance Rating взяли в статье не сказано, job openings тоже отбросим, т.к. не ясно чем сравнивать должности зарпатой или job openings. Давайте зарплатой :)

Короче:
есть 25 должностей, для каждой из них были случайно взяты 200 замеров зарплат и высчитано среднее значение, которое приведено. Вариация не известна. Предполжим данные случайные, выборки для должностей нормальные.
Нуль гипотеза - данные для должности data scientist не отличаются от других и находятся в пределах статистической погрешности.
Альтернативная гипотеза - data scientist статистически отличается.
p-value - в студию!! :D
....признаюсь я его сам пока не знаю.
давайте думать, зодно и выясним есть ли на форуме data scientists :-)
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Космос wrote:кстати с ановой, тоже есть проблема - вариаций то нет, есть только параметры сэмплов и их размер. Согласно статье 200 замеров для зарплат на каждую работу. Откуда Work-Life Balance Rating взяли в статье не сказано, job openings тоже отбросим, т.к. не ясно чем сравнивать должности зарпатой или job openings. Давайте зарплатой :)

Короче:
есть 25 должностей, для каждой из них были случайно взяты 200 замеров зарплат и высчитано среднее значение, которое приведено. Вариация не известна. Предполжим данные случайные, выборки для должностей нормальные.
Нуль гипотеза - данные для должности data scientist не отличаются от других и находятся в пределах статистической погрешности.
Альтернативная гипотеза - data scientist статистически отличается.
p-value - в студию!! :D
....признаюсь я его сам пока не знаю.
давайте думать, зодно и выясним есть ли на форуме data scientists :-)
Собственно Королева Вам все грамотно объяснила, поэтому добавить особо нечего. Правильный подход - это анова. Если данных нет, то ничего не подсчитать. Что тут обсуждать тогда? Каким образом Вы собираетесь считать пи-велью? Вы же сами говорите, что надо проверить,
является ли разность статистически значимой. А на чем это основано? На сравнении разницы с "неточностью", что и определяется дисперсией. Короче, оценивается среднее из подгруппы плюс погрешность оценки (т.е. конфиденс интервал). Зачем конфиденс интервал? Для оценки ошибки. Можно посмотреть, отличаются ли значения больше чем величина ошибки (Central Limit Theorem). Очень хороший способ. Т.к. задача многогрупповая, то правильнее будет анова. Предположение о нормальности распределений - это в теории,
чтобы использовать "формулы". На практике все будет неплохо работать, даже если есть отклонения. Наверняка и вариации в каждой группе разные будут.
Учитывая, что подавляющее количество работ дейта сайнтистов в Кали, НЙ и Сиэтле, то даже при репрезентативной выборке и правильной оценке средних величин не уверен, что можно просто сравнивать зарплаты, т.к. в вышеупомянутых местах все дороже. В результате, на основе анализа получим высокие цифры, а это будет результатом того, что речь идет о дорогих местах. Т.е. расчет правильный,
а выводу могут "интересные".
User avatar
x.angie
Уже с Приветом
Posts: 189
Joined: 13 Mar 2006 19:01
Location: Earth -> Moon -> Mars

Re: как живется data scientistам нынче?

Post by x.angie »

Сабина wrote: Изучите вот этот проект от и до - https://github.com/killrweather/killrweather" onclick="window.open(this.href);return false;
К нему прилагается видео - если не пожалеете денег или контора оплатит - то вот оно http://shop.oreilly.com/product/0636920043652.do" onclick="window.open(this.href);return false;

После того как вы в вышеупомянутом стаке сможете все пользовать легко и просто - вас в SF или NY оторвут с руками и ногами :)

Data scientist - это напускное, нету на них еще столько спроса, сколько создано ажиотажа вокруг терминов big data , data scientist etc
В реальной жизни люди с деньгами еще только строят настоящие event driven systems, big data, real time event processing etc.
Туда надо рваться - в building the infrastructure, а не в R programming, где по моему уже желающих больше чем спроса :mrgreen:
Вспомнилось
Image
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: как живется data scientistам нынче?

Post by Сабина »

Ну Databricks то всяко немальчик :), причем не намешал а именно использовал все по делу. Потому и привела пример что грамотный и работающий
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Dweller
Уже с Приветом
Posts: 12257
Joined: 20 Dec 2000 10:01
Location: Bellevue, WA

Re: как живется data scientistам нынче?

Post by Dweller »

А мы, например, не берем в ученые с одним только R - нам нужны те кто сможет не только что-то сделать с готовым dataset но сможет еще и сам его подготовить в pig/hive/hadoop, да еще и запустить алгоритмы там же
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Снежная Королева wrote:
А старый добрый R (или SAS или питон) в сочетании со знанием статистики кормит людей не один десяток лет. И будет продолжать еще столько же. Data scientist - профессия древняя, не один десяток лет они работают. Ажиотаж вокруг них только потому, что недавно вдруг все вокруг дорвались до данных, и дата сайентистов стало резко не хватать. Оно неудивительно, чтобы натренировать толкового, надо 4 года бакалавра и 1-2 мастера плюс опыт работы, плюс мозги умные. А с умными хорошо тренированными математикой мозгами, в любой профессии напряжёнка. :)
+ 100
Dweller wrote:А мы, например, не берем в ученые с одним только R - нам нужны те кто сможет не только что-то сделать с готовым dataset но сможет еще и сам его подготовить в pig/hive/hadoop, да еще и запустить алгоритмы там же
+ 100

:lol:
Космос
Уже с Приветом
Posts: 340
Joined: 04 Jun 2008 03:26

Re: как живется data scientistам нынче?

Post by Космос »

Физик-Лирик wrote:
Космос wrote:кстати с ановой, тоже есть проблема - вариаций то нет, есть только параметры сэмплов и их размер. Согласно статье 200 замеров для зарплат на каждую работу. Откуда Work-Life Balance Rating взяли в статье не сказано, job openings тоже отбросим, т.к. не ясно чем сравнивать должности зарпатой или job openings. Давайте зарплатой :)

Короче:
есть 25 должностей, для каждой из них были случайно взяты 200 замеров зарплат и высчитано среднее значение, которое приведено. Вариация не известна. Предполжим данные случайные, выборки для должностей нормальные.
Нуль гипотеза - данные для должности data scientist не отличаются от других и находятся в пределах статистической погрешности.
Альтернативная гипотеза - data scientist статистически отличается.
p-value - в студию!! :D
....признаюсь я его сам пока не знаю.
давайте думать, зодно и выясним есть ли на форуме data scientists :-)
Собственно Королева Вам все грамотно объяснила, поэтому добавить особо нечего. Правильный подход - это анова. Если данных нет, то ничего не подсчитать. Что тут обсуждать тогда? Каким образом Вы собираетесь считать пи-велью? Вы же сами говорите, что надо проверить,
является ли разность статистически значимой. А на чем это основано? На сравнении разницы с "неточностью", что и определяется дисперсией. Короче, оценивается среднее из подгруппы плюс погрешность оценки (т.е. конфиденс интервал). Зачем конфиденс интервал? Для оценки ошибки. Можно посмотреть, отличаются ли значения больше чем величина ошибки (Central Limit Theorem). Очень хороший способ. Т.к. задача многогрупповая, то правильнее будет анова. Предположение о нормальности распределений - это в теории,
чтобы использовать "формулы". На практике все будет неплохо работать, даже если есть отклонения. Наверняка и вариации в каждой группе разные будут.
Учитывая, что подавляющее количество работ дейта сайнтистов в Кали, НЙ и Сиэтле, то даже при репрезентативной выборке и правильной оценке средних величин не уверен, что можно просто сравнивать зарплаты, т.к. в вышеупомянутых местах все дороже. В результате, на основе анализа получим высокие цифры, а это будет результатом того, что речь идет о дорогих местах. Т.е. расчет правильный,
а выводу могут "интересные".
как же нет данных? А 25 значений и размер сэмплов известен это что разве не данные? Вариаций нет - согласен. Однако анова не единственный подход, есть еще непараметрика и order statistics. Возможно не достаточно данных чтобы дать такой p-value который бы опроверг или поддержал гипотезу, но это еще нужно доказать.
Вообщем вы быстро управились. Нет данных 8) Походу хорошие условия труда в data science :-)
Космос
Уже с Приветом
Posts: 340
Joined: 04 Jun 2008 03:26

Re: как живется data scientistам нынче?

Post by Космос »

есть непараметрика и order statistics
Космос
Уже с Приветом
Posts: 340
Joined: 04 Jun 2008 03:26

Re: как живется data scientistам нынче?

Post by Космос »

Снежная Королева wrote:Известны sample means and sample sizes. Если вы почитаете учебник, то для самого простого t-test еще требуется sample variance.
Вы какой предмет и в какой школе преподаете?
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Космос wrote: как же нет данных? А 25 значений и размер сэмплов известен это что разве не данные? Вариаций нет - согласен. Однако анова не единственный подход, есть еще непараметрика и order statistics. Возможно не достаточно данных чтобы дать такой p-value который бы опроверг или поддержал гипотезу, но это еще нужно доказать.
Вообщем вы быстро управились. Нет данных 8) Походу хорошие условия труда в data science :-)
Если Вы с чем-то не согласны, то пишите конкретно с чем. Так будет легче обсуждать.
Теперь по делу. Если мы хотим проводить тест, надо сперва определить, что сравнивается. В нашем случае - являются ли средние значения (например, зарплата) для каждой группы (т.е. специальности) статистически разными. Нуль-гипотеза - нет, зарплата не зависит от специальности, альтернативная - да, зарплата зависит от специальности. Мы хотим сравнивать все группы сразу.
Проверяем, является ли распределение в каждой группе нормальным. Если да (или близко), то выбираем анову (или т-тест, если только две группы); если нет, то выбираем непараметрический тест Крускала-Валлиса (в случае двух групп тест Вилкоксона-Мена-Витней). Последние тесты еще называются ранг-тестами. В любом случае все вышеупомянутые тесты требуют индивидуальных данных в каждой группе (а не просто средних и размера образца), ибо для параметрических тестов нам понадобится оценка вариаций, а для ранг-теста - упорядочение элементов в порядке возрастания или убывания, чтобы им присвоить индивидуальный ранг. Далее выполняется соответствующий тест. Если нуль-гипотеза отвергается, то можно дополнительно провести тесты по парному сравнению. Таковыми являются тесты Тюка
(параметрический или непараметрический) и Ньюмана-Кеулса.
Вы согласны с вышеприведенной схемой? Какие еще тесты Вы предлагаете, которые не требовали бы индивидуальных данных?
User avatar
Dweller
Уже с Приветом
Posts: 12257
Joined: 20 Dec 2000 10:01
Location: Bellevue, WA

Re: как живется data scientistам нынче?

Post by Dweller »

Снежная Королева wrote:Ну вы не берете, другие берут :) pig/hive/Hadoop учится за месяц, это icing on the cake.
Это когда оно все работает, а что делать когда не работает? Нанимать к каждому data scientist по hadoop engineer?
Я считаю для hadoop/pig/hive нужно как минимум год повариться на реальных задачах которые не решаются python/R
Космос
Уже с Приветом
Posts: 340
Joined: 04 Jun 2008 03:26

Re: как живется data scientistам нынче?

Post by Космос »

Физик-Лирик wrote:.....
являются ли средние значения (например, зарплата) для каждой группы (т.е. специальности) статистически разными. Нуль-гипотеза - нет, зарплата не зависит от специальности, альтернативная - да, зарплата зависит от специальности. Мы хотим сравнивать все группы сразу.
Проверяем, является ли распределение в каждой группе нормальным. Если да (или близко), то выбираем анову (или т-тест, если только две группы); если нет, то выбираем непараметрический тест Крускала-Валлиса (в случае двух групп тест Вилкоксона-Мена-Витней). Последние тесты еще называются ранг-тестами. В любом случае все вышеупомянутые тесты требуют индивидуальных данных в каждой группе (а не просто средних и размера образца), ибо для параметрических тестов нам понадобится оценка вариаций, а для ранг-теста - упорядочение элементов в порядке возрастания или убывания, чтобы им присвоить индивидуальный ранг. Далее выполняется соответствующий тест. Если нуль-гипотеза отвергается, то можно дополнительно провести тесты по парному сравнению. Таковыми являются тесты Тюка
(параметрический или непараметрический) и Ньюмана-Кеулса.
Вы согласны с вышеприведенной схемой? Какие еще тесты Вы предлагаете, которые не требовали бы индивидуальных данных?
со схемой теперь согласен. Как я уже упонимал, скорее всего невозможно сделать выводы (от sample sizes большого толку нет, так как нет вариаций, сравнивать имеющиеся значения бессмыссленно даже с известным sample size, и дало бы p-value близкий к 100% и невозможность отвергнуть нуль гипотезу). Речь шла не только о выводах, а доказательствах невозможности сделать выводы.
Интересно - в работе data scientist часто приходится применять статистику или в основном технологии всякие Hadoop, Spark, SAS, R и т.п. SPSS Minitab еще живы? :-) Второй вопрос - в природе не часто встречаются нормальные данные, например большинство фининсовых данных right-skewed т.е. распределяются таким образом что большие значения реже и больше отличаютя от среднеарифметического чем малые значения
С какими данными в индустрии вы работаете?
Last edited by Космос on 14 Nov 2015 11:29, edited 2 times in total.
Космос
Уже с Приветом
Posts: 340
Joined: 04 Jun 2008 03:26

Re: как живется data scientistам нынче?

Post by Космос »

Снежная Королева wrote:Я не преподаю :) на производстве p-values мало применяются.
на каком производстве?
User avatar
Dweller
Уже с Приветом
Posts: 12257
Joined: 20 Dec 2000 10:01
Location: Bellevue, WA

Re: как живется data scientistам нынче?

Post by Dweller »

Снежная Королева wrote:Dweller, возможно, спорить не стану. Мой пойнт в том, что без hive/pig/Hadoop можно хотя бы начать работать data scientist и научиться на работе, а без знаний стат.моделирования на R или эквиваленте ( SAS, Python whatever) - нельзя. Стат моделированию на работе не учат.
С этим я соглашусь. Однако и программированию с нуля быстро не обучишься только со знанием статистики.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Dweller wrote:
Снежная Королева wrote:Dweller, возможно, спорить не стану. Мой пойнт в том, что без hive/pig/Hadoop можно хотя бы начать работать data scientist и научиться на работе, а без знаний стат.моделирования на R или эквиваленте ( SAS, Python whatever) - нельзя. Стат моделированию на работе не учат.
С этим я соглашусь. Однако и программированию с нуля быстро не обучишься только со знанием статистики.
На мой взгляд, разделение на ЕТЛщиков и "математиков" вполне распространено и оправдано. Начнем с того, что ЕТЛ требует определенной (высокой) квалификации, и далеко не всегда "математики" этого могут сделать (и сказать по правде, им это будет скучно). Далее,
ЕТЛщики, как правило, имеют весьма смутное представление о "математике". Обычная практика - это когда "математики" используют ЕТЛовские тулсы, чтобы подготовить данные, например, выбрать исходные данные для исследования. Так что "математики" должны знать основные тулсы (т.е. уметь гонять квериз, писать пиговские скрипты и т.п.). Безусловно, основной упор "математиков" - это аналитика. Это требует достаточно глубоких "фундаменальных" знаний и умения работать с софвеерными пакетами. Работать с пакетами в общем не так уж и
сложно. Основая проблема - надо все понимать с точки зрения "теории". Иначе весь анализ сведется лишь к прогонке скриптов, а это не есть правильно.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Космос wrote:со схемой теперь согласен. Как я уже упонимал, скорее всего невозможно сделать выводы (от sample sizes большого толку нет, так как нет вариаций, сравнивать имеющиеся значения бессмыссленно даже с известным sample size, и дало бы p-value близкий к 100% и невозможность отвергнуть нуль гипотезу). Речь шла не только о выводах, а доказательствах невозможности сделать выводы.
Интересно - в работе data scientist часто приходится применять статистику или в основном технологии всякие Hadoop, Spark, SAS, R и т.п. SPSS Minitab еще живы? :-) Второй вопрос - в природе не часто встречаются нормальные данные, например большинство фининсовых данных right-skewed т.е. распределяются таким образом что большие значения реже и больше отличаютя от среднеарифметического чем малые значения
С какими данными в индустрии вы работаете?

Возможно надо будет применить несколько тестов и сравнить результаты. Многие тесты достаточно надежны и при отклонении от нормальности.
По поводу работы и применения статистики ... зависит. Я вообще считаю, что статистика все-таки самостоятельна дисциплина. Конечно, ее можно рассматривать как часть дейта сайнс. В принципе маш. обучение основано на статистике (не полностью, конечно). Лучше ее знать и владеть практически.
User avatar
Kolbasoff
Уже с Приветом
Posts: 3481
Joined: 02 Jan 2005 22:10

Re: как живется data scientistам нынче?

Post by Kolbasoff »

А у дата сайентологов такая же потогонка как и у быдлокодеров? Тоже скрамы, спринты?
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Kolbasoff wrote:А у дата сайентологов такая же потогонка как и у быдлокодеров? Тоже скрамы, спринты?
Все зависит. Думаю кода существенно меньше. Все-таки главная цель - аналитика.
Как я уже упоминал, термин настолько размыт, что разные виды деятельности под него подпадают.
Если больше работать с "ЕТЛ" и в области хранения и обработки данных, то возможно кода больше.
Если работать с "математикой", то кода, думаю, поменьше будет, т.к. код будет лишь средством.
Здесь уже главное постановка задачи (как бизнес ставит задачи - разговор отдельный), дизайн
решения, само решение (+ ЕТЛ для данных), проверка и анализ результатов (вместе с бизнесом).
Часто, сам код особого "искусства" не представляет, т.к. будет работа с библиотеками. На мой
взгляд, основная задача "математика" - это постановка задачи и метод решения (с дизайном). Идеи,
короче. Собственно для этого и нужна теоретическая база. А писать код на "аре" или Питоне -
в общем-то не особо сложно.
KotKot
Уже с Приветом
Posts: 5401
Joined: 04 Feb 2009 05:05

Re: как живется data scientistам нынче?

Post by KotKot »

Kolbasoff wrote:А у дата сайентологов такая же потогонка как и у быдлокодеров? Тоже скрамы, спринты?
Имхо работу сайентолога/онолитега труднее структурировать, чем работу простого программиста. Слишком разные задачи, проекты, слишком сложно измерить объем произведенного и т д. Поэтому управление осуществляется без применения скрама, оджайла и прочих замечательных инноваций в сфере микроменеджмента. Исходя из моего опыта, просто есть группа специалистов, которой управляет один менеджер. Сверху этого менеджера старшие менеджеры и экзекьютивы. В разных местах существует разное соотношение управленцев и управляемых, но иногда бывает даже так, что один начальник приходится на менее, чем двух специалистов. Связано это отчасти с тем, что работа сложная, соотвественно, проверять и управлять такой работой тоже непросто. "Начальники" при этом тоже часто работают сами, а не только управляют.

Степень потогонки и уровень стресса в таких малоструктурированных условиях зависят по большей части от личностей непосредственного начальника и начальников на один-два уровня выше него. Если в цепочке попадется хоть один ублюдок, то пиши пропало. Если все хорошие, спокойные люди, то и на работу ходишь с радостью. Поскольку начальство в наше время часто меняется, то ограничить себя от ублюдков в корпоративной среде практически невозможно как бы ты тщательно ни выбирал работу: единственный способ - это увеличить свою привлекательность на рынке настолько, чтобы в случае чего быстренько спрыгнуть в другое место.
Из своей головы не эмигрируешь.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

В принципе согласен с таким описанием, хотя зависит, конечно, от конторы. В научных конторах и больших иерархия может быть более "продвинутой".
User avatar
shokoladnitsaa
Уже с Приветом
Posts: 7918
Joined: 08 Oct 2008 01:02
Location: usa

Re: как живется data scientistам нынче?

Post by shokoladnitsaa »

У меня тоже опыт вроде как у ДаблКота, но в хелзкер иншуренсe . И тоже подумываю на предмет изучения R , но безо всякого там машинного доения/глыбокой статистики и пр. математик. Даже после прочитанного :(

Прямо ч/з пару дней после моего прихода в компанию, сотрудница сбежала в ресёч. И вот ей пришлось учить R.На вопрос а-что-низзя -на -SAS,ответила, что не выходит. Все, с кем надо там контачить, знают R (наверное, всё на нём понаписано) , а SAS знать не хотят. Никто. А так он эвейлебл. В обшем , она учит и сокрушается чего раньше не подумала
User avatar
x.angie
Уже с Приветом
Posts: 189
Joined: 13 Mar 2006 19:01
Location: Earth -> Moon -> Mars

Re: как живется data scientistам нынче?

Post by x.angie »

Сабина wrote:Ну Databricks то всяко немальчик :), причем не намешал а именно использовал все по делу. Потому и привела пример что грамотный и работающий
Сабина, да я не спорю :fr:, всё правильно и по делу, Датабрикс не мальчики, это понятно.
Сабина wrote:Изучите вот этот проект от и до - https://github.com/killrweather/killrweather" onclick="window.open(this.href);return false;
К нему прилагается видео - если не пожалеете денег или контора оплатит - то вот оно http://shop.oreilly.com/product/0636920043652.do" onclick="window.open(this.href);return false;

После того как вы в вышеупомянутом стаке сможете все пользовать легко и просто - вас в SF или NY оторвут с руками и ногами :)
Что-то мне подсказывает что только этого проекта будет не достаточно :nono#:. Сейчас хожу по собеседованиям, спросите мне откуда я это знаю. 8)

Return to “Работа и Карьера в IT”