как живется data scientistам нынче?

Космос
Уже с Приветом
Posts: 340
Joined: 04 Jun 2008 03:26

Re: как живется data scientistам нынче?

Post by Космос »

Снежная Королева wrote:Я на идиотов начальников принципиально не работаю. Пока не выясню все credentials команды, на интервью вообще не иду. У всей команды должны быть masters in hard science как минимум, у начальника - PhD in hard science, и он должен быть белый австралиец. Только так будет покой, rational decision making и отсутствие мозгоклюйства. У нас даже у начальника моего начальника undergrad in maths, хоть он и не помнит ничего уже за 20 лет в бизнесе, но аналитиков уважает :) а если я вижу business/economics/MBA/engineering обычно ничего хорошего от такой работы.
каким способом выясняете все credentials команды и прогнозируете их rational decision making? Linkedin?
мне кажется новое место это всегда в той или иной мере кот в мешке
User avatar
Komissar
Уже с Приветом
Posts: 64875
Joined: 12 Jul 2002 16:38
Location: г.Москва, ул. Б. Лубянка, д.2

Re: как живется data scientistам нынче?

Post by Komissar »

Космос wrote:[новое место это всегда в той или иной мере кот в мешке
и не просто кот, а КотКот в мешке. 8)
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

KotKot wrote: Вопросы
-Если есть общий Data Science/Data Analysis background, сколько времени нужно учить R, чтобы на интервью можно было сказать "я знаю R" и в случае чего ответить на базовые вопросы?
-Какие еще посоветоуете источники по изучению сего продукта?
-Что еще можно выучить, чтобы максимально повысить свою привлекательность на рынке за достаточно короткий срок (скажем, несколько месяцев максимум)?
1) Несколько часов, чтобы начать программировать. Пару дней, чтобы познакомится с основными объектами.
На интервью скажите, что это объектно-ориентированный язык (в смысле, что все "переменные" там - объекты),
и все поймут, что все нормально. Несколько недель / месяцев активного программирование, чтобы овладеть
разными "приколами" и "штучками". Здесь недавно уже тема обсуждалась. Сам язык выучит несложно. Главное -
аппликации.
2) Взять какой-нибудь онлайновский тюториал. Можете книжку купить. Посмотрите, какие сейчас рекомендуют.
Я в свое время начал с книжки (названия не помню), потом онлайн. Процесс быстро идет.
3) Какова конкретная цель? Ответ будет зависеть от этого. Напишите конкретно чем планируете заниматься.
Я недавно в одной из тем описывал некий набор. С удовольствием повторю, если не найдете. Но зависит от целей.
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Снежная Королева wrote:Мы недавно писали, что нужно для R. Напишите, что вы делаете в SAS, я напишу, что нужно для R.

Но вообще я заметила, что это очень непросто ментально поменять язык. Сама несколько раз пыталась перейти на питон. Вроде все понятно, чужой код читаю, игрушечные проекты делаю, а как доходит до рабочего проекта, то бросаю и перехожу в R.
У меня тоже самое. Это потому, что языки "похожи" (для анализа, естественно; так они не похожи). В результате нет изюминки, и соответственно возникает вопрос, зачем писать на другом языке, если все можно делать на привычном, тем более, что синтакс близок, но не полностью. Раздражение одно, и создается впечатление полного геммора. :pain1: Другое дело, если нет выбора. А когда он есть, тогда все делается на "родном" языке. Лучше учить, когда есть изюминка. Я, например, пришел в восторг, когда попробовал Скалу на Спарке. Этакий возбуждающий эффект. :lol:
KotKot
Уже с Приветом
Posts: 5401
Joined: 04 Feb 2009 05:05

Re: как живется data scientistам нынче?

Post by KotKot »

Физик-Лирик wrote:
KotKot wrote: Вопросы
-Если есть общий Data Science/Data Analysis background, сколько времени нужно учить R, чтобы на интервью можно было сказать "я знаю R" и в случае чего ответить на базовые вопросы?
-Какие еще посоветоуете источники по изучению сего продукта?
-Что еще можно выучить, чтобы максимально повысить свою привлекательность на рынке за достаточно короткий срок (скажем, несколько месяцев максимум)?
1) Несколько часов, чтобы начать программировать. Пару дней, чтобы познакомится с основными объектами.
На интервью скажите, что это объектно-ориентированный язык (в смысле, что все "переменные" там - объекты),
и все поймут, что все нормально. Несколько недель / месяцев активного программирование, чтобы овладеть
разными "приколами" и "штучками". Здесь недавно уже тема обсуждалась. Сам язык выучит несложно. Главное -
аппликации.
2) Взять какой-нибудь онлайновский тюториал. Можете книжку купить. Посмотрите, какие сейчас рекомендуют.
Я в свое время начал с книжки (названия не помню), потом онлайн. Процесс быстро идет.
3) Какова конкретная цель? Ответ будет зависеть от этого. Напишите конкретно чем планируете заниматься.
Я недавно в одной из тем описывал некий набор. С удовольствием повторю, если не найдете. Но зависит от целей.
1) Я так и понял, что много времени не понадобится для того, чтобы понять самые основы.
2) Одну книжку я уже нашел, причем она бесплатная и прилагается к курсу на Coursera, ссылку на который я давал выше https://www.cs.upc.edu/~robert/teaching ... amming.pdf" onclick="window.open(this.href);return false;
3) Cначала опишу свой skill set в общем. Background in Business/Economics, то есть не программист, хотя знаю SAS и SQL. Немного знаю Big Data tools (проходил курсы, есть материалы, но на практике почти не использовал).
Также есть знания по статистике, хотя и нет формального статистического образования - sampling, descriptive stats, distributions, statistical tests, correlation, regression analysis including logistic regression. SAS в основном использую для достаточно простого с технической точки зрения анализа, включающего простые арифметические действия и иногда выше указанные статистические методы. SQL использую для data pulls.
Цель - повысить свою стоимость и востребованность на рынке как Data Scientist (или Data Analyst, если угодно).
Как видно из описания, нынешний skill set во-первых заточен под большие компании, во-вторых, то же самое может быть сделано толковым индусом, то есть такого специалиста легко заменить или аутсорсить. Хочется приобрести skills, которые, во-первых, помогут выделиться и заработать больше в традиционных крупных компаниях, во-вторых, дадут возможность искать работу в менее традиционных местах - стартапах, fintech companies, consulting/analytics shops, etc.
Из своей головы не эмигрируешь.
KotKot
Уже с Приветом
Posts: 5401
Joined: 04 Feb 2009 05:05

Re: как живется data scientistам нынче?

Post by KotKot »

Снежная Королева wrote:Мы недавно писали, что нужно для R. Напишите, что вы делаете в SAS, я напишу, что нужно для R.

Но вообще я заметила, что это очень непросто ментально поменять язык. Сама несколько раз пыталась перейти на питон. Вроде все понятно, чужой код читаю, игрушечные проекты делаю, а как доходит до рабочего проекта, то бросаю и перехожу в R.
Я написал что делаю в общем виде выше в ответе Физику-Лирику. Конкретно в SAS в основном использую
-Data steps - formatting, merging, etc
-Proc SQL
-Proc means, summary, freq, etc for reporting. Графики чаще всего рисую в экселе на основе получающихся таблиц.
-Macros and macro variables, arrays - иногда
-Proc univariate, corr и др. стат анализ - иногда
-Proc reg, proc logistic - реже
Из своей головы не эмигрируешь.
KotKot
Уже с Приветом
Posts: 5401
Joined: 04 Feb 2009 05:05

Re: как живется data scientistам нынче?

Post by KotKot »

Снежная Королева wrote:Вам надо не R учить, а математику и machine learning (predictive modelling). Язык сам не важен, важно то, что вы умеете на нем делать. Все, что делает R, можно сделать и в SAS, если есть библиотеки (т.е их не надо покупать).

Простой вопрос: как у вас с линейной алгеброй и калькулюсом?
И то, и другое изучал в школе и университете и получал очень хорошие оценки, но в работе практически не использую, поэтому многое подзабылось.
Из своей головы не эмигрируешь.
KotKot
Уже с Приветом
Posts: 5401
Joined: 04 Feb 2009 05:05

Re: как живется data scientistам нынче?

Post by KotKot »

Идея выучить R возникла в связи с тем, что сейчас не такой уж большой спрос на специалистов, которые знают SAS, а все больше R/Java/Python/Big Data требуются либо вместе с SAS/SQL, либо даже без упоминания SAS
Из своей головы не эмигрируешь.
notknown
Уже с Приветом
Posts: 17496
Joined: 25 Jan 2005 00:59

Re: как живется data scientistам нынче?

Post by notknown »

Снежная Королева wrote:Вам надо не R учить, а математику и machine learning (predictive modelling). Язык сам не важен, важно то, что вы умеете на нем делать. Все, что делает R, можно сделать и в SAS, если есть библиотеки (т.е их не надо покупать).

Простой вопрос: как у вас с линейной алгеброй и калькулюсом?
Вот :umnik1: мне тоже самое - именно надо переучиваться/доучиваться математике. Саму R выучить ерунда и мне R очень нравится, а на Hadley Wickamskie мозги я вобще по-моему crash развила (первый раз в жизни такое со мной :oops: ). Но! без математики далеко не уедешь - я бы в жизни не приняла никого на работу как Дата аналитик без знания математики. А вот где бы время найти. :cry:

Кстати, вопрос, если я потихоньку просто буду подтягиваться в статистике - ето же без хорошего знания калькулуса и линейной алгебры хватит? Я конечно много что изучала в прошлой жизни, но ето было давно и неправда.

Не помню - здесь писали про kaggle.com ? Хорошее место проверить готов ли кто искать работу как дата аналитик.
notknown
Уже с Приветом
Posts: 17496
Joined: 25 Jan 2005 00:59

Re: как живется data scientistам нынче?

Post by notknown »

KotKot wrote:Идея выучить R возникла в связи с тем, что сейчас не такой уж большой спрос на специалистов, которые знают SAS, а все больше R/Java/Python/Big Data требуются либо вместе с SAS/SQL, либо даже без упоминания SAS
Загуглите - я где-то видела докумнет/книга специально для тех кому надо переучиваться на R с SAS. Я-биолог. Наш теперешний начальник тоже, но с математикой и тоже выученный на SAS. Не хочет переучиваться на R почему-то. С другой стороны моя дитя, которая математике на Matlab обученная, когда надо была на R график сделать - села и сделала. Мне почему-то кажется что с SAS особо трудно переучиваться, но я SAS совсем не знаю, так наблюдения.
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

KotKot wrote: Я написал что делаю в общем виде выше в ответе Физику-Лирику. Конкретно в SAS в основном использую
-Data steps - formatting, merging, etc
-Proc SQL
-Proc means, summary, freq, etc for reporting. Графики чаще всего рисую в экселе на основе получающихся таблиц.
-Macros and macro variables, arrays - иногда
-Proc univariate, corr и др. стат анализ - иногда
-Proc reg, proc logistic - реже
1) Язык, на котором Вы работаете сейчас, достаточно востребован. Даже у меня у самого есть сертификат
(сдал когда-то для интереса). В резюме хорошо выглядит. Делеко не все конторы работаю с опен соурсем.
Так что не следут Вашим ценным навыком пренебрегать. Очень пригодится.
2) У Вас классический набор бизнес-аналитика и это тоже ценно. С дескриптив статистикой далеко не уйдешь,
но ценится.
3) Какие биг дейта тулс знаете? Рекомендую Хадуп, Спарк (становится популярным), Пиг и Хайв. Т.к. сиквел
Вы знаете с Хавом проблем не будет. Пиг - достаточно несожный и приятный. Я бы рекомендовал с них и начать,
но придется Хадуп установить.
4) Далее, надо решить, будите ли двигаться в маш. обучение и статистику. Если да, то надо посмотреть
книжки. Я предпочитаю с оранжевыми обложками (люблю это издательство), но там много формул. Может имеет
смысл начать с вводных книг. Наверное, имеет смысл купить книги по маш. обучению на R (таких несколько,
легко найдете). Тогда сразу достигните двух целей.
5) Имеет смысл продолжить изучение инференциальной статистики. Это точечные оценки, интервальные оценки
и гипотезы. Для этого рекомендую книги по биостатистике (не смущайтесь названием, просто в них содержится
описание тестов типа т-теста, ановы, кай-скуаре, проерки гипотез, пи-валью и т.п.). Собственно маш. обучение
- это тоже инферециальная статистика (+ оптимизация).
6) Чтобы научиться вызывать правильные языковые функции (например, регрессию) для анализа потребуется
несколько недель/ месяцев. Зависит, сколько "функций" хотите освоить. Чтобы основательно выучить статистику
с маш. обучением - по крайней мере годик, а то и два. Практически все маш. обучение основано на решении
оптимизационных задач (с ограничениями) да еще с регуляризационным параметром, так что надо будет оптимизацию
повторять.
7) Нужна ли она вся эта "математика" - наверное нет. Большинство понятия не имеет. Лично много раз убеждался.
Не исключено, что достаточно освоить "функции" из языка и понимать, что они делают.
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

notknown wrote:
Кстати, вопрос, если я потихоньку просто буду подтягиваться в статистике - ето же без хорошего знания калькулуса и линейной алгебры хватит? Я конечно много что изучала в прошлой жизни, но ето было давно и неправда.
Для дескриптив статистики - калкулус и алгебра не нужны, для инференционной - нужны.
Но скорее всего Вы этим напрямую заниматься не будете (например, лаклихуд максимизировать).
Скорее всего будите вызывать готовые функции.
KotKot
Уже с Приветом
Posts: 5401
Joined: 04 Feb 2009 05:05

Re: как живется data scientistам нынче?

Post by KotKot »

Снежная Королева wrote:
Отличный курс (free) c приложением очень хорошей (free) книжки есть у станфорда, statistical machine learning называется. Это начальный уровень, он сильно упрощен, но качество очень хорошее. Опять же, без линейной алгебры, калькулюса и теории оптимизации там делать нечего.
Этот курс? https://www.coursera.org/learn/machine-learning" onclick="window.open(this.href);return false;

Который Andrew Ng?
Из своей головы не эмигрируешь.
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Снежная Королева wrote:Физик, это вам так кажется, что вам не нужна математика, а достаточно освоить функции. Потому что вы математику в голове делаете. А если вас разбудить в два часа утра и спросить разницу между lasso и ridge regression, вы круг и diamond тут же нарисуете. Это стандартный вопрос на data science interview. Которое KotKot не пройдет, если будут спрашивать технические вопросы.
Да, на такой вопрос я бы небрежно кинул несколько фраз про L1 и L2 оптимизаци и развил теорию Тихоновской регуляризации. Далее я бы сказал, про обнуление коэффициентов. Потом, что никогда бы не стал применять линейную регрессию, а применил бы рендом форест
или бустинг (GBM). Ну а если серьезно, то мне таких вопросов не задавали, и я сильно сомневаюсь, что нашим коллегам, которым мы здесь даем рекомендации, зададут. По крайней мере, если это будут бизнес позиции. Я тут недавно разговаривал с человеком, который дейта сантист. Кстати нормальный спец. Ну и что, после моих фраз о нахождении собственных векторов корреляционной матрицы для определения принципиальных компонент, человек как-то спекся. Не будут ничего задавать, если только не научная контора или
группа. Скорее будут спрашивать, как решать бизнес задачи.
KotKot
Уже с Приветом
Posts: 5401
Joined: 04 Feb 2009 05:05

Re: как живется data scientistам нынче?

Post by KotKot »

Физик-Лирик wrote:
KotKot wrote: Я написал что делаю в общем виде выше в ответе Физику-Лирику. Конкретно в SAS в основном использую
-Data steps - formatting, merging, etc
-Proc SQL
-Proc means, summary, freq, etc for reporting. Графики чаще всего рисую в экселе на основе получающихся таблиц.
-Macros and macro variables, arrays - иногда
-Proc univariate, corr и др. стат анализ - иногда
-Proc reg, proc logistic - реже
1) Язык, на котором Вы работаете сейчас, достаточно востребован. Даже у меня у самого есть сертификат
(сдал когда-то для интереса). В резюме хорошо выглядит. Делеко не все конторы работаю с опен соурсем.
Так что не следут Вашим ценным навыком пренебрегать. Очень пригодится.
2) У Вас классический набор бизнес-аналитика и это тоже ценно. С дескриптив статистикой далеко не уйдешь,
но ценится.
3) Какие биг дейта тулс знаете? Рекомендую Хадуп, Спарк (становится популярным), Пиг и Хайв. Т.к. сиквел
Вы знаете с Хавом проблем не будет. Пиг - достаточно несожный и приятный. Я бы рекомендовал с них и начать,
но придется Хадуп установить.
4) Далее, надо решить, будите ли двигаться в маш. обучение и статистику. Если да, то надо посмотреть
книжки. Я предпочитаю с оранжевыми обложками (люблю это издательство), но там много формул. Может имеет
смысл начать с вводных книг. Наверное, имеет смысл купить книги по маш. обучению на R (таких несколько,
легко найдете). Тогда сразу достигните двух целей.
5) Имеет смысл продолжить изучение инференциальной статистики. Это точечные оценки, интервальные оценки
и гипотезы. Для этого рекомендую книги по биостатистике (не смущайтесь названием, просто в них содержится
описание тестов типа т-теста, ановы, кай-скуаре, проерки гипотез, пи-валью и т.п.). Собственно маш. обучение
- это тоже инферециальная статистика (+ оптимизация).
6) Чтобы научиться вызывать правильные языковые функции (например, регрессию) для анализа потребуется
несколько недель/ месяцев. Зависит, сколько "функций" хотите освоить. Чтобы основательно выучить статистику
с маш. обучением - по крайней мере годик, а то и два. Практически все маш. обучение основано на решении
оптимизационных задач (с ограничениями) да еще с регуляризационным параметром, так что надо будет оптимизацию
повторять.
7) Нужна ли она вся эта "математика" - наверное нет. Большинство понятия не имеет. Лично много раз убеждался.
Не исключено, что достаточно освоить "функции" из языка и понимать, что они делают.
1 и 2) Согласен, спасибо
3) Изучал Hadoop, Pig and Hive. На практике почти не использовал, но общее представление имею и при необходимости могу быстро повторить, все материалы имеются и даже доступ к данным и tools. Считаете, что лучше на это налечь сперва, чем на R?
4 и 5 и 6) В разное время я изучал hypothesis testing - t-test, anova & chi-square время от времени даже применял на практике. Кроме этого, изучал матрицы, основы вероятности и мат статистику, регрессионный анализ (mostly linear regression), а также оптимизацию (linear programming). В настоящее время то, что осталось в голове - смесь знаний и терминов на русском и английском, так что все это привести в порядок, конечно, легче, чем начинать с нуля, но это задача не на пару месяцев, конечно.

Наконец, уточнение что касается цели. Начнем того, что бесплатно я бы не стал этим заниматься, как и вообще любой работой. То есть, цель в данном случае не выучить что-то ради личного интереса, а максимизировать свой leverage на рынке труда, чтобы потом уже его использовать как захочется: повысить зарплату, не работать на _удаков, минимизировать стресс, работать удаленно и т д по желанию. СтОит ли, исходя из этой цели и имеющихся ресурсов, сильно углубляться в математические/cтатистические дебри? Я не уверен. Если есть ниша, допустим, в области data preparation/quality, business analytics, compliance, etc, где можно добиться указанного выше, то я бы не углублялся в machine learning/heavy math/statistics. Однако, как я уже указал выше, в наше время многие 23-летние индусы и китайцы могут сделать то же самое, готовы работать в 2 раза больше и за меньшие деньги, так что приходится двигаться вперед.
Из своей головы не эмигрируешь.

Return to “Работа и Карьера в IT”