KotKot wrote:
1 и 2) Согласен, спасибо
3) Изучал Hadoop, Pig and Hive. На практике почти не использовал, но общее представление имею и при необходимости могу быстро повторить, все материалы имеются и даже доступ к данным и tools. Считаете, что лучше на это налечь сперва, чем на R?
4 и 5 и 6) В разное время я изучал hypothesis testing - t-test, anova & chi-square время от времени даже применял на практике. Кроме этого, изучал матрицы, основы вероятности и мат статистику, регрессионный анализ (mostly linear regression), а также оптимизацию (linear programming). В настоящее время то, что осталось в голове - смесь знаний и терминов на русском и английском, так что все это привести в порядок, конечно, легче, чем начинать с нуля, но это задача не на пару месяцев, конечно.
Наконец, уточнение что касается цели. Начнем того, что бесплатно я бы не стал этим заниматься, как и вообще любой работой. То есть, цель в данном случае не выучить что-то ради личного интереса, а максимизировать свой leverage на рынке труда, чтобы потом уже его использовать как захочется: повысить зарплату, не работать на _удаков, минимизировать стресс, работать удаленно и т д по желанию. СтОит ли, исходя из этой цели и имеющихся ресурсов, сильно углубляться в математические/cтатистические дебри? Я не уверен. Если есть ниша, допустим, в области data preparation/quality, business analytics, compliance, etc, где можно добиться указанного выше, то я бы не углублялся в machine learning/heavy math/statistics. Однако, как я уже указал выше, в наше время многие 23-летние индусы и китайцы могут сделать то же самое, готовы работать в 2 раза больше и за меньшие деньги, так что приходится двигаться вперед.
Изучите вот этот проект от и до -
https://github.com/killrweather/killrweather" onclick="window.open(this.href);return false;
К нему прилагается видео - если не пожалеете денег или контора оплатит - то вот оно
http://shop.oreilly.com/product/0636920043652.do" onclick="window.open(this.href);return false;
После того как вы в вышеупомянутом стаке сможете все пользовать легко и просто - вас в SF или NY оторвут с руками и ногами
Data scientist - это напускное, нету на них еще столько спроса, сколько создано ажиотажа вокруг терминов big data , data scientist etc
В реальной жизни люди с деньгами еще только строят настоящие event driven systems, big data, real time event processing etc.
Туда надо рваться - в building the infrastructure, а не в R programming, где по моему уже желающих больше чем спроса
![Mr. Green :mrgreen:](./images/smilies/icon_mrgreen.gif)