как живется data scientistам нынче?

Космос · Post by **Космос** » 13 Nov 2015 11:08

есть непараметрика и order statistics

Космос · Post by **Космос** » 13 Nov 2015 11:09

Снежная Королева wrote:Известны sample means and sample sizes. Если вы почитаете учебник, то для самого простого t-test еще требуется sample variance.

Вы какой предмет и в какой школе преподаете?

Физик-Лирик · Post by **Физик-Лирик** » 13 Nov 2015 14:20

Космос wrote: как же нет данных? А 25 значений и размер сэмплов известен это что разве не данные? Вариаций нет - согласен. Однако анова не единственный подход, есть еще непараметрика и order statistics. Возможно не достаточно данных чтобы дать такой p-value который бы опроверг или поддержал гипотезу, но это еще нужно доказать.
Вообщем вы быстро управились. Нет данных Походу хорошие условия труда в data science

Если Вы с чем-то не согласны, то пишите конкретно с чем. Так будет легче обсуждать.
Теперь по делу. Если мы хотим проводить тест, надо сперва определить, что сравнивается. В нашем случае - являются ли средние значения (например, зарплата) для каждой группы (т.е. специальности) статистически разными. Нуль-гипотеза - нет, зарплата не зависит от специальности, альтернативная - да, зарплата зависит от специальности. Мы хотим сравнивать все группы сразу.
Проверяем, является ли распределение в каждой группе нормальным. Если да (или близко), то выбираем анову (или т-тест, если только две группы); если нет, то выбираем непараметрический тест Крускала-Валлиса (в случае двух групп тест Вилкоксона-Мена-Витней). Последние тесты еще называются ранг-тестами. В любом случае все вышеупомянутые тесты требуют индивидуальных данных в каждой группе (а не просто средних и размера образца), ибо для параметрических тестов нам понадобится оценка вариаций, а для ранг-теста - упорядочение элементов в порядке возрастания или убывания, чтобы им присвоить индивидуальный ранг. Далее выполняется соответствующий тест. Если нуль-гипотеза отвергается, то можно дополнительно провести тесты по парному сравнению. Таковыми являются тесты Тюка
(параметрический или непараметрический) и Ньюмана-Кеулса.
Вы согласны с вышеприведенной схемой? Какие еще тесты Вы предлагаете, которые не требовали бы индивидуальных данных?

Dweller · Post by **Dweller** » 14 Nov 2015 01:54

Снежная Королева wrote:Ну вы не берете, другие берут pig/hive/Hadoop учится за месяц, это icing on the cake.

Это когда оно все работает, а что делать когда не работает? Нанимать к каждому data scientist по hadoop engineer?
Я считаю для hadoop/pig/hive нужно как минимум год повариться на реальных задачах которые не решаются python/R

Космос · Post by **Космос** » 14 Nov 2015 11:24

Физик-Лирик wrote:.....
являются ли средние значения (например, зарплата) для каждой группы (т.е. специальности) статистически разными. Нуль-гипотеза - нет, зарплата не зависит от специальности, альтернативная - да, зарплата зависит от специальности. Мы хотим сравнивать все группы сразу.
Проверяем, является ли распределение в каждой группе нормальным. Если да (или близко), то выбираем анову (или т-тест, если только две группы); если нет, то выбираем непараметрический тест Крускала-Валлиса (в случае двух групп тест Вилкоксона-Мена-Витней). Последние тесты еще называются ранг-тестами. В любом случае все вышеупомянутые тесты требуют индивидуальных данных в каждой группе (а не просто средних и размера образца), ибо для параметрических тестов нам понадобится оценка вариаций, а для ранг-теста - упорядочение элементов в порядке возрастания или убывания, чтобы им присвоить индивидуальный ранг. Далее выполняется соответствующий тест. Если нуль-гипотеза отвергается, то можно дополнительно провести тесты по парному сравнению. Таковыми являются тесты Тюка
(параметрический или непараметрический) и Ньюмана-Кеулса.
Вы согласны с вышеприведенной схемой? Какие еще тесты Вы предлагаете, которые не требовали бы индивидуальных данных?

со схемой теперь согласен. Как я уже упонимал, скорее всего невозможно сделать выводы (от sample sizes большого толку нет, так как нет вариаций, сравнивать имеющиеся значения бессмыссленно даже с известным sample size, и дало бы p-value близкий к 100% и невозможность отвергнуть нуль гипотезу). Речь шла не только о выводах, а доказательствах невозможности сделать выводы.
Интересно - в работе data scientist часто приходится применять статистику или в основном технологии всякие Hadoop, Spark, SAS, R и т.п. SPSS Minitab еще живы?

Второй вопрос - в природе не часто встречаются нормальные данные, например большинство фининсовых данных right-skewed т.е. распределяются таким образом что большие значения реже и больше отличаютя от среднеарифметического чем малые значения
С какими данными в индустрии вы работаете?

Космос · Post by **Космос** » 14 Nov 2015 11:25

Снежная Королева wrote:Я не преподаю на производстве p-values мало применяются.

на каком производстве?

Dweller · Post by **Dweller** » 14 Nov 2015 22:13

Снежная Королева wrote:Dweller, возможно, спорить не стану. Мой пойнт в том, что без hive/pig/Hadoop можно хотя бы начать работать data scientist и научиться на работе, а без знаний стат.моделирования на R или эквиваленте ( SAS, Python whatever) - нельзя. Стат моделированию на работе не учат.

С этим я соглашусь. Однако и программированию с нуля быстро не обучишься только со знанием статистики.

Физик-Лирик · Post by **Физик-Лирик** » 15 Nov 2015 02:04

Dweller wrote:
Снежная Королева wrote:Dweller, возможно, спорить не стану. Мой пойнт в том, что без hive/pig/Hadoop можно хотя бы начать работать data scientist и научиться на работе, а без знаний стат.моделирования на R или эквиваленте ( SAS, Python whatever) - нельзя. Стат моделированию на работе не учат.
С этим я соглашусь. Однако и программированию с нуля быстро не обучишься только со знанием статистики.

На мой взгляд, разделение на ЕТЛщиков и "математиков" вполне распространено и оправдано. Начнем с того, что ЕТЛ требует определенной (высокой) квалификации, и далеко не всегда "математики" этого могут сделать (и сказать по правде, им это будет скучно). Далее,
ЕТЛщики, как правило, имеют весьма смутное представление о "математике". Обычная практика - это когда "математики" используют ЕТЛовские тулсы, чтобы подготовить данные, например, выбрать исходные данные для исследования. Так что "математики" должны знать основные тулсы (т.е. уметь гонять квериз, писать пиговские скрипты и т.п.). Безусловно, основной упор "математиков" - это аналитика. Это требует достаточно глубоких "фундаменальных" знаний и умения работать с софвеерными пакетами. Работать с пакетами в общем не так уж и
сложно. Основая проблема - надо все понимать с точки зрения "теории". Иначе весь анализ сведется лишь к прогонке скриптов, а это не есть правильно.

Физик-Лирик · Post by **Физик-Лирик** » 15 Nov 2015 02:11

Космос wrote:со схемой теперь согласен. Как я уже упонимал, скорее всего невозможно сделать выводы (от sample sizes большого толку нет, так как нет вариаций, сравнивать имеющиеся значения бессмыссленно даже с известным sample size, и дало бы p-value близкий к 100% и невозможность отвергнуть нуль гипотезу). Речь шла не только о выводах, а доказательствах невозможности сделать выводы.
Интересно - в работе data scientist часто приходится применять статистику или в основном технологии всякие Hadoop, Spark, SAS, R и т.п. SPSS Minitab еще живы? Второй вопрос - в природе не часто встречаются нормальные данные, например большинство фининсовых данных right-skewed т.е. распределяются таким образом что большие значения реже и больше отличаютя от среднеарифметического чем малые значения
С какими данными в индустрии вы работаете?

Возможно надо будет применить несколько тестов и сравнить результаты. Многие тесты достаточно надежны и при отклонении от нормальности.
По поводу работы и применения статистики ... зависит. Я вообще считаю, что статистика все-таки самостоятельна дисциплина. Конечно, ее можно рассматривать как часть дейта сайнс. В принципе маш. обучение основано на статистике (не полностью, конечно). Лучше ее знать и владеть практически.

Kolbasoff · Post by **Kolbasoff** » 15 Nov 2015 15:38

А у дата сайентологов такая же потогонка как и у быдлокодеров? Тоже скрамы, спринты?

Физик-Лирик · Post by **Физик-Лирик** » 15 Nov 2015 19:02

Kolbasoff wrote:А у дата сайентологов такая же потогонка как и у быдлокодеров? Тоже скрамы, спринты?

Все зависит. Думаю кода существенно меньше. Все-таки главная цель - аналитика.
Как я уже упоминал, термин настолько размыт, что разные виды деятельности под него подпадают.
Если больше работать с "ЕТЛ" и в области хранения и обработки данных, то возможно кода больше.
Если работать с "математикой", то кода, думаю, поменьше будет, т.к. код будет лишь средством.
Здесь уже главное постановка задачи (как бизнес ставит задачи - разговор отдельный), дизайн
решения, само решение (+ ЕТЛ для данных), проверка и анализ результатов (вместе с бизнесом).
Часто, сам код особого "искусства" не представляет, т.к. будет работа с библиотеками. На мой
взгляд, основная задача "математика" - это постановка задачи и метод решения (с дизайном). Идеи,
короче. Собственно для этого и нужна теоретическая база. А писать код на "аре" или Питоне -
в общем-то не особо сложно.

KotKot · Post by **KotKot** » 15 Nov 2015 21:26

Kolbasoff wrote:А у дата сайентологов такая же потогонка как и у быдлокодеров? Тоже скрамы, спринты?

Имхо работу сайентолога/онолитега труднее структурировать, чем работу простого программиста. Слишком разные задачи, проекты, слишком сложно измерить объем произведенного и т д. Поэтому управление осуществляется без применения скрама, оджайла и прочих замечательных инноваций в сфере микроменеджмента. Исходя из моего опыта, просто есть группа специалистов, которой управляет один менеджер. Сверху этого менеджера старшие менеджеры и экзекьютивы. В разных местах существует разное соотношение управленцев и управляемых, но иногда бывает даже так, что один начальник приходится на менее, чем двух специалистов. Связано это отчасти с тем, что работа сложная, соотвественно, проверять и управлять такой работой тоже непросто. "Начальники" при этом тоже часто работают сами, а не только управляют.

Степень потогонки и уровень стресса в таких малоструктурированных условиях зависят по большей части от личностей непосредственного начальника и начальников на один-два уровня выше него. Если в цепочке попадется хоть один ублюдок, то пиши пропало. Если все хорошие, спокойные люди, то и на работу ходишь с радостью. Поскольку начальство в наше время часто меняется, то ограничить себя от ублюдков в корпоративной среде практически невозможно как бы ты тщательно ни выбирал работу: единственный способ - это увеличить свою привлекательность на рынке настолько, чтобы в случае чего быстренько спрыгнуть в другое место.

Физик-Лирик · Post by **Физик-Лирик** » 16 Nov 2015 17:10

В принципе согласен с таким описанием, хотя зависит, конечно, от конторы. В научных конторах и больших иерархия может быть более "продвинутой".

shokoladnitsaa · Post by **shokoladnitsaa** » 17 Nov 2015 02:06

У меня тоже опыт вроде как у ДаблКота, но в хелзкер иншуренсe . И тоже подумываю на предмет изучения R , но безо всякого там машинного доения/глыбокой статистики и пр. математик. Даже после прочитанного

Прямо ч/з пару дней после моего прихода в компанию, сотрудница сбежала в ресёч. И вот ей пришлось учить R.На вопрос а-что-низзя -на -SAS,ответила, что не выходит. Все, с кем надо там контачить, знают R (наверное, всё на нём понаписано) , а SAS знать не хотят. Никто. А так он эвейлебл. В обшем , она учит и сокрушается чего раньше не подумала

x.angie · Post by **x.angie** » 17 Nov 2015 07:34

Сабина wrote:Ну Databricks то всяко немальчик , причем не намешал а именно использовал все по делу. Потому и привела пример что грамотный и работающий

Сабина, да я не спорю

, всё правильно и по делу, Датабрикс не мальчики, это понятно.

Сабина wrote:Изучите вот этот проект от и до - https://github.com/killrweather/killrweather" onclick="window.open(this.href);return false;
К нему прилагается видео - если не пожалеете денег или контора оплатит - то вот оно http://shop.oreilly.com/product/0636920043652.do" onclick="window.open(this.href);return false;

После того как вы в вышеупомянутом стаке сможете все пользовать легко и просто - вас в SF или NY оторвут с руками и ногами

Что-то мне подсказывает что только этого проекта будет не достаточно

. Сейчас хожу по собеседованиям, спросите мне откуда я это знаю.

Привет

как живется data scientistам нынче?

Re: как живется data scientistам нынче?

Re: как живется data scientistам нынче?

Re: как живется data scientistам нынче?

Re: как живется data scientistам нынче?

Re: как живется data scientistам нынче?

Re: как живется data scientistам нынче?

Re: как живется data scientistам нынче?

Re: как живется data scientistам нынче?

Re: как живется data scientistам нынче?

Re: как живется data scientistам нынче?

Re: как живется data scientistам нынче?

Re: как живется data scientistам нынче?

Re: как живется data scientistам нынче?

Re: как живется data scientistам нынче?

Re: как живется data scientistам нынче?