как живется data scientistам нынче?
-
- Уже с Приветом
- Posts: 340
- Joined: 04 Jun 2008 03:26
-
- Уже с Приветом
- Posts: 340
- Joined: 04 Jun 2008 03:26
Re: как живется data scientistам нынче?
Вы какой предмет и в какой школе преподаете?Снежная Королева wrote:Известны sample means and sample sizes. Если вы почитаете учебник, то для самого простого t-test еще требуется sample variance.
-
- Уже с Приветом
- Posts: 5106
- Joined: 19 Oct 2004 01:46
Re: как живется data scientistам нынче?
Если Вы с чем-то не согласны, то пишите конкретно с чем. Так будет легче обсуждать.Космос wrote: как же нет данных? А 25 значений и размер сэмплов известен это что разве не данные? Вариаций нет - согласен. Однако анова не единственный подход, есть еще непараметрика и order statistics. Возможно не достаточно данных чтобы дать такой p-value который бы опроверг или поддержал гипотезу, но это еще нужно доказать.
Вообщем вы быстро управились. Нет данныхПоходу хорошие условия труда в data science
Теперь по делу. Если мы хотим проводить тест, надо сперва определить, что сравнивается. В нашем случае - являются ли средние значения (например, зарплата) для каждой группы (т.е. специальности) статистически разными. Нуль-гипотеза - нет, зарплата не зависит от специальности, альтернативная - да, зарплата зависит от специальности. Мы хотим сравнивать все группы сразу.
Проверяем, является ли распределение в каждой группе нормальным. Если да (или близко), то выбираем анову (или т-тест, если только две группы); если нет, то выбираем непараметрический тест Крускала-Валлиса (в случае двух групп тест Вилкоксона-Мена-Витней). Последние тесты еще называются ранг-тестами. В любом случае все вышеупомянутые тесты требуют индивидуальных данных в каждой группе (а не просто средних и размера образца), ибо для параметрических тестов нам понадобится оценка вариаций, а для ранг-теста - упорядочение элементов в порядке возрастания или убывания, чтобы им присвоить индивидуальный ранг. Далее выполняется соответствующий тест. Если нуль-гипотеза отвергается, то можно дополнительно провести тесты по парному сравнению. Таковыми являются тесты Тюка
(параметрический или непараметрический) и Ньюмана-Кеулса.
Вы согласны с вышеприведенной схемой? Какие еще тесты Вы предлагаете, которые не требовали бы индивидуальных данных?
-
- Уже с Приветом
- Posts: 12262
- Joined: 20 Dec 2000 10:01
- Location: Bellevue, WA
Re: как живется data scientistам нынче?
Это когда оно все работает, а что делать когда не работает? Нанимать к каждому data scientist по hadoop engineer?Снежная Королева wrote:Ну вы не берете, другие берутpig/hive/Hadoop учится за месяц, это icing on the cake.
Я считаю для hadoop/pig/hive нужно как минимум год повариться на реальных задачах которые не решаются python/R
-
- Уже с Приветом
- Posts: 340
- Joined: 04 Jun 2008 03:26
Re: как живется data scientistам нынче?
со схемой теперь согласен. Как я уже упонимал, скорее всего невозможно сделать выводы (от sample sizes большого толку нет, так как нет вариаций, сравнивать имеющиеся значения бессмыссленно даже с известным sample size, и дало бы p-value близкий к 100% и невозможность отвергнуть нуль гипотезу). Речь шла не только о выводах, а доказательствах невозможности сделать выводы.Физик-Лирик wrote:.....
являются ли средние значения (например, зарплата) для каждой группы (т.е. специальности) статистически разными. Нуль-гипотеза - нет, зарплата не зависит от специальности, альтернативная - да, зарплата зависит от специальности. Мы хотим сравнивать все группы сразу.
Проверяем, является ли распределение в каждой группе нормальным. Если да (или близко), то выбираем анову (или т-тест, если только две группы); если нет, то выбираем непараметрический тест Крускала-Валлиса (в случае двух групп тест Вилкоксона-Мена-Витней). Последние тесты еще называются ранг-тестами. В любом случае все вышеупомянутые тесты требуют индивидуальных данных в каждой группе (а не просто средних и размера образца), ибо для параметрических тестов нам понадобится оценка вариаций, а для ранг-теста - упорядочение элементов в порядке возрастания или убывания, чтобы им присвоить индивидуальный ранг. Далее выполняется соответствующий тест. Если нуль-гипотеза отвергается, то можно дополнительно провести тесты по парному сравнению. Таковыми являются тесты Тюка
(параметрический или непараметрический) и Ньюмана-Кеулса.
Вы согласны с вышеприведенной схемой? Какие еще тесты Вы предлагаете, которые не требовали бы индивидуальных данных?
Интересно - в работе data scientist часто приходится применять статистику или в основном технологии всякие Hadoop, Spark, SAS, R и т.п. SPSS Minitab еще живы?
![Smile :-)](./images/smilies/smile.gif)
С какими данными в индустрии вы работаете?
Last edited by Космос on 14 Nov 2015 11:29, edited 2 times in total.
-
- Уже с Приветом
- Posts: 340
- Joined: 04 Jun 2008 03:26
Re: как живется data scientistам нынче?
на каком производстве?Снежная Королева wrote:Я не преподаюна производстве p-values мало применяются.
-
- Уже с Приветом
- Posts: 12262
- Joined: 20 Dec 2000 10:01
- Location: Bellevue, WA
Re: как живется data scientistам нынче?
С этим я соглашусь. Однако и программированию с нуля быстро не обучишься только со знанием статистики.Снежная Королева wrote:Dweller, возможно, спорить не стану. Мой пойнт в том, что без hive/pig/Hadoop можно хотя бы начать работать data scientist и научиться на работе, а без знаний стат.моделирования на R или эквиваленте ( SAS, Python whatever) - нельзя. Стат моделированию на работе не учат.
-
- Уже с Приветом
- Posts: 5106
- Joined: 19 Oct 2004 01:46
Re: как живется data scientistам нынче?
На мой взгляд, разделение на ЕТЛщиков и "математиков" вполне распространено и оправдано. Начнем с того, что ЕТЛ требует определенной (высокой) квалификации, и далеко не всегда "математики" этого могут сделать (и сказать по правде, им это будет скучно). Далее,Dweller wrote:С этим я соглашусь. Однако и программированию с нуля быстро не обучишься только со знанием статистики.Снежная Королева wrote:Dweller, возможно, спорить не стану. Мой пойнт в том, что без hive/pig/Hadoop можно хотя бы начать работать data scientist и научиться на работе, а без знаний стат.моделирования на R или эквиваленте ( SAS, Python whatever) - нельзя. Стат моделированию на работе не учат.
ЕТЛщики, как правило, имеют весьма смутное представление о "математике". Обычная практика - это когда "математики" используют ЕТЛовские тулсы, чтобы подготовить данные, например, выбрать исходные данные для исследования. Так что "математики" должны знать основные тулсы (т.е. уметь гонять квериз, писать пиговские скрипты и т.п.). Безусловно, основной упор "математиков" - это аналитика. Это требует достаточно глубоких "фундаменальных" знаний и умения работать с софвеерными пакетами. Работать с пакетами в общем не так уж и
сложно. Основая проблема - надо все понимать с точки зрения "теории". Иначе весь анализ сведется лишь к прогонке скриптов, а это не есть правильно.
-
- Уже с Приветом
- Posts: 5106
- Joined: 19 Oct 2004 01:46
Re: как живется data scientistам нынче?
Космос wrote:со схемой теперь согласен. Как я уже упонимал, скорее всего невозможно сделать выводы (от sample sizes большого толку нет, так как нет вариаций, сравнивать имеющиеся значения бессмыссленно даже с известным sample size, и дало бы p-value близкий к 100% и невозможность отвергнуть нуль гипотезу). Речь шла не только о выводах, а доказательствах невозможности сделать выводы.
Интересно - в работе data scientist часто приходится применять статистику или в основном технологии всякие Hadoop, Spark, SAS, R и т.п. SPSS Minitab еще живы?Второй вопрос - в природе не часто встречаются нормальные данные, например большинство фининсовых данных right-skewed т.е. распределяются таким образом что большие значения реже и больше отличаютя от среднеарифметического чем малые значения
С какими данными в индустрии вы работаете?
Возможно надо будет применить несколько тестов и сравнить результаты. Многие тесты достаточно надежны и при отклонении от нормальности.
По поводу работы и применения статистики ... зависит. Я вообще считаю, что статистика все-таки самостоятельна дисциплина. Конечно, ее можно рассматривать как часть дейта сайнс. В принципе маш. обучение основано на статистике (не полностью, конечно). Лучше ее знать и владеть практически.
-
- Уже с Приветом
- Posts: 3481
- Joined: 02 Jan 2005 22:10
Re: как живется data scientistам нынче?
А у дата сайентологов такая же потогонка как и у быдлокодеров? Тоже скрамы, спринты?
-
- Уже с Приветом
- Posts: 5106
- Joined: 19 Oct 2004 01:46
Re: как живется data scientistам нынче?
Все зависит. Думаю кода существенно меньше. Все-таки главная цель - аналитика.Kolbasoff wrote:А у дата сайентологов такая же потогонка как и у быдлокодеров? Тоже скрамы, спринты?
Как я уже упоминал, термин настолько размыт, что разные виды деятельности под него подпадают.
Если больше работать с "ЕТЛ" и в области хранения и обработки данных, то возможно кода больше.
Если работать с "математикой", то кода, думаю, поменьше будет, т.к. код будет лишь средством.
Здесь уже главное постановка задачи (как бизнес ставит задачи - разговор отдельный), дизайн
решения, само решение (+ ЕТЛ для данных), проверка и анализ результатов (вместе с бизнесом).
Часто, сам код особого "искусства" не представляет, т.к. будет работа с библиотеками. На мой
взгляд, основная задача "математика" - это постановка задачи и метод решения (с дизайном). Идеи,
короче. Собственно для этого и нужна теоретическая база. А писать код на "аре" или Питоне -
в общем-то не особо сложно.
-
- Уже с Приветом
- Posts: 5401
- Joined: 04 Feb 2009 05:05
Re: как живется data scientistам нынче?
Имхо работу сайентолога/онолитега труднее структурировать, чем работу простого программиста. Слишком разные задачи, проекты, слишком сложно измерить объем произведенного и т д. Поэтому управление осуществляется без применения скрама, оджайла и прочих замечательных инноваций в сфере микроменеджмента. Исходя из моего опыта, просто есть группа специалистов, которой управляет один менеджер. Сверху этого менеджера старшие менеджеры и экзекьютивы. В разных местах существует разное соотношение управленцев и управляемых, но иногда бывает даже так, что один начальник приходится на менее, чем двух специалистов. Связано это отчасти с тем, что работа сложная, соотвественно, проверять и управлять такой работой тоже непросто. "Начальники" при этом тоже часто работают сами, а не только управляют.Kolbasoff wrote:А у дата сайентологов такая же потогонка как и у быдлокодеров? Тоже скрамы, спринты?
Степень потогонки и уровень стресса в таких малоструктурированных условиях зависят по большей части от личностей непосредственного начальника и начальников на один-два уровня выше него. Если в цепочке попадется хоть один ублюдок, то пиши пропало. Если все хорошие, спокойные люди, то и на работу ходишь с радостью. Поскольку начальство в наше время часто меняется, то ограничить себя от ублюдков в корпоративной среде практически невозможно как бы ты тщательно ни выбирал работу: единственный способ - это увеличить свою привлекательность на рынке настолько, чтобы в случае чего быстренько спрыгнуть в другое место.
Из своей головы не эмигрируешь.
-
- Уже с Приветом
- Posts: 5106
- Joined: 19 Oct 2004 01:46
Re: как живется data scientistам нынче?
В принципе согласен с таким описанием, хотя зависит, конечно, от конторы. В научных конторах и больших иерархия может быть более "продвинутой".
-
- Уже с Приветом
- Posts: 7935
- Joined: 08 Oct 2008 01:02
- Location: usa
Re: как живется data scientistам нынче?
У меня тоже опыт вроде как у ДаблКота, но в хелзкер иншуренсe . И тоже подумываю на предмет изучения R , но безо всякого там машинного доения/глыбокой статистики и пр. математик. Даже после прочитанного
Прямо ч/з пару дней после моего прихода в компанию, сотрудница сбежала в ресёч. И вот ей пришлось учить R.На вопрос а-что-низзя -на -SAS,ответила, что не выходит. Все, с кем надо там контачить, знают R (наверное, всё на нём понаписано) , а SAS знать не хотят. Никто. А так он эвейлебл. В обшем , она учит и сокрушается чего раньше не подумала
![Sad :(](./images/smilies/sad.gif)
Прямо ч/з пару дней после моего прихода в компанию, сотрудница сбежала в ресёч. И вот ей пришлось учить R.На вопрос а-что-низзя -на -SAS,ответила, что не выходит. Все, с кем надо там контачить, знают R (наверное, всё на нём понаписано) , а SAS знать не хотят. Никто. А так он эвейлебл. В обшем , она учит и сокрушается чего раньше не подумала
-
- Уже с Приветом
- Posts: 191
- Joined: 13 Mar 2006 19:01
- Location: Earth -> Moon -> Mars
Re: как живется data scientistам нынче?
Сабина, да я не спорюСабина wrote:Ну Databricks то всяко немальчик, причем не намешал а именно использовал все по делу. Потому и привела пример что грамотный и работающий
![we are friends :fr:](./images/smilies/druzja.gif)
Что-то мне подсказывает что только этого проекта будет не достаточноСабина wrote:Изучите вот этот проект от и до - https://github.com/killrweather/killrweather" onclick="window.open(this.href);return false;
К нему прилагается видео - если не пожалеете денег или контора оплатит - то вот оно http://shop.oreilly.com/product/0636920043652.do" onclick="window.open(this.href);return false;
После того как вы в вышеупомянутом стаке сможете все пользовать легко и просто - вас в SF или NY оторвут с руками и ногами![]()
![No-No! :nono#:](./images/smilies/nono.gif)
![Cool 8)](./images/smilies/dirol.gif)