как живется data scientistам нынче?

Космос
Уже с Приветом
Posts: 340
Joined: 04 Jun 2008 03:26

Re: как живется data scientistам нынче?

Post by Космос »

есть непараметрика и order statistics
Космос
Уже с Приветом
Posts: 340
Joined: 04 Jun 2008 03:26

Re: как живется data scientistам нынче?

Post by Космос »

Снежная Королева wrote:Известны sample means and sample sizes. Если вы почитаете учебник, то для самого простого t-test еще требуется sample variance.
Вы какой предмет и в какой школе преподаете?
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Космос wrote: как же нет данных? А 25 значений и размер сэмплов известен это что разве не данные? Вариаций нет - согласен. Однако анова не единственный подход, есть еще непараметрика и order statistics. Возможно не достаточно данных чтобы дать такой p-value который бы опроверг или поддержал гипотезу, но это еще нужно доказать.
Вообщем вы быстро управились. Нет данных 8) Походу хорошие условия труда в data science :-)
Если Вы с чем-то не согласны, то пишите конкретно с чем. Так будет легче обсуждать.
Теперь по делу. Если мы хотим проводить тест, надо сперва определить, что сравнивается. В нашем случае - являются ли средние значения (например, зарплата) для каждой группы (т.е. специальности) статистически разными. Нуль-гипотеза - нет, зарплата не зависит от специальности, альтернативная - да, зарплата зависит от специальности. Мы хотим сравнивать все группы сразу.
Проверяем, является ли распределение в каждой группе нормальным. Если да (или близко), то выбираем анову (или т-тест, если только две группы); если нет, то выбираем непараметрический тест Крускала-Валлиса (в случае двух групп тест Вилкоксона-Мена-Витней). Последние тесты еще называются ранг-тестами. В любом случае все вышеупомянутые тесты требуют индивидуальных данных в каждой группе (а не просто средних и размера образца), ибо для параметрических тестов нам понадобится оценка вариаций, а для ранг-теста - упорядочение элементов в порядке возрастания или убывания, чтобы им присвоить индивидуальный ранг. Далее выполняется соответствующий тест. Если нуль-гипотеза отвергается, то можно дополнительно провести тесты по парному сравнению. Таковыми являются тесты Тюка
(параметрический или непараметрический) и Ньюмана-Кеулса.
Вы согласны с вышеприведенной схемой? Какие еще тесты Вы предлагаете, которые не требовали бы индивидуальных данных?
User avatar
Dweller
Уже с Приветом
Posts: 12262
Joined: 20 Dec 2000 10:01
Location: Bellevue, WA

Re: как живется data scientistам нынче?

Post by Dweller »

Снежная Королева wrote:Ну вы не берете, другие берут :) pig/hive/Hadoop учится за месяц, это icing on the cake.
Это когда оно все работает, а что делать когда не работает? Нанимать к каждому data scientist по hadoop engineer?
Я считаю для hadoop/pig/hive нужно как минимум год повариться на реальных задачах которые не решаются python/R
Космос
Уже с Приветом
Posts: 340
Joined: 04 Jun 2008 03:26

Re: как живется data scientistам нынче?

Post by Космос »

Физик-Лирик wrote:.....
являются ли средние значения (например, зарплата) для каждой группы (т.е. специальности) статистически разными. Нуль-гипотеза - нет, зарплата не зависит от специальности, альтернативная - да, зарплата зависит от специальности. Мы хотим сравнивать все группы сразу.
Проверяем, является ли распределение в каждой группе нормальным. Если да (или близко), то выбираем анову (или т-тест, если только две группы); если нет, то выбираем непараметрический тест Крускала-Валлиса (в случае двух групп тест Вилкоксона-Мена-Витней). Последние тесты еще называются ранг-тестами. В любом случае все вышеупомянутые тесты требуют индивидуальных данных в каждой группе (а не просто средних и размера образца), ибо для параметрических тестов нам понадобится оценка вариаций, а для ранг-теста - упорядочение элементов в порядке возрастания или убывания, чтобы им присвоить индивидуальный ранг. Далее выполняется соответствующий тест. Если нуль-гипотеза отвергается, то можно дополнительно провести тесты по парному сравнению. Таковыми являются тесты Тюка
(параметрический или непараметрический) и Ньюмана-Кеулса.
Вы согласны с вышеприведенной схемой? Какие еще тесты Вы предлагаете, которые не требовали бы индивидуальных данных?
со схемой теперь согласен. Как я уже упонимал, скорее всего невозможно сделать выводы (от sample sizes большого толку нет, так как нет вариаций, сравнивать имеющиеся значения бессмыссленно даже с известным sample size, и дало бы p-value близкий к 100% и невозможность отвергнуть нуль гипотезу). Речь шла не только о выводах, а доказательствах невозможности сделать выводы.
Интересно - в работе data scientist часто приходится применять статистику или в основном технологии всякие Hadoop, Spark, SAS, R и т.п. SPSS Minitab еще живы? :-) Второй вопрос - в природе не часто встречаются нормальные данные, например большинство фининсовых данных right-skewed т.е. распределяются таким образом что большие значения реже и больше отличаютя от среднеарифметического чем малые значения
С какими данными в индустрии вы работаете?
Last edited by Космос on 14 Nov 2015 11:29, edited 2 times in total.
Космос
Уже с Приветом
Posts: 340
Joined: 04 Jun 2008 03:26

Re: как живется data scientistам нынче?

Post by Космос »

Снежная Королева wrote:Я не преподаю :) на производстве p-values мало применяются.
на каком производстве?
User avatar
Dweller
Уже с Приветом
Posts: 12262
Joined: 20 Dec 2000 10:01
Location: Bellevue, WA

Re: как живется data scientistам нынче?

Post by Dweller »

Снежная Королева wrote:Dweller, возможно, спорить не стану. Мой пойнт в том, что без hive/pig/Hadoop можно хотя бы начать работать data scientist и научиться на работе, а без знаний стат.моделирования на R или эквиваленте ( SAS, Python whatever) - нельзя. Стат моделированию на работе не учат.
С этим я соглашусь. Однако и программированию с нуля быстро не обучишься только со знанием статистики.
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Dweller wrote:
Снежная Королева wrote:Dweller, возможно, спорить не стану. Мой пойнт в том, что без hive/pig/Hadoop можно хотя бы начать работать data scientist и научиться на работе, а без знаний стат.моделирования на R или эквиваленте ( SAS, Python whatever) - нельзя. Стат моделированию на работе не учат.
С этим я соглашусь. Однако и программированию с нуля быстро не обучишься только со знанием статистики.
На мой взгляд, разделение на ЕТЛщиков и "математиков" вполне распространено и оправдано. Начнем с того, что ЕТЛ требует определенной (высокой) квалификации, и далеко не всегда "математики" этого могут сделать (и сказать по правде, им это будет скучно). Далее,
ЕТЛщики, как правило, имеют весьма смутное представление о "математике". Обычная практика - это когда "математики" используют ЕТЛовские тулсы, чтобы подготовить данные, например, выбрать исходные данные для исследования. Так что "математики" должны знать основные тулсы (т.е. уметь гонять квериз, писать пиговские скрипты и т.п.). Безусловно, основной упор "математиков" - это аналитика. Это требует достаточно глубоких "фундаменальных" знаний и умения работать с софвеерными пакетами. Работать с пакетами в общем не так уж и
сложно. Основая проблема - надо все понимать с точки зрения "теории". Иначе весь анализ сведется лишь к прогонке скриптов, а это не есть правильно.
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Космос wrote:со схемой теперь согласен. Как я уже упонимал, скорее всего невозможно сделать выводы (от sample sizes большого толку нет, так как нет вариаций, сравнивать имеющиеся значения бессмыссленно даже с известным sample size, и дало бы p-value близкий к 100% и невозможность отвергнуть нуль гипотезу). Речь шла не только о выводах, а доказательствах невозможности сделать выводы.
Интересно - в работе data scientist часто приходится применять статистику или в основном технологии всякие Hadoop, Spark, SAS, R и т.п. SPSS Minitab еще живы? :-) Второй вопрос - в природе не часто встречаются нормальные данные, например большинство фининсовых данных right-skewed т.е. распределяются таким образом что большие значения реже и больше отличаютя от среднеарифметического чем малые значения
С какими данными в индустрии вы работаете?

Возможно надо будет применить несколько тестов и сравнить результаты. Многие тесты достаточно надежны и при отклонении от нормальности.
По поводу работы и применения статистики ... зависит. Я вообще считаю, что статистика все-таки самостоятельна дисциплина. Конечно, ее можно рассматривать как часть дейта сайнс. В принципе маш. обучение основано на статистике (не полностью, конечно). Лучше ее знать и владеть практически.
User avatar
Kolbasoff
Уже с Приветом
Posts: 3481
Joined: 02 Jan 2005 22:10

Re: как живется data scientistам нынче?

Post by Kolbasoff »

А у дата сайентологов такая же потогонка как и у быдлокодеров? Тоже скрамы, спринты?
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Kolbasoff wrote:А у дата сайентологов такая же потогонка как и у быдлокодеров? Тоже скрамы, спринты?
Все зависит. Думаю кода существенно меньше. Все-таки главная цель - аналитика.
Как я уже упоминал, термин настолько размыт, что разные виды деятельности под него подпадают.
Если больше работать с "ЕТЛ" и в области хранения и обработки данных, то возможно кода больше.
Если работать с "математикой", то кода, думаю, поменьше будет, т.к. код будет лишь средством.
Здесь уже главное постановка задачи (как бизнес ставит задачи - разговор отдельный), дизайн
решения, само решение (+ ЕТЛ для данных), проверка и анализ результатов (вместе с бизнесом).
Часто, сам код особого "искусства" не представляет, т.к. будет работа с библиотеками. На мой
взгляд, основная задача "математика" - это постановка задачи и метод решения (с дизайном). Идеи,
короче. Собственно для этого и нужна теоретическая база. А писать код на "аре" или Питоне -
в общем-то не особо сложно.
KotKot
Уже с Приветом
Posts: 5401
Joined: 04 Feb 2009 05:05

Re: как живется data scientistам нынче?

Post by KotKot »

Kolbasoff wrote:А у дата сайентологов такая же потогонка как и у быдлокодеров? Тоже скрамы, спринты?
Имхо работу сайентолога/онолитега труднее структурировать, чем работу простого программиста. Слишком разные задачи, проекты, слишком сложно измерить объем произведенного и т д. Поэтому управление осуществляется без применения скрама, оджайла и прочих замечательных инноваций в сфере микроменеджмента. Исходя из моего опыта, просто есть группа специалистов, которой управляет один менеджер. Сверху этого менеджера старшие менеджеры и экзекьютивы. В разных местах существует разное соотношение управленцев и управляемых, но иногда бывает даже так, что один начальник приходится на менее, чем двух специалистов. Связано это отчасти с тем, что работа сложная, соотвественно, проверять и управлять такой работой тоже непросто. "Начальники" при этом тоже часто работают сами, а не только управляют.

Степень потогонки и уровень стресса в таких малоструктурированных условиях зависят по большей части от личностей непосредственного начальника и начальников на один-два уровня выше него. Если в цепочке попадется хоть один ублюдок, то пиши пропало. Если все хорошие, спокойные люди, то и на работу ходишь с радостью. Поскольку начальство в наше время часто меняется, то ограничить себя от ублюдков в корпоративной среде практически невозможно как бы ты тщательно ни выбирал работу: единственный способ - это увеличить свою привлекательность на рынке настолько, чтобы в случае чего быстренько спрыгнуть в другое место.
Из своей головы не эмигрируешь.
Физик-Лирик
Уже с Приветом
Posts: 5106
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

В принципе согласен с таким описанием, хотя зависит, конечно, от конторы. В научных конторах и больших иерархия может быть более "продвинутой".
User avatar
shokoladnitsaa
Уже с Приветом
Posts: 7935
Joined: 08 Oct 2008 01:02
Location: usa

Re: как живется data scientistам нынче?

Post by shokoladnitsaa »

У меня тоже опыт вроде как у ДаблКота, но в хелзкер иншуренсe . И тоже подумываю на предмет изучения R , но безо всякого там машинного доения/глыбокой статистики и пр. математик. Даже после прочитанного :(

Прямо ч/з пару дней после моего прихода в компанию, сотрудница сбежала в ресёч. И вот ей пришлось учить R.На вопрос а-что-низзя -на -SAS,ответила, что не выходит. Все, с кем надо там контачить, знают R (наверное, всё на нём понаписано) , а SAS знать не хотят. Никто. А так он эвейлебл. В обшем , она учит и сокрушается чего раньше не подумала
User avatar
x.angie
Уже с Приветом
Posts: 191
Joined: 13 Mar 2006 19:01
Location: Earth -> Moon -> Mars

Re: как живется data scientistам нынче?

Post by x.angie »

Сабина wrote:Ну Databricks то всяко немальчик :), причем не намешал а именно использовал все по делу. Потому и привела пример что грамотный и работающий
Сабина, да я не спорю :fr:, всё правильно и по делу, Датабрикс не мальчики, это понятно.
Сабина wrote:Изучите вот этот проект от и до - https://github.com/killrweather/killrweather" onclick="window.open(this.href);return false;
К нему прилагается видео - если не пожалеете денег или контора оплатит - то вот оно http://shop.oreilly.com/product/0636920043652.do" onclick="window.open(this.href);return false;

После того как вы в вышеупомянутом стаке сможете все пользовать легко и просто - вас в SF или NY оторвут с руками и ногами :)
Что-то мне подсказывает что только этого проекта будет не достаточно :nono#:. Сейчас хожу по собеседованиям, спросите мне откуда я это знаю. 8)

Return to “Работа и Карьера в IT”