вы kaggle.com смотрели? на знаю как с халтурой но вакансии там есть, причем дельные , у меня на одну даже до офера дело дошло, хотя я и не дейта сайтнтист, скорее интересуюсь как хоббиKolbasoff wrote: 12 Mar 2017 00:23 А вот кто-нибудь знает хорошие бесплатные Streaming Data Sources кроме твиттера? И подскажите пжста хорошие форумы где тусуются дата-копатели/дата-изучатели и где можно других посмотреть и себя показать и халтурку срубить/заказать. Спасипки.
Machine Learning again
-
- Уже с Приветом
- Posts: 1211
- Joined: 12 Mar 2006 08:49
Re: Machine Learning again
-
- Уже с Приветом
- Posts: 549
- Joined: 07 Jan 2016 13:04
Re: Machine Learning again
Вы бы не могли поделиться Вашим виденьем халтурки в области DS? Мне просто интересно как Вы себе это представляете. Я сам в консалте и периодически использую методы ML, но как выделить DS в отдельную разовую задачу представляю себе с трудом. Для меня это примерно как специалисты по сортировке массивов.
Так же часто сталкиваюсь с тем, что наниматель с огромным трудом понимает зачем ему DS в компании. В таких случаях получается, что компания сначала нанимает себе отдел/департамент таких вот сайнтистов, а через 8-10 месяцев их всех увольняют. Я не знаю как в штатах, но в EU медиана по зарплатам просела с 80 до 30 евро в год.
-
- Уже с Приветом
- Posts: 3481
- Joined: 02 Jan 2005 22:10
Re: Machine Learning again
Обычная контрактная работа, я сейчас на такой.
Ой!tessob wrote: 12 Mar 2017 07:24 Я не знаю как в штатах, но в EU медиана по зарплатам просела с 80 до 30 евро в год.
-
- Ник закрыт за хамство.
- Posts: 357
- Joined: 16 Feb 2014 18:34
Re: Machine Learning again
Они начали дс обычных аналитиков называть вот и зарплаты соответствующие стали.Kolbasoff wrote:Обычная контрактная работа, я сейчас на такой.
Ой!tessob wrote: 12 Mar 2017 07:24 Я не знаю как в штатах, но в EU медиана по зарплатам просела с 80 до 30 евро в год.
-
- Уже с Приветом
- Posts: 549
- Joined: 07 Jan 2016 13:04
Re: Machine Learning again
В обычной контрактной работе, как правило, можно говорить о конкретном конечном результате. Допустим, если в IT вы на берегу договариваетесь о создании какой-то функциональности, то по завершению работ эта функциональность должна работать и это можно измерить. В случае DS мне не понятно кто должен брать на себя риски того, что в данных не будет сигнала, например. Ну, или то, что модель будет корректно работать только для 40% случаев. А еще модель может практически полностью деградировать через пару недель.
А как отличить одних от других?Deckel wrote: 13 Mar 2017 08:31Они начали дс обычных аналитиков называть вот и зарплаты соответствующие стали.
-
- Ник закрыт за хамство.
- Posts: 357
- Joined: 16 Feb 2014 18:34
Re: Machine Learning again
Я бы сказал, что дс отвечает за весь стэк, с постановки вопроса, что вообще делать, сбора данных и вообще дизайна системы которая их генерирует и в конце концов до суммы в долларах на выходе. Аналитик данных берет готовые данные и отвечает на уже поставленный вопрос.tessob wrote: 13 Mar 2017 09:17В обычной контрактной работе, как правило, можно говорить о конкретном конечном результате. Допустим, если в IT вы на берегу договариваетесь о создании какой-то функциональности, то по завершению работ эта функциональность должна работать и это можно измерить. В случае DS мне не понятно кто должен брать на себя риски того, что в данных не будет сигнала, например. Ну, или то, что модель будет корректно работать только для 40% случаев. А еще модель может практически полностью деградировать через пару недель.
А как отличить одних от других?Deckel wrote: 13 Mar 2017 08:31Они начали дс обычных аналитиков называть вот и зарплаты соответствующие стали.
Суровая реальность такова, что менеджеры не умеют работать с дата саентистами, и им нужны аналитики. Но работа аналитиков уже стала низкооплачиваемой. Поэтому их заманивают дс титулами.
-
- Уже с Приветом
- Posts: 549
- Joined: 07 Jan 2016 13:04
Re: Machine Learning again
В теории оно может и так, а на практике подавляющее большинство DS через полгода превращаются в тыкву обычного аналитика. Возможно Вы этого не помните, но волна Data Mining уже была лет 15-20 назад. Алгоритмы были все теже. Из новых сейчас наверное только CNN & SVM. Тогда тоже майнили-майнили, но ничего не намайнили. Сейчас все в точности повторяется но с другим названием. Более того, сейчас во многих крупных компаниях продолжают работать старые "кванты" (тогда использовали такое слово), которые считаю проблемы бизнеса в SAS, SPSS и R.Deckel wrote: 13 Mar 2017 09:50Я бы сказал, что дс отвечает за весь стэк, с постановки вопроса, что вообще делать, сбора данных и вообще дизайна системы которая их генерирует и в конце концов до суммы в долларах на выходе. Аналитик данных берет готовые данные и отвечает на уже поставленный вопрос.
То, что вы описали - это полубоги какие-то. Для этого нужно: знать бизнес клиента; разбираться в легаси системах; кодить на уровне энтерпрайз аркитекта; считать экономику проекта на уровне MBA. Наивно предполагать, что таких специалистов на рынке хоть сколько-нибудь значительное количество. Вот рынок и переоценивает ставки.
-
- Уже с Приветом
- Posts: 5106
- Joined: 19 Oct 2004 01:46
Re: Machine Learning again
Мне кажется из нового сейчас - это бустинг и глубокое обучение. Все-таки СВМ ещё в 80х предложили. А так, да, по сути всё остаётся по-старому.tessob wrote: 13 Mar 2017 10:37
В теории оно может и так, а на практике подавляющее большинство DS через полгода превращаются в тыкву обычного аналитика. Возможно Вы этого не помните, но волна Data Mining уже была лет 15-20 назад. Алгоритмы были все теже. Из новых сейчас наверное только CNN & SVM.
Я согласен, что ДС в карой-то степени аналитик. А вообще, все от конторы зависит. Особенно, если там особенно сами не знают, зачем им ДСы нужны.
-
- Уже с Приветом
- Posts: 3481
- Joined: 02 Jan 2005 22:10
Re: Machine Learning again
Вы наверное руководитель серьезной консалтинговой фирмы типа Databricks, которая берет подряды на систему "под ключ"? Под "халтуркой" я подразумеваю обычную контракторскую работу в большой корпорации. Сейчас DS оверхайпнуто, всякая конторка, строя красивые репорты с помощью стат софта, рассуждает о DS. Но это не DS. DS это очень дорогая игрушка: инфраструктура, инженеры и ученые, отдел продаж. Отдел дата процессинга - десяток миллионов в месяц только на аренду облака, и это при том, что все оптимизировано, ничего idle не висит. Технически DS начинается когда сырые данные можно прочитать целиком только раз (просто потому что это дорого) и сделать из них компактные структуры, которые потеряют в точности, но займут меньше пространства где-то раз в 100000, при этом сохранят нужную информацию. Для каждой задачи свои структуры. Саентологи колдуют над алгоритмами для создания и операциями с этими структурами, инженеры колдуют как бы оптимально написать программы и сконфигурить инфрастуктуру. 1М записей в день это не DS. 1B записей - уже ближе, но все еще можно обработать за время меньшее, чем хочет видеть кастомер. 10B записей уже так обработать нельзя, и вот тут начинается real-time и настоящая инженерия.tessob wrote: 13 Mar 2017 09:17 В обычной контрактной работе, как правило, можно говорить о конкретном конечном результате. Допустим, если в IT вы на берегу договариваетесь о создании какой-то функциональности, то по завершению работ эта функциональность должна работать и это можно измерить. В случае DS мне не понятно кто должен брать на себя риски того, что в данных не будет сигнала, например. Ну, или то, что модель будет корректно работать только для 40% случаев. А еще модель может практически полностью деградировать через пару недель.
-
- Уже с Приветом
- Posts: 2264
- Joined: 17 Jun 2003 04:41
- Location: Just like US
Re: Machine Learning again
With an estimated Exabyte of data per day in 2024 the new “Square Kilometer Array” radio telescope will be one of the largest generators of big data ever

...а мы такой компанией, возьмем, да и припремся к Элис!
-
- Уже с Приветом
- Posts: 549
- Joined: 07 Jan 2016 13:04
Re: Machine Learning again
Вовсе нет. Просто много лет в консалте.Kolbasoff wrote: 14 Mar 2017 03:55Вы наверное руководитель серьезной консалтинговой фирмы типа Databricks, которая берет подряды на систему "под ключ"?
Если Вы про халтурку в областях вроде астрофизики и биоинформатики, то мне тут абсолютно нечего сказать. Там возможно все именно так как вы описываете. Я преимущественно работаю с различными производственными, логистическими, торговыми компаниями. Там все значительно проще. Большая часть данных в какой-нибудь ERP системе, например в SAP. Если рассматривать только данные, связанные с основной деятельностью, то получится несколько десятков гигабайт за несколько лет. Если брать какие-либо конкретные данные, например движения по складу, или отгрузки, то таких данных уже будет несколько гигабайт. Все достаточно тривиально.Kolbasoff wrote: 14 Mar 2017 03:55Под "халтуркой" я подразумеваю обычную контракторскую работу в большой корпорации. Сейчас DS оверхайпнуто, всякая конторка, строя красивые репорты с помощью стат софта, рассуждает о DS. Но это не DS. DS это очень дорогая игрушка: инфраструктура, инженеры и ученые, отдел продаж. Отдел дата процессинга - десяток миллионов в месяц только на аренду облака, и это при том, что все оптимизировано, ничего idle не висит...
Не заметить хайп вокруг машинного обучения невозможно, только непонятно какое отношение это все имеет к традиционным индустриям. Консалтинговым и железячным компаниям, ясное дело, нужно что-то продавать. Те же Intel и Cisco постоянно на своих (и чужих) конференциях сейчас постоянно говорят про IoT и индустрию 4.0. IBM постоянно показывает "комиксы" про Watson и когнитивный бизнес. Куча консалтинговых компаний ходят по рынку и проповедуют про глубокое обучение и advanced analytics. Только объединяет их всех один простой факт - ни у кого из них нет ни одного реального кейса по существенному улучшению бизнес-процессов клиента с помощью всего этого зоопарка решений.
Работая on-site часто наблюдаю как по 2-3 sales team приходят впаривать очередной прожект. Довольно часто клиент просит присоединиться и послушать/поспрашивать гостей. Забавно получается когда в течении нескольких месяцев получается пересечься с такой team несколько раз. В целом со стороны бизнеса все это выглядит как очень старый анекдот:
Солнечный день. На сочной траве мирно пасется стадо овец. Подъезжает дорогой автомобиль, из которого выходит хорошо одетый человек и обращается к пастуху: «Добрый день! Хотите, я скажу вам, сколько овец в вашем стаде? Если мои данные окажутся точны, я забираю одну овцу, идёт?».
Пастух соглашается. Молодой человек достает из авто ноутбук, спутниковый телефон, соединяется с интернетом, собирает информацию, систематизирует, анализирует… На закате он выдает пастуху распечатку: «302 головы». Потом выбирает из стада одну овцу и кладет себе в багажник.
И пастух говорит ему: «Постой. Хочешь, теперь я скажу тебе кто ты такой и что тебя ждет? Но учти, если я окажусь прав, овцу ты мне вернешь». Молодой человек соглашается.
«Ты бизнес-консультант и сейчас опозоришься. Откуда я знаю? Во-первых, тебя никто не звал, а ты приехал. Во-вторых, ты сообщил мне ровно то, что я знаю и без тебя. В-третьих, ты совершенно не разбираешься в предмете исследования. Теперь, пожалуйста, достань из багажника мою овчарку».
-
- Уже с Приветом
- Posts: 5106
- Joined: 19 Oct 2004 01:46
Re: Machine Learning again
Чем-то напоминает известный анекдот про математика.
Думаю, что всё не совсем так. ДС может очень много чего предложить. Причём реально помочь бизнесу. Другое дело, что бизнес далеко не всегда знает и понимает, зачем ему ДС. Ну не учили бизнес этому в школе. С другой стороны, аналитика сейчас в тренде. Все компании хотят называть себя аналитическими. Вот и нанимают ДС. Отсюда и возникают маразматические ситуации. Не везде, конечно. А то, что компании двигают свой продукт, а консалтеры пытаются продать свой сервис - так это вполне нормально.
Думаю, что всё не совсем так. ДС может очень много чего предложить. Причём реально помочь бизнесу. Другое дело, что бизнес далеко не всегда знает и понимает, зачем ему ДС. Ну не учили бизнес этому в школе. С другой стороны, аналитика сейчас в тренде. Все компании хотят называть себя аналитическими. Вот и нанимают ДС. Отсюда и возникают маразматические ситуации. Не везде, конечно. А то, что компании двигают свой продукт, а консалтеры пытаются продать свой сервис - так это вполне нормально.
-
- Уже с Приветом
- Posts: 5106
- Joined: 19 Oct 2004 01:46
Re: Machine Learning again
Всё-таки ДС - это не только количество данных, а больше аналитика. И из нескольких гигабайт можно извлечь ценную инфу. Мне кажется, сейчас движение идёт в двух направлениях. Первое - хранение, второе - алгоритмы для аналитики. Первое как бы не совсем ДС, а вот второе как раз ДС.tessob wrote: 14 Mar 2017 08:04 Я преимущественно работаю с различными производственными, логистическими, торговыми компаниями. Там все значительно проще. Большая часть данных в какой-нибудь ERP системе, например в SAP. Если рассматривать только данные, связанные с основной деятельностью, то получится несколько десятков гигабайт за несколько лет. Если брать какие-либо конкретные данные, например движения по складу, или отгрузки, то таких данных уже будет несколько гигабайт. Все достаточно тривиально.
-
- Уже с Приветом
- Posts: 549
- Joined: 07 Jan 2016 13:04
Re: Machine Learning again
Поделитесь? ))
У бизнеса, как мне кажется, нет изолированных задач для DS. Microsoft Kinect или Self-driving cars слегка другая история КМК.Физик-Лирик wrote: 14 Mar 2017 13:25Думаю, что всё не совсем так. ДС может очень много чего предложить. Причём реально помочь бизнесу.
Буквально сегодня смотрел видео: https://youtu.be/6_iy_w-Th40?t=6mФизик-Лирик wrote: 14 Mar 2017 13:25Другое дело, что бизнес далеко не всегда знает и понимает, зачем ему ДС.
Задача про незаменимого человека и грузчиков - это классическая задача на двудольном графе. Решается она достаточно тривиально. Как они к этому "присобачили" ANN мне даже примерно не понятно. Дальше "Остапа" просто понесло. И именно это сейчас является "средним по палате". Кстати - это яркий пример применения ANN ко всему. Вот как бизнесу сегодня реально понять для чего ему DS?

-
- Уже с Приветом
- Posts: 5106
- Joined: 19 Oct 2004 01:46