IT горячка в Сиэттле, эпизод 2

Dweller · Post by **Dweller** » 26 Feb 2020 18:02

А давайте ка я подброшу дровишек в огонь и скажу что все мои три оффера где дали приличные деньги пришли от нанимающих менеджеров родом из России. При том что кроме них самих на интервью из России/бСССР никого другого не было - только стандартно в основном американцы китайцы индусы.

Komissar · Post by **Komissar** » 27 Feb 2020 07:26

Dweller wrote: 26 Feb 2020 18:02 А давайте ка я подброшу дровишек в огонь и скажу что все мои три оффера где дали приличные деньги пришли от нанимающих менеджеров родом из России.

По блату прошел!

Dweller · Post by **Dweller** » 28 Feb 2020 00:46

Komissar wrote: 27 Feb 2020 07:26
Dweller wrote: 26 Feb 2020 18:02 А давайте ка я подброшу дровишек в огонь и скажу что все мои три оффера где дали приличные деньги пришли от нанимающих менеджеров родом из России.
По блату прошел!

Ну так невеста была уже немолода

Chessplayer · Post by **Chessplayer** » 02 Mar 2020 07:35

Dweller wrote: 05 Feb 2020 19:38 А насчёт Гугл - ходил я к ним на L6, но ML позиций не было в киркланде, поэтому просто на бакенд, не взяли ... Очегь высокая планка там

Dweller, а на ML позиции в Гугле и FB требования на интервью такие же как для Software Engineers? Т.е. нужен System Design и еже с ним? Меня больше со стороны ML Science и model development это интересует, а не Engineering. У них есть отдельный трэк для таких людей или туда потом отбирают из софтверных инженеров? Или такими вещами только в Гугл Брэйн и FB Research занимаются? Я знаю, что есть отдельный трэк для Data Science, но у меня сложилось впечатление, что там только традиционный ML без нейронных сетей - это так или возможны варианты? Я про Bay Area спрашиваю, ежели что.

Dweller · Post by **Dweller** » 02 Mar 2020 08:30

ХЗ, я ж написал что интервью было не на ML позицию, поэтому не могу сказать что там было бы. Наверное ещё одна сессия с ML design

IvanGrozniy · Post by **IvanGrozniy** » 02 Mar 2020 15:52

Chessplayer wrote: 02 Mar 2020 07:35 что там только традиционный ML без нейронных сетей - это так или возможны варианты?

Я так понимаю нейронные сети в ML - этот тот же самый традиционный ML (linear/polynomial regression, logistic regression и т.д.), только со вставленными "скрытыми слоями". То есть, например, для нейронной архитектуры делаешь сначала linear regression на входных данных, потом берешь результаты и уже на них, как на входных параметрах делаешь еще один linear regression. Скрытых слоев может быть от 1 и более. Просто нужно часик-два потратить на формулы и понятно будет, что одинаковый подход, только добавлены дополнительные этапы между входными данными и результатами.

Chessplayer · Post by **Chessplayer** » 02 Mar 2020 20:41

IvanGrozniy wrote: 02 Mar 2020 15:52 Я так понимаю нейронные сети в ML - этот тот же самый традиционный ML (linear/polynomial regression, logistic regression и т.д.), только со вставленными "скрытыми слоями". То есть, например, для нейронной архитектуры делаешь сначала linear regression на входных данных, потом берешь результаты и уже на них, как на входных параметрах делаешь еще один linear regression. Скрытых слоев может быть от 1 и более. Просто нужно часик-два потратить на формулы и понятно будет, что одинаковый подход, только добавлены дополнительные этапы между входными данными и результатами.

То что вы описали - это через чур упрощенное понимание нейронных сетей и именно в таком виде мало где используется. В последние десять лет было разработано большое количество разных подходов и архитектур (CNN, RNN/LSTM, transformers, etc) для решения задач компьютерного зрения и обработки текстов. В широком смысле слова эта область получила название AI. Возьмите какой-нибудь базовый курс на эту тему, если вам интересно.

У меня сложилось впечатление, что Data Scientist-ы в Гугле и Фэйсбуке работают со стандартными алгоритмами больше подходящими для табличных данных или временных рядов (типа random forest или clustering) и в AI не лезут, но может быть я ошибаюсь?

Chessplayer · Post by **Chessplayer** » 02 Mar 2020 20:53

Кстати, отмечу один важный момент: то, что вы описали выше - это по прежнему линейная регрессия, а не нейронная сеть. Чтобы получить нейронную сеть, хотя бы один из слоев должен содержать нелинейность. Иначе перегруппировав параметры в этой сети, ее можно опять свести к обычной линейной регрессии.

IvanGrozniy · Post by **IvanGrozniy** » 02 Mar 2020 22:22

Chessplayer wrote: 02 Mar 2020 20:41
IvanGrozniy wrote: 02 Mar 2020 15:52 Я так понимаю нейронные сети в ML - этот тот же самый традиционный ML (linear/polynomial regression, logistic regression и т.д.), только со вставленными "скрытыми слоями". То есть, например, для нейронной архитектуры делаешь сначала linear regression на входных данных, потом берешь результаты и уже на них, как на входных параметрах делаешь еще один linear regression. Скрытых слоев может быть от 1 и более. Просто нужно часик-два потратить на формулы и понятно будет, что одинаковый подход, только добавлены дополнительные этапы между входными данными и результатами.
То что вы описали - это через чур упрощенное понимание нейронных сетей и именно в таком виде мало где используется. В последние десять лет было разработано большое количество разных подходов и архитектур (CNN, RNN/LSTM, transformers, etc) для решения задач компьютерного зрения и обработки текстов. В широком смысле слова эта область получила название AI. Возьмите какой-нибудь базовый курс на эту тему, если вам интересно.

У меня сложилось впечатление, что Data Scientist-ы в Гугле и Фэйсбуке работают со стандартными алгоритмами больше подходящими для табличных данных или временных рядов (типа random forest или clustering) и в AI не лезут, но может быть я ошибаюсь?

Я как раз лабораторную делаю по распознаванию циферок на картинке. Формула та же самая, как и в не нейронных сетях (прикреплена). Просто в цикле 10 раз обсчитываются параметры для логической классификации на каждую циферку. Здесь для распознавания рукописных цифр даже скрытых слоев не нужно для выбранной нейро-архитектуры. Входные данные - цвета 400 пикселей для каждой написанной цифры, выходные данные просто классификатор 1 или 0 каждой определенной цифры.
Бесплатная база данных 5000 примеров написания цифр можно скачать у профессоре LeCun по ссылке http://yann.lecun.com/exdb/mnist/
Он для почты США делал распознавание лет 20-30 назад.
Думаю, распознавание рукописных текстов только по входным данным побольше, а алгоритм тот же.

IvanGrozniy · Post by **IvanGrozniy** » 02 Mar 2020 22:25

Chessplayer wrote: 02 Mar 2020 20:53 Кстати, отмечу один важный момент: то, что вы описали выше - это по прежнему линейная регрессия, а не нейронная сеть. Чтобы получить нейронную сеть, хотя бы один из слоев должен содержать нелинейность. Иначе перегруппировав параметры в этой сети, ее можно опять свести к обычной линейной регрессии.

Ну вот что значит нелинейность? Логический классификатор по умолчанию нелинейный. Сигмоидная функция для предсказывания единицы или нуля h(theta) = 1 / (1 + e ^ -(z)) уже содержит экспоненту в степени. Просто параметр Z линейное уравнение от параметров тренировочного сэта X. Уже никак не свести к линейной регрессии. Если нужно, то входные парметры Z можно сделат полиномом нужной степени. Только нужно аккуратно делать, чтобы не было проблемы overfitting, когда вроде бы модель все данные покрывает, а предсказывает коряво. На много размерных данных все равно сразу полиномом нельзя делать, так как визуально не представишь, что происходит. Я бы, наверное, 3 типа реализовывал для сравнения: линейную, полиномиальную и полиномиальную с regularization.

Chessplayer · Post by **Chessplayer** » 02 Mar 2020 22:35

IvanGrozniy wrote: 02 Mar 2020 22:25 Ну вот что значит нелинейность? Логический классификатор по умолчанию нелинейный. Сигмоидная функция для предсказывания единицы или нуля h(theta) = 1 / (1 + e ^ -(z)) уже содержит экспоненту в степени. Просто параметр Z линейное уравнение от параметров тренировочного сэта X. Уже никак не свести к линейной регрессии. Если нужно, то входные парметры Z можно сделат полиномом нужной степени. Только нужно аккуратно делать, чтобы не было проблемы overfitting, когда вроде бы модель все данные покрывает, а предсказывает коряво.

Логический - да, но у вас выше шла речь про линейную регрессию, что не есть logisitic regression.

IvanGrozniy · Post by **IvanGrozniy** » 02 Mar 2020 22:39

Chessplayer wrote: 02 Mar 2020 22:35
IvanGrozniy wrote: 02 Mar 2020 22:25 Ну вот что значит нелинейность? Логический классификатор по умолчанию нелинейный. Сигмоидная функция для предсказывания единицы или нуля h(theta) = 1 / (1 + e ^ -(z)) уже содержит экспоненту в степени. Просто параметр Z линейное уравнение от параметров тренировочного сэта X. Уже никак не свести к линейной регрессии. Если нужно, то входные парметры Z можно сделат полиномом нужной степени. Только нужно аккуратно делать, чтобы не было проблемы overfitting, когда вроде бы модель все данные покрывает, а предсказывает коряво.
Логический - да, но у вас выше шла речь про линейную регрессию, что не есть logisitic regression.

Глянул в написанное, вы правы. Там две опечатки

Chessplayer · Post by **Chessplayer** » 02 Mar 2020 22:40

IvanGrozniy wrote: 02 Mar 2020 22:22 Я как раз лабораторную делаю по распознаванию циферок на картинке. Формула та же самая, как и в не нейронных сетях (прикреплена). Просто в цикле 10 раз обсчитываются параметры для логической классификации на каждую циферку. Здесь для распознавания рукописных цифр даже скрытых слоев не нужно для выбранной нейро-архитектуры. Входные данные - цвета 400 пикселей для каждой написанной цифры, выходные данные просто классификатор 1 или 0 каждой определенной цифры.
Бесплатная база данных 5000 примеров написания цифр можно скачать у профессоре LeCun по ссылке http://yann.lecun.com/exdb/mnist/
Он для почты США делал распознавание лет 20-30 назад.
Думаю, распознавание рукописных текстов только по входным данным побольше, а алгоритм тот же.

Методы Yann LeCunn работают (медленно) только для маленьких картинок и определенных задач. Для более сложных задач fully connected neural net будет слишком тяжелой и поэтому используют CNN. Но вы на правильном пути: пройдете базовый курс Andrew Ng, потом возьмите его курс по deep learning.

Chessplayer · Post by **Chessplayer** » 02 Mar 2020 22:50

Снежная Королева wrote: 02 Mar 2020 22:46 Вы будете смеяться, но logistics regression именно что одна из разновидностей линейных моделей. Это статистика 101.

Я полагаю, что у вас была двойка по статистике и по чтению.

Chessplayer · Post by **Chessplayer** » 02 Mar 2020 23:02

Снежная Королева wrote: 02 Mar 2020 22:54 Вы несогласны с моим утверждением?

Нет, поскольку linear models описывают регрессию, а logistic regression - классификацию. Т.е. конечно можно это всё назвать линейными моделями, но в разрезе нашего разговора ИваномГрозным о нейронках, между ними есть принципиальная разница связанная с нелинейностью.

Привет

IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2

Re: IT горячка в Сиэттле, эпизод 2