IT горячка в Сиэттле, эпизод 2

Ответить
voyager3
Уже с Приветом
Сообщения: 1964
Зарегистрирован: Вт мар 10, 2015 8:12 pm

Re: IT горячка в Сиэттле, эпизод 2

Сообщение voyager3 »

Круто, не знал, что в форумный пост можно такую хтмлину воткнуть.
Вот описания самих контор - только с голодухи.
Chessplayer
Уже с Приветом
Сообщения: 345
Зарегистрирован: Пн ноя 26, 2007 11:33 pm

Re: IT горячка в Сиэттле, эпизод 2

Сообщение Chessplayer »

voyager3 писал(а): Сб апр 11, 2020 11:52 am Вот описания самих контор - только с голодухи.
всё не смотрел, но, например, Hugging Face - это довольно продвинутая контора in the NLP space.
Mmodel
Уже с Приветом
Сообщения: 8209
Зарегистрирован: Вс мар 27, 2016 6:56 pm

Re: IT горячка в Сиэттле, эпизод 2

Сообщение Mmodel »

скажите, а чем Seatle лучше Bay Area?
Аватара пользователя
IvanGrozniy
Уже с Приветом
Сообщения: 10409
Зарегистрирован: Ср фев 04, 2004 8:14 am
Откуда: Edgewater, NJ

Re: IT горячка в Сиэттле, эпизод 2

Сообщение IvanGrozniy »

Neural Networks and Deep Learning - done!
У вас нет необходимых прав для просмотра вложений в этом сообщении.
Аватара пользователя
Dweller
Уже с Приветом
Сообщения: 12262
Зарегистрирован: Ср дек 20, 2000 4:01 am
Откуда: Bellevue, WA

Re: IT горячка в Сиэттле, эпизод 2

Сообщение Dweller »

О, надо же, я как раз щас переделываю тренинг пайплайн написаный под тензорфлоу на питоне, там руками имплементировали тренировку многослойной сети. Т.к. не было подходящей библиотеки. Надо сказать тензорфлоу не совсем очевиден и прозрачен, к тому же быстро эволюционирует, так что мозги задействуются по полной.
Аватара пользователя
IvanGrozniy
Уже с Приветом
Сообщения: 10409
Зарегистрирован: Ср фев 04, 2004 8:14 am
Откуда: Edgewater, NJ

Re: IT горячка в Сиэттле, эпизод 2

Сообщение IvanGrozniy »

Dweller писал(а): Вт апр 14, 2020 3:20 pm О, надо же, я как раз щас переделываю тренинг пайплайн написаный под тензорфлоу на питоне, там руками имплементировали тренировку многослойной сети. Т.к. не было подходящей библиотеки. Надо сказать тензорфлоу не совсем очевиден и прозрачен, к тому же быстро эволюционирует, так что мозги задействуются по полной.
Интересная задача, но, похоже, что очень простая :D
Сейчас также посматриваю туториалы к этому фреймворку. И у меня уже есть две претензии к гугловцам в связи с изученной теорией и тем, что они делают.
1. Зачем нужны epochs для тренировки глубокой (и не очень) нейронной сети? По-моему, бесполезная вещь, если опираться на теорию ML.
2. Какие преимущества даёт параметр BatchSize? Если интуитивно рассуждать, то он просто акууратность модели портит. Для предсказывания многих результатов, да, полезен, но в туториале его задают даже и на процессе тренировки. Может не совсем профессионалы этот туториал в Гугле составляли?
Если гугловцы есть среди нас, то, пожалуйста, проясните ситуацию.
Аватара пользователя
Dweller
Уже с Приветом
Сообщения: 12262
Зарегистрирован: Ср дек 20, 2000 4:01 am
Откуда: Bellevue, WA

Re: IT горячка в Сиэттле, эпизод 2

Сообщение Dweller »

IvanGrozniy писал(а): Вт апр 14, 2020 4:04 pm
Dweller писал(а): Вт апр 14, 2020 3:20 pm О, надо же, я как раз щас переделываю тренинг пайплайн написаный под тензорфлоу на питоне, там руками имплементировали тренировку многослойной сети. Т.к. не было подходящей библиотеки. Надо сказать тензорфлоу не совсем очевиден и прозрачен, к тому же быстро эволюционирует, так что мозги задействуются по полной.
Интересная задача, но, похоже, что очень простая :D
Сейчас также посматриваю туториалы к этому фреймворку. И у меня уже есть две претензии к гугловцам в связи с изученной теорией и тем, что они делают.
1. Зачем нужны epochs для тренировки глубокой (и не очень) нейронной сети? По-моему, бесполезная вещь, если опираться на теорию ML.
2. Какие преимущества даёт параметр BatchSize? Если интуитивно рассуждать, то он просто акууратность модели портит. Для предсказывания многих результатов, да, полезен, но в туториале его задают даже и на процессе тренировки. Может не совсем профессионалы этот туториал в Гугле составляли?
Если гугловцы есть среди нас, то, пожалуйста, проясните ситуацию.
при чем тут гугловцы, это общие вещи
1. для gradient descent нужно данные прогонять не один раз чтобы модель приблизить к оптимальной. Если Вы стругаете ножичком карандаш то лучше пройти два раза по кругу чтобы получился идеальный конус :)
2. batch size это чтобы сеть не прыгала из крайности в крайность. Должно быть достаточно данных в батче чтобы апдейт сети не разбрасывал её параметры слишком далеко между итерациями. В то же время достаточно маленьким чтобы кол-во итераций тоже было достаточно большим для convergence.
Разумеется если есть неограниченный ресурс памяти и проца то всё это не нужно :)
Аватара пользователя
IvanGrozniy
Уже с Приветом
Сообщения: 10409
Зарегистрирован: Ср фев 04, 2004 8:14 am
Откуда: Edgewater, NJ

Re: IT горячка в Сиэттле, эпизод 2

Сообщение IvanGrozniy »

Dweller писал(а): Вт апр 14, 2020 4:38 pm
IvanGrozniy писал(а): Вт апр 14, 2020 4:04 pm
Dweller писал(а): Вт апр 14, 2020 3:20 pm О, надо же, я как раз щас переделываю тренинг пайплайн написаный под тензорфлоу на питоне, там руками имплементировали тренировку многослойной сети. Т.к. не было подходящей библиотеки. Надо сказать тензорфлоу не совсем очевиден и прозрачен, к тому же быстро эволюционирует, так что мозги задействуются по полной.
Интересная задача, но, похоже, что очень простая :D
Сейчас также посматриваю туториалы к этому фреймворку. И у меня уже есть две претензии к гугловцам в связи с изученной теорией и тем, что они делают.
1. Зачем нужны epochs для тренировки глубокой (и не очень) нейронной сети? По-моему, бесполезная вещь, если опираться на теорию ML.
2. Какие преимущества даёт параметр BatchSize? Если интуитивно рассуждать, то он просто акууратность модели портит. Для предсказывания многих результатов, да, полезен, но в туториале его задают даже и на процессе тренировки. Может не совсем профессионалы этот туториал в Гугле составляли?
Если гугловцы есть среди нас, то, пожалуйста, проясните ситуацию.
при чем тут гугловцы, это общие вещи
1. для gradient descent нужно данные прогонять не один раз чтобы модель приблизить к оптимальной. Если Вы стругаете ножичком карандаш то лучше пройти два раза по кругу чтобы получился идеальный конус :)
2. batch size это чтобы сеть не прыгала из крайности в крайность. Должно быть достаточно данных в батче чтобы апдейт сети не разбрасывал её параметры слишком далеко между итерациями. В то же время достаточно маленьким чтобы кол-во итераций тоже было достаточно большим для convergence.
Разумеется если есть неограниченный ресурс памяти и проца то всё это не нужно :)
1. Вы подразумеваете Number Of Iterations. Epochs - это другое, согласно туториалу. В том же туториале есть это параметр, вроде iterationsNumber
2. Апдейт сети должен проходить на всех примерах из тренировочного сета. Нет смысла "частично" подсчитывать cost function для дальнейшего градиентого спуска. Если уж задан BatchSize, как 32, то проще выбросить все тренировочные примеры и оставить только 32 примера. Как раз с малым параметром BatchSize она и будет прыгать. Так же?
Аватара пользователя
Dweller
Уже с Приветом
Сообщения: 12262
Зарегистрирован: Ср дек 20, 2000 4:01 am
Откуда: Bellevue, WA

Re: IT горячка в Сиэттле, эпизод 2

Сообщение Dweller »

IvanGrozniy писал(а): Вт апр 14, 2020 4:49 pm
Dweller писал(а): Вт апр 14, 2020 4:38 pm
IvanGrozniy писал(а): Вт апр 14, 2020 4:04 pm
Dweller писал(а): Вт апр 14, 2020 3:20 pm О, надо же, я как раз щас переделываю тренинг пайплайн написаный под тензорфлоу на питоне, там руками имплементировали тренировку многослойной сети. Т.к. не было подходящей библиотеки. Надо сказать тензорфлоу не совсем очевиден и прозрачен, к тому же быстро эволюционирует, так что мозги задействуются по полной.
Интересная задача, но, похоже, что очень простая :D
Сейчас также посматриваю туториалы к этому фреймворку. И у меня уже есть две претензии к гугловцам в связи с изученной теорией и тем, что они делают.
1. Зачем нужны epochs для тренировки глубокой (и не очень) нейронной сети? По-моему, бесполезная вещь, если опираться на теорию ML.
2. Какие преимущества даёт параметр BatchSize? Если интуитивно рассуждать, то он просто акууратность модели портит. Для предсказывания многих результатов, да, полезен, но в туториале его задают даже и на процессе тренировки. Может не совсем профессионалы этот туториал в Гугле составляли?
Если гугловцы есть среди нас, то, пожалуйста, проясните ситуацию.
при чем тут гугловцы, это общие вещи
1. для gradient descent нужно данные прогонять не один раз чтобы модель приблизить к оптимальной. Если Вы стругаете ножичком карандаш то лучше пройти два раза по кругу чтобы получился идеальный конус :)
2. batch size это чтобы сеть не прыгала из крайности в крайность. Должно быть достаточно данных в батче чтобы апдейт сети не разбрасывал её параметры слишком далеко между итерациями. В то же время достаточно маленьким чтобы кол-во итераций тоже было достаточно большим для convergence.
Разумеется если есть неограниченный ресурс памяти и проца то всё это не нужно :)
1. Вы подразумеваете Number Of Iterations. Epochs - это другое, согласно туториалу. В том же туториале есть это параметр, вроде iterationsNumber
2. Апдейт сети должен проходить на всех примерах из тренировочного сета. Нет смысла "частично" подсчитывать cost function для дальнейшего градиентого спуска. Если уж задан BatchSize, как 32, то проще выбросить все тренировочные примеры и оставить только 32 примера. Как раз с малым параметром BatchSize она и будет прыгать. Так же?
Это что за туториал такой?
1. Epochs - это сколько раз пропускать весь датасет во время тренинга. Backpropagation делается раз в батч
2. Если апдейтить сеть только после всего датасета то надо уменьшать кол-во этих апдейтов иначе тренинг затянется на годы. Во-первых, cost function будет считаться долго на всем датасете, во вторых сеть не будет сходится за один присест, надо будет все равно много раз прогонять весь датасет.
Все эти танцы с батчами и эпохами как раз для того чтобы ускорить процесс на больших данных. Смысл в том чтобы 1) прогнать все данные больше одного раза, причем каждый раз в новом случайном порядке чтобы от порядка не зависел результат, 2) достаточно маленький батч чтобы быстро итерироваться, и 3) чтобы не прыгать слишком далеко по всему пространству решений нужен достаточно большой батч
Аватара пользователя
M. Ridcully
Уже с Приветом
Сообщения: 12017
Зарегистрирован: Пт сен 08, 2006 3:07 pm
Откуда: Силиконка

Re: IT горячка в Сиэттле, эпизод 2

Сообщение M. Ridcully »

Dweller писал(а): Вт апр 14, 2020 3:20 pm О, надо же, я как раз щас переделываю тренинг пайплайн написаный под тензорфлоу на питоне, там руками имплементировали тренировку многослойной сети. Т.к. не было подходящей библиотеки. Надо сказать тензорфлоу не совсем очевиден и прозрачен, к тому же быстро эволюционирует, так что мозги задействуются по полной.
А до TF с чем были знакомы?
Что думаете по поводу чисто-символьных фреймворков (остались еще такие?) против неких странных-гибридных, которые пытаются запомнить, что делаешь на Питоне и уже по этому построить граф?
Действительно математегам так уж нужна совместивость с numpy, или проще новых математегов сделать?
Мир Украине. Свободу России.
Аватара пользователя
kyk
Уже с Приветом
Сообщения: 31589
Зарегистрирован: Сб ноя 20, 2004 11:12 pm
Откуда: камбуз на кампусе

Re: IT горячка в Сиэттле, эпизод 2

Сообщение kyk »

Кстати, сейчас нанимают для удалённой работы, чистой воды 100%-remote WFH из-за кронавируса. Получается, что для работодателя физическое местонахождение работника, его география не имеет ниакого значения.

Через годик ситуация с короной улучшится, а привычка к 100%-remote WFH останется. Можно покупать дом в дешёвом и удобном месте США, работать удалённо и хрен с этой Калифорнией и NYC.

Более того, и иммиграционный статус может перестать иметь значение. Есть ГК или нет ГК, да вобще под какой пальмой сидит программёр - неважно для 100%-remote WFH.
Лучше переесть, чем недоспать! © Обратное тоже верно :umnik1:
Аватара пользователя
IvanGrozniy
Уже с Приветом
Сообщения: 10409
Зарегистрирован: Ср фев 04, 2004 8:14 am
Откуда: Edgewater, NJ

Re: IT горячка в Сиэттле, эпизод 2

Сообщение IvanGrozniy »

Dweller писал(а): Вт апр 14, 2020 10:26 pm
IvanGrozniy писал(а): Вт апр 14, 2020 4:49 pm
Dweller писал(а): Вт апр 14, 2020 4:38 pm
IvanGrozniy писал(а): Вт апр 14, 2020 4:04 pm
Dweller писал(а): Вт апр 14, 2020 3:20 pm О, надо же, я как раз щас переделываю тренинг пайплайн написаный под тензорфлоу на питоне, там руками имплементировали тренировку многослойной сети. Т.к. не было подходящей библиотеки. Надо сказать тензорфлоу не совсем очевиден и прозрачен, к тому же быстро эволюционирует, так что мозги задействуются по полной.
Интересная задача, но, похоже, что очень простая :D
Сейчас также посматриваю туториалы к этому фреймворку. И у меня уже есть две претензии к гугловцам в связи с изученной теорией и тем, что они делают.
1. Зачем нужны epochs для тренировки глубокой (и не очень) нейронной сети? По-моему, бесполезная вещь, если опираться на теорию ML.
2. Какие преимущества даёт параметр BatchSize? Если интуитивно рассуждать, то он просто акууратность модели портит. Для предсказывания многих результатов, да, полезен, но в туториале его задают даже и на процессе тренировки. Может не совсем профессионалы этот туториал в Гугле составляли?
Если гугловцы есть среди нас, то, пожалуйста, проясните ситуацию.
при чем тут гугловцы, это общие вещи
1. для gradient descent нужно данные прогонять не один раз чтобы модель приблизить к оптимальной. Если Вы стругаете ножичком карандаш то лучше пройти два раза по кругу чтобы получился идеальный конус :)
2. batch size это чтобы сеть не прыгала из крайности в крайность. Должно быть достаточно данных в батче чтобы апдейт сети не разбрасывал её параметры слишком далеко между итерациями. В то же время достаточно маленьким чтобы кол-во итераций тоже было достаточно большим для convergence.
Разумеется если есть неограниченный ресурс памяти и проца то всё это не нужно :)
1. Вы подразумеваете Number Of Iterations. Epochs - это другое, согласно туториалу. В том же туториале есть это параметр, вроде iterationsNumber
2. Апдейт сети должен проходить на всех примерах из тренировочного сета. Нет смысла "частично" подсчитывать cost function для дальнейшего градиентого спуска. Если уж задан BatchSize, как 32, то проще выбросить все тренировочные примеры и оставить только 32 примера. Как раз с малым параметром BatchSize она и будет прыгать. Так же?
Это что за туториал такой?
1. Epochs - это сколько раз пропускать весь датасет во время тренинга. Backpropagation делается раз в батч
2. Если апдейтить сеть только после всего датасета то надо уменьшать кол-во этих апдейтов иначе тренинг затянется на годы. Во-первых, cost function будет считаться долго на всем датасете, во вторых сеть не будет сходится за один присест, надо будет все равно много раз прогонять весь датасет.
Все эти танцы с батчами и эпохами как раз для того чтобы ускорить процесс на больших данных. Смысл в том чтобы 1) прогнать все данные больше одного раза, причем каждый раз в новом случайном порядке чтобы от порядка не зависел результат, 2) достаточно маленький батч чтобы быстро итерироваться, и 3) чтобы не прыгать слишком далеко по всему пространству решений нужен достаточно большой батч
Гуглу нужно больше времени потратить на объяснения. Я так понимаю что если batchsize меньше числа примеров для тренировки модели, то создатели используют теорию и алгоритм так называемого стохастического градиентного спуска. Я эту тему проходил в первой сертификате по ML. В таком методе есть подводные камни. Например, cost function может и не уменьшаться с итерациями при неправильно подобранных гиперпараметрах, типа learning rate. Во-первых, непонятно если мое предположение сейчас верно. Во-вторых, эта вся информация должна быть в документации к этому продукту. Иначе люди в слепую доверяются Гуглу, а косяки модели не заметят сразу.
Физик-Лирик
Уже с Приветом
Сообщения: 5106
Зарегистрирован: Пн окт 18, 2004 8:46 pm

Re: IT горячка в Сиэттле, эпизод 2

Сообщение Физик-Лирик »

kyk писал(а): Ср апр 15, 2020 5:44 am Кстати, сейчас нанимают для удалённой работы, чистой воды 100%-remote WFH из-за кронавируса. Получается, что для работодателя физическое местонахождение работника, его география не имеет ниакого значения.

Через годик ситуация с короной улучшится, а привычка к 100%-remote WFH останется. Можно покупать дом в дешёвом и удобном месте США, работать удалённо и хрен с этой Калифорнией и NYC.

Более того, и иммиграционный статус может перестать иметь значение. Есть ГК или нет ГК, да вобще под какой пальмой сидит программёр - неважно для 100%-remote WFH.
Сейчас нанять по другому и не получится. А вообще предполагается, что сейчас - удаленка, а потом, типа, добро пожаловать к нам.
Аватара пользователя
Dweller
Уже с Приветом
Сообщения: 12262
Зарегистрирован: Ср дек 20, 2000 4:01 am
Откуда: Bellevue, WA

Re: IT горячка в Сиэттле, эпизод 2

Сообщение Dweller »

IvanGrozniy писал(а): Ср апр 15, 2020 7:53 am
Dweller писал(а): Вт апр 14, 2020 10:26 pm
IvanGrozniy писал(а): Вт апр 14, 2020 4:49 pm
Dweller писал(а): Вт апр 14, 2020 4:38 pm
IvanGrozniy писал(а): Вт апр 14, 2020 4:04 pm

Интересная задача, но, похоже, что очень простая :D
Сейчас также посматриваю туториалы к этому фреймворку. И у меня уже есть две претензии к гугловцам в связи с изученной теорией и тем, что они делают.
1. Зачем нужны epochs для тренировки глубокой (и не очень) нейронной сети? По-моему, бесполезная вещь, если опираться на теорию ML.
2. Какие преимущества даёт параметр BatchSize? Если интуитивно рассуждать, то он просто акууратность модели портит. Для предсказывания многих результатов, да, полезен, но в туториале его задают даже и на процессе тренировки. Может не совсем профессионалы этот туториал в Гугле составляли?
Если гугловцы есть среди нас, то, пожалуйста, проясните ситуацию.
при чем тут гугловцы, это общие вещи
1. для gradient descent нужно данные прогонять не один раз чтобы модель приблизить к оптимальной. Если Вы стругаете ножичком карандаш то лучше пройти два раза по кругу чтобы получился идеальный конус :)
2. batch size это чтобы сеть не прыгала из крайности в крайность. Должно быть достаточно данных в батче чтобы апдейт сети не разбрасывал её параметры слишком далеко между итерациями. В то же время достаточно маленьким чтобы кол-во итераций тоже было достаточно большим для convergence.
Разумеется если есть неограниченный ресурс памяти и проца то всё это не нужно :)
1. Вы подразумеваете Number Of Iterations. Epochs - это другое, согласно туториалу. В том же туториале есть это параметр, вроде iterationsNumber
2. Апдейт сети должен проходить на всех примерах из тренировочного сета. Нет смысла "частично" подсчитывать cost function для дальнейшего градиентого спуска. Если уж задан BatchSize, как 32, то проще выбросить все тренировочные примеры и оставить только 32 примера. Как раз с малым параметром BatchSize она и будет прыгать. Так же?
Это что за туториал такой?
1. Epochs - это сколько раз пропускать весь датасет во время тренинга. Backpropagation делается раз в батч
2. Если апдейтить сеть только после всего датасета то надо уменьшать кол-во этих апдейтов иначе тренинг затянется на годы. Во-первых, cost function будет считаться долго на всем датасете, во вторых сеть не будет сходится за один присест, надо будет все равно много раз прогонять весь датасет.
Все эти танцы с батчами и эпохами как раз для того чтобы ускорить процесс на больших данных. Смысл в том чтобы 1) прогнать все данные больше одного раза, причем каждый раз в новом случайном порядке чтобы от порядка не зависел результат, 2) достаточно маленький батч чтобы быстро итерироваться, и 3) чтобы не прыгать слишком далеко по всему пространству решений нужен достаточно большой батч
Гуглу нужно больше времени потратить на объяснения. Я так понимаю что если batchsize меньше числа примеров для тренировки модели, то создатели используют теорию и алгоритм так называемого стохастического градиентного спуска. Я эту тему проходил в первой сертификате по ML. В таком методе есть подводные камни. Например, cost function может и не уменьшаться с итерациями при неправильно подобранных гиперпараметрах, типа learning rate. Во-первых, непонятно если мое предположение сейчас верно. Во-вторых, эта вся информация должна быть в документации к этому продукту. Иначе люди в слепую доверяются Гуглу, а косяки модели не заметят сразу.
ага, все претензии к гуглу
они сделали хорошую библиотеку open source так что все пользуются бесплатно, и еще и должны идеально документировать?
проблемы две: библиотека меняется так быстро что они могут поддерживать только минимальную документацию, плюс предполагается что люди уже получили masters/PhD с уклоном в ML и разбираются во всех тонкостях и им нужно только сухая специфика реализации. Ну на это собственно лучше всего читать исходники, как впрочем во всем остальном.
Их тулзы в клауде тоже плохо документированы, но и там тоже все быстро мутирует и поддерживать документацию разных версий становится непросто
Аватара пользователя
Big W
Уже с Приветом
Сообщения: 920
Зарегистрирован: Пт июн 22, 2007 3:41 pm
Откуда: Santa Rosita

Re: IT горячка в Сиэттле, эпизод 2

Сообщение Big W »

Сабина писал(а): Пн фев 10, 2020 3:03 am Так ML ещё позже взлетел на фоне роста тех же самых big data технологий. Разьве за это платили такие хорошие деньги до того как все вышеперечисленные технологии поперли в гору ?
Вы безусловно вовремя влились в струю и позиция у вас сейчас вкусная ( поздравляю ), но я бы не уменьшала роль инженеров. Наоборот сейчас столько народу поперло в Data Science например что их даже стали сокращать то тут то там. А инженеров по прежнему везде не хватает. Точнее туда прут те самые Пердеши с древним хадупоопытом, если не вообще с голимой Джавой, а latest и greatest по прежнему мало кто знает на деле или вообще умеет
Сорри за запоздалый вопрос, хочу полюбопытствовать, что в данном контексте есть latest и greatest?
Ответить

Вернуться в «Работа и Карьера в IT»