свой hadoop cluster vs public cloud offering

Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

свой hadoop cluster vs public cloud offering

Post by Сабина »

Тоже хочу своими тараканами поделиться как обещала в соседней теме :)
На новом месте у них свой hadoop cluster, а у меня весь опыт в Амазонском EMR. Вот переживаю насколько сложной может быть адаптация.
Я с кишками Хадупа знакома чисто по классам, AWS EMR у нас менеджется девопсами. Конечно лазила сама по инстансам этих EMR кластеров, но ничего особенного с точки зрения skills не заметила, кроме уже имеющегося знания юниксовских систем. UI для мониторинга hadoop jobs, logs и Spark UI конечно тоже пользовала и знаю неплохо.
А что еще надо уметь девелоперу(Java, Scala, Spark) когда работаешь с хадуп кластером, принадлежащим компании ? Как я понимаю AWS очень многие system level вещи делает сам. Надо ли разбираться в конфигурациях - name node, task node, etc и все такое ?
https://www.youtube.com/watch?v=wOwblaKmyVw
shquq
Новичок
Posts: 43
Joined: 26 Feb 2012 19:09

Re: свой hadoop cluster vs public cloud offering

Post by shquq »

А у вас какой дистрибутив? Думаю, что будет полезно, с точки зрения оптимизации процессов и использования ресурсов изучить кишки этого конкретного дистрибутива. Для начала можно книгу прочесть, что-то типа Hadoop, The Definite Guide в последней редакции. Но к администрированию не сильно притрагивайтесь, если вас наняли на девелоперскую позицию, а то заметят и будете постоянно этим заниматься :)

В одном месте мне СЕО сказал, что моя первая задача будет найти аналог AWS, но только не в США или Европе, ибо он переживает за сохранность данных :)
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: свой hadoop cluster vs public cloud offering

Post by Сабина »

shquq wrote: 09 Nov 2017 19:42 В одном месте мне СЕО сказал, что моя первая задача будет найти аналог AWS, но только не в США или Европе, ибо он переживает за сохранность данных :)
Без излишних комментариев :) спрошу тока одно - GCP не пробовали ?
https://www.youtube.com/watch?v=wOwblaKmyVw
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: свой hadoop cluster vs public cloud offering

Post by Сабина »

shquq wrote: 09 Nov 2017 19:42 А у вас какой дистрибутив? Думаю, что будет полезно, с точки зрения оптимизации процессов и использования ресурсов изучить кишки этого конкретного дистрибутива. Для начала можно книгу прочесть, что-то типа Hadoop, The Definite Guide в последней редакции. Но к администрированию не сильно притрагивайтесь, если вас наняли на девелоперскую позицию, а то заметят и будете постоянно этим заниматься :)
Компания вроде немаленькая 5К человек, но в тиме всего 4-го девелоперов. А так да тоже надеюсь что будет кто-то супортить это дело. Мне было чисто интересно с чем народ работает - tools какие то может, orchestration etc. В EMR кластере ведь многое аут оф зе бокс
https://www.youtube.com/watch?v=wOwblaKmyVw
mskmel
Уже с Приветом
Posts: 946
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: свой hadoop cluster vs public cloud offering

Post by mskmel »

Сабина wrote: 09 Nov 2017 21:07В EMR кластере ведь многое аут оф зе бокс
У Вас спросили выше, какой дистрибутив.
От этого и будут зависеть инструменты из коробки.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: свой hadoop cluster vs public cloud offering

Post by Сабина »

mskmel wrote: 10 Nov 2017 22:07
Сабина wrote: 09 Nov 2017 21:07В EMR кластере ведь многое аут оф зе бокс
У Вас спросили выше, какой дистрибутив.
От этого и будут зависеть инструменты из коробки.
Сие увы пока неизвестно. Ну скажем от Клаудеры например.
https://www.youtube.com/watch?v=wOwblaKmyVw
shquq
Новичок
Posts: 43
Joined: 26 Feb 2012 19:09

Re: свой hadoop cluster vs public cloud offering

Post by shquq »

Сабина wrote: 09 Nov 2017 21:04
shquq wrote: 09 Nov 2017 19:42 В одном месте мне СЕО сказал, что моя первая задача будет найти аналог AWS, но только не в США или Европе, ибо он переживает за сохранность данных :)
Без излишних комментариев :) спрошу тока одно - GCP не пробовали ?
Неа :) Тот товарищ сказал, что не хочет американские компании из-за боязни, что придет большой дядя и потребует доступ ко всем данным. :radio%:
shquq
Новичок
Posts: 43
Joined: 26 Feb 2012 19:09

Re: свой hadoop cluster vs public cloud offering

Post by shquq »

Сабина wrote: 09 Nov 2017 21:07
shquq wrote: 09 Nov 2017 19:42 А у вас какой дистрибутив? Думаю, что будет полезно, с точки зрения оптимизации процессов и использования ресурсов изучить кишки этого конкретного дистрибутива. Для начала можно книгу прочесть, что-то типа Hadoop, The Definite Guide в последней редакции. Но к администрированию не сильно притрагивайтесь, если вас наняли на девелоперскую позицию, а то заметят и будете постоянно этим заниматься :)
Компания вроде немаленькая 5К человек, но в тиме всего 4-го девелоперов. А так да тоже надеюсь что будет кто-то супортить это дело. Мне было чисто интересно с чем народ работает - tools какие то может, orchestration etc. В EMR кластере ведь многое аут оф зе бокс
Все инструменты или 100% те же или легко прикручиваемы. Другое дело, что это довольно затратно по времени может быть.
User avatar
John Smith
Уже с Приветом
Posts: 1680
Joined: 04 Oct 2006 23:30
Location: Las Vegas

Re: свой hadoop cluster vs public cloud offering

Post by John Smith »

shquq wrote: 11 Nov 2017 02:44
Сабина wrote: 09 Nov 2017 21:04
shquq wrote: 09 Nov 2017 19:42 В одном месте мне СЕО сказал, что моя первая задача будет найти аналог AWS, но только не в США или Европе, ибо он переживает за сохранность данных :)
Без излишних комментариев :) спрошу тока одно - GCP не пробовали ?
Неа :) Тот товарищ сказал, что не хочет американские компании из-за боязни, что придет большой дядя и потребует доступ ко всем данным. :radio%:
а шифровать данные он не хочет попробовать
от дяди в лице США мне кажется нигде не скроешься
User avatar
АццкоМото
Уже с Приветом
Posts: 15276
Joined: 01 Mar 2007 05:18
Location: VVO->ORD->DFW->SFO->DFW->PDX

Re: свой hadoop cluster vs public cloud offering

Post by АццкоМото »

Шифрование-то чем поможет? Дядя скажет, как зашифровал, так и расшифруешь.
Мат на форуме запрещен, блдж!
User avatar
fruit6
Уже с Приветом
Posts: 4207
Joined: 10 Jan 2004 01:22
Location: n-sk -> MD -> VA

Re: свой hadoop cluster vs public cloud offering

Post by fruit6 »

D0J на днях постановил что шифрование, которое он не может расшифровать, считается "unreasonable".
Могу только спекулировать, что это незамедлительно ведет к ярлыку "террорист/криминал".
User avatar
John Smith
Уже с Приветом
Posts: 1680
Joined: 04 Oct 2006 23:30
Location: Las Vegas

Re: свой hadoop cluster vs public cloud offering

Post by John Smith »

АццкоМото wrote: 11 Nov 2017 05:35 Шифрование-то чем поможет? Дядя скажет, как зашифровал, так и расшифруешь.
против дяди ничего не поможет - но шифрование можеть помочь продлить агонию
помнится была какая-то возня с расшифровкой айфона террористов - дядя в итоге победил, но и возни вроде было тоже немало
User avatar
Sergunka
Уже с Приветом
Posts: 34164
Joined: 03 Dec 2000 10:01
Location: Vladivostok->San Francisco->Los Angeles->San Francisco

Re: свой hadoop cluster vs public cloud offering

Post by Sergunka »

Сабина,

Денег сколько дают на сегодняшнем рынке? Я так понимаю бейз держится между 150-160К + стандартный набор бенефитов.
"A patriot must always be ready to defend his country against his government." Edward Abbey
Falcon
Уже с Приветом
Posts: 775
Joined: 10 May 2003 17:55
Location: Minsk->NJ->PA->CA

Re: свой hadoop cluster vs public cloud offering

Post by Falcon »

John Smith wrote: 11 Nov 2017 05:42
АццкоМото wrote: 11 Nov 2017 05:35 Шифрование-то чем поможет? Дядя скажет, как зашифровал, так и расшифруешь.
против дяди ничего не поможет - но шифрование можеть помочь продлить агонию
помнится была какая-то возня с расшифровкой айфона террористов - дядя в итоге победил, но и возни вроде было тоже немало
Дядя вроде как по легальным каналам ничего добиться не смог. Использовали hardware exploit.
iDesperado
Уже с Приветом
Posts: 1349
Joined: 28 Nov 2008 17:50

Re: свой hadoop cluster vs public cloud offering

Post by iDesperado »

у нас хадуп от клоудеры, со спарком там засада. во первых там какие-то мутные и кастрированные клоудеровские сборки, не чистый спарк. вырезана spark-sql утилита, не знаю было ли что-то такое у AWS. во вторых не понятно как запускать спарк джобы под единым контекстом. есть какие-то полуфабрикаты типа spark-jobserver и livy но не выглядит что этот хлам кто-то в серьез использует.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: свой hadoop cluster vs public cloud offering

Post by Сабина »

Sergunka wrote: 11 Nov 2017 20:34 Сабина,

Денег сколько дают на сегодняшнем рынке? Я так понимаю бейз держится между 150-160К + стандартный набор бенефитов.
Все очень depends от компании

160K - средний бейз для синьора, если отбросить гуглояблоки и отдельные процветающие стартапы. Собственно даже и это не совсем так. Может очень зависеть от того как пройдешь интервью. Была пара мест где все интервью прошла, но они потом передумали, как мне обьяснили потому что прошу больше их бюджета. Последнее я вообще не поняла, с рекрутером вроде было заранее оговорено. :pain1: И еще мне показалось что сейчас все строят даталейки и некоторые приглашают на интервью людей с опытом чисто послушать :%)

"Стандартный набор бенефитов" - он уже не существует как таковой. Где то есть РСУ, где то нет, то же самое с бонусом. Где то страховка по 200 на семью с пейчека, где то по 500. Куда то надо 300 в месяц дополнительно тратить на комьют, где то не надо. В общем all over the place

Главное не привирать, я сейчас получила документ с бэкграунд чек и офигела. Они там не просто зарплату до копейки выверяют, мне в одном месте написали что у меня дискрепанси потому что я job start date на месяц позже написала. Пипец !
https://www.youtube.com/watch?v=wOwblaKmyVw
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: свой hadoop cluster vs public cloud offering

Post by Сабина »

iDesperado wrote: 15 Nov 2017 14:43 у нас хадуп от клоудеры, со спарком там засада. во первых там какие-то мутные и кастрированные клоудеровские сборки, не чистый спарк. вырезана spark-sql утилита, не знаю было ли что-то такое у AWS. во вторых не понятно как запускать спарк джобы под единым контекстом. есть какие-то полуфабрикаты типа spark-jobserver и livy но не выглядит что этот хлам кто-то в серьез использует.
Вот я как сердцем чувствовала :sadcry: правда стараюсь и тут (еще не ушла) кодировать избегая spark-sql где можно.
С AWS засада в том смысле что у них мотто такое подсаживать народ на tools. У нас старички доскональные ушли, пришла прыткая молодежь и наплодили - работу делают в ноутбуках и AWS Glue, у меня волосы дыбом от этого ужаса 8O
Сижу как Павлик Морозов пишу все по своему с минимальной зависимостью от всех этих рюшечек. Но блин чувствую свой голый хадуп кластер - будет то еще испытание в смысле learning curve
https://www.youtube.com/watch?v=wOwblaKmyVw
iDesperado
Уже с Приветом
Posts: 1349
Joined: 28 Nov 2008 17:50

Re: свой hadoop cluster vs public cloud offering

Post by iDesperado »

Сабина wrote: 15 Nov 2017 19:31 Вот я как сердцем чувствовала :sadcry: правда стараюсь и тут (еще не ушла) кодировать избегая spark-sql где можно.
С AWS засада в том смысле что у них мотто такое подсаживать народ на tools. У нас старички доскональные ушли, пришла прыткая молодежь и наплодили - работу делают в ноутбуках и AWS Glue, у меня волосы дыбом от этого ужаса 8O
Сижу как Павлик Морозов пишу все по своему с минимальной зависимостью от всех этих рюшечек. Но блин чувствую свой голый хадуп кластер - будет то еще испытание в смысле learning curve
ну я бы тоже на AWS не подписался ни за какие коврижки. это же классический вендор лок. я понимаю, что первые дозы бесплатны, но чем это кончается же все знают.
ноутбук на клоудере я смотрел apache zepelline, в полне похож был на тот что у databricks, обычный ETL тоже думаю не проблема прикрутить, благо их дружащих с хадупами полно. вот что то свое мудреное не понятно как запускать, что бы spark context единый был на все поступающие джобы. нормальных гвайдов так и не нашел.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: свой hadoop cluster vs public cloud offering

Post by Сабина »

iDesperado wrote: 15 Nov 2017 19:57 ну я бы тоже на AWS не подписался ни за какие коврижки. это же классический вендор лок. я понимаю, что первые дозы бесплатны, но чем это кончается же все знают.
ноутбук на клоудере я смотрел apache zepelline, в полне похож был на тот что у databricks, обычный ETL тоже думаю не проблема прикрутить, благо их дружащих с хадупами полно. вот что то свое мудреное не понятно как запускать, что бы spark context единый был на все поступающие джобы. нормальных гвайдов так и не нашел.
Это depends, многие успешно в AWS и делают все vendor independent по макимуму, just sticking to EC2 instances and EMR cluster
Ноутбук хорош быренько прогнать что-то и глянуть, я не понимаю новеньких, котрые там всю работу делают не вылазя, собственно одна из причин почему решила move on. Насчет спарковского контекста, я просто пишу так чтобы можно было один и тот же код запускать с лаптопа и как spark-submit job c дженкинс и чтобы все было конфигурируемое. А зачем вам один контекст на все джобы ? Чисто какие env settings пошерить ? Сделайте эти джобы в Дженкинсе и пусть общая часть конфигурации передаются из дженкинс settings.
https://www.youtube.com/watch?v=wOwblaKmyVw
iDesperado
Уже с Приветом
Posts: 1349
Joined: 28 Nov 2008 17:50

Re: свой hadoop cluster vs public cloud offering

Post by iDesperado »

Сабина wrote: 15 Nov 2017 21:20 Это depends, многие успешно в AWS и делают все vendor independent по макимуму, just sticking to EC2 instances and EMR cluster
на мой вкус тоже странный подход - в итоге это минусы обоих миров: сам содержишь админов и при этом еще и за железки переплачиваешь. пюс ограничения юридического характера. посмотрим, может в результате на сервисы спарк какой стандарт выдумают и все его примут, как приняли amazon S3.
Сабина wrote: 15 Nov 2017 21:20 А зачем вам один контекст на все джобы ? Чисто какие env settings пошерить ? Сделайте эти джобы в Дженкинсе и пусть общая часть конфигурации передаются из дженкинс settings.
что бы иметь доступ к основным датасетам в памяти, а не вычитывать терабайты каждым джобом. как эти ноутбуки, они то один контекст поднимают для всех пользователей. интересно, что столь принципиальная штука в лит-ре вообще не освещается.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: свой hadoop cluster vs public cloud offering

Post by Сабина »

iDesperado wrote: 15 Nov 2017 22:30 что бы иметь доступ к основным датасетам в памяти, а не вычитывать терабайты каждым джобом. как эти ноутбуки, они то один контекст поднимают для всех пользователей. интересно, что столь принципиальная штука в лит-ре вообще не освещается.
Ой расскажите как это! Это же только map stage можно пошерить как я понимаю ?
Хотя не обязательно, зависит как и что map
Last edited by Сабина on 15 Nov 2017 22:36, edited 1 time in total.
https://www.youtube.com/watch?v=wOwblaKmyVw
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: свой hadoop cluster vs public cloud offering

Post by Сабина »

iDesperado wrote: 15 Nov 2017 22:30 на мой вкус тоже странный подход - в итоге это минусы обоих миров: сам содержишь админов и при этом еще и за железки переплачиваешь. пюс ограничения юридического характера. посмотрим, может в результате на сервисы спарк какой стандарт выдумают и все его примут, как приняли amazon S3.
Насчет переплачивать не совсем согласна. Ну разьве что если бездумно подписаться на сервис и не задумываться о рентабельности. А если подойти с умом: leverage spot instance и еще миллион всяких трюков как сэкономить на AWS применить - то вроде бы общеизвестный факт что дешевле чем свои железяки держать
https://www.youtube.com/watch?v=wOwblaKmyVw
iDesperado
Уже с Приветом
Posts: 1349
Joined: 28 Nov 2008 17:50

Re: свой hadoop cluster vs public cloud offering

Post by iDesperado »

Сабина wrote: 15 Nov 2017 22:33 Ой расскажите как это! Это же только map stage можно пошерить как я понимаю ?
spark-submit в режиме yarn client стартует "driver program" там живет контекст. в треде1 созадем стрим датасет1, в который из кафки агрегаты считает. пришел запрос, в треде2 запускаем еще один джоб с тем же конткстом, там читаем датасет1 + еще что-то.

по цене, наверно задачи разные. но у нас нечто типа даталейка, кластер маленький. он всегда, что импортирет и пересчитывает. нагрузка может лишь упасть до 100% :)
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: свой hadoop cluster vs public cloud offering

Post by Сабина »

iDesperado wrote: 15 Nov 2017 22:56
Сабина wrote: 15 Nov 2017 22:33 Ой расскажите как это! Это же только map stage можно пошерить как я понимаю ?
spark-submit в режиме yarn client стартует "driver program" там живет контекст. в треде1 созадем стрим датасет1, в который из кафки агрегаты считает. пришел запрос, в треде2 запускаем еще один джоб с тем же конткстом, там читаем датасет1 + еще что-то.

по цене, наверно задачи разные. но у нас нечто типа даталейка, кластер маленький. он всегда, что импортирет и пересчитывает. нагрузка может лишь упасть до 100% :)
Cпасибо, не знала что так делают. У нас каждый spark submit job работает с одним источником данных (s3 bucket), "driver program" прикидывает что к чему, какие будут нужны ресурсы, потом скока надо экзекьюторов колбасят (partitioning + auto-scaling), возвращают результат и все контекст умирает.
https://www.youtube.com/watch?v=wOwblaKmyVw
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: свой hadoop cluster vs public cloud offering

Post by Сабина »

iDesperado wrote: 15 Nov 2017 19:57 вот что то свое мудреное не понятно как запускать, что бы spark context единый был на все поступающие джобы. нормальных гвайдов так и не нашел.
А вот такое что-то нельзя использовать ?

https://github.com/spark-jobserver/spar ... lated-jobs
https://www.youtube.com/watch?v=wOwblaKmyVw

Return to “Работа и Карьера в IT”