свой hadoop cluster vs public cloud offering
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
свой hadoop cluster vs public cloud offering
Тоже хочу своими тараканами поделиться как обещала в соседней теме
На новом месте у них свой hadoop cluster, а у меня весь опыт в Амазонском EMR. Вот переживаю насколько сложной может быть адаптация.
Я с кишками Хадупа знакома чисто по классам, AWS EMR у нас менеджется девопсами. Конечно лазила сама по инстансам этих EMR кластеров, но ничего особенного с точки зрения skills не заметила, кроме уже имеющегося знания юниксовских систем. UI для мониторинга hadoop jobs, logs и Spark UI конечно тоже пользовала и знаю неплохо.
А что еще надо уметь девелоперу(Java, Scala, Spark) когда работаешь с хадуп кластером, принадлежащим компании ? Как я понимаю AWS очень многие system level вещи делает сам. Надо ли разбираться в конфигурациях - name node, task node, etc и все такое ?
На новом месте у них свой hadoop cluster, а у меня весь опыт в Амазонском EMR. Вот переживаю насколько сложной может быть адаптация.
Я с кишками Хадупа знакома чисто по классам, AWS EMR у нас менеджется девопсами. Конечно лазила сама по инстансам этих EMR кластеров, но ничего особенного с точки зрения skills не заметила, кроме уже имеющегося знания юниксовских систем. UI для мониторинга hadoop jobs, logs и Spark UI конечно тоже пользовала и знаю неплохо.
А что еще надо уметь девелоперу(Java, Scala, Spark) когда работаешь с хадуп кластером, принадлежащим компании ? Как я понимаю AWS очень многие system level вещи делает сам. Надо ли разбираться в конфигурациях - name node, task node, etc и все такое ?
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Новичок
- Posts: 43
- Joined: 26 Feb 2012 19:09
Re: свой hadoop cluster vs public cloud offering
А у вас какой дистрибутив? Думаю, что будет полезно, с точки зрения оптимизации процессов и использования ресурсов изучить кишки этого конкретного дистрибутива. Для начала можно книгу прочесть, что-то типа Hadoop, The Definite Guide в последней редакции. Но к администрированию не сильно притрагивайтесь, если вас наняли на девелоперскую позицию, а то заметят и будете постоянно этим заниматься
В одном месте мне СЕО сказал, что моя первая задача будет найти аналог AWS, но только не в США или Европе, ибо он переживает за сохранность данных
В одном месте мне СЕО сказал, что моя первая задача будет найти аналог AWS, но только не в США или Европе, ибо он переживает за сохранность данных
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: свой hadoop cluster vs public cloud offering
Без излишних комментариев спрошу тока одно - GCP не пробовали ?
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: свой hadoop cluster vs public cloud offering
Компания вроде немаленькая 5К человек, но в тиме всего 4-го девелоперов. А так да тоже надеюсь что будет кто-то супортить это дело. Мне было чисто интересно с чем народ работает - tools какие то может, orchestration etc. В EMR кластере ведь многое аут оф зе боксshquq wrote: ↑09 Nov 2017 19:42 А у вас какой дистрибутив? Думаю, что будет полезно, с точки зрения оптимизации процессов и использования ресурсов изучить кишки этого конкретного дистрибутива. Для начала можно книгу прочесть, что-то типа Hadoop, The Definite Guide в последней редакции. Но к администрированию не сильно притрагивайтесь, если вас наняли на девелоперскую позицию, а то заметят и будете постоянно этим заниматься
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 946
- Joined: 24 Sep 2013 05:58
- Location: US\GA
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: свой hadoop cluster vs public cloud offering
Сие увы пока неизвестно. Ну скажем от Клаудеры например.
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Новичок
- Posts: 43
- Joined: 26 Feb 2012 19:09
Re: свой hadoop cluster vs public cloud offering
Неа Тот товарищ сказал, что не хочет американские компании из-за боязни, что придет большой дядя и потребует доступ ко всем данным.
-
- Новичок
- Posts: 43
- Joined: 26 Feb 2012 19:09
Re: свой hadoop cluster vs public cloud offering
Все инструменты или 100% те же или легко прикручиваемы. Другое дело, что это довольно затратно по времени может быть.Сабина wrote: ↑09 Nov 2017 21:07Компания вроде немаленькая 5К человек, но в тиме всего 4-го девелоперов. А так да тоже надеюсь что будет кто-то супортить это дело. Мне было чисто интересно с чем народ работает - tools какие то может, orchestration etc. В EMR кластере ведь многое аут оф зе боксshquq wrote: ↑09 Nov 2017 19:42 А у вас какой дистрибутив? Думаю, что будет полезно, с точки зрения оптимизации процессов и использования ресурсов изучить кишки этого конкретного дистрибутива. Для начала можно книгу прочесть, что-то типа Hadoop, The Definite Guide в последней редакции. Но к администрированию не сильно притрагивайтесь, если вас наняли на девелоперскую позицию, а то заметят и будете постоянно этим заниматься
-
- Уже с Приветом
- Posts: 1680
- Joined: 04 Oct 2006 23:30
- Location: Las Vegas
Re: свой hadoop cluster vs public cloud offering
-
- Уже с Приветом
- Posts: 15276
- Joined: 01 Mar 2007 05:18
- Location: VVO->ORD->DFW->SFO->DFW->PDX
Re: свой hadoop cluster vs public cloud offering
Шифрование-то чем поможет? Дядя скажет, как зашифровал, так и расшифруешь.
Мат на форуме запрещен, блдж!
-
- Уже с Приветом
- Posts: 4207
- Joined: 10 Jan 2004 01:22
- Location: n-sk -> MD -> VA
Re: свой hadoop cluster vs public cloud offering
D0J на днях постановил что шифрование, которое он не может расшифровать, считается "unreasonable".
Могу только спекулировать, что это незамедлительно ведет к ярлыку "террорист/криминал".
Могу только спекулировать, что это незамедлительно ведет к ярлыку "террорист/криминал".
-
- Уже с Приветом
- Posts: 1680
- Joined: 04 Oct 2006 23:30
- Location: Las Vegas
Re: свой hadoop cluster vs public cloud offering
против дяди ничего не поможет - но шифрование можеть помочь продлить агонию
помнится была какая-то возня с расшифровкой айфона террористов - дядя в итоге победил, но и возни вроде было тоже немало
-
- Уже с Приветом
- Posts: 34164
- Joined: 03 Dec 2000 10:01
- Location: Vladivostok->San Francisco->Los Angeles->San Francisco
Re: свой hadoop cluster vs public cloud offering
Сабина,
Денег сколько дают на сегодняшнем рынке? Я так понимаю бейз держится между 150-160К + стандартный набор бенефитов.
Денег сколько дают на сегодняшнем рынке? Я так понимаю бейз держится между 150-160К + стандартный набор бенефитов.
"A patriot must always be ready to defend his country against his government." Edward Abbey
-
- Уже с Приветом
- Posts: 775
- Joined: 10 May 2003 17:55
- Location: Minsk->NJ->PA->CA
Re: свой hadoop cluster vs public cloud offering
Дядя вроде как по легальным каналам ничего добиться не смог. Использовали hardware exploit.John Smith wrote: ↑11 Nov 2017 05:42против дяди ничего не поможет - но шифрование можеть помочь продлить агонию
помнится была какая-то возня с расшифровкой айфона террористов - дядя в итоге победил, но и возни вроде было тоже немало
-
- Уже с Приветом
- Posts: 1349
- Joined: 28 Nov 2008 17:50
Re: свой hadoop cluster vs public cloud offering
у нас хадуп от клоудеры, со спарком там засада. во первых там какие-то мутные и кастрированные клоудеровские сборки, не чистый спарк. вырезана spark-sql утилита, не знаю было ли что-то такое у AWS. во вторых не понятно как запускать спарк джобы под единым контекстом. есть какие-то полуфабрикаты типа spark-jobserver и livy но не выглядит что этот хлам кто-то в серьез использует.
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: свой hadoop cluster vs public cloud offering
Все очень depends от компании
160K - средний бейз для синьора, если отбросить гуглояблоки и отдельные процветающие стартапы. Собственно даже и это не совсем так. Может очень зависеть от того как пройдешь интервью. Была пара мест где все интервью прошла, но они потом передумали, как мне обьяснили потому что прошу больше их бюджета. Последнее я вообще не поняла, с рекрутером вроде было заранее оговорено. И еще мне показалось что сейчас все строят даталейки и некоторые приглашают на интервью людей с опытом чисто послушать
"Стандартный набор бенефитов" - он уже не существует как таковой. Где то есть РСУ, где то нет, то же самое с бонусом. Где то страховка по 200 на семью с пейчека, где то по 500. Куда то надо 300 в месяц дополнительно тратить на комьют, где то не надо. В общем all over the place
Главное не привирать, я сейчас получила документ с бэкграунд чек и офигела. Они там не просто зарплату до копейки выверяют, мне в одном месте написали что у меня дискрепанси потому что я job start date на месяц позже написала. Пипец !
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: свой hadoop cluster vs public cloud offering
Вот я как сердцем чувствовала правда стараюсь и тут (еще не ушла) кодировать избегая spark-sql где можно.iDesperado wrote: ↑15 Nov 2017 14:43 у нас хадуп от клоудеры, со спарком там засада. во первых там какие-то мутные и кастрированные клоудеровские сборки, не чистый спарк. вырезана spark-sql утилита, не знаю было ли что-то такое у AWS. во вторых не понятно как запускать спарк джобы под единым контекстом. есть какие-то полуфабрикаты типа spark-jobserver и livy но не выглядит что этот хлам кто-то в серьез использует.
С AWS засада в том смысле что у них мотто такое подсаживать народ на tools. У нас старички доскональные ушли, пришла прыткая молодежь и наплодили - работу делают в ноутбуках и AWS Glue, у меня волосы дыбом от этого ужаса
Сижу как Павлик Морозов пишу все по своему с минимальной зависимостью от всех этих рюшечек. Но блин чувствую свой голый хадуп кластер - будет то еще испытание в смысле learning curve
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 1349
- Joined: 28 Nov 2008 17:50
Re: свой hadoop cluster vs public cloud offering
ну я бы тоже на AWS не подписался ни за какие коврижки. это же классический вендор лок. я понимаю, что первые дозы бесплатны, но чем это кончается же все знают.Сабина wrote: ↑15 Nov 2017 19:31 Вот я как сердцем чувствовала правда стараюсь и тут (еще не ушла) кодировать избегая spark-sql где можно.
С AWS засада в том смысле что у них мотто такое подсаживать народ на tools. У нас старички доскональные ушли, пришла прыткая молодежь и наплодили - работу делают в ноутбуках и AWS Glue, у меня волосы дыбом от этого ужаса
Сижу как Павлик Морозов пишу все по своему с минимальной зависимостью от всех этих рюшечек. Но блин чувствую свой голый хадуп кластер - будет то еще испытание в смысле learning curve
ноутбук на клоудере я смотрел apache zepelline, в полне похож был на тот что у databricks, обычный ETL тоже думаю не проблема прикрутить, благо их дружащих с хадупами полно. вот что то свое мудреное не понятно как запускать, что бы spark context единый был на все поступающие джобы. нормальных гвайдов так и не нашел.
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: свой hadoop cluster vs public cloud offering
Это depends, многие успешно в AWS и делают все vendor independent по макимуму, just sticking to EC2 instances and EMR clusteriDesperado wrote: ↑15 Nov 2017 19:57 ну я бы тоже на AWS не подписался ни за какие коврижки. это же классический вендор лок. я понимаю, что первые дозы бесплатны, но чем это кончается же все знают.
ноутбук на клоудере я смотрел apache zepelline, в полне похож был на тот что у databricks, обычный ETL тоже думаю не проблема прикрутить, благо их дружащих с хадупами полно. вот что то свое мудреное не понятно как запускать, что бы spark context единый был на все поступающие джобы. нормальных гвайдов так и не нашел.
Ноутбук хорош быренько прогнать что-то и глянуть, я не понимаю новеньких, котрые там всю работу делают не вылазя, собственно одна из причин почему решила move on. Насчет спарковского контекста, я просто пишу так чтобы можно было один и тот же код запускать с лаптопа и как spark-submit job c дженкинс и чтобы все было конфигурируемое. А зачем вам один контекст на все джобы ? Чисто какие env settings пошерить ? Сделайте эти джобы в Дженкинсе и пусть общая часть конфигурации передаются из дженкинс settings.
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 1349
- Joined: 28 Nov 2008 17:50
Re: свой hadoop cluster vs public cloud offering
на мой вкус тоже странный подход - в итоге это минусы обоих миров: сам содержишь админов и при этом еще и за железки переплачиваешь. пюс ограничения юридического характера. посмотрим, может в результате на сервисы спарк какой стандарт выдумают и все его примут, как приняли amazon S3.
что бы иметь доступ к основным датасетам в памяти, а не вычитывать терабайты каждым джобом. как эти ноутбуки, они то один контекст поднимают для всех пользователей. интересно, что столь принципиальная штука в лит-ре вообще не освещается.
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: свой hadoop cluster vs public cloud offering
Ой расскажите как это! Это же только map stage можно пошерить как я понимаю ?iDesperado wrote: ↑15 Nov 2017 22:30 что бы иметь доступ к основным датасетам в памяти, а не вычитывать терабайты каждым джобом. как эти ноутбуки, они то один контекст поднимают для всех пользователей. интересно, что столь принципиальная штука в лит-ре вообще не освещается.
Хотя не обязательно, зависит как и что map
Last edited by Сабина on 15 Nov 2017 22:36, edited 1 time in total.
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: свой hadoop cluster vs public cloud offering
Насчет переплачивать не совсем согласна. Ну разьве что если бездумно подписаться на сервис и не задумываться о рентабельности. А если подойти с умом: leverage spot instance и еще миллион всяких трюков как сэкономить на AWS применить - то вроде бы общеизвестный факт что дешевле чем свои железяки держатьiDesperado wrote: ↑15 Nov 2017 22:30 на мой вкус тоже странный подход - в итоге это минусы обоих миров: сам содержишь админов и при этом еще и за железки переплачиваешь. пюс ограничения юридического характера. посмотрим, может в результате на сервисы спарк какой стандарт выдумают и все его примут, как приняли amazon S3.
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 1349
- Joined: 28 Nov 2008 17:50
Re: свой hadoop cluster vs public cloud offering
spark-submit в режиме yarn client стартует "driver program" там живет контекст. в треде1 созадем стрим датасет1, в который из кафки агрегаты считает. пришел запрос, в треде2 запускаем еще один джоб с тем же конткстом, там читаем датасет1 + еще что-то.
по цене, наверно задачи разные. но у нас нечто типа даталейка, кластер маленький. он всегда, что импортирет и пересчитывает. нагрузка может лишь упасть до 100%
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: свой hadoop cluster vs public cloud offering
Cпасибо, не знала что так делают. У нас каждый spark submit job работает с одним источником данных (s3 bucket), "driver program" прикидывает что к чему, какие будут нужны ресурсы, потом скока надо экзекьюторов колбасят (partitioning + auto-scaling), возвращают результат и все контекст умирает.iDesperado wrote: ↑15 Nov 2017 22:56spark-submit в режиме yarn client стартует "driver program" там живет контекст. в треде1 созадем стрим датасет1, в который из кафки агрегаты считает. пришел запрос, в треде2 запускаем еще один джоб с тем же конткстом, там читаем датасет1 + еще что-то.
по цене, наверно задачи разные. но у нас нечто типа даталейка, кластер маленький. он всегда, что импортирет и пересчитывает. нагрузка может лишь упасть до 100%
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: свой hadoop cluster vs public cloud offering
А вот такое что-то нельзя использовать ?iDesperado wrote: ↑15 Nov 2017 19:57 вот что то свое мудреное не понятно как запускать, что бы spark context единый был на все поступающие джобы. нормальных гвайдов так и не нашел.
https://github.com/spark-jobserver/spar ... lated-jobs
https://www.youtube.com/watch?v=wOwblaKmyVw