Яндекс Лабс в Palo Alto набирает С++ developers

User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by crypto5 »

Интеррапт wrote:
crypto5 wrote:
Интеррапт wrote:А еще вопрос - список хоть отсортирован, уже хеширован и т.п.? Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?
А что такое - хешированный список? :radio%:
Не список хеширован, а элементы в нем. По большому счету, должны же они сразу хеш запроса (записи) калькулировать, как это делают обычные базы данных при индексации, а не просто тупо сохранять миллиарды записей в файл, а потом с ними манипулировать.
Ну вот в разных хадупах так и делают, просто сохраняют записи в файлах, и потом их мепредьюсят, без всяких хешей.
In vino Veritas!
User avatar
Интеррапт
Уже с Приветом
Posts: 17281
Joined: 07 Sep 2011 10:05
Location: Seattle, WA

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by Интеррапт »

crypto5 wrote:Ну вот в разных хадупах так и делают, просто сохраняют записи в файлах, и потом их мепредьюсят, без всяких хешей.
Начал уже было про mapreduce писать, но вы опеределили. Все-равно массу прекалькуляций наверняка можно сделать на этапе получения данных.
scorpion
Уже с Приветом
Posts: 3435
Joined: 16 Dec 2003 06:23
Location: SF Bay Area

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by scorpion »

Интеррапт wrote:Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?
Манипуляции проделываются, но не совсем в реальном времени, т.е. можно считать, что все валится в кучу.
User avatar
Komissar
Уже с Приветом
Posts: 64875
Joined: 12 Jul 2002 16:38
Location: г.Москва, ул. Б. Лубянка, д.2

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by Komissar »

ну тут, как всегда, вопрос в востребованности хешированных данных. На этом вся БЫГ ДАТА и построена, что, как оказалось, вся data integrity, indexing, etc - в 99% никому не нужны, потому все проще сваливать в одну помойку, а уж если потребуется, потом в той помойке что-то конкретное искать. Я вот все хочу такое же применить к моим tax-supporting documents.
User avatar
Интеррапт
Уже с Приветом
Posts: 17281
Joined: 07 Sep 2011 10:05
Location: Seattle, WA

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by Интеррапт »

scorpion wrote:
Интеррапт wrote:Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?
Манипуляции проделываются, но не совсем в реальном времени, т.е. можно считать, что все валится в кучу.
Да понятное дело, что можно манипулировать как угодно, пусть даже не в реальном времени. Но определенный препроцессинг можно делать уже на этапе получения данных (пусть даже определенными бакетами). Ну вот вряд-ли просто тупо выкатят тебе миллиарды записей и скажут, а ну посчитай что тут и как. Умнее же должно это быть.
User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by crypto5 »

Интеррапт wrote:
scorpion wrote:
Интеррапт wrote:Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?
Манипуляции проделываются, но не совсем в реальном времени, т.е. можно считать, что все валится в кучу.
Да понятное дело, что можно манипулировать как угодно, пусть даже не в реальном времени. Но определенный препроцессинг можно делать уже на этапе получения данных (пусть даже определенными бакетами). Ну вот вряд-ли просто тупо выкатят тебе миллиарды элементов и скажут, а ну посчитай что тут и как. Умнее же должно это быть.
Ну Ок, а какой бы хеш/индекс вам бы помог в этой задаче?
In vino Veritas!
Berlaga
Уже с Приветом
Posts: 1008
Joined: 24 Mar 2010 21:14
Location: SFBA

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by Berlaga »

stenking wrote:А если случайно взять скажем миллион samples?
Bingo! Именно этот ответ и ожидался.
User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by crypto5 »

Berlaga wrote:
stenking wrote:А если случайно взять скажем миллион samples?
Bingo! Именно этот ответ и ожидался.
Задача из серии - угадай что у меня в кармане ))
In vino Veritas!
User avatar
Интеррапт
Уже с Приветом
Posts: 17281
Joined: 07 Sep 2011 10:05
Location: Seattle, WA

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by Интеррапт »

crypto5 wrote:
Berlaga wrote:
stenking wrote:А если случайно взять скажем миллион samples?
Bingo! Именно этот ответ и ожидался.
Задача из серии - угадай что у меня в кармане ))
Мда... Если все такие интервью - поиграть в угадайку, то спасибо, не нужно :)
scorpion
Уже с Приветом
Posts: 3435
Joined: 16 Dec 2003 06:23
Location: SF Bay Area

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by scorpion »

Komissar wrote:На этом вся БЫГ ДАТА и построена, что, как оказалось, вся data integrity, indexing, etc - в 99% никому не нужны, потому все проще сваливать в одну помойку, а уж если потребуется, потом в той помойке что-то конкретное искать.
Очень даже хочется все сразу считать и быстренько собирать, чтобы, например, autocomplete был супер свежий, т.е. если толпа ломанула и все начали искать ПОЧЕМУНУЖНЫТРУСЫ, то пишуший во второй, например, дюжине ПОЧЕМУНУЖНЫ уже должен видеть подсказку о трусах :-)
Berlaga
Уже с Приветом
Posts: 1008
Joined: 24 Mar 2010 21:14
Location: SFBA

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by Berlaga »

Почему в угадайку? Вполне логичный ответ.

Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
User avatar
Ljolja
Уже с Приветом
Posts: 2924
Joined: 01 Apr 2004 04:22

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by Ljolja »

Интеррапт wrote:А еще вопрос - список хоть отсортирован, уже хеширован и т.п.? Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?
может они их совсем не хранят, запрос сразу поступает в обработчик и в последуюшем хранится только некот. х характеризуюший запрос, возможно по х даже запрос 100% не восстанавливается
Я боюсь, что наступит день, когда технологии превзойдут простое человеческое обшение. И мир получит поколение идиотов (c)
User avatar
Интеррапт
Уже с Приветом
Posts: 17281
Joined: 07 Sep 2011 10:05
Location: Seattle, WA

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by Интеррапт »

crypto5 wrote:Ну Ок, а какой бы хеш/индекс вам бы помог в этой задаче?
Например, хранить хештаблицу со счетчиком. Каждый раз когда поступает новый запрос, то он хешируется, идет поиск по хешу (условно - большая хеш таблица) и счетчик запросов для этого хеша увеличивается. Если счетчик достаточно большйо, чтобы попасть в топ 10 самых больших счетчиков - то в эту top 10 таблицу помещается запрос.
User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by crypto5 »

Berlaga wrote:Почему в угадайку? Вполне логичный ответ.

Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
Вполне логичный, только например если в датасете окажется скажем 20 запросов с разбросом в 50%, но их общая share будет меньше скажем 0.1%, такой подход уже будет работать с большой погрешностью, и он не выдаст именно 10 самых частых запросов.
In vino Veritas!
User avatar
stenking
Уже с Приветом
Posts: 14455
Joined: 26 May 2006 02:39

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by stenking »

crypto5 wrote:
Berlaga wrote:
stenking wrote:А если случайно взять скажем миллион samples?
Bingo! Именно этот ответ и ожидался.
Задача из серии - угадай что у меня в кармане ))
Нормальная задача. Теория вероятности на нашей стороне. Ключи, кошелёк и телефон )
Бога нет.

Return to “Работа и Карьера в IT”