Ну вот в разных хадупах так и делают, просто сохраняют записи в файлах, и потом их мепредьюсят, без всяких хешей.Интеррапт wrote:Не список хеширован, а элементы в нем. По большому счету, должны же они сразу хеш запроса (записи) калькулировать, как это делают обычные базы данных при индексации, а не просто тупо сохранять миллиарды записей в файл, а потом с ними манипулировать.crypto5 wrote:А что такое - хешированный список?Интеррапт wrote:А еще вопрос - список хоть отсортирован, уже хеширован и т.п.? Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?
Яндекс Лабс в Palo Alto набирает С++ developers
-
- Уже с Приветом
- Posts: 4637
- Joined: 24 Oct 2009 01:38
- Location: Chicago ;-) -> SFBA!
Re: Яндекс Лабс в Palo Alto набирает С++ developers
In vino Veritas!
-
- Уже с Приветом
- Posts: 17281
- Joined: 07 Sep 2011 10:05
- Location: Seattle, WA
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Начал уже было про mapreduce писать, но вы опеределили. Все-равно массу прекалькуляций наверняка можно сделать на этапе получения данных.crypto5 wrote:Ну вот в разных хадупах так и делают, просто сохраняют записи в файлах, и потом их мепредьюсят, без всяких хешей.
-
- Уже с Приветом
- Posts: 3435
- Joined: 16 Dec 2003 06:23
- Location: SF Bay Area
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Манипуляции проделываются, но не совсем в реальном времени, т.е. можно считать, что все валится в кучу.Интеррапт wrote:Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?
-
- Уже с Приветом
- Posts: 64875
- Joined: 12 Jul 2002 16:38
- Location: г.Москва, ул. Б. Лубянка, д.2
Re: Яндекс Лабс в Palo Alto набирает С++ developers
ну тут, как всегда, вопрос в востребованности хешированных данных. На этом вся БЫГ ДАТА и построена, что, как оказалось, вся data integrity, indexing, etc - в 99% никому не нужны, потому все проще сваливать в одну помойку, а уж если потребуется, потом в той помойке что-то конкретное искать. Я вот все хочу такое же применить к моим tax-supporting documents.
-
- Уже с Приветом
- Posts: 17281
- Joined: 07 Sep 2011 10:05
- Location: Seattle, WA
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Да понятное дело, что можно манипулировать как угодно, пусть даже не в реальном времени. Но определенный препроцессинг можно делать уже на этапе получения данных (пусть даже определенными бакетами). Ну вот вряд-ли просто тупо выкатят тебе миллиарды записей и скажут, а ну посчитай что тут и как. Умнее же должно это быть.scorpion wrote:Манипуляции проделываются, но не совсем в реальном времени, т.е. можно считать, что все валится в кучу.Интеррапт wrote:Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?
-
- Уже с Приветом
- Posts: 4637
- Joined: 24 Oct 2009 01:38
- Location: Chicago ;-) -> SFBA!
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Ну Ок, а какой бы хеш/индекс вам бы помог в этой задаче?Интеррапт wrote:Да понятное дело, что можно манипулировать как угодно, пусть даже не в реальном времени. Но определенный препроцессинг можно делать уже на этапе получения данных (пусть даже определенными бакетами). Ну вот вряд-ли просто тупо выкатят тебе миллиарды элементов и скажут, а ну посчитай что тут и как. Умнее же должно это быть.scorpion wrote:Манипуляции проделываются, но не совсем в реальном времени, т.е. можно считать, что все валится в кучу.Интеррапт wrote:Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?
In vino Veritas!
-
- Уже с Приветом
- Posts: 1008
- Joined: 24 Mar 2010 21:14
- Location: SFBA
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Bingo! Именно этот ответ и ожидался.stenking wrote:А если случайно взять скажем миллион samples?
-
- Уже с Приветом
- Posts: 4637
- Joined: 24 Oct 2009 01:38
- Location: Chicago ;-) -> SFBA!
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Задача из серии - угадай что у меня в кармане ))Berlaga wrote:Bingo! Именно этот ответ и ожидался.stenking wrote:А если случайно взять скажем миллион samples?
In vino Veritas!
-
- Уже с Приветом
- Posts: 17281
- Joined: 07 Sep 2011 10:05
- Location: Seattle, WA
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Мда... Если все такие интервью - поиграть в угадайку, то спасибо, не нужноcrypto5 wrote:Задача из серии - угадай что у меня в кармане ))Berlaga wrote:Bingo! Именно этот ответ и ожидался.stenking wrote:А если случайно взять скажем миллион samples?

-
- Уже с Приветом
- Posts: 3435
- Joined: 16 Dec 2003 06:23
- Location: SF Bay Area
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Очень даже хочется все сразу считать и быстренько собирать, чтобы, например, autocomplete был супер свежий, т.е. если толпа ломанула и все начали искать ПОЧЕМУНУЖНЫТРУСЫ, то пишуший во второй, например, дюжине ПОЧЕМУНУЖНЫ уже должен видеть подсказку о трусахKomissar wrote:На этом вся БЫГ ДАТА и построена, что, как оказалось, вся data integrity, indexing, etc - в 99% никому не нужны, потому все проще сваливать в одну помойку, а уж если потребуется, потом в той помойке что-то конкретное искать.

-
- Уже с Приветом
- Posts: 1008
- Joined: 24 Mar 2010 21:14
- Location: SFBA
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Почему в угадайку? Вполне логичный ответ.
Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
-
- Уже с Приветом
- Posts: 2924
- Joined: 01 Apr 2004 04:22
Re: Яндекс Лабс в Palo Alto набирает С++ developers
может они их совсем не хранят, запрос сразу поступает в обработчик и в последуюшем хранится только некот. х характеризуюший запрос, возможно по х даже запрос 100% не восстанавливаетсяИнтеррапт wrote:А еще вопрос - список хоть отсортирован, уже хеширован и т.п.? Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?
Я боюсь, что наступит день, когда технологии превзойдут простое человеческое обшение. И мир получит поколение идиотов (c)
-
- Уже с Приветом
- Posts: 17281
- Joined: 07 Sep 2011 10:05
- Location: Seattle, WA
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Например, хранить хештаблицу со счетчиком. Каждый раз когда поступает новый запрос, то он хешируется, идет поиск по хешу (условно - большая хеш таблица) и счетчик запросов для этого хеша увеличивается. Если счетчик достаточно большйо, чтобы попасть в топ 10 самых больших счетчиков - то в эту top 10 таблицу помещается запрос.crypto5 wrote:Ну Ок, а какой бы хеш/индекс вам бы помог в этой задаче?
-
- Уже с Приветом
- Posts: 4637
- Joined: 24 Oct 2009 01:38
- Location: Chicago ;-) -> SFBA!
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Вполне логичный, только например если в датасете окажется скажем 20 запросов с разбросом в 50%, но их общая share будет меньше скажем 0.1%, такой подход уже будет работать с большой погрешностью, и он не выдаст именно 10 самых частых запросов.Berlaga wrote:Почему в угадайку? Вполне логичный ответ.
Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
In vino Veritas!
-
- Уже с Приветом
- Posts: 14455
- Joined: 26 May 2006 02:39
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Нормальная задача. Теория вероятности на нашей стороне. Ключи, кошелёк и телефон )crypto5 wrote:Задача из серии - угадай что у меня в кармане ))Berlaga wrote:Bingo! Именно этот ответ и ожидался.stenking wrote:А если случайно взять скажем миллион samples?
Бога нет.