Datalake and deduplication

Where do we dedup data during big data collection ?

Poll ended at 07 Dec 2017 19:27

1 - datacollector ( when we collect data)
1
13%
1 - datacollector ( when we collect data)
1
13%
2 - kafka consumer ( when we move data from kafka to object store in HDFS a.k.a datalake)
0
No votes
2 - kafka consumer ( when we move data from kafka to object store in HDFS a.k.a datalake)
0
No votes
3 - ETL (when we move data from HDFS to other database fast online access)
3
38%
3 - ETL (when we move data from HDFS to other database fast online access)
3
38%
4 - online app (service for online transaction should remove duplicates)
0
No votes
4 - online app (service for online transaction should remove duplicates)
0
No votes
5 - reporting ( reporting app should remove duplicates)
0
No votes
5 - reporting ( reporting app should remove duplicates)
0
No votes
 
Total votes: 8

User avatar
Сабина
Уже с Приветом
Posts: 19045
Joined: 11 Jan 2012 09:25
Location: CA

Datalake and deduplication

Post by Сабина »

Стало интересно как оно на деле у тех кто делает "даталейки" ?
У меня есть позиция по вопросу , но вижу что на деле сколько людей, столько и мнений. Если ответите и есть время написать почему, хотя бы одним предложением было бы здорово.
Для данного случая рассмотрим упрощенную конструкцию для сбора:
dataSource -> datacollector (1) -> kafka -> consumer(2) -> HDFS/S3 -> ETL(3) -> fast persistent storage for adhoc queries -> online app(4)
dataSource -> datacollector (1) -> kafka -> consumer(2) -> HDFS/S3 -> offline reports(5)
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Сабина
Уже с Приветом
Posts: 19045
Joined: 11 Jan 2012 09:25
Location: CA

Re: Datalake and deduplication

Post by Сабина »

О класс, хоть кто-то еще проголосовал, значит не совсем бред спрашиваю :) То есть все таки ETL для других ?
Я понимаю что это специфичная вещь, но все равно любопытно было. Скажем мы с rest enpodint данные собираем. Когда один и тот же json response получаешь, такой мессадж нафиг не надо хранить и процессить, то есть (1) кмк имеет смысл тоже.
https://www.youtube.com/watch?v=wOwblaKmyVw

Return to “Вопросы и новости IT”