M. Ridcully wrote: 13 Sep 2021 18:52
Физик-Лирик wrote: 13 Sep 2021 03:04
При работе с данными и моделями сейчас существуют три группы: дейта сайнтисты, дейта инженеры и МЛ инженеры
Да, я так и представлял, но не очень понимаю по-прежнему, чем занимаются data engineers. Data scientists занимаются моделями - выбирают подходящие и т.д. ML engineers делают инструменты для data scientists - libraries and frameworks.
А что деляют data engineers - запускают все это в production? То есть это специализация backend SWE?
data engineer это еще один оттенок бакэнд инженера.
отличия скорее в том что он знаеет/умеет работать с большими данными и различными базами и фреймворками под них.
тут же упоминались etl и МЛ и прочие дата дривен разработки - это все типо дата инженер.
хороший инженер он еще и архитектор который может подобрать подходящие тулзы, технологии, клауды для того чтобы уложиться в бюджет и производительность.
к примеру:
анализ видео стримов, сайнтист и сишник могут на пару разработать алгоритм анализа стрима, упрощенно функцию.
следующей задачей эту функцию надо заскейлить на сотни и тысячи стримов.
что делает дата инженер, оборачивает функцию в контейнер и строит систему, куда скидываются стримы и асинхронно запускаются функции анализа,
которые по результату скидывают все в какой нибудь БД, из которой кормится дэшборд в реальном времени.
Все это должно работать 24х7 и авто-скейлиться в зависимости от нагрузки.