Data Engineer для работы с инфраструктурой, пайплайнами и качеством данных для обучения VLM. Проектирование масштабируемых процессов очистки, генерации и версионирования датасетов для нейросетей.
что делать
Проектирование и реализация масштабных пайплайнов обработки данных
Разработка пайплайнов генерации синтетических данных для обучения VLM
Управление инфраструктурой хранения, валидации и версионирования датасетов
Визуализация и анализ качества данных, подготовка отчётов
Сотрудничество с командой ML-исследователей и инфраструктурными инженерами
требования
Опыт в data engineering и создании production-grade пайплайнов
Уверенное владение Python (multiprocessing, multithreading, async)
Работа с распределенными системами обработки данных (YTsaurus или аналоги)
Опыт работы с объектными хранилищами (S3)
Понимание принципов валидации, дедупликации и версионирования данных