Инженер данных в Такси

Moscow, Saint Petersburg, Yekaterinburg, Rostov-na-Donu, Nizhny NovgorodPython, SQL, C++TaxiSpecialist
Яндекс.Такси — стремительно растущий международный сервис, бизнес-решения в котором принимаются на основе накопленных в компании данных. Актуальные, полные и правдивые данные для Такси формирует Служба разработки платформы управления данными (DMP).
Мы ищем лучших инженеров данных, которые в команде с лучшими аналитиками будут проектировать и оптимизировать сложнейшие расчеты и алгоритмы, разрабатывать инструментарий для сотен бизнес-пользователей.

Что нужно делать:

  • оптимизировать нетривиальные ETL-процессы обработки больших данных;
  • извлекать из исходных данных ценную информацию и скрупулезно обрабатывать ее для последующего анализа;
  • работать с данными на каждом из этапов их трансформации: от появления информации в конкретном источнике до монетизации полученных знаний;
  • работать над реализацией стабильного расчета бизнес-метрик вместе с командой аналитиков;
  • поддерживать и модифицировать созданное решение, отвечать за доступность сервиса и корректность данных, предоставляемых для принятия решений.

Мы ждем, что вы:

  • уверенно программируете на Python;
  • знаете классические алгоритмы и структуры данных;
  • работали с отладчиками и верификаторами;
  • хорошо знаете SQL и понимаете устройство современных реляционных баз данных;
  • понимаете и можете объяснить необходимость непрерывной интеграции и непрерывной доставки (CI/CD), преимущества использования Git и ревью кода.

Будет плюсом, если вы:

  • руководили стажерами или начинающими специалистами;
  • работали по методологии Agile;
  • участвовали в проектировании хранилищ данных;
  • работали со стеком технологий Hadoop, Spark, Hive;
  • создавали сложные высоконагруженные процессы ETL и ELT (плюсом будет знание инструментов Luigi, Airflow);
  • разрабатывали процессы обработки сложных событий (CEP) во времени, приближенном к реальному (Kafka Streams, Spark, Flink)
  • работаете со специализированными аналитическими базами данных (Greenplum, Vertica, ClickHouse, Teradata);
  • работаете с аналитическими инструментами на базе Python (Jupyter, Pandas, SciPy, Matplotlib, Bokeh);
  • программируете на C++;
  • размещаете в публичных репозиториях свой код или статьи с примерами работ.