Разработчик ядра Spark over YT

Сервисы Яндекса порождают сотни и тысячи петабайт данных. Хранят и обрабатывают эти данные кластеры из десятков тысяч машин под управлением YT.

В прошлом году мы подключили к YT Apache Spark — популярную опенсорсную технологию для обработки больших данных. Нам удалось объединить преимущества YT и Spark, получить хорошие результаты и порадовать потребителей — десятки инженеров данных из различных подразделений Яндекса.

Мы продолжаем развивать Spark over YT и ищем сильного разработчика, которому интересно заниматься интеграцией сложных и высокопроизводительных механизмов.

Фронт работ охватывает следующие системы:

  • Spark Core (Scala);
  • YT (C++);
  • клиентские библиотеки (Java, Python);
  • смежные инфраструктурные компоненты (С++, Java, Python).

Примеры задач:

  • под лупой профайлера оптимизировать код чтения исходных данных;
  • сделать Python-обвязку для удобного запуска задач из конкретной инфраструктуры;
  • написать плагин для оптимальной записи логов в долгосрочное хранилище;
  • протянуть знание о метаданных из файловой системы в оптимизатор Spark.

Tasks that await you

  • прокачивать Spark, глубоко погрузившись в его работу;
  • интегрировать YT со Spark;
  • писать много хардкорного кода на Scala и Python;
  • иногда писать что-то нестрашное на C++ и Java.

We expect that you

  • уверенно разрабатываете на Scala или Python;
  • готовы учить другие языки;
  • понимаете принципы работы распределенных систем;
  • понимаете принципы обработки больших данных, парадигму MapReduce и ее наследников.

It'd be a plus if you

  • работали с Apache Spark;
  • знаете C++ или Java;
  • хорошо знаете Hadoop Stack (особенно HDFS, YARN);
  • работали с Docker и системами оркестрации (Kubernetes, Rancher).
Thank you for your apply!

We will contact you within a week.

Mon Feb 12 2024 19:00:36 GMT+0300 (Moscow Standard Time)