Разработчик языковых DL-моделей

Для обработки и генерации текстов мы в Яндексе любим использовать трансформеры: они применяются в Переводчике, в ранжировании поиска, в генерации ответов Алисы и во многих других сервисах. Раньше мы создавали новую модель под каждую задачу, но сейчас, в эпоху бума больших предобученных моделей, обучаем гигантские универсальные модели с миллиардами параметров сразу на всем интернете.

Мы собрали сильную команду специалистов по нейронным сетям из разных отделов Яндекса, чтобы разработать общую модель для генерации текстов. Задача нашей группы — с помощью генеративной модели научить Алису обсуждать всё более сложные темы и решать задачи пользователей еще эффективнее. Присоединяйтесь к нам, если вам тоже это интересно!

====Что нужно делать:

  • оптимизировать инфраструктуру обучения, чтобы использовать еще больше параметров (pipelining и др.);
  • экспериментировать с разными вариантами архитектур: Sparse Attention, Embedding, Mixture of Experts и др.;
  • собирать и улучшать бенчмарки для оценки качества моделей;
  • дообучать модели на реальных задачах и выпускать их в продакшн;
  • придумывать и реализовывать новые продуктовые возможности на основе наших моделей.

====Мы ждем, что вы:

  • понимаете принципы машинного обучения;
  • решали прикладные задачи с помощью технологий Deep Learning и стандартных фреймворков TensorFlow, PyTorch, Caffe и других;
  • уверенно программируете на Python;
  • следите за последними публикациями в области Deep Learning (не только в сфере NLP):
  • можете быстро прочесть свежую статью на arXiv.org, понять основную идею авторов и достигнутые ими результаты.

====Будет плюсом, если вы:

  • знаете C++;
  • программировали на CUDA;
  • имеете опыт в обработке текстов;
  • имеете опыт работы с большими объемами данных;
  • имеете опыт работы с распределенным обучением нейросетей.
Thank you for your apply!

We will contact you within a week.

Mon Feb 12 2024 19:00:36 GMT+0300 (Moscow Standard Time)