Разработчик языковых DL-моделей

Для обработки и генерации текстов мы в Яндексе любим использовать трансформеры: они применяются в Переводчике, в ранжировании поиска, в генерации ответов Алисы и во многих других сервисах. Раньше мы создавали новую модель под каждую задачу, но сейчас, в эпоху бума больших предобученных моделей, обучаем гигантские универсальные модели с миллиардами параметров сразу на всем интернете.

Мы собрали сильную команду специалистов по нейронным сетям из разных отделов Яндекса, чтобы разработать общую модель для генерации текстов. Задача нашей группы — с помощью генеративной модели научить Алису обсуждать всё более сложные темы и решать задачи пользователей еще эффективнее. Присоединяйтесь к нам, если вам тоже это интересно!

====Что нужно делать:

оптимизировать инфраструктуру обучения, чтобы использовать еще больше параметров (pipelining и др.);
экспериментировать с разными вариантами архитектур: Sparse Attention, Embedding, Mixture of Experts и др.;
собирать и улучшать бенчмарки для оценки качества моделей;
дообучать модели на реальных задачах и выпускать их в продакшн;
придумывать и реализовывать новые продуктовые возможности на основе наших моделей.

====Мы ждем, что вы:

понимаете принципы машинного обучения;
решали прикладные задачи с помощью технологий Deep Learning и стандартных фреймворков TensorFlow, PyTorch, Caffe и других;
уверенно программируете на Python;
следите за последними публикациями в области Deep Learning (не только в сфере NLP):
можете быстро прочесть свежую статью на arXiv.org, понять основную идею авторов и достигнутые ими результаты.

====Будет плюсом, если вы: