Для обработки и генерации текстов мы в Яндексе любим использовать трансформеры: они применяются в Переводчике, в ранжировании поиска, в генерации ответов Алисы и во многих других сервисах. Раньше мы создавали новую модель под каждую задачу, но сейчас, в эпоху бума больших предобученных моделей, обучаем гигантские универсальные модели с миллиардами параметров сразу на всем интернете.
Мы собрали сильную команду специалистов по нейронным сетям из разных отделов Яндекса, чтобы разработать общую модель для генерации текстов. Задача нашей группы — с помощью генеративной модели научить Алису обсуждать всё более сложные темы и решать задачи пользователей еще эффективнее. Присоединяйтесь к нам, если вам тоже это интересно!
====Что нужно делать:
- оптимизировать инфраструктуру обучения, чтобы использовать еще больше параметров (pipelining и др.);
- экспериментировать с разными вариантами архитектур: Sparse Attention, Embedding, Mixture of Experts и др.;
- собирать и улучшать бенчмарки для оценки качества моделей;
- дообучать модели на реальных задачах и выпускать их в продакшн;
- придумывать и реализовывать новые продуктовые возможности на основе наших моделей.
====Мы ждем, что вы:
- понимаете принципы машинного обучения;
- решали прикладные задачи с помощью технологий Deep Learning и стандартных фреймворков TensorFlow, PyTorch, Caffe и других;
- уверенно программируете на Python;
- следите за последними публикациями в области Deep Learning (не только в сфере NLP):
- можете быстро прочесть свежую статью на arXiv.org, понять основную идею авторов и достигнутые ими результаты.
====Будет плюсом, если вы:
- знаете C++;
- программировали на CUDA;
- имеете опыт в обработке текстов;
- имеете опыт работы с большими объемами данных;
- имеете опыт работы с распределенным обучением нейросетей.