Превратить аудио в текст (расшифровка аудио)

  1. Создайте проект
  2. Добавьте пул заданий
  3. Загрузите задания
  4. Настройте контроль качества
  5. Запустите пул и получите результаты
  6. Поручите проверку исполнителям
Совет.

Сначала запустите проект в Песочнице. Так вы сможете избежать ошибок и потраченных средств, если окажется, что ваше задание не работает.

Вы можете публиковать задания для расшифровки небольших аудиозаписей. Желательно, чтобы в одном пуле записи были одинаковой длины. Задания на расшифровку удобнее запускать для выполнения в веб-версии Яндекс.Толоки, чтобы исполнитель мог набирать текст на клавиатуре.

Возможно, для вашего задания нужны дополнительные проекты, например предварительная проверка датасета или проверка ответов исполнителей. Подробнее об этом читайте в разделе Декомпозиция задания.

Предположим, вам нужно расшифровать стихи с детского утренника. Для этого создадим такое задание: исполнителю будет предложена аудиозапись во встроенном плеере, и он должен набрать текст, который услышит на записи.

Пример готового задания

Чтобы запустить задания и получить ответы:

Создайте проект

Проект определяет, как будет выглядеть задание у исполнителя.

  1. Выберите шаблон:

    1. Нажмите кнопку + Создать проект.

    2. Выберите шаблон Расшифровка аудиозаписей.
  2. Заполните общую информацию:

    1. Дайте проекту понятное название и краткое описание. Их увидят исполнители в списке доступных заданий.

    2. По желанию добавьте Приватный комментарий.
    3. Нажмите кнопку Сохранить.
  3. Отредактируйте интерфейс задания:

    1. Интерфейс задания описывает, как будут расположены элементы задания.

      Примечание. В этом туториале показано, как создать интерфейс задания в редакторе HTML/JS/CSS. Вы также можете попробовать создать интерфейс задания в Конструкторе шаблонов.

      В HTML-интерфейсе можно использовать стандартные теги HTML и специальные выражения в двойных фигурных скобках для полей входных и выходных данных.

      <div>
        <audio src="{{proxy audio}}" controls controlsList="nodownload">
          Невозможно воспроизвести
        </audio><br/><br/>
      </div>
      <div>
        <div>Текст стихотворения</div>
        {{field type="textarea" name="output" width="300px" rows="6"}}
      </div>
      Эта запись означает, что задание будет выглядеть так:
      • аудиозапись в плеере;
      • поле для ввода текста.

      Блок JavaScript оставьте без изменений. В нем настроена проверка воспроизведения записи в плеере. Исполнитель не сможет отправить задание без прослушивания всех аудиозаписей в нем.

    2. Определите, какие объекты будете передавать исполнителю и получать от него в ответ. Для этого необходимо создать поля входных и выходных данных в блоке Спецификация данных.

      Что такое входные и выходные данные?

      Входные данные — типы объектов, которые будут подаваться исполнителю для выполнения задания. Например, текст, картинка, географические координаты.

      Выходные данные — типы объектов, которые будут получены после выполнения задания. Например, один из нескольких вариантов ответа, введенный текст или загруженный файл.

      Подробнее о полях входных и выходных данных.

      Шаблон включает в себя поля:

      • Поле входных данных — ссылка audio на аудиофайл.

        Измените тип данных на строку, чтобы загружать аудиофайлы, хранящиеся на Яндекс.Диске.

      • Поле выходных данных — строка output, в которую будет записан текст, введенный исполнителем.
    3. Нажмите кнопку , чтобы увидеть получившееся задание.

      Примечание. В предварительном просмотре проекта отображается одно задание со стандартными данными. Количество заданий на странице вы сможете настроить далее.
    4. Нажмите кнопку Сохранить.
  4. Напишите инструкцию для исполнителей:

    1. Напишите краткую и ясную инструкцию (см. советы). Опишите в ней, что надо сделать, и приведите примеры.

      Вы можете подготовить инструкцию в формате HTML и вставить её в редактор. Чтобы переключиться в режим HTML, нажмите <>.

    2. Нажмите кнопку Завершить.

Добавьте пул заданий

Пул — это набор оплачиваемых заданий, которые одновременно выдаются исполнителям.

  1. Откройте проект и нажмите Добавить пул.
  2. Дайте пулу любое удобное название и описание. Они доступны только вам, исполнитель будет видеть только название и описание проекта.
  3. Установите цену за страницу заданий, например, $0.05. Цена зависит от длительности аудиозаписи.
    Что такое страница заданий?

    На одной странице может отображаться одно или несколько заданий. Если задания простые, то можно добавлять 10–20 заданий на одну страницу. Не рекомендуем создавать длинные страницы, поскольку это снизит скорость загрузки данных у исполнителя.

    Исполнитель получит оплату, только если выполнил все задания на странице.

    Количество заданий на странице вы определите при загрузке заданий.

    Как определить справедливую цену?

    Общее правило формирования цены — чем больше времени исполнитель тратит на выполнение, тем выше цена.

    Вы можете зарегистрироваться в Яндекс.Толоке как исполнитель и узнать, сколько платят другие заказчики за задания, а также посмотреть примеры стоимости различных типов задач.

  4. Добавьте Фильтры для отбора исполнителей. Чтобы ваше задание было доступно только исполнителям, владеющим русским языком, выберите набор Русскоязычные исполнители.
  5. Включите опцию Отложенная приемка и укажите количество дней на проверку для параметра Срок проверки. Например, 7.
    Что такое отложенная приемка?

    Отложенная приемка позволяет вам просматривать выполненные страницы заданий перед тем, как принять их и заплатить исполнителю. Задания, выполненные в несоответствии с инструкцией, можно отклонять. Максимальный срок проверки устанавливается в поле Срок проверки.

  6. Установите Перекрытие — количество исполнителей, которые должны выполнить задание. Для расшифровки речи, как правило, 1.
  7. Укажите Время на выполнение страницы заданий. Его должно быть достаточно, в том числе для чтения инструкции, загрузки задания, прослушивания аудиозаписи и набора текста. Например, 1200 секунд.
  8. Сохраните пул.

Загрузите задания

Подготовьте собственный файл с заданиями. Ознакомьтесь с примером в демонстрационном TSV-файле. Его можно найти на странице пула. В верхней части страницы слева есть ссылки на TSV-файл с обычными, контрольными и обучающими заданиями.

  1. Нажмите кнопку Загрузить. В открывшемся окне также можно скачать пример TSV-файла по ссылке Пример загрузочного файла.
    Что такое TSV?
    TSV-файл — это представление электронной таблицы в виде текстового файла, в котором столбцы разделены знаком табуляции.

    Вы можете работать с ним как в редакторе электронных таблиц, так и в текстовом редакторе, а затем сохранить в нужный формат. Подробнее о работе с TSV-файлом. Существует формат CSV, схожий с TSV, но при загрузке необходимо использовать TSV-файл.

  2. Добавьте в него входные данные — ссылки на файлы на Яндекс.Диске в формате <уникальное имя>/image1.mp3, где уникальное имя — название вашего прокси (подробности). Заголовок столбца с входными данными содержит слово INPUT.

    Ссылка должна иметь такой вид: <уникальное имя>/audio1.mp3. Уникальное имя — это название вашего прокси. Подробнее об использовании файлов с Яндекс.Диска.

  3. Загрузите задания, выбрав Указать вручную и установив, например, 4 задания на странице. Это значит, что на одной странице будет 4 аудиозаписи, под каждой аудиозаписью текстовое поле для расшифровки.
  4. Нажмите кнопку Добавить — ваши задания загружены в пул.

Настройте контроль качества

Блоки контроля качества позволяют отсеивать невнимательных исполнителей. Контроль качества можно настраивать как в проекте, так и в пуле.

Внимание.

Настройки контроля качества в проекте будут действовать во всех пулах проекта, и изменить их настройку в одном из пулов будет невозможно.

    Перейдите к редактированию пула (кнопка Редактировать в верхнем правом углу страницы) и нажмите Добавить блок контроля качества.

    Вы можете скопировать настройки контроля качества из другого пула. Для этого в разделе Исполнители нажмите кнопку Скопировать настройки из....

  1. Добавьте блок Быстрые ответы.

    Значение параметра Минимальное время на страницу зависит от двух характеристик: количества заданий на этой странице и длины записей. В примере мы задаем 4 задания, а длина записей неизвестна. Прикидываем адекватный порог для правила.

    Делаем скидку на технические ошибки, например, не загрузилось и не проигралось несколько записей. Исполнитель быстро отправит ответы к такому заданию и это не будет ошибкой. Давайте добавим два правила.

    • Одно — чтобы отлавливать ботов. Задаем 10-15 секунд на ответ. Блокируем после 2-х быстрых ответов.

      Это означает, что если исполнитель выполнит 2 и более страницы с заданиями быстрее, чем за 10 секунд, он будет заблокирован и не сможет больше выполнять ваши задания 10 дней.

    • Со вторым правилом будем исключать тех, кто несерьезно относится к заданию, слушает записи не до конца и не думает над ответами. Параметр Минимальное время на страницу заданий тут зависит от длины записей и от того, сколько их на странице, а также от того, насколько сложно записать текст (плохо слышно, есть термины, особенности записи транскрипции и т.п.). Блокируем, как минимум, после 3-х быстрых ответов.

      Это означает, что если исполнитель даст минимум 3 ответа быстрее, чем за 30 секунд, он будет заблокирован и не сможет больше выполнять ваши задания 5 дней.

  2. Добавьте правило контроля качества Результаты проверки и укажите следующие значения:

    Это означает, что если 35% и более ответов исполнителя будут отклонены, он будет заблокирован и не сможет больше выполнять ваши задания 15 дней. Правило начинает действовать после проверки 3 ответов исполнителя.

  3. Добавьте правило контроля качества Результаты проверки и укажите следующие значения:

    Это означает, что если 35% и более ответов исполнителя будут отклонены, он будет заблокирован и не сможет больше выполнять ваши задания 15 дней. Правило начинает действовать после проверки 3 ответов исполнителя.

  4. Добавьте Обработку отклоненных и принятых заданий. Когда значение перекрытия "1", стоит отправить задания в пул снова — на переделку другим исполнителям.

    Это значит, что если вы отклоните задания во время отложенной приемки, они отправятся на повторное выполнение, но другому исполнителю.

  5. Создайте навык. Для этого перейдите на страницу Навыки, нажмите кнопку +Добавить навык и укажите название навыка, например «Расшифровщик».
    Что такое навык?
    Навык — это оценка какого-либо аспекта работы исполнителя (число от 0 до 100). Навык может начисляться исполнителю за правильные ответы на контрольные задания, а также назначаться произвольно.

    Вы можете использовать значение навыка при отборе исполнителей.

  6. Добавьте блок Выполненные задания и укажите следующие значения:

    Это означает, что если исполнитель выполнил хотя бы одно задание и результат был принят, то ему устанавливается навык.

Запустите пул и получите результаты

  1. Запустите пул, нажав кнопку .
  2. Следите за выполнением в блоке Статистика пула.
  3. Как только получены первые результаты, вы можете начинать проверку. По истечении установленного срока все ответы будут автоматически приняты вне зависимости от их качества.

    Чтобы проверить задания, откройте пул и нажмите Проверить задания.

Поручите проверку исполнителям

Отдайте результаты на проверку исполнителям в качестве задания. Чтобы это задание было доступно исполнителям, которые не расшифровывали аудиозаписи, установите фильтр.

  1. Откройте пул и нажмите Скачать результаты.
  2. Создайте проект с типом классификация.
    Пример готового задания
  3. Создайте интерфейс задания, чтобы исполнитель увидел:
    • аудиозапись в аудиоплеере;
    • расшифровка записи;
    • переключатель с вариантами ответов:
      • Текст полностью соответствует аудиозаписи.
      • В тексте допущены незначительные ошибки.
      • Аудиозапись расшифрована не полностью.
      • Текст не соответствует аудиозаписи.
  4. Добавьте пул и укажите в нем Перекрытие — 3.
  5. Добавьте фильтр для отбора исполнителей без навыка:
  6. Загрузите в пул задания и запустите его.
  7. Когда пул будет полностью выполнен, запустите агрегацию результатов.
  8. Примите задания расшифровки, в которых нет ошибок. Остальные отклоните, указав причину.
  9. Отклоненные задания вы можете отдать на повторное выполнение.

Решение проблем

Как в режиме предпросмотра включить загрузку аудиофайлов?

В режиме предпросмотра проверить загрузку файлов нельзя, но это можно сделать в песочнице, выполнив своё задание. Для этого нужно зарегистрироваться в сендбоксе в качестве исполнителя и добавить логин в доверенные на странице Пользователи. Подробнее можете прочитать в этой статье .

Не загружаются файлы с Яндекс.Диска

Если картинки, аудио или видео с Яндекс.Диска не отображаются в инструкции или на странице задания, убедитесь, что вы правильно подключили Диск и загрузили файлы.

Как сделать задание, в котором исполнитель должен просматривать видео с Яндекс.Диска?

Для создания задания возьмите за основу шаблон для разметки видео.

Чтобы разместить ваши видеоролики на Яндекс.Диске, его нужно подключить и настроить проект.

Подробная видеоинструкция об этом в нашем блоге.

Почему в задании по выделению объектов на изображении не отображаются изображения с Яндекс.Диска?
Проблема в шаблоне задания. Проверьте, что:
  • Для поля входных данных, куда вы передаете ссылку на файл, в проекте указан тип «строка».
  • В компоненте в шаблоне задания используется выражение proxy.
  • Формат относительных ссылок в TSV-файле с заданиями указан верно: <уникальное имя>/<путь и имя файла>.
Подробная инструкцию и видео на странице Использование файлов с Яндекс.Диска.
Частые ошибки при подключении Диска и загрузке файлов
  • В настройках проекта в поле Входные данные указан тип ссылка. Необходимо выбрать тип строка.
  • В TSV-файле указаны абсолютные ссылки на файлы для заданий. Необходимо вставить ссылку вида <уникальное имя>/<путь и имя файла>. Например: yadisk/image1.jpg или yadisk/photos/image1.png.
  • Фото с Яндекс.Диска используются в инструкции к заданию в мобильном приложении. Чтобы фото отобразилось в инструкции, используйте только прямые ссылки.
  • Файлы удалены или находятся не в той папке на Диске, на которую ведет ссылка.
  • OAuth-токен не активен. Обновите токен на странице Интеграция с внешними сервисами.
Чтобы файлы, загруженные на Яндекс.Диск (картинки, аудио, видео), отображались у исполнителя, нужно:
  1. Подключить Яндекс.Диск в профиле.
  2. Установить тип строка для поля входных данных.
  3. Вставлять ссылку на файл при помощи компонента proxy.

Подробная инструкция

Файлы на Яндекс.Диск загружаются слишком медленно. Как ускорить загрузку?

Попробуйте воспользоваться рекомендациями с этой страницы или написать в службу поддержки Яндекс.Диска.