Загрузка заданий в пул

Ограничение. Можно добавить не более одного миллиона заданий в пул. Если вам надо загрузить больше заданий, создайте новый пул.
Чтобы загрузить TSV-файл с заданиями в пул:
  1. На странице пула нажмите кнопку Загрузить.
  2. Выберите способ распределения заданий по страницам. На данный момент таких способов три: По пустой строке, Указать вручную, Умное смешивание.
    Как распределяются задания по страницам
    Характеристика/тип загрузки По пустой строке и Указать вручную По пустой строке и Указать вручную (сохранять порядок заданий) Умное смешивание Умное смешивание (сохранять порядок заданий)
    Для формирования страниц задания берутся по порядку строк (сверху вниз) в загруженном файле Да Да Нет Да
    Внутри страницы задания перемешиваются Нет Нет Да Да
    Исполнителям страницы раздаются в одном и том же порядке Нет Да Да Да
    Внутри одинаковых по составу страниц контрольные задания одинаковые у всех исполнителей Да Да Нет Да

    Подробнее про способы распределения заданий по страницам читайте ниже.

    Способы распределения заданий по страницам
    По пустой строке

    Разбейте задания на страницы самостоятельно в TSV-файле. Для этого после каждой страницы заданий в файле добавьте пустую строку.

    Указать вручную
    Введите количество заданий на странице. Страницы будут сформированы из заданий в той последовательности, в которой они приведены в TSV-файле.
    Умное смешивание

    Укажите, сколько заданий каждого типа должно быть на странице. Например, 8 основных, 1 обучающее и 1 контрольное. При необходимости в дополнительных настройках укажите минимальное количество для заданий каждого типа. Если основных заданий недостаточно и задана опция Отдавать неполную страницу, то исполнителю будет выдана неполная страница. Обратите внимание, что количество контрольных и обучающих заданий в таком случае должно быть полным.

    Внимание. Если вы будете загружать файл через «Умное смешивание», то не сможете использовать другие способы распределения заданий по страницам в этом пуле.

    Этот способ целесообразно использовать, если в создаваемом пуле:

    Примеры


    Умное смешивание и сохранение порядка заданий
    • Задания разбиваются на списки по типам заданий: обычные, контрольные, обучающие.
    • Из списков формируются страницы. Из каждого списка добавляется то количество заданий указанного типа, которые вы указали в настройках. По умолчанию задания выбираются случайным образом.

      Если включена опция Сохранять порядок заданий, то задания добавляются в том же порядке, в котором они были в исходном TSV-файле. При этом учитывается перекрытие: задание, которое идет первым, будет выдаваться пока не достигнет нужного перекрытия.

    • Задания на страницах перемешиваются, когда страница показывается исполнителю.
    Умное смешивание без Сохранять порядок заданий
    Пример
    Умное смешивание + Сохранять порядок заданий
    Пример

    После загрузки через Умное смешивание вам будут доступны разметка заданий и выборочная проверка мнением большинства.

    Особенности установки перекрытия

    При загрузке заданий через интерфейс Яндекс.Толоки автоматически установится бесконечное перекрытие для контрольных и обучающих заданий, чтобы их хватило на разметку всех основных заданий.

    Конкретное значение перекрытия можно установить через API Яндекс.Толоки.

    Если вы использовали Умное смешивание, то узнать количество заданий на странице можно в настройках пула. Но некоторые страницы могут быть неполными. Если вы загружали задания другим способом, то в интерфейсе Толоки для заказчика можно проверить, как задания разбиты на страницы. Для этого на странице пула нажмите кнопку файлыскачать все задания одним файлом. Также распределение заданий по страницам можно проверить через API Яндекс.Толоки.

    Примечание. Устанавливайте количество заданий на странице в зависимости от сложности и времени на выполнение задания. Рекомендуем распределять количество так, чтобы на одну страницу уходило не больше пяти минут. За выполнение полной страницы заданий исполнители получат вознаграждение, которые вы указали в параметрах пула.
  3. Нажмите кнопку Загрузить и выберите файл. Чтобы поместить в пул задания разных типов, вы можете загрузить их в отдельных файлах. Отдельным файлом можно также добавить задания к уже существующим. Обратите внимание, что такой вариант загрузки сработает только при Умном смешивании. К примеру, если было выбрано Указать вручную, то загрузив файл с основными заданиями, а потом файл с контрольными, вы получите отдельно страницы с основными заданиями, отдельно — с контрольными.
  4. Дождитесь результата обработки. Если получена ошибка обработки — формат данных внутри файла некорректный. Например, в файле есть лишние табы, не хватает строк, заголовков или кавычек. В таком случае нажмите кнопку Отменить и исправьте ошибки, а затем загрузите файл снова.
  5. Нажмите кнопку Добавить.

  6. Посмотрите результат, нажав кнопку Предпросмотр.

Чтобы удалить все задания в пуле, нажмите кнопку Удалить.

Как сохранить порядок заданий

Сохранение порядка заданий без учета перекрытия

Если необходимо, чтобы исполнители получали страницы с заданиями в том же порядке, в каком они были записаны в загрузочном TSV-файле, то это можно настроить с помощью опции Сохранять порядок заданий. Для разных способов распределения заданий по страницам опция сохранять порядок заданий будет работать по-разному: для способов по пустой строке и указать вручную исполнители будут получать страницы заданий по порядку: сначала страница 1, затем 2, 3 и так далее. Задания внутри страниц будут идти по порядку и располагаться у всех исполнителей одинаково. Для умного смешивания алгоритм формирует страницы таким образом, чтобы исполнители получали задания в том порядке, в котором они находятся в TSV-файле. Обратите внимание, что по порядку будут выдаваться только страницы с заданиями, а сами задания внутри страниц будут перемешаны.

Вы можете воспользоваться этой опцией в своем проекте, если при создании нового пула включите переключатель Сохранять порядок заданий в разделе Параметры на странице настроек.

Примечание. Сохранять порядок заданий полезно в том случае, если вам необходимо быстрее собрать перекрытие для контроля за мнением большинства или сохранить последовательность вопросов в опросе или обучении.
  • По умолчанию опция отключена (переключатель в позиции Нет). В этом случае и страницы с заданиями, и задания внутри страниц будут выдаваться исполнителям в случайном порядке.

    Например, если из TSV-файла в пул загружается 20 заданий (по порядку с 1-го по 20-е) и задано распределение по четыре на страницу, то исполнителям задания будут раздаваться подобным способом:

    Исполнители Номер страницы с заданиями Порядок заданий внутри страницы
    1 1 3, 2, 4, 1
    2 5 17, 20, 18, 19
    1 3 12, 9, 11, 10
    3 2 7, 8, 6, 5
    2 4 16, 13, 15, 14
    3 3 11, 12, 10, 9
    ... ... ...
    Пример


  • Если опция включена (переключатель в позиции Да), то задания исполнителю будут выдаваться постранично в том же порядке, в каком были записаны в TSV-файле. При этом внутри страниц задания будут перемешиваться.

    Например, как и в предыдущем случае, в пул по порядку загружаются задания (с 1-го по 20-е), по четыре на странице. Но в этом случае исполнителя будут получать страницы в той же последовательности, что и в загрузочном файле, с перемешанными в случайном порядке заданиями внутри каждой:

    Исполнители Номер страницы с заданиями Порядок заданий внутри страницы
    1 1 1, 4, 3, 2
    2 1 3, 4, 1, 2
    1 2 6, 5, 7, 8
    3 1 2, 1, 4, 3
    2 2 8, 5, 7, 6
    3 2 5, 8, 6, 7
    ... ... ...
Примечание. В предпросмотре пула страницы и задания отображаются произвольно перемешанными, потому что там не действует сохранение порядка заданий. Но после запуска пула страницы с заданиями каждому исполнителю будут выдаваться последовательно.
Порядок заданий с учетом перекрытия

Если установлено перекрытие больше единицы и включена опция Сохранять порядок заданий, то следующая по порядку страница с заданиями будет раздаваться заинтересованным пользователям после того, как наберется необходимое количество взявшихся пользователей для уже выданной страницы, то есть после достижения у неё полного перекрытия.

При этом, если взявшийся пользователь уже выполнил одну страницу пула или появился новый заинтересованный, то они получат следующую по порядку, ещё не взятую в работу страницу, даже если у предыдущей пока нет полного перекрытия.

В случае, если кто-то из пользователей откажется от выданной страницы с заданиями, то её получит другой пользователь — следующий заинтересованный в выполнении или свободный взявшийся.

Например, установлено перекрытие 3:

Исполнители Номер страницы с заданиями Значение достигнутого перекрытия Примечание
1 1 1 Заинтересованные пользователи получили страницу 1
2 1 2
1 2 1 Взявшийся пользователь выполнил страницу 1 и получил следующую страницу 2, хотя для страницы 1 пока нет полного перекрытия
3 1 3 Полное перекрытие страницы 1
3 2 1 Взявшийся пользователь отказался от выполнения страницы 2
4 2 2 Заинтересованный пользователь получил сразу страницу 2, так как для страницы 1 уже есть полное перекрытие, а взявшийся пользователь отказался от выполнения страницы 2
1 3 1 Взявшийся пользователь выполнил страницу 2 и получил следующую страницу 3, хотя для страницы 2 пока нет полного перекрытия
2 2 3 Полное перекрытие страницы 2
5 3 1 Заинтересованный пользователь отказался от выполнения страницы 3
2 3 2 Взявшийся пользователь получил страницу 3, так как заинтересованный пользователь отказался от её выполнения
3 3 3 Полное перекрытие страницы 3
... ... ... ...

С помощью API Яндекс.Толоки также можно настроить порядок заданий. За это отвечает функция shuffle_tasks_in_task_suite: Если true, порядок заданий внутри страницы случайный. Если false, сохраняется порядок, в котором задания были загружены. Значение по умолчанию true, то есть задания перемешиваются внутри страницы.

Навык

Если добавлено правило контроля качества мнение большинства , то после того, как все выполненные страницы наберут полное перекрытие исполнителю будет присвоен навык по мнению большинства. Например, если в настройках пула задано перекрытие 3, то навык будет рассчитан не после выполнения исполнителем 3-х страниц, а при достижении перекрытия 3 у каждой из этих страниц.

Решение проблем

Настройки пула
Сколько заданий должно быть на странице?

Количество заданий зависит от сложности и длительности выполнения. Не делайте страницы заданий слишком большими: они неудобны для исполнителей (например, при сбоях в соединении с интернетом) и не пользуются спросом.

Ошибки при загрузке заданий в пул
Как посмотреть лог обработки
Чтобы посмотреть лог обработки, нажмите Подробнее об ошибках загрузки. Лог обработки записан в формате JSON. Объекты внутри result соответствуют номеру строки загружаемого файла. Строки, обработанные с ошибкой, имеют статус "success": false.
Совет. Работать с большим логом удобнее, если скопировать его в текстовый редактор.
Ошибки в заголовках столбцов

Если заголовки столбцов некорректны, файл будет полностью отклонен. В остальных случаях указано количество заданий с ошибками обработки.

Таблица ошибок обработки
Описание Как исправить
"parsing_error_of": "https://tlk.s3.yandex.net/wsdm2020/photos/2d5f63a3184919ce7e3e7068cf93da4b.jpg\t\t",
"exception_msg": "the nameMapping array and the sourceList should be the same size (nameMapping length = 1, sourceList size = 3)"

Лишние знаки табуляции.

Если в загружаемом TSV-файле после данных или ссылки стоит количество разделителей столбцов \t больше, чем задано число столбцов во входных данных, то появится сообщение об ошибке.

Например, когда во входных определен 1 столбец, а в TSV-файле после ссылки прописано ещё два знака табуляции \t\t, то получится 3 столбца, 2 из которых лишние.

Удалите лишние разделители столбцов, в приведенном выше примере ошибки — оба знака (\t\t).

"exception_msg": "the nameMapping array and the sourceList should be the same size (nameMapping length = 4, sourceList size = 6)"

Не совпадает количество полей в заголовке и в строке.

Проверьте, что:

  • указано верное количество знаков табуляции в структуре файла;
  • строковые значения, содержащие знак табуляции, заключены в кавычки" ".
"code": "VALUE_REQUIRED", "message": "Value must be present and not equal to null"
Не указано значение обязательного поля входных данных.

Проверьте, что заполнены все столбцы с обязательными полями входных данных.

"code": "INVALID_URL_SYNTAX", "message": "Value must be in valid url format"
Данные в поле с типом «ссылка» («url») некорректны.
Проверьте, что:
"exception_msg": "unexpected end of file while reading quoted column beginning on line 2 and ending on line 4"

В строке стоит непарная кавычка.

Проверьте, что все кавычки экранированы.

Как понять сколько заданий будет на странице у исполнителя?

Вы можете указать сколько заданий будет на странице при загрузке заданий в пул. Подробнее о способах распределения заданий по страницам можно узнать здесь.

Как правильно сформировать файл задания, чтобы не было ошибок?

В файле с основными заданиями должны быть заполнены столбцы с заголовками INPUT. Вы можете увидеть эти заголовки, если скачаете образец файла из пула.

Если создаете контрольные задания, то заполните столбцы с правильными ответами — GOLDEN.

Если обучающие, то также понадобится заполнить столбец HINT:text. Для основных заданий все столбцы кроме INPUT не нужны, их можно удалить.

Формат файла должен быть TSV, кодировка — UTF-8.

Если вы разместили файлы на Яндекс.Диске, посмотрите видео, как указать ссылки на них в TSV-файле.

Подробнее о создании файла в Руководстве. Если при загрузке возникают ошибки, поищите вашу ошибку на этой странице.

Какое максимальное количество заданий может быть на одной странице?

Зависит от задания. Технически можно много.

Но, во-первых, пользователи неохотно берутся за задания, которые требуют много времени на выполнение. То есть, они скорее сделают 10 заданий по одной минуте, чем одно задание на 10 минут.

Во-вторых, при большом количестве заданий на странице может быть проблема с загрузкой файлов для разметки. Например, картинок.

Третий момент — контроль качества и оценка выполнения всей страницы. Если вы используете дооценку заблокированных пользователей, то лучше дробить задание на более мелкие части, чтобы в переразметку отправлялось меньше заданий. Это позволит уложиться в бюджет.

Одно и то же задание попало на разные страницы

Одно и то же задание может попасть на разные страницы, если:

  • Существует динамическое перекрытие. Например на странице было 5 заданий, по 4-м из них ответы согласовались так, что общий ответ зачелся как верный. Пятое задание будет замешано в другой набор, поскольку оно не попало в финальный ответ и его необходимо «дооценить».
  • У разных заданий существует разное перекрытие. Те задания, у которых перекрытие указано больше, будут дополнительно показываться в наборах с другими оставшимися заданиями в пуле.
  • Если правило контроля качества меняет перекрытие у задания, то оно окажется в другом наборе.
Почему после запуска первого проекта не приходят ответы и все загруженные задания отмечаются как "Обучающие"?

Проверьте поле hint. Для обычных заданий это поле должно быть пустым.

Почему при загрузке задания, в котором нужно просмотреть изображение и написать фидбэк, появляется ошибка синтаксиса?

Ошибка будет возникать, если на вход ожидается тип URL, а приходит строка.

Причин может быть две:
  • Входное поле имеет тип "ссылка".
  • Пул работает на неактуальной версии проекта. То есть создан до того, как вы изменили тип входного поля.
Как в интерфейсе при загрузке файла указываются настройки умного смешивания?

Настройки умного смешивания указываются для файла — не для пула.

При первой загрузке файла указанные настройки будут применяться для всех файлов, загруженных в дальнейшем в этот пул.

Как определить время на выполнение задания?
Попробуйте выполнить задания сами, попросите своих друзей и коллег. Найдите среднее время выполнения и добавьте к нему 50%.
Чем отличаются task и task_suite?

Task — это отдельное задание. Task suite — страница с заданиями. Исполнитель получает оплату за страницу заданий.

Как загрузить файл с принятыми решениями обратно в Толоку для случая, когда выставлена отложенная приемка? Где описан формат загружаемых данных?

Для загрузки файла используйте кнопку Загрузить результаты. Формат можно посмотреть здесь.

Проверка ответов выполняется в TSV-файле.