Описание задачи
ruTiE-Audio — мультимодальная эмуляция теста Тьюринга. Задача сформирована как неизменяемая последовательность вопросно-ответных заданий с опцией выбора ответа. Это 3 связных диалога, каждый с имитацией 500 обращений пользователя к модели. На вход модели подаётся аудио с заключёнными в аудиофайле заданиями и вопросами. Варианты ответа (4 к каждому заданию) модель получает текстом и выбирает из них.
Задания теста проверяют способность модели адекватно поддерживать диалог на естественно меняющиеся темы общения, опираясь на контекст предыдущих вопросов.
Датасет основан на одноимённом текстовом датасете из первого релиза бенчмарка MERA. Кроме ruTiE-Audio, он представлен ещё в двух вариантах: текстовом и мультимодальном (вопросы подаются картинками и текстом, модель отвечает текстом).
Благодарность за предоставление и обработку голосов (озвучивание материала): Ульяна Исаева, Анна Лобанова, Андрей Бикин, Андрей Евлампиев, Александр Саутин, Антон Емельянов, Ольга Веденина, Мария Тихонова
Описание датасета
Поля данных
Каждый вопрос в датасете содержит следующие поля:
instruction[str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопроса.inputs— Вводные данные, формирующие задание для модели.audio[str] — Путь к файлу с аудио, к которому относится вопрос.option_a[str] — Вариант ответа A.option_b[str] — Вариант ответа B.option_c[str] — Вариант ответа C.option_d[str] — Вариант ответа D.
outputs[str] — Правильный ответ на вопрос.meta— Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).id[int] — Номер-идентификатор вопроса в датасете.type[str] — Тематический домен в датасете.unified_category[str] — Унифицированная категория по типам мышления.nonunified_category[str] — Неунифицированная категория по типам мышления аудио-визуальной модальности.turing_imitation[str] — Категория эмуляции теста Тьюринга, проверяемая вопросом.short_context[int] — Индикатор необходимости последних 1–2 вопросов для ответа.long_context[int] — Индикатор необходимости последних более чем 1–2 вопросов для ответа.audio— Метаданные, относящиеся к аудио.type[str] — Тип аудио — согласно классификации аудио для датасетов MERA.
Оценка
Метрики
Для агрегированной оценки ответов моделей используются следующие метрики:
- `Exact match`: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.
Human baseline
Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.
Для всех вопросов датасета были получены ответы разметчиков на crowd-source-платформе с перекрытием 5. Агрегированным ответом считался тот, который был выбран большинством (majority vote).
Результаты оценки:
- Exact match – 0.45
Мотивация
Датасет предназначен для анализа моделей с достаточной длиной контекстного окна (в идеале вмещающего контекст глубиной до 499 предыдущих вопросов), но применим и для моделей с меньшим контекстным окном, от 15 вопросов глубиной.
Заложенная в тест задача сложна не только необходимостью сохранять контекст разговора и обращаться к нему в ходе диалога, но и необходимостью обладать широкими знаниями в области языковой картины мира: поговорок, считалок, крылатых речевых оборотов, фраз из известных фильмов, песен, спектаклей, книг, мемов, а также характерными для человеческой беседы спонтанно актуализируемыми навыками: устный счёт, распознавание иронии, умение понять и достроить шутку, пространственное мышление, билингвизм, распознавание и использование причинно-следственных связей, избегание речевых ловушек. Только комплексное использование всех этих навыков позволяет полноценно «играть в имитацию» по Тьюрингу — адекватно участвовать в человеческой беседе на равных с людьми.
Поскольку в беседе меняются модальности и форматы общения (собеседник может играть омонимами, попросить подсчитать буквы в произнесённом, а не написанном слове, обратить ваше внимание на какой-то звук за окном и ждать вашей реакции, он также может пригласить к беседе третьего человека, высказать какое-то мнение или суждение и т. д.), дизайн отдельного задания в диалоге не всегда форматирован в качестве вопроса — оно может быть оформлено как реплика-сентенция, на которую модели нужно выбрать адекватную реакцию, может звучать как сценка или мини-радиоспектакль, даже без сопроводительного вопроса, но с предложенными вариантами реакций, из которых следует выбрать нужную. ruTiE-Audio предлагает на выбор 4 варианта ответа на каждый вопрос.
Тест проверяет способность модели:
- удерживать контекст;
- поддерживать (на общедоступном разговорном уровне) диалог на любой из основных тематических доменов (см. домены бенчмарка MERA);
- различать базовые классы задач, без которых не решить задания эмуляции теста Тьюринга (включая простейшую математику, этику, лингвистические игры, общий кругозор и т. д.);
- ориентироваться в различных категориях мышления, включая распознавание иронии, эмоций и намерения собеседника, восстановление логической последовательности ситуации по элементам и т. д.
Для валидности проверки способностей модели с помощью ruTiE-Audio есть важное ограничение. Поскольку около половины вопросов так или иначе завязаны на ближний контекст эмулируемой беседы, последующий вопрос может подсказать ответ на предыдущий. В связи с этим недопустима подача вопросов в модель по несколько штук разом. Вопросы подаются строго по одному, их порядок и последовательность не должны перетасовываться или меняться иным образом.
Создание датасета
Датасет собран внутренними экспертами вручную, после чего провалидирован. Аудиозадания смонтированы на основе написанных экспертами сценариев и сделанных по ним внутренних записей, также ранее не публиковавшихся в Сети, в ходе записи использованы фрагменты аудиошумов из открытых источников и собственные записи аудиошумов, сделанные в студии SberDevices и в полевых условиях.
Авторы
Денис Шевелев, Артем Червяков, Алена Феногенова, Сергей Марков (автор идеи)