MERA Новый открытый бенчмарк для русского языка для оценки фундаментальных моделей

Описание задачи

ruTiE-Image — мультимодальная эмуляция теста Тьюринга, сформированная как неизменяемая последовательность вопросно-ответных заданий с опцией выбора ответа. Это 3 связных диалога, каждый с имитацией 500 обращений пользователя к модели посредством текста и картинок. Варианты ответа (4 к каждому заданию) модель получает текстом и выбирает из них.

Задания теста проверяют способность модели адекватно поддерживать диалог на естественно меняющиеся темы общения, опираясь на контекст предыдущих вопросов.

Датасет основан на одноимённом текстовом датасете из первого релиза бенчмарка MERA. Кроме ruTiE-Image, датасет представлен ещё в двух вариантах: текстовом и звуковом (вопросы подаются в аудио, модель отвечает текстом).

Описание датасета

Поля данных

Каждый вопрос в датасете содержит следующие поля:

instruction [str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопроса.
inputs — Вводные данные, формирующие задание для модели.
- image [str] — Путь к файлу с изображением, к которому относится вопрос.
- question [str] — Текст вопроса.
- option_a [str] — Вариант ответа A.
- option_b [str] — Вариант ответа B.
- option_c [str] — Вариант ответа C.
- option_d [str] — Вариант ответа D.
outputs [str] — Правильный ответ на вопрос.
meta — Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).
- id [int] — Номер-идентификатор вопроса в датасете.
- type [str] — Тематический домен в датасете.
- unified_category [str] — Унифицированная категория по типам мышления.
- nonunified_category [str] — Неунифицированная категория по типам мышления аудио-, визуальной модальности.
- turing_imitation [str] — Категория эмуляции теста Тьюринга, проверяемая вопросом.
- short_context [int] — Индикатор необходимости последних 1–2 вопросов для ответа.
- long_context [int] — Индикатор необходимости последних более чем 1–2 вопросов для ответа.
- image — Метаданные, относящиеся к изображению.
  - type [str] — Тип изображения — согласно классификации изображений для датасетов MERA.

Оценка

Метрики

Для агрегированной оценки ответов моделей используются следующие метрики:

- `Exact match`: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.

Human baseline

Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.

Для всех вопросов датасета были получены ответы разметчиков на crowd-source-платформе с перекрытием 5. Агрегированным ответом считался тот, который был выбран большинством (majority vote).

Результаты оценки:

- Exact match – 0.55

Мотивация

Датасет предназначен для анализа моделей с достаточной длиной контекстного окна (в идеале вмещающего контекст глубиной до 499 предыдущих вопросов), но применим и для моделей с меньшим контекстным окном, от 15 вопросов глубиной.

Заложенная в тест задача сложна не только необходимостью сохранять контекст разговора и обращаться к нему в ходе диалога, но и необходимостью обладать широкими знаниями в области языковой картины мира: поговорок, считалок, крылатых речевых оборотов, фраз из известных фильмов, песен, спектаклей, книг, мемов, а также характерными для человеческой беседы спонтанно актуализируемыми навыками: устный счёт, распознавание иронии, умение понять и достроить шутку, пространственное мышление, билингвизм, распознавание и использование причинно-следственных связей, избегание речевых ловушек. Только комплексное использование всех этих навыков позволяет полноценно «играть в имитацию» по Тьюрингу — адекватно участвовать в человеческой беседе на равных с людьми.

Поскольку в беседе меняются модальности общения (собеседник может показать вам картинку, попросить прочитать нарисованную на стене надпись, апеллировать к ранее показанной фотографии, пригласить к беседе третьего человека, высказать какое-то мнение или суждение и т. д.), дизайн отдельного задания в диалоге не всегда форматирован в качестве вопроса — оно может быть оформлено как реплика-сентенция, на которую модели нужно выбрать адекватную реакцию, в ruTiE-Image задание может выглядеть как просто присланная модели картинка без сопроводительного вопроса, но с предложенными вариантами реакций, из которых следует выбрать нужную. ruTiE-Image предлагает на выбор 4 варианта ответа на каждый вопрос.

Тест проверяет способность модели:

- удерживать контекст;

- поддерживать (на общедоступном разговорном уровне) диалог на любой из основных тематических доменов (см. домены бенчмарка MERA);

- различать базовые классы задач, без которых не решить задания эмуляции теста Тьюринга (включая простейшую математику, этику, лингвистические игры, общий кругозор и т. д.);

- ориентироваться в различных категориях мышления, включая распознавание иронии, эмоций и намерения собеседника, восстановление логической последовательности ситуации по элементам и т. д.

Для валидности проверки способностей модели с помощью ruTiE есть важное ограничение. Поскольку около половины вопросов так или иначе завязаны на ближний контекст эмулируемой беседы, последующий вопрос может подсказать ответ на предыдущий. В связи с этим недопустима подача вопросов ruTiE модели по несколько штук разом. Вопросы подаются строго по одному, их порядок и последовательность не должны перетасовываться или меняться иным образом.

Создание датасета

Датасет собран внутренними экспертами вручную, после чего провалидирован. Изображения для датасета собирались методом краудсорсинга из не выкладывавшихся ранее в Сеть мобильных фото, что обеспечивает актуальность и современность материалов.

Авторы

Денис Шевелев, Артем Червяков, Алена Феногенова, Сергей Марков (автор идеи)