MERA Новый открытый бенчмарк для русского языка для оценки фундаментальных моделей

Описание задачи

RealVideoQA — вопросно-ответный закрытый датасет на русском языке для оценки видео-текстовых моделей (Video-LLMs), содержащий вопросы к видеороликам. Комплексно проверяет следующие навыки: общее понимание видео и его деталей, наличие общих и доменных знаний, способность определять точный порядок действий в видео и восстанавливать полную последовательность, возможность подсчёта объектов и действий во времени, а также способность связывать действия с соответствующими временными границами в видео. На основе переданных видео и вопроса необходимо выбрать единственно верный вариант ответа из четырёх предложенных. Для правильного ответа не требуется прослушивание аудиоряда. Все видеоролики собраны путём краудсорсинга и отсутствуют в открытых источниках.

Описание датасета

Поля данных

Каждый вопрос в датасете содержит следующие поля:

inputs — Вводные данные, формирующие задание для модели.
- option_a [str] — Вариант ответа A.
- option_b [str] — Вариант ответа B.
- option_c [str] — Вариант ответа C.
- option_d [str] — Вариант ответа D.
- question [str] — Текст вопроса.
- video [str] — Путь к файлу с видео, к которому относится вопрос.
instruction [str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопроса.
meta — Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).
- categories — Категории признаков, характеризующих тестовый пример.
  - category [str] — Тип вопроса.
- id [int] — Номер-идентификатор вопроса в датасете.
- video — Метаданные, относящиеся к видео.
  - content [list] — Содержание видео — согласно классификации видео для датасетов MERA.
  - context [list] — Сопроводительный контекст, присутствующий на видео, — согласно классификации видео для датасетов MERA.
  - domain [list] — Видеодомен (животные, архитектура, культура и религия, еда, интерьер, природа, люди, спорт, технологии, транспорт, другое).
  - source [list] — Информация о происхождении видео — согласно классификации видео для датасетов MERA.
  - type [list] — Тип видео — согласно классификации видео для датасетов MERA.
outputs [str] — Правильный ответ на вопрос.

Оценка

Метрики

Для агрегированной оценки ответов моделей используются следующие метрики:

- `Exact match`: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.

Human baseline

Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.

Для всех вопросов датасета были получены ответы разметчиков на crowd-source-платформе с перекрытием 5. Ответы в свободной форме были нормализованы (регистр, пробелы) для сравнения с эталоном. Агрегированным ответом считался тот, который был выбран большинством (majority vote).

Результаты оценки:

- Exact match – 0.96

Мотивация

Большинство опубликованных бенчмарков в области понимания видео сфокусированы на английском языке, и на текущий момент нет ни одного опубликованного бенчмарка для русского языка. Датасет RealVideoQA призван закрыть этот пробел: он позволяет оценить, насколько эффективно видеомодели способны отвечать на вопросы, требующие понимания видео (задача VideoQA). Данный датасет покрывает проверку как базовых, так и продвинутых способностей моделей в общем понимании видео и его деталей (за исключением восприятия аудиодорожки из видео), понимании вопросов различного типа и возможности выбрать правильный ответ из предложенных вариантов.

В категории «Общее описание» требуется ответить на вопрос об основном действии в видео или объекте на главном плане. Вопросы из категории «Детали и атрибуты» касаются специфики деталей, объектов на второстепенном плане. В «Общих и доменных знаниях» содержатся вопросы, требующие как классических повседневных знаний, так и знаний некоторой прикладной области («В каком порядке должно готовиться представленное блюдо?»). К категории «Последовательность действий» относятся вопросы, проверяющие понимание действий, происходящих на видео, их взаимного следования, а также проверяющие умение восстанавливать эту последовательность. К «Подсчёту» относятся вопросы, определяющие способность подсчитывать различные объекты, количество повторений действия, разнесённых во времени, и умение выполнять простые арифметические операции с найденным количеством. В категории «Временной интервал» проверяется способность связывать действия из видео с временными границами (тайм-кодами видео), в которые происходят эти действия. Таким образом, датасет проверяет ключевые для видеодомена навыки моделей.

Примеры в датасете не требуют понимания аудиоряда видео, это необходимо учитывать при интерпретации оценки.

Создание датасета

Для создания датасета использовались видеоролики, собранные путём краудсорсинга через телеграм-бот. С помощью платформы TagMe разметчики составляли вопросы и варианты ответов для каждой категории. В каждом примере только один правильный вариант ответа, что исключает неоднозначность. Проведены два этапа валидации разметки аннотаторами с перекрытием 3 и последующая агрегация результатов. В результате агрегации отобраны только те примеры, где все разметчики дали одинаковый ответ. Также была выполнена постобработка для исправления опечаток. Правильные варианты ответов сбалансированы по классам.

Авторы

Вильдан Сабуров