MERA Новый открытый бенчмарк для русского языка для оценки фундаментальных моделей

Описание задачи

CommonVideoQA — вопросно-ответный публичный датасет на русском языке для оценки видеотекстовых моделей (Video-LLMs), содержащий вопросы к видеороликам. Комплексно проверяет следующие навыки: общее понимание видео и его деталей, наличие общих и доменных знаний, способность определять точный порядок действий в видео и восстанавливать полную последовательность, возможность подсчёта объектов и действий во времени, а также способность связывать действия с соответствующими временными границами в видео. На основе переданных видео и вопроса необходимо выбрать единственно верный вариант ответа из четырёх предложенных. Для правильного ответа не требуется прослушивание аудиоряда. Все видеоролики взяты из открытых публичных источников.

Описание датасета

Поля данных

Каждый вопрос в датасете содержит следующие поля:

instruction [str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопроса
inputs — Вводные данные, формирующие задание для модели.
- video [str] — Путь к файлу с видео, к которому относится вопрос.
- question [str] — Текст вопроса.
- option_a [str] — Вариант ответа A.
- option_b [str] — Вариант ответа B.
- option_c [str] — Вариант ответа C.
- option_d [str] — Вариант ответа D.
outputs [str] — Правильный ответ на вопрос.
meta — Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).
- id [int] — Номер-идентификатор вопроса в датасете.
- video — Метаданные, относящиеся к видео.
  - source [list] — Информация о происхождении видео — согласно классификации видео для датасетов MERA.
  - type [list] — Тип видео — согласно классификации видео для датасетов MERA.
  - content [list] — Содержание видео — согласно классификации видео для датасетов MERA.
  - context [list] — Сопроводительный контекст, присутствующий на видео, — согласно классификации видео для датасетов MERA.
  - domain [list] — Видеодомен.
categories — Категории признаков, характеризующих тестовый пример.
- category [str] — Тип вопроса.

Оценка

Метрики

Для агрегированной оценки ответов моделей используются следующие метрики:

- `Exact match`: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.

Human baseline

Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.

Для всех вопросов датасета были получены ответы разметчиков на crowd-source-платформе с перекрытием 5. Ответы в свободной форме были нормализованы (регистр, пробелы) для сравнения с эталоном. Агрегированным ответом считался тот, который был выбран большинством (majority vote).

Результаты оценки:

- Exact match – 0.96

Мотивация

Большинство опубликованных бенчмарков в области понимания видео сфокусированы на английском языке, и на текущий момент нет ни одного бенчмарка на русском в открытом доступе. Датасет CommonVideoQA призван закрыть этот пробел: он позволяет оценить, насколько эффективно видеомодели способны отвечать на вопросы, требующие понимания видео (задача VideoQA). Данный датасет покрывает проверку как базовых, так и продвинутых способностей моделей в общем понимании видео и его деталей (за исключением восприятия аудиодорожки из видео), понимании вопросов различного типа и возможности выбрать правильный ответ из предложенных вариантов.

В категории «Общее описание» требуется ответить на вопрос об основном действии в видео или объекте на главном плане. Вопросы из категории «Детали и атрибуты» касаются специфики деталей, объектов на второстепенном плане. В «Общих и доменных знаниях» содержатся вопросы, требующие как классических повседневных знаний, так и знаний некоторой прикладной области («В каком порядке должно готовиться представленное блюдо?»). К категории «Последовательность действий» относятся вопросы, проверяющие понимание действий, происходящих на видео, их взаимного следования, а также проверяющие умение восстанавливать эту последовательность. К «Подсчёту» относятся вопросы, определяющие способность подсчитывать различные объекты, количество повторений действия, разнесённых во времени, и умение выполнять простые арифметические операции с найденным количеством. В категории «Временной интервал» проверяется способность связывать действия из видео с временными границами (тайм-кодами видео), в которые происходят эти действия. Таким образом, датасет проверяет ключевые для видеодомена навыки моделей.

Набор данных содержит видеосюжеты, охватывающие следующие области: «кухни» (включая повседневную домашнюю деятельность), «спорт» (тренировочные процессы и соревнования), «флора и фауна» (изображение ландшафтов, дикой природы и растений), «инструменты» (применение различных приспособлений и вспомогательных предметов) и «хобби» (широкий спектр досуговых занятий).

Примеры в датасете не требуют понимания аудиоряда видео, сами видео взяты из открытых источников (EPIC-KITCHENS, Kinetics), это необходимо учитывать при интерпретации оценки.

Создание датасета

Для создания датасета использовались видеоролики из датасетов EPIC-KITCHENS-100 и Kinetics-600. С помощью платформы TagMe разметчики составляли вопросы и варианты ответов для каждой категории. В каждом примере только один правильный вариант ответа, что исключает неоднозначность. Проведены два этапа валидации разметки аннотаторами с перекрытием 3 и последующая агрегация результатов. Примеры, где не все разметчики дали одинаковый ответ, прошли дополнительный этап валидации и редактуры. В конце была выполнена постобработка для исправления опечаток. Правильные варианты ответов сбалансированы по классам.

Авторы

Вильдан Сабуров