Описание задачи
CommonVideoQA — вопросно-ответный публичный датасет на русском языке для оценки видеотекстовых моделей (Video-LLMs), содержащий вопросы к видеороликам. Комплексно проверяет следующие навыки: общее понимание видео и его деталей, наличие общих и доменных знаний, способность определять точный порядок действий в видео и восстанавливать полную последовательность, возможность подсчёта объектов и действий во времени, а также способность связывать действия с соответствующими временными границами в видео. На основе переданных видео и вопроса необходимо выбрать единственно верный вариант ответа из четырёх предложенных. Для правильного ответа не требуется прослушивание аудиоряда. Все видеоролики взяты из открытых публичных источников.
Описание датасета
Поля данных
Каждый вопрос в датасете содержит следующие поля:
instruction[str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопросаinputs— Вводные данные, формирующие задание для модели.video[str] — Путь к файлу с видео, к которому относится вопрос.question[str] — Текст вопроса.option_a[str] — Вариант ответа A.option_b[str] — Вариант ответа B.option_c[str] — Вариант ответа C.option_d[str] — Вариант ответа D.
outputs[str] — Правильный ответ на вопрос.meta— Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).id[int] — Номер-идентификатор вопроса в датасете.video— Метаданные, относящиеся к видео.source[list] — Информация о происхождении видео — согласно классификации видео для датасетов MERA.type[list] — Тип видео — согласно классификации видео для датасетов MERA.content[list] — Содержание видео — согласно классификации видео для датасетов MERA.context[list] — Сопроводительный контекст, присутствующий на видео, — согласно классификации видео для датасетов MERA.domain[list] — Видеодомен.
categories— Категории признаков, характеризующих тестовый пример.category[str] — Тип вопроса.
Оценка
Метрики
Для агрегированной оценки ответов моделей используются следующие метрики:
- `Exact match`: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.
Human baseline
Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.
Для всех вопросов датасета были получены ответы разметчиков на crowd-source-платформе с перекрытием 5. Ответы в свободной форме были нормализованы (регистр, пробелы) для сравнения с эталоном. Агрегированным ответом считался тот, который был выбран большинством (majority vote).
Результаты оценки:
- Exact match – 0.96
Мотивация
Большинство опубликованных бенчмарков в области понимания видео сфокусированы на английском языке, и на текущий момент нет ни одного бенчмарка на русском в открытом доступе. Датасет CommonVideoQA призван закрыть этот пробел: он позволяет оценить, насколько эффективно видеомодели способны отвечать на вопросы, требующие понимания видео (задача VideoQA). Данный датасет покрывает проверку как базовых, так и продвинутых способностей моделей в общем понимании видео и его деталей (за исключением восприятия аудиодорожки из видео), понимании вопросов различного типа и возможности выбрать правильный ответ из предложенных вариантов.
В категории «Общее описание» требуется ответить на вопрос об основном действии в видео или объекте на главном плане. Вопросы из категории «Детали и атрибуты» касаются специфики деталей, объектов на второстепенном плане. В «Общих и доменных знаниях» содержатся вопросы, требующие как классических повседневных знаний, так и знаний некоторой прикладной области («В каком порядке должно готовиться представленное блюдо?»). К категории «Последовательность действий» относятся вопросы, проверяющие понимание действий, происходящих на видео, их взаимного следования, а также проверяющие умение восстанавливать эту последовательность. К «Подсчёту» относятся вопросы, определяющие способность подсчитывать различные объекты, количество повторений действия, разнесённых во времени, и умение выполнять простые арифметические операции с найденным количеством. В категории «Временной интервал» проверяется способность связывать действия из видео с временными границами (тайм-кодами видео), в которые происходят эти действия. Таким образом, датасет проверяет ключевые для видеодомена навыки моделей.
Примеры в датасете не требуют понимания аудиоряда видео, сами видео взяты из открытых источников (EPIC-KITCHENS), это необходимо учитывать при интерпретации оценки.
Создание датасета
Для создания датасета использовались видеоролики из датасета EPIC-KITCHENS-100. С помощью платформы TagMe разметчики составляли вопросы и варианты ответов для каждой категории. В каждом примере только один правильный вариант ответа, что исключает неоднозначность. Проведены два этапа валидации разметки аннотаторами с перекрытием 3 и последующая агрегация результатов. Примеры, где не все разметчики дали одинаковый ответ, прошли дополнительный этап валидации и редактуры. В конце была выполнена постобработка для исправления опечаток. Правильные варианты ответов сбалансированы по классам.
Авторы
Вильдан Сабуров