Описание задачи
RealVideoQA — вопросно-ответный закрытый датасет на русском языке для оценки видео-текстовых моделей (Video-LLMs), содержащий вопросы к видеороликам. Комплексно проверяет следующие навыки: общее понимание видео и его деталей, наличие общих и доменных знаний, способность определять точный порядок действий в видео и восстанавливать полную последовательность, возможность подсчёта объектов и действий во времени, а также способность связывать действия с соответствующими временными границами в видео. На основе переданных видео и вопроса необходимо выбрать единственно верный вариант ответа из четырёх предложенных. Для правильного ответа не требуется прослушивание аудиоряда. Все видеоролики собраны путём краудсорсинга и отсутствуют в открытых источниках.
Описание датасета
Поля данных
Каждый вопрос в датасете содержит следующие поля:
inputs— Вводные данные, формирующие задание для модели.option_a[str] — Вариант ответа A.option_b[str] — Вариант ответа B.option_c[str] — Вариант ответа C.option_d[str] — Вариант ответа D.question[str] — Текст вопроса.video[str] — Путь к файлу с видео, к которому относится вопрос.
instruction[str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопроса.meta— Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).categories— Категории признаков, характеризующих тестовый пример.category[str] — Тип вопроса.
id[int] — Номер-идентификатор вопроса в датасете.video— Метаданные, относящиеся к видео.content[list] — Содержание видео — согласно классификации видео для датасетов MERA.context[list] — Сопроводительный контекст, присутствующий на видео, — согласно классификации видео для датасетов MERA.domain[list] — Видеодомен (животные, архитектура, культура и религия, еда, интерьер, природа, люди, спорт, технологии, транспорт, другое).source[list] — Информация о происхождении видео — согласно классификации видео для датасетов MERA.type[list] — Тип видео — согласно классификации видео для датасетов MERA.
outputs[str] — Правильный ответ на вопрос.
Оценка
Метрики
Для агрегированной оценки ответов моделей используются следующие метрики:
- `Exact match`: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.
Human baseline
Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.
Для всех вопросов датасета были получены ответы разметчиков на crowd-source-платформе с перекрытием 5. Ответы в свободной форме были нормализованы (регистр, пробелы) для сравнения с эталоном. Агрегированным ответом считался тот, который был выбран большинством (majority vote).
Результаты оценки:
- Exact match – 0.96
Мотивация
Большинство опубликованных бенчмарков в области понимания видео сфокусированы на английском языке, и на текущий момент нет ни одного опубликованного бенчмарка для русского языка. Датасет RealVideoQA призван закрыть этот пробел: он позволяет оценить, насколько эффективно видеомодели способны отвечать на вопросы, требующие понимания видео (задача VideoQA). Данный датасет покрывает проверку как базовых, так и продвинутых способностей моделей в общем понимании видео и его деталей (за исключением восприятия аудиодорожки из видео), понимании вопросов различного типа и возможности выбрать правильный ответ из предложенных вариантов.
В категории «Общее описание» требуется ответить на вопрос об основном действии в видео или объекте на главном плане. Вопросы из категории «Детали и атрибуты» касаются специфики деталей, объектов на второстепенном плане. В «Общих и доменных знаниях» содержатся вопросы, требующие как классических повседневных знаний, так и знаний некоторой прикладной области («В каком порядке должно готовиться представленное блюдо?»). К категории «Последовательность действий» относятся вопросы, проверяющие понимание действий, происходящих на видео, их взаимного следования, а также проверяющие умение восстанавливать эту последовательность. К «Подсчёту» относятся вопросы, определяющие способность подсчитывать различные объекты, количество повторений действия, разнесённых во времени, и умение выполнять простые арифметические операции с найденным количеством. В категории «Временной интервал» проверяется способность связывать действия из видео с временными границами (тайм-кодами видео), в которые происходят эти действия. Таким образом, датасет проверяет ключевые для видеодомена навыки моделей.
Примеры в датасете не требуют понимания аудиоряда видео, это необходимо учитывать при интерпретации оценки.
Создание датасета
Для создания датасета использовались видеоролики, собранные путём краудсорсинга через телеграм-бот. С помощью платформы TagMe разметчики составляли вопросы и варианты ответов для каждой категории. В каждом примере только один правильный вариант ответа, что исключает неоднозначность. Проведены два этапа валидации разметки аннотаторами с перекрытием 3 и последующая агрегация результатов. В результате агрегации отобраны только те примеры, где все разметчики дали одинаковый ответ. Также была выполнена постобработка для исправления опечаток. Правильные варианты ответов сбалансированы по классам.
Авторы
Вильдан Сабуров