Вернуться к списку задач

RealVideoQA

Формат вывода
Ответ в свободной форме
Метрика
EM
JudgeScore
Размер датасета
740 вопросов

Описание задачи

RealVideoQA — вопросно-ответный закрытый датасет на русском языке для оценки видео-текстовых моделей (Video-LLMs), содержащий вопросы к видеороликам. Комплексно проверяет следующие навыки: общее понимание видео и его деталей, наличие общих и доменных знаний, способность определять точный порядок действий в видео и восстанавливать полную последовательность, возможность подсчёта объектов и действий во времени, а также способность связывать действия с соответствующими временными границами в видео. На основе переданных видео и вопроса необходимо выбрать единственно верный вариант ответа из четырёх предложенных. Для правильного ответа не требуется прослушивание аудиоряда. Все видеоролики собраны путём краудсорсинга и отсутствуют в открытых источниках.

Описание датасета

Поля данных

Каждый вопрос в датасете содержит следующие поля:

  • inputs — Вводные данные, формирующие задание для модели.
    • option_a [str] — Вариант ответа A.
    • option_b [str] — Вариант ответа B.
    • option_c [str] — Вариант ответа C.
    • option_d [str] — Вариант ответа D.
    • question [str] — Текст вопроса.
    • video [str] — Путь к файлу с видео, к которому относится вопрос.
  • instruction [str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопроса.
  • meta — Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).
    • categories — Категории признаков, характеризующих тестовый пример.
      • category [str] — Тип вопроса.
    • id [int] — Номер-идентификатор вопроса в датасете.
    • video — Метаданные, относящиеся к видео.
      • content [list] — Содержание видео — согласно классификации видео для датасетов MERA.
      • context [list] — Сопроводительный контекст, присутствующий на видео, — согласно классификации видео для датасетов MERA.
      • domain [list] — Видеодомен (животные, архитектура, культура и религия, еда, интерьер, природа, люди, спорт, технологии, транспорт, другое).
      • source [list] — Информация о происхождении видео — согласно классификации видео для датасетов MERA.
      • type [list] — Тип видео — согласно классификации видео для датасетов MERA.
  • outputs [str] — Правильный ответ на вопрос.

Оценка

Метрики

Для агрегированной оценки ответов моделей используются следующие метрики:

- `Exact match`: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.

Human baseline

Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.

Для всех вопросов датасета были получены ответы разметчиков на crowd-source-платформе с перекрытием 5. Ответы в свободной форме были нормализованы (регистр, пробелы) для сравнения с эталоном. Агрегированным ответом считался тот, который был выбран большинством (majority vote).

Результаты оценки:

- Exact match – 0.96

Мотивация

Большинство опубликованных бенчмарков в области понимания видео сфокусированы на английском языке, и на текущий момент нет ни одного опубликованного бенчмарка для русского языка. Датасет RealVideoQA призван закрыть этот пробел: он позволяет оценить, насколько эффективно видеомодели способны отвечать на вопросы, требующие понимания видео (задача VideoQA). Данный датасет покрывает проверку как базовых, так и продвинутых способностей моделей в общем понимании видео и его деталей (за исключением восприятия аудиодорожки из видео), понимании вопросов различного типа и возможности выбрать правильный ответ из предложенных вариантов.

В категории «Общее описание» требуется ответить на вопрос об основном действии в видео или объекте на главном плане. Вопросы из категории «Детали и атрибуты» касаются специфики деталей, объектов на второстепенном плане. В «Общих и доменных знаниях» содержатся вопросы, требующие как классических повседневных знаний, так и знаний некоторой прикладной области («В каком порядке должно готовиться представленное блюдо?»). К категории «Последовательность действий» относятся вопросы, проверяющие понимание действий, происходящих на видео, их взаимного следования, а также проверяющие умение восстанавливать эту последовательность. К «Подсчёту» относятся вопросы, определяющие способность подсчитывать различные объекты, количество повторений действия, разнесённых во времени, и умение выполнять простые арифметические операции с найденным количеством. В категории «Временной интервал» проверяется способность связывать действия из видео с временными границами (тайм-кодами видео), в которые происходят эти действия. Таким образом, датасет проверяет ключевые для видеодомена навыки моделей.

Примеры в датасете не требуют понимания аудиоряда видео, это необходимо учитывать при интерпретации оценки.

Создание датасета

Для создания датасета использовались видеоролики, собранные путём краудсорсинга через телеграм-бот. С помощью платформы TagMe разметчики составляли вопросы и варианты ответов для каждой категории. В каждом примере только один правильный вариант ответа, что исключает неоднозначность. Проведены два этапа валидации разметки аннотаторами с перекрытием 3 и последующая агрегация результатов. В результате агрегации отобраны только те примеры, где все разметчики дали одинаковый ответ. Также была выполнена постобработка для исправления опечаток. Правильные варианты ответов сбалансированы по классам.

Авторы

Вильдан Сабуров

Посмотреть поля датасета ```json { "inputs": { "video": "samples/video184.mp4",
"question": "Сколько людей на видео прошло вправо?", "option_a": "Один.", "option_b": "Трое.", "option_c": "Двое.", "option_d": "Четверо." }, "instruction": "Посмотри
Тестируемые навыки моделей
Common everyday knowledge
Object localization
Object recognition
Attribute recognition
Abductive reasoning
Common domain knowledge
Cross-instance event recognition
Mutual object localization
Quantitative reasoning
Single-instance event recognition
Media grounding
Посмотреть поля датасета
```json { "inputs": { "video": "samples/video184.mp4",
"question": "Сколько людей на видео прошло вправо?", "option_a": "Один.", "option_b": "Трое.", "option_c": "Двое.", "option_d": "Четверо." }, "instruction": "Посмотри