Вернуться к списку задач

CommonVideoQA

Формат вывода
Ответ в свободной форме
Метрика
EM
JudgeScore
Размер датасета
740 вопросов

Описание задачи

CommonVideoQA — вопросно-ответный публичный датасет на русском языке для оценки видеотекстовых моделей (Video-LLMs), содержащий вопросы к видеороликам. Комплексно проверяет следующие навыки: общее понимание видео и его деталей, наличие общих и доменных знаний, способность определять точный порядок действий в видео и восстанавливать полную последовательность, возможность подсчёта объектов и действий во времени, а также способность связывать действия с соответствующими временными границами в видео. На основе переданных видео и вопроса необходимо выбрать единственно верный вариант ответа из четырёх предложенных. Для правильного ответа не требуется прослушивание аудиоряда. Все видеоролики взяты из открытых публичных источников.

Описание датасета

Поля данных

Каждый вопрос в датасете содержит следующие поля:

  • instruction [str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопроса
  • inputs — Вводные данные, формирующие задание для модели.
    • video [str] — Путь к файлу с видео, к которому относится вопрос.
    • question [str] — Текст вопроса.
    • option_a [str] — Вариант ответа A.
    • option_b [str] — Вариант ответа B.
    • option_c [str] — Вариант ответа C.
    • option_d [str] — Вариант ответа D.
  • outputs [str] — Правильный ответ на вопрос.
  • meta — Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).
    • id [int] — Номер-идентификатор вопроса в датасете.
    • video — Метаданные, относящиеся к видео.
      • source [list] — Информация о происхождении видео — согласно классификации видео для датасетов MERA.
      • type [list] — Тип видео — согласно классификации видео для датасетов MERA.
      • content [list] — Содержание видео — согласно классификации видео для датасетов MERA.
      • context [list] — Сопроводительный контекст, присутствующий на видео, — согласно классификации видео для датасетов MERA.
      • domain [list] — Видеодомен.
  • categories — Категории признаков, характеризующих тестовый пример.
    • category [str] — Тип вопроса.

Оценка

Метрики

Для агрегированной оценки ответов моделей используются следующие метрики:

- `Exact match`: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.

Human baseline

Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.

Для всех вопросов датасета были получены ответы разметчиков на crowd-source-платформе с перекрытием 5. Ответы в свободной форме были нормализованы (регистр, пробелы) для сравнения с эталоном. Агрегированным ответом считался тот, который был выбран большинством (majority vote).

Результаты оценки:

- Exact match – 0.96

Мотивация

Большинство опубликованных бенчмарков в области понимания видео сфокусированы на английском языке, и на текущий момент нет ни одного бенчмарка на русском в открытом доступе. Датасет CommonVideoQA призван закрыть этот пробел: он позволяет оценить, насколько эффективно видеомодели способны отвечать на вопросы, требующие понимания видео (задача VideoQA). Данный датасет покрывает проверку как базовых, так и продвинутых способностей моделей в общем понимании видео и его деталей (за исключением восприятия аудиодорожки из видео), понимании вопросов различного типа и возможности выбрать правильный ответ из предложенных вариантов.

В категории «Общее описание» требуется ответить на вопрос об основном действии в видео или объекте на главном плане. Вопросы из категории «Детали и атрибуты» касаются специфики деталей, объектов на второстепенном плане. В «Общих и доменных знаниях» содержатся вопросы, требующие как классических повседневных знаний, так и знаний некоторой прикладной области («В каком порядке должно готовиться представленное блюдо?»). К категории «Последовательность действий» относятся вопросы, проверяющие понимание действий, происходящих на видео, их взаимного следования, а также проверяющие умение восстанавливать эту последовательность. К «Подсчёту» относятся вопросы, определяющие способность подсчитывать различные объекты, количество повторений действия, разнесённых во времени, и умение выполнять простые арифметические операции с найденным количеством. В категории «Временной интервал» проверяется способность связывать действия из видео с временными границами (тайм-кодами видео), в которые происходят эти действия. Таким образом, датасет проверяет ключевые для видеодомена навыки моделей.

Примеры в датасете не требуют понимания аудиоряда видео, сами видео взяты из открытых источников (EPIC-KITCHENS), это необходимо учитывать при интерпретации оценки.

Создание датасета

Для создания датасета использовались видеоролики из датасета EPIC-KITCHENS-100. С помощью платформы TagMe разметчики составляли вопросы и варианты ответов для каждой категории. В каждом примере только один правильный вариант ответа, что исключает неоднозначность. Проведены два этапа валидации разметки аннотаторами с перекрытием 3 и последующая агрегация результатов. Примеры, где не все разметчики дали одинаковый ответ, прошли дополнительный этап валидации и редактуры. В конце была выполнена постобработка для исправления опечаток. Правильные варианты ответов сбалансированы по классам.

Авторы

Вильдан Сабуров

Посмотреть поля датасета ``json { "instruction": "Вопрос: {question} \nA. {option_a}\nB. {option_b}\nC. {option_c}\nD. {option_d}\nДля данных вопроса и вариантов ответа тебе необходимо выбрать верный ответ, отвечай только буквой правильного варианта. Для этого посмотри видео . Какой твой выбор?", "inputs": { "video": "samples/video632.mp4",
"question": "Сколько всего тарелок и тарелочек (не глубоких мисок и не пиал) у героя этого видео?", "option_a": "Пятнадцать.", "option_b": "Тринадцать.", "option_c": "Двенадцать.", "option_d": "Шестнадцать." }, "outputs": "A", "meta": { "id": 824, "categories": { "category": "counting" }, "video": { "source": [ "captured_on_camera" ], "type": [ "visual" ], "content": [ "object", "situation", "inside" ], "context": [ "sound_context", "with_sound" ], "domain": [ "kitchens" ] } } } ```
Тестируемые навыки моделей
Common everyday knowledge
Object localization
Object recognition
Attribute recognition
Abductive reasoning
Common domain knowledge
Cross-instance event recognition
Mutual object localization
Quantitative reasoning
Single-instance event recognition
Media grounding
Посмотреть поля датасета
``json { "instruction": "Вопрос: {question} \nA. {option_a}\nB. {option_b}\nC. {option_c}\nD. {option_d}\nДля данных вопроса и вариантов ответа тебе необходимо выбрать верный ответ, отвечай только буквой правильного варианта. Для этого посмотри видео . Какой твой выбор?", "inputs": { "video": "samples/video632.mp4",
"question": "Сколько всего тарелок и тарелочек (не глубоких мисок и не пиал) у героя этого видео?", "option_a": "Пятнадцать.", "option_b": "Тринадцать.", "option_c": "Двенадцать.", "option_d": "Шестнадцать." }, "outputs": "A", "meta": { "id": 824, "categories": { "category": "counting" }, "video": { "source": [ "captured_on_camera" ], "type": [ "visual" ], "content": [ "object", "situation", "inside" ], "context": [ "sound_context", "with_sound" ], "domain": [ "kitchens" ] } } } ```