Вернуться к списку задач

ruCommonVQA

Формат вывода
Ответ в свободной форме
Метрика
EM
JudgeScore
Размер датасета
740 вопросов

Описание задачи

ruCommonVQA — вопросно-ответный публичный датасет на русском языке по изображениям двух типов: фото и картинкам.

Вопросы делятся на 1) простые и 2) сложные, разбитые на самые частотные типы: бинарный, сравнительный, сколько, где, как, какой, что, кто, микс. Для простых вопросов нужно лишь ориентироваться на изображение, для сложных — сделать шаг ризонинга. Все изображения для сета — классические, из публичных источников, реальные фото и мультяшные абстрактные изображения. Датасет публичный, базовый VQA для русского языка.

Описание датасета

Поля данных

Каждый вопрос в датасете содержит следующие поля:

  • instruction [str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопроса.
  • inputs — Вводные данные, формирующие задание для модели.
    • image [str] — Путь к файлу с изображением, к которому относится вопрос.
    • question [str] — Текст вопроса.
  • outputs [str] — Правильный ответ на вопрос.
  • meta — Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).
    • id [int] — Номер-идентификатор вопроса в датасете.
    • categories — Категории признаков, характеризующих тестовый пример.
      • question_type [str] — Типы вопросов: бинарный, сравнительный, сколько, где, как, какой, что, кто.
    • image — Метаданные, относящиеся к изображению.
      • source [list] — Источник изображений: фото из COCO или абстрактная картинка.
    • complexity [str] — Сложность вопроса: простой или сложный.

Оценка

 Метрики

Для агрегированной оценки ответов моделей используются следующие метрики:

- `Exact match`: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.

Human baseline

Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.

Для всех вопросов датасета были получены ответы разметчиков на crowd-source-платформе с перекрытием 5. Ответы в свободной форме были нормализованы (регистр, пробелы) для сравнения с эталоном. Агрегированным ответом считался тот, который был выбран большинством (majority vote).

Результаты оценки:

- Exact match – 0.82

Мотивация

Датасет решает классическую базовую задачу VQA, по аналогии с английскими датасетами [VQA](https://visualqa.org/download.html). Для русского языка нет в свободном доступе базового VQA-датасета, как бейзлайна для оценки картиночно-текстовых моделей. Данный датасет рассчитан на проверку базовых способностей моделей различать объекты на изображениях разного типа, понимание вопросов разного типа и генерировать ответ на основе картинки. Вопросы покрывают основные способности: понимание объектов на изображении Fine-grained Perception (Single instance), общее восприятие изображения Coarse perception, здравый смысл, общие знания. Так как картинки взяты из публичных источников ([COCO](https://cocodataset.org/) датасет, [VQA v2](https://huggingface.co/datasets/pingzhili/vqa_v2) английский), важно учитывать это при интерпретации оценки. Возможна косвенная утечка данных через картинки в данных обучениях моделей.

Создание датасета

Датасет содержит данные из двух источников: одна часть включает примеры из оригинального англоязычного датасета VQA, вторая часть была собрана с нуля.

Первая часть содержит изображения из датасета [VQA v2](https://huggingface.co/datasets/pingzhili/vqa_v2), который включает изображения из [COCO](https://cocodataset.org). Для этой части аннотаторы вручную создали вопросы и ответы с помощью платформы ABC Elementary. Для каждого изображения было сформулировано три вопроса, при этом каждое изображение разметили три разных аннотатора. Полученные данные были агрегированы и автоматически отфильтрованы (удалены длинные ответы, опечатки и проблемы с форматированием), а также прошли ручную проверку.

Вторая часть датасета была собрана с нуля. Для сбора изображений использовался Telegram-бот с обязательным пользовательским соглашением, гарантирующим конфиденциальность фото и наличие добровольного согласия. Изображения собирались при условии, что загружаемые фото являются уникальными и ранее не публиковались в интернете или других открытых источниках.

Генерация вопросов и ответов для новых изображений, полученных через Telegram-бота, также осуществлялась на платформе ABC Elementary. Аннотаторам предоставлялись изображения, к которым нужно было придумать вопрос и соответствующий ответ.

Авторы

Мария Тихонова, Ульяна Исаева, Алена Феногенова

Посмотреть поля датасета ```json { "instruction": "Внимательно посмотрите на картинку .\nОтветьте кратко на вопрос. В качестве ответа напишите слово в той же форме, как спрашивается в вопросе, без дополнительных рассуждений, либо цифру, если ответом является число.\nВопрос:{question}\nОтвет:", "inputs": { "image": "samples/image0001.jpg", "question": "На фото есть люди?" }, "outputs": "Да", "meta": { "id": 123, "categories": { "question_type": "binary" }, "image": { "source": [ "photo" ] }, "complexity": "simple" } } ```
Тестируемые навыки моделей
Common everyday knowledge
Object localization
Object recognition
Attribute recognition
Cross-instance event recognition
Mutual object localization
Quantitative reasoning
Single-instance event recognition
Посмотреть поля датасета
```json { "instruction": "Внимательно посмотрите на картинку .\nОтветьте кратко на вопрос. В качестве ответа напишите слово в той же форме, как спрашивается в вопросе, без дополнительных рассуждений, либо цифру, если ответом является число.\nВопрос:{question}\nОтвет:", "inputs": { "image": "samples/image0001.jpg", "question": "На фото есть люди?" }, "outputs": "Да", "meta": { "id": 123, "categories": { "question_type": "binary" }, "image": { "source": [ "photo" ] }, "complexity": "simple" } } ```