MERA Новый открытый бенчмарк для русского языка для оценки фундаментальных моделей

Описание задачи

ruCLEVR — это датасет для задачи визуального вопросно-ответного ризонинга (Visual Question Answering, VQA), созданный по методологии [CLEVR](https://cs.stanford.edu/people/jcjohns/clevr/), адаптированной для русского языка.

ruCLEVR состоит из автоматически сгенерированных изображений 3D-объектов, каждый из которых характеризуется такими признаками, как форма, размер, цвет и материал, расположенных в различных условиях и образующих сложное визуальное окружение. Набор данных включает вопросы, основанные на этих изображениях и разбитые на определённые группы, такие как запрос атрибутов, сравнение атрибутов, существование, подсчёт и целочисленное сравнение. Для создания вопросов использованы предопределённые шаблоны, что позволяет обеспечить последовательность и разнообразие. Датасет был создан с нуля, чтобы избежать предвзятости модели. Вопросы предназначены для оценки способности моделей выполнять задачи, требующие точного визуального рассуждения, анализируя признаки и отношения объектов в каждой сцене. Благодаря такому структурированному дизайну датасет обеспечивает контролируемую среду для оценки навыков точного рассуждения моделей при работе с визуальными данными.

Описание датасета

Поля данных

Каждый вопрос в датасете содержит следующие поля:

instruction [str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопроса.
inputs — Вводные данные, формирующие задание для модели.
image [str] — Путь к файлу с изображением, к которому относится вопрос.
- question [str] — Текст вопроса.
- outputs [str] — Правильный ответ на вопрос.
meta — Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).
- id [int] — Номер-идентификатор вопроса в датасете.
- question_type [str] — Тип вопроса в зависимости от возможных ответов: бинарный, цвета, количество, материалы, формы, размер.
- image — Метаданные, относящиеся к изображению.
  - synt_source [list] — Источники, с помощью которых сгенерированы или воссозданы данные для формирования вопроса, в том числе названия генеративных моделей.
  - type [list] — Тип изображения — согласно классификации изображений для датасетов MERA.

Оценка

Метрики

Для агрегированной оценки ответов моделей используются следующие метрики:

- `Exact match`: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.

Human baseline

Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.

Для всех вопросов датасета были получены ответы разметчиков на crowd-source-платформе с перекрытием 5. Ответы в свободной форме были нормализованы (регистр, пробелы) для сравнения с эталоном. Агрегированным ответом считался тот, который был выбран большинством (majority vote).

Результаты оценки:

- Exact match – 0.96

Мотивация

Датасет ruCLEVR был создан для оценки возможностей визуальных рассуждений мультимодальных языковых моделей, в частности на русском языке, где не хватает диагностических датасетов для таких задач. Его цель — оценить способность моделей рассуждать о формах, цветах, количествах и пространственных отношениях в визуальных сценах, выходя за рамки базового понимания языка и проверяя способности моделей к комплексным рассуждениям. Данный навык необходим моделям, которые, как ожидается, будут анализировать визуальные данные и выполнять задачи, требующие логических выводов о взаимодействии объектов. Дизайн датасета, в котором используются структурированные семейства вопросов, обеспечивает всестороннюю и непредвзятую оценку, сосредоточенную на навыках рассуждения моделей, а не на распознавании паттернов.

Создание датасета

Для создания ruCLEVR использовались два подхода: 1) генерация новых примеров и 2) аугментация данных с заменой цвета. Ниже каждый подход описан более подробно.

**Генерация новых примеров**: Были сгенерированы новые уникальные изображения и соответствующие вопросы с нуля. Этот процесс включал несколько этапов для обеспечения контролируемой и всесторонней оценки визуального рассуждения. Сначала автоматически генерировались 3D-изображения с использованием [Blender](https://www.blender.org/download/releases/2-78/) с изображением объектов с заданными свойствами, такими как форма, размер, цвет и материал. Эти объекты были размещены в различных конфигурациях для создания сложных сцен. Затем на основе заданных шаблонов были сгенерированы вопросы и ответы к ним. Чтобы избежать ошибок в грамматических формах (падежи, склонения), мы генерировали вопросы на английском языке, после чего перевели их на русский с помощью Google Translate. После генерации вопросы были отфильтрованы для выявления некорректных переводов с использованием модели [ruRoBERTa-large-rucola](https://huggingface.co/RussianNLP/ruRoBERTa-large-rucola), обученной для задачи лингвистической приемлемости. Кроме того, мы проверили датасет на отсутствие дубликатов.

**Аугментация данных с заменой цвета**: Нами были применены техники аугментации данных для повышения вариативности и сложности тестовой части с использованием разработанного [скрипта](https://github.com/erkenovaj/RuCLEVR/tree/main) для систематической замены цветов в вопросах и изображениях по заданным правилам. Аугментация изначально проводилась для семплов на английском языке, чтобы избежать морфологических сложностей. После аугментации вопросы были переведены на русский язык и проверены на грамматическую корректность.

Финально датасет был вручную проверен, некорректные примеры, появившиеся из-за автоматического способа генерации данных, были исключены.

Авторы

Ксения Бирюкова, Дарья Челонокова, Джамиля Эркенова, Артем Червяков, Мария Тихонова