MERA Новый открытый бенчмарк для русского языка для оценки фундаментальных моделей

Описание задачи

ruMathVQA — мультимодальный датасет, состоящий из школьных математических задач, представленных в виде изображений и вопросов с аннотацией к ним для записи ответа в однозначной форме.

Описание датасета

Поля данных

Каждый вопрос в датасете содержит следующие поля:

instruction [str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопроса.
inputs — Вводные данные, формирующие задание для модели.
- image [str] — Путь к файлу с изображением, к которому относится вопрос.
- annotation [str] — Требуемый формат ответа.
outputs [str] — Правильный ответ на вопрос.
meta — Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).
- id [int] — Номер-идентификатор вопроса в датасете.
- categories — Категории признаков, характеризующих тестовый пример.
  - topic [str] — Предмет и школьный класс задачи [математика | геометрия] n класс.
- image — Метаданные, относящиеся к изображению.
  - source [str] — Информация о происхождении изображения — согласно классификации изображений для датасетов MERA.
  - type [str] — Тип изображения — согласно классификации изображений для датасетов MERA.
  - content [str] — Содержание изображения — согласно классификации изображений для датасетов MERA.

Оценка

Метрики

Для агрегированной оценки ответов моделей используются следующие метрики:

- `Exact match`: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.

Human baseline

Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.

Задания решались отдельно группой экспертов (перекрытие 3) и группой разметчиков без специальной подготовки (перекрытие 5), которые правильно выполнили 80% тестовых задач из 5-го и 6-го класса. Задачи требовалось решить за ограниченное время: 5-й и 6-й класс — 4 минуты, 7-й класс — 5 минут, 8-й класс — 6 минут, 9-й класс — 7 минут. Людей просили решить задания без использования интернета и нейросетевых моделей и записать ответ в нужном формате. Ответы в свободной форме были нормализованы (регистр, пробелы) для сравнения с эталоном. Агрегированным ответом считался тот, который был выбран большинством (majority vote).

Результаты оценки:

- Exact match – 0.93

- Exact match (expert) – 0.95

Мотивация

Датасет представляет собой открытую базу задач для проверки способностей модели понимать изобразительные элементы из школьной математики и геометрии, а также применять знания школьной математики для 5–6-го класса и геометрии для 7–9-го класса. Особенностью данного задания является проверка умения моделей точно следовать сложным математическим форматам ответа (аннотациям), которые подаются на вход вместе с инструкцией.

Датасет предназначается для моделей Vision + Text, которые умеют не только понимать, что изображено, но и обладают некими базовыми знаниями школьной программы. Изображения представлены в том виде (исходный текст задания сохранён внутри картинки), в котором пользователь может прислать в диалоговый чат моделям в переписке.

Данный датасет не проверяет ход решения и не требует вывести рассуждения для задачи — ответом на задачу является короткий ответ числом/формулой. Аннотация служит инструкцией для записи однозначного короткого ответа на задачу в требуемой пользователем форме. Поэтому в качестве метрики используется Accuracy.

Создание датасета

Для этапа сбора датасета была выделена группа экспертов с базовыми знаниями по математике. Изображения для датасета нарисованы экспертами — аналогично заданиям из школьных учебников по математике и геометрии. Изображения рисовались тремя способами: 1) в редакторе на белом листе синим или чёрным цветом; 2) на белом листе бумаги синим или чёрным цветом, печатными или прописными буквами, с или без использования чертёжных инструментов; 3) на листе бумаги в клетку синим или чёрным цветом, печатными или прописными буквами, с или без использования чертёжных инструментов. Ответы к задачам были получены путём решения и дискуссии каждой задачи несколькими экспертами. Аннотация, которая содержит формат для однозначной записи ответа на задачу, была размечена вручную экспертом путём выбора из списка вариантов разных аннотаций. К каждой задаче в инструкции добавлен универсальный вопрос «Какой ответ у задачи, изображённой на рисунке?».

Полученный на предыдущем шаге датасет прошёл валидацию с перекрытием тремя штатными разметчиками платформы ABC Elementary. Разметчики проверяли качество изображений, формат ответа и правильность требований аннотации на соответствие с вопросом задачи и формой ответа. По итогам валидации, если хотя бы один разметчик отметил наличие ошибки / плохое качество, данные подвергались ручной редактуре.

Авторы

Александр Капитанов, Петр Суровцев