Вернуться к списку задач

ruMathVQA

Формат вывода
Ответ в свободной форме
Метрика
EM
JudgeScore
Размер датасета
740 вопросов

Описание задачи

ruMathVQA — мультимодальный датасет, состоящий из школьных математических задач, представленных в виде изображений и вопросов с аннотацией к ним для записи ответа в однозначной форме.

Описание датасета

Поля данных

Каждый вопрос в датасете содержит следующие поля:

  • instruction [str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопроса.
  • inputs — Вводные данные, формирующие задание для модели.
    • image [str] — Путь к файлу с изображением, к которому относится вопрос.
    • annotation [str] — Требуемый формат ответа.
  • outputs [str] — Правильный ответ на вопрос.
  • meta — Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).
    • id [int] — Номер-идентификатор вопроса в датасете.
    • categories — Категории признаков, характеризующих тестовый пример.
      • topic [str] — Предмет и школьный класс задачи [математика | геометрия] n класс.
    • image — Метаданные, относящиеся к изображению.
      • source [str] — Информация о происхождении изображения — согласно классификации изображений для датасетов MERA.
      • type [str] — Тип изображения — согласно классификации изображений для датасетов MERA.
      • content [str] — Содержание изображения — согласно классификации изображений для датасетов MERA.

Оценка

Метрики

Для агрегированной оценки ответов моделей используются следующие метрики:

- `Exact match`: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.

Human baseline

Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.

Задания решались отдельно группой экспертов (перекрытие 3) и группой разметчиков без специальной подготовки (перекрытие 5), которые правильно выполнили 80% тестовых задач из 5-го и 6-го класса. Задачи требовалось решить за ограниченное время: 5-й и 6-й класс — 4 минуты, 7-й класс — 5 минут, 8-й класс — 6 минут, 9-й класс — 7 минут. Людей просили решить задания без использования интернета и нейросетевых моделей и записать ответ в нужном формате. Ответы в свободной форме были нормализованы (регистр, пробелы) для сравнения с эталоном. Агрегированным ответом считался тот, который был выбран большинством (majority vote).

Результаты оценки:

- Exact match – 0.93

- Exact match (expert) – 0.95

Мотивация

Датасет представляет собой открытую базу задач для проверки способностей модели понимать изобразительные элементы из школьной математики и геометрии, а также применять знания школьной математики для 5–6-го класса и геометрии для 7–9-го класса. Особенностью данного задания является проверка умения моделей точно следовать сложным математическим форматам ответа (аннотациям), которые подаются на вход вместе с инструкцией.

Датасет предназначается для моделей Vision + Text, которые умеют не только понимать, что изображено, но и обладают некими базовыми знаниями школьной программы. Изображения представлены в том виде (исходный текст задания сохранён внутри картинки), в котором пользователь может прислать в диалоговый чат моделям в переписке.

Данный датасет не проверяет ход решения и не требует вывести рассуждения для задачи — ответом на задачу является короткий ответ числом/формулой. Аннотация служит инструкцией для записи однозначного короткого ответа на задачу в требуемой пользователем форме. Поэтому в качестве метрики используется Accuracy.

Создание датасета

Для этапа сбора датасета была выделена группа экспертов с базовыми знаниями по математике. Изображения для датасета нарисованы экспертами — аналогично заданиям из школьных учебников по математике и геометрии. Изображения рисовались тремя способами: 1) в редакторе на белом листе синим или чёрным цветом; 2) на белом листе бумаги синим или чёрным цветом, печатными или прописными буквами, с или без использования чертёжных инструментов; 3) на листе бумаги в клетку синим или чёрным цветом, печатными или прописными буквами, с или без использования чертёжных инструментов. Ответы к задачам были получены путём решения и дискуссии каждой задачи несколькими экспертами. Аннотация, которая содержит формат для однозначной записи ответа на задачу, была размечена вручную экспертом путём выбора из списка вариантов разных аннотаций. К каждой задаче в инструкции добавлен универсальный вопрос «Какой ответ у задачи, изображённой на рисунке?».

Полученный на предыдущем шаге датасет прошёл валидацию с перекрытием тремя штатными разметчиками платформы ABC Elementary. Разметчики проверяли качество изображений, формат ответа и правильность требований аннотации на соответствие с вопросом задачи и формой ответа. По итогам валидации, если хотя бы один разметчик отметил наличие ошибки / плохое качество, данные подвергались ручной редактуре.

Авторы

Александр Капитанов, Петр Суровцев

Посмотреть поля датасета ```json { "instruction": "Найдите ответ на задачу, изображённую на рисунке. {annotation} Ответ:\n", "inputs": { "image": "samples/image001.jpg", "annotation": "Запишите ответ одним целым числом в см$^2$ без указания единиц измерения." }, "outputs": "192", "meta": { "id": 1, "categories": { "topic": "mathematics 5th grade" }, "image": { "source": "photo", "type": "visual", "content": "riddle" } } } ```
Тестируемые навыки моделей
Common everyday knowledge
Common domain knowledge
Other reasoning
Quantitative reasoning
Image-to-text grounding
Expert domain knowledge
Посмотреть поля датасета
```json { "instruction": "Найдите ответ на задачу, изображённую на рисунке. {annotation} Ответ:\n", "inputs": { "image": "samples/image001.jpg", "annotation": "Запишите ответ одним целым числом в см$^2$ без указания единиц измерения." }, "outputs": "192", "meta": { "id": 1, "categories": { "topic": "mathematics 5th grade" }, "image": { "source": "photo", "type": "visual", "content": "riddle" } } } ```