Описание задачи
ruMathVQA — мультимодальный датасет, состоящий из школьных математических задач, представленных в виде изображений и вопросов с аннотацией к ним для записи ответа в однозначной форме.
Описание датасета
Поля данных
Каждый вопрос в датасете содержит следующие поля:
instruction[str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопроса.inputs— Вводные данные, формирующие задание для модели.image[str] — Путь к файлу с изображением, к которому относится вопрос.annotation[str] — Требуемый формат ответа.
outputs[str] — Правильный ответ на вопрос.meta— Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).id[int] — Номер-идентификатор вопроса в датасете.categories— Категории признаков, характеризующих тестовый пример.topic[str] — Предмет и школьный класс задачи [математика | геометрия] n класс.
image— Метаданные, относящиеся к изображению.source[str] — Информация о происхождении изображения — согласно классификации изображений для датасетов MERA.type[str] — Тип изображения — согласно классификации изображений для датасетов MERA.content[str] — Содержание изображения — согласно классификации изображений для датасетов MERA.
Оценка
Метрики
Для агрегированной оценки ответов моделей используются следующие метрики:
- `Exact match`: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.
Human baseline
Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.
Задания решались отдельно группой экспертов (перекрытие 3) и группой разметчиков без специальной подготовки (перекрытие 5), которые правильно выполнили 80% тестовых задач из 5-го и 6-го класса. Задачи требовалось решить за ограниченное время: 5-й и 6-й класс — 4 минуты, 7-й класс — 5 минут, 8-й класс — 6 минут, 9-й класс — 7 минут. Людей просили решить задания без использования интернета и нейросетевых моделей и записать ответ в нужном формате. Ответы в свободной форме были нормализованы (регистр, пробелы) для сравнения с эталоном. Агрегированным ответом считался тот, который был выбран большинством (majority vote).
Результаты оценки:
- Exact match – 0.93
- Exact match (expert) – 0.95
Мотивация
Датасет представляет собой открытую базу задач для проверки способностей модели понимать изобразительные элементы из школьной математики и геометрии, а также применять знания школьной математики для 5–6-го класса и геометрии для 7–9-го класса. Особенностью данного задания является проверка умения моделей точно следовать сложным математическим форматам ответа (аннотациям), которые подаются на вход вместе с инструкцией.
Датасет предназначается для моделей Vision + Text, которые умеют не только понимать, что изображено, но и обладают некими базовыми знаниями школьной программы. Изображения представлены в том виде (исходный текст задания сохранён внутри картинки), в котором пользователь может прислать в диалоговый чат моделям в переписке.
Данный датасет не проверяет ход решения и не требует вывести рассуждения для задачи — ответом на задачу является короткий ответ числом/формулой. Аннотация служит инструкцией для записи однозначного короткого ответа на задачу в требуемой пользователем форме. Поэтому в качестве метрики используется Accuracy.
Создание датасета
Для этапа сбора датасета была выделена группа экспертов с базовыми знаниями по математике. Изображения для датасета нарисованы экспертами — аналогично заданиям из школьных учебников по математике и геометрии. Изображения рисовались тремя способами: 1) в редакторе на белом листе синим или чёрным цветом; 2) на белом листе бумаги синим или чёрным цветом, печатными или прописными буквами, с или без использования чертёжных инструментов; 3) на листе бумаги в клетку синим или чёрным цветом, печатными или прописными буквами, с или без использования чертёжных инструментов. Ответы к задачам были получены путём решения и дискуссии каждой задачи несколькими экспертами. Аннотация, которая содержит формат для однозначной записи ответа на задачу, была размечена вручную экспертом путём выбора из списка вариантов разных аннотаций. К каждой задаче в инструкции добавлен универсальный вопрос «Какой ответ у задачи, изображённой на рисунке?».
Полученный на предыдущем шаге датасет прошёл валидацию с перекрытием тремя штатными разметчиками платформы ABC Elementary. Разметчики проверяли качество изображений, формат ответа и правильность требований аннотации на соответствие с вопросом задачи и формой ответа. По итогам валидации, если хотя бы один разметчик отметил наличие ошибки / плохое качество, данные подвергались ручной редактуре.
Авторы
Александр Капитанов, Петр Суровцев
"annotation": "Запишите ответ одним целым числом в см$^2$ без указания единиц измерения."
},
"outputs": "192",
"meta": {
"id": 1,
"categories": {
"topic": "mathematics 5th grade"
},
"image": {
"source": "photo",
"type": "visual",
"content": "riddle"
}
}
}
```