Описание задачи
ruNaturalScienceVQA представляет собой мультимодальный вопросно-ответный датасет по естественным наукам с базовыми вопросами из школьной программы, основанный на английском датасете [ScienceQA](https://scienceqa.github.io/index.html#home). Датасет содержит вопросы по четырём дисциплинам естественных наук: физика, биология, химия и естествознание. В задании необходимо по изображению и сопроводительному контексту ответить на вопрос, выбрав правильный ответ из представленных. Задания отобраны так, что без изображения невозможно определить правильный вариант ответа.
**Замечание:** особенность датасета заключается в том, что картинки в заданиях могут быть достаточно низкого разрешения. Таким образом, дополнительно исследуется способность модели извлекать информацию из изображений низкого качества, что часто встречается в приложениях (например, пользователь присылает снимок экрана низкого качества).
Тестируемые навыки моделей: Visual pattern recognition, Scheme recognition, Expert domain knowledge, Physical property understanding, Static counting, Problem decomposition, Comparative reasoning
Описание датасета
Поля данных
Каждый вопрос в датасете содержит следующие поля:
instruction[str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопроса.inputs— Вводные данные, формирующие задание для модели.image[str] — Путь к файлу с изображением, к которому относится вопрос.context[str] — Дополнительная информация, которая вместе с картинкой используется для ответа на вопрос.question[str] — Текст вопроса.option_a[str] — Вариант ответа A.option_b[str] — Вариант ответа B.option_c[str] — Вариант ответа C.option_d[str] — Вариант ответа D.
outputs[str] — Правильный ответ на вопрос.meta— Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).id[int] — Номер-идентификатор вопроса в датасете.categories— Категории признаков, характеризующих тестовый пример.domain[str] — Категории признаков, характеризующих тестовый пример.subdomain[str] — Поддомен, к которому относится пример; в силу дисбаланса не следует использовать данное поле для агрегации, оно представлено чисто в информационных целях.
Оценка
Метрики
Для агрегированной оценки ответов моделей используются следующие метрики:
- `Exact match`: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.
Human baseline
Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.
Задания датасета было предложено решить группе людей без подготовки (перекрытие 5) и группе экспертов (перекрытие 3). Агрегированным ответом считался тот, который был выбран большинством (majority vote).
Результаты оценки:
- Exact match – 0.94
- Exact match (expert) – 0.99
Мотивация
ruNaturalScienceVQA предназначен для оценки способностей моделей решать задачи в мультимодальном контексте. Датасет направлен на оценку мультимодального рассуждения моделей, поскольку задания содержат как текстовые, так и визуальные данные. Основные пользователи ruNaturalScienceVQA — разработчики, занимающиеся исследованиями в области мультимодальных моделей, в частности в области образования, научных исследований и систем AI для учебных целей. Результаты также могут быть полезны преподавателям для понимания, насколько AI-модели могут имитировать человеческое понимание в образовательных сценариях. Датасет оценивает способность модели понимать научные концепции и применять их для решения конкретных задач.
Создание датасета
ruNaturalScienceVQA был создан на основе английского датасета [ScienceQA](https://scienceqa.github.io/index.html#home), вопросно-ответного датасета по широкому кругу научных дисциплин. При создании датасета из тестовой части оригинального ScienceQA были отобраны вопросы по четырём естественным дисциплинам, соответствующие следующим критериям: 1) вопрос содержит изображение, без которого невозможно дать правильный ответ (опираясь только на информацию из пояснительного текста); 2) вопрос соответствует российским реалиям и покрывается школьной программой. После этого отобранные вопросы были переведены с помощью Google Translator API и вручную отредактированы для устранения ошибок и неточностей, допущенных в ходе автоматического перевода. Примеры для few-shot были получены аналогичным образом, но изначально были взяты из валидационной части исходного датасета.
Авторы
Мария Тихонова
"context": "В этом отрывке описана особенность роста у растений розы. Вьющийся рост и плетистый рост — это разные типы роста у розы. Вьющиеся растения имеют длинные, изгибающиеся стебли, похожие на лианы. Такие растения могут расти вверх, покрывая заборы или стены. Розы с плетистой формой роста держатся у земли. Такие растения образуют низкие кусты или кустарники. В группе розовых растений некоторые особи имеют вьющийся рост, а другие — плетистый. В этой группе ген, отвечающий за признак формы роста, имеет два аллеля. Аллель вьющегося роста (G) доминирует над аллелем плетистого роста (g). В этой решётке Пеннета показано скрещивание двух растений розы.",
"question": "Каково ожидаемое соотношение потомства с плетистым ростом к потомству с кустовым ростом? Выберите наиболее вероятное соотношение.",
"option_a": "4:0",
"option_b": "0:4",
"option_c": "2:2",
"option_d": "3:1"
},
"outputs": "C",
"meta": {
"id": 61,
"categories": {
"domain": "biology",
"subdomain": "Genes to traits"
}
}
}
```