Вернуться к списку задач

ruNaturalScienceVQA

Формат вывода
Ответ в свободной форме
Метрика
EM
JudgeScore
Размер датасета
740 вопросов

Описание задачи

ruNaturalScienceVQA представляет собой мультимодальный вопросно-ответный датасет по естественным наукам с базовыми вопросами из школьной программы, основанный на английском датасете [ScienceQA](https://scienceqa.github.io/index.html#home). Датасет содержит вопросы по четырём дисциплинам естественных наук: физика, биология, химия и естествознание. В задании необходимо по изображению и сопроводительному контексту ответить на вопрос, выбрав правильный ответ из представленных. Задания отобраны так, что без изображения невозможно определить правильный вариант ответа.

**Замечание:** особенность датасета заключается в том, что картинки в заданиях могут быть достаточно низкого разрешения. Таким образом, дополнительно исследуется способность модели извлекать информацию из изображений низкого качества, что часто встречается в приложениях (например, пользователь присылает снимок экрана низкого качества).

Тестируемые навыки моделей: Visual pattern recognition, Scheme recognition, Expert domain knowledge, Physical property understanding, Static counting, Problem decomposition, Comparative reasoning

Описание датасета

Поля данных

Каждый вопрос в датасете содержит следующие поля:

  • instruction [str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопроса.
  • inputs — Вводные данные, формирующие задание для модели.
    • image [str] — Путь к файлу с изображением, к которому относится вопрос.
    • context [str] — Дополнительная информация, которая вместе с картинкой используется для ответа на вопрос.
    • question [str] — Текст вопроса.
    • option_a [str] — Вариант ответа A.
    • option_b [str] — Вариант ответа B.
    • option_c [str] — Вариант ответа C.
    • option_d [str] — Вариант ответа D.
  • outputs [str] — Правильный ответ на вопрос.
  • meta — Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).
    • id [int] — Номер-идентификатор вопроса в датасете.
    • categories — Категории признаков, характеризующих тестовый пример.
      • domain [str] — Категории признаков, характеризующих тестовый пример.
      • subdomain [str] — Поддомен, к которому относится пример; в силу дисбаланса не следует использовать данное поле для агрегации, оно представлено чисто в информационных целях.

Оценка

Метрики

Для агрегированной оценки ответов моделей используются следующие метрики:

- `Exact match`: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.

Human baseline

Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.

Задания датасета было предложено решить группе людей без подготовки (перекрытие 5) и группе экспертов (перекрытие 3). Агрегированным ответом считался тот, который был выбран большинством (majority vote).

Результаты оценки:

- Exact match – 0.94

- Exact match (expert) – 0.99

Мотивация

ruNaturalScienceVQA предназначен для оценки способностей моделей решать задачи в мультимодальном контексте. Датасет направлен на оценку мультимодального рассуждения моделей, поскольку задания содержат как текстовые, так и визуальные данные. Основные пользователи ruNaturalScienceVQA — разработчики, занимающиеся исследованиями в области мультимодальных моделей, в частности в области образования, научных исследований и систем AI для учебных целей. Результаты также могут быть полезны преподавателям для понимания, насколько AI-модели могут имитировать человеческое понимание в образовательных сценариях. Датасет оценивает способность модели понимать научные концепции и применять их для решения конкретных задач.

Создание датасета

ruNaturalScienceVQA был создан на основе английского датасета [ScienceQA](https://scienceqa.github.io/index.html#home), вопросно-ответного датасета по широкому кругу научных дисциплин. При создании датасета из тестовой части оригинального ScienceQA были отобраны вопросы по четырём естественным дисциплинам, соответствующие следующим критериям: 1) вопрос содержит изображение, без которого невозможно дать правильный ответ (опираясь только на информацию из пояснительного текста); 2) вопрос соответствует российским реалиям и покрывается школьной программой. После этого отобранные вопросы были переведены с помощью Google Translator API и вручную отредактированы для устранения ошибок и неточностей, допущенных в ходе автоматического перевода. Примеры для few-shot были получены аналогичным образом, но изначально были взяты из валидационной части исходного датасета.

Авторы

Мария Тихонова

Посмотреть поля датасета ```json { "instruction": "Дано: вопрос с несколькими вариантами ответа, изображение и, возможно, пояснение к нему. По имеющейся информации ответь на вопрос. В качестве ответа напиши букву правильного ответа без дополнительных пояснений (A, B, C или D). Изображение:. Пояснение: {context} Вопрос: {question} A. {option_a} B. {option_b} C. {option_c} D. {option_d} Ответ:", "inputs": { "image": "samples/image019.jpeg", "context": "В этом отрывке описана особенность роста у растений розы. Вьющийся рост и плетистый рост — это разные типы роста у розы. Вьющиеся растения имеют длинные, изгибающиеся стебли, похожие на лианы. Такие растения могут расти вверх, покрывая заборы или стены. Розы с плетистой формой роста держатся у земли. Такие растения образуют низкие кусты или кустарники. В группе розовых растений некоторые особи имеют вьющийся рост, а другие — плетистый. В этой группе ген, отвечающий за признак формы роста, имеет два аллеля. Аллель вьющегося роста (G) доминирует над аллелем плетистого роста (g). В этой решётке Пеннета показано скрещивание двух растений розы.", "question": "Каково ожидаемое соотношение потомства с плетистым ростом к потомству с кустовым ростом? Выберите наиболее вероятное соотношение.", "option_a": "4:0", "option_b": "0:4", "option_c": "2:2", "option_d": "3:1" }, "outputs": "C", "meta": { "id": 61, "categories": { "domain": "biology", "subdomain": "Genes to traits" } } } ```
Тестируемые навыки моделей
Static counting
Other reasoning
Quantitative reasoning
Image-to-text grounding
Expert domain knowledge
Посмотреть поля датасета
```json { "instruction": "Дано: вопрос с несколькими вариантами ответа, изображение и, возможно, пояснение к нему. По имеющейся информации ответь на вопрос. В качестве ответа напиши букву правильного ответа без дополнительных пояснений (A, B, C или D). Изображение:. Пояснение: {context} Вопрос: {question} A. {option_a} B. {option_b} C. {option_c} D. {option_d} Ответ:", "inputs": { "image": "samples/image019.jpeg", "context": "В этом отрывке описана особенность роста у растений розы. Вьющийся рост и плетистый рост — это разные типы роста у розы. Вьющиеся растения имеют длинные, изгибающиеся стебли, похожие на лианы. Такие растения могут расти вверх, покрывая заборы или стены. Розы с плетистой формой роста держатся у земли. Такие растения образуют низкие кусты или кустарники. В группе розовых растений некоторые особи имеют вьющийся рост, а другие — плетистый. В этой группе ген, отвечающий за признак формы роста, имеет два аллеля. Аллель вьющегося роста (G) доминирует над аллелем плетистого роста (g). В этой решётке Пеннета показано скрещивание двух растений розы.", "question": "Каково ожидаемое соотношение потомства с плетистым ростом к потомству с кустовым ростом? Выберите наиболее вероятное соотношение.", "option_a": "4:0", "option_b": "0:4", "option_c": "2:2", "option_d": "3:1" }, "outputs": "C", "meta": { "id": 61, "categories": { "domain": "biology", "subdomain": "Genes to traits" } } } ```