Вернуться к списку задач

LabTabVQA

Формат вывода
Ответ в свободной форме
Метрика
EM
JudgeScore
Размер датасета
740 вопросов

Описание задачи

LabTabVQA — вопросно-ответный датасет на русском языке по изображениям с табличными данными из медицинского домена. В данных представлены изображения двух типов: фотографии и скриншоты (без OCR-слоя). К каждому изображению прилагается вопрос с семью вариантами ответа, где только один правильный. Вопросы позволяют оценить способности мультимодальных LLM по работе с таблицами, представленными в виде изображений: понимать структуру и содержимое, находить и извлекать данные, анализировать информацию и т. п. Все изображения — это анонимизированные материалы из реальных онлайн-консультаций телемедицинского сервиса.

Описание датасета

Поля данных

Каждый вопрос в датасете содержит следующие поля:

  • instruction [str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопроса.
  • inputs — Вводные данные, формирующие задание для модели.
    • question [str] — Текст вопроса.
    • image [str] — Путь к файлу с изображением, к которому относится вопрос.
    • option_a [str] — Вариант ответа A.
    • option_b [str] — Вариант ответа B.
    • option_c [str] — Вариант ответа C.
    • option_d [str] — Вариант ответа D.
    • option_e [str] — Вариант ответа E.
    • option_f [str] — Вариант ответа F.
    • option_g [str] — Вариант ответа G.
  • outputs [str] — Правильный ответ на вопрос.
  • meta — Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).
    • id [int] — Номер-идентификатор вопроса в датасете.
    • categories — Категории признаков, характеризующих тестовый пример.
      • question_type [str] — Категория вопроса.
      • question_text [str] — Тип задачи по тексту вопроса.
      • question_source [str] — Источник вопроса: human, если вопрос написан человеком, или generated, если вопрос сгенерирован с помощью модели o4-mini.
    • image — Метаданные, относящиеся к изображению.
      • synt_source [list] — Источники, с помощью которых сгенерированы или воссозданы данные для формирования вопроса, в том числе названия генеративных моделей.
      • source [list] — Информация о происхождении изображения — согласно классификации изображений для датасетов MERA.
      • type [list] — Тип изображения — согласно классификации изображений для датасетов MERA.
      • content [list] — Содержание изображения — согласно классификации изображений для датасетов MERA.
      • context [list] — Сопроводительный контекст, присутствующий на изображении, — согласно классификации изображений для датасетов MERA.
    • rows [int] — Количество строк в таблице на изображении
    • columns [int] — Количество столбцов в таблице на изображении.

Оценка

Метрики

Для агрегированной оценки ответов моделей используются следующие метрики:

- `Exact match`: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.

Human baseline

Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.

Human baseline формировался на основе независимой разметки на платформе TagME, с перекрытием 5. Асессоров просили ответить на полученные вопросы, в инструкцию были добавлены примеры с пояснениями (те же, что и для few-shot). В качестве финального предсказания использовалось majority vote среди ответов асессоров (не менее 3 совпадений из 5), метрика составила 93.9%. В 11 сэмплах (3.35% от всех данных) не удалось набрать 3 совпадающих ответа, поэтому они не учитывались при оценке.

Результаты оценки:

- Exact match – 0.91

Мотивация

Датасет LabTabVQA создан для оценки способности мультимодальных моделей работать с табличной информацией, представленной в виде изображений, на русском языке. Его ключевая цель — оценить способность мультимодальных моделей понимать структуру таблиц, интерпретировать их содержимое, распознавать форматирование, соотносить информацию и делать выводы, пользуясь лишь общими знаниями моделей.

Методология сбора датасета и построения вопросов не замкнута на определённом домене и может быть применена для расширения набора данных таблицами из смежных областей знаний. Датасет позволит расширить русскоязычные бенчмарки классом задач для оценки способностей моделей анализировать таблицы с точки зрения распознавания содержимого, работы со сложной структурой, иерархией, интерпретацией данных в end-to-end-сценариях.

Создание датасета

Для создания датасета использовались 697 реальных изображений с платформы телемедицинских консультаций.

При помощи модели GPT-4o Mini мы разметили изображения по двум бинарным критериям:

- наличие таблицы на изображении;

- фото или скриншот.

Отбор прошло 339 изображений, сбалансированных по типу изображения и размеру таблицы (который также оценивался с помощью GPT-4o Mini). Для 138 примеров вопросы были составлены экспертами, для остальных — 201 пример — вопросы были получены при помощи AI-агентной системы, состоящей из следующих компонент:

1. QuestionGenerator (GPT-o4 Mini) на основе изображения и категории вопроса генерирует вопрос-кандидат с семью вариантами ответа.

2. QuestionQualifier (GPT-o4 Mini) фиксирует правильный ответ из семи предложенных либо запрашивает перегенерацию ответов у QuestionGenerator, если не находит правильного варианта.

3. Solver-ы (GPT-4o Mini) трёх уровней сложности (определяемых промптами) отвечают на вопрос и дают обратную связь с пояснением логики ответа.

4. FeedbackEvaluator (GPT-o4 Mini) анализирует ответы и фидбэк Solver-ов и принимает решение: утвердить вопрос или отправить его на перегенерацию (возврат к шагу 1).

Сгенерированные примеры валидировались через платформу TagMe (с перекрытием в 3 мнения/ответа) по следующим критериям:

- вопрос составлен по предоставленной на изображении таблице;

- вопрос не требует специфических доменных знаний для ответа (всё есть на изображении/таблице);

- на вопрос невозможно ответить без использования таблицы/изображения.

Аналогично при помощи асессоров выбирался правильный вариант ответа. Правильным ответом считались:

- ответ, предложенный системой генерации вопросов, если с ним согласилось хотя бы 2 из 3 асессоров;

- ответ, выбранный хотя бы 2 из 3 разметчиков, не совпадающий с предложенным системой создания вопросов, но дополнительно валидированный мета-асессором.

В связи с особенностями выбранной методологии генерации вопросов датасет и задачи могут быть предвзятыми в сторону семейства моделей GPT-o4.

Авторы

Амина Мифтахова, Иван Свиридов

Посмотреть поля датасета ```json { "instruction": "На основании следующего изображения: , ответьте на вопрос.\n{question}\nA. {option_a}\nB. {option_b}\nC. {option_c}\nD. {option_d}\nE. {option_e}\nF. {option_f}\nG. {option_g}\nОтветьте, указав только соответствующую букву варианта.", "inputs": { "option_a": "2", "option_b": "6", "option_c": "1", "option_d": "4", "option_e": "3", "option_f": "5", "option_g": "0", "image": "samples/image0052.png", "question": "Для скольких показателей нормальные значения указаны в виде числового диапазона?" }, "outputs": "B", "meta": { "id": 346, "categories": { "question_type": "Формат и оформление данных - Формат значений", "question_text": "Подсчёт количества", "question_source": "human" }, "image": { "synt_source": [], "source": [ "photo" ], "type": [ "systematic" ], "content": [ "info" ], "context": [ "no_context" ] }, "rows": 11, "columns": 3 } } ```
Тестируемые навыки моделей
Image-to-text grounding
Посмотреть поля датасета
```json { "instruction": "На основании следующего изображения: , ответьте на вопрос.\n{question}\nA. {option_a}\nB. {option_b}\nC. {option_c}\nD. {option_d}\nE. {option_e}\nF. {option_f}\nG. {option_g}\nОтветьте, указав только соответствующую букву варианта.", "inputs": { "option_a": "2", "option_b": "6", "option_c": "1", "option_d": "4", "option_e": "3", "option_f": "5", "option_g": "0", "image": "samples/image0052.png", "question": "Для скольких показателей нормальные значения указаны в виде числового диапазона?" }, "outputs": "B", "meta": { "id": 346, "categories": { "question_type": "Формат и оформление данных - Формат значений", "question_text": "Подсчёт количества", "question_source": "human" }, "image": { "synt_source": [], "source": [ "photo" ], "type": [ "systematic" ], "content": [ "info" ], "context": [ "no_context" ] }, "rows": 11, "columns": 3 } } ```