MERA Новый открытый бенчмарк для русского языка для оценки фундаментальных моделей

MedBench — датасет, предназначенный для измерения профессиональных знаний модели, приобретенных в процессе предобучения в области медицинских наук.

Большие языковые модели все лучше справляются с ежедневными рутинными задачами, но для того чтобы качественно отвечать на узкоспециализированные вопросы, им необходимо углубляться в суть предмета. В этом тесте мы делаем такой шаг вглубь медицины, приближая знания модели к знаниям лечащего врача, недавно окончившего вуз.

Данный тест охватывает фундаментальные медицинские науки: он углубленно проверяет знания о функционировании человеческого тела на каждом уровне — от клетки (биология, биофизика, биохимия) до систем органов (анатомия, физиология, патологические дисциплины), а также оценивает навыки основных медицинских направлений — хирургии, терапии, гигиены, лабораторной диагностики и фармакологии.

Фундаментальные науки являются необходимым базисом, на основе которого выстраиваются клинические специальности. Этим набором знаний обладает не только каждый выпускник медвуза по специальности «лечебное дело», но и любой специалист, имеющий отношение к медицинской среде. Без этих знаний языковая модель не будет способна дать подробный и точный ответ на вопрос, связанный с медициной, не сможет объяснить значимость патологии или обосновать, почему важно следовать предписаниям из инструкции лекарственного средства.

В рамках теста отображены 17 фундаментальных медицинских наук, к каждой из которых предложено 270 тестов и 30 тематических тренировочных задач. Для каждого вопроса даны четыре варианта ответа, среди которых только один правильный.

Ключевые слова: Медицина, Фундаментальные науки, Анатомия, Биология (паразитология), Биоорганическая химия, Биофизика, Биохимия, Гигиена, Гистология, Клиническая лабораторная диагностика, Микробиология, Нормальная физиология, Общая химия, Общая хирургия, Патологическая анатомия, Патофизиология, Пропедевтика внутренних болезней, Факультетская хирургия, Фармакология

Авторы: Национальный медицинский исследовательский центр имени В. А. Алмазова

Мотивация

Данная задача является одним из шести бенчмарков в наборе по медицине и здравоохранению и предназначена для проверки профессиональных знаний в области фундаментальных медицинских наук. По своей структуре и назначению она напоминает общеизвестный тест MMLU и подходит для всестороннего тестирования языковых моделей на качество понимания и ответов в професиональной области. Мы предоставляем публичную тестовую версию медицинского бенчмарка по формату MMLU на русском языке для оценки возможностей моделей на реальных профессиональных задачах.

Описание датасета

Поля датасета

instruction — строка, содержащая инструкцию к вопросу;
inputs — словарь, содержащий входные данные:
- question — строка с вопросом задачи;
- option_a — вариант ответа A;
- option_b — вариант ответа B;
- option_c — вариант ответа C;
- option_d — вариант ответа D;
outputs — строка, содержащая правильный ответ на задачу (одна или несколько букв (от A до H) через запятую в алфавитном порядке);
meta — словарь, содержащий метаинформацию каждого вопроса:
- id — целое число, уникальный номер задачи в датасете;
- domain — строка, содержащая название домена, к которому относится задача.

Промпты

Для датасета было подготовлено 10 промптов различной сложности.

Пример:

"Краткий тест по медицинской теме.\nВопрос: {question}\n\nВозможные ответы:\n{option_a}\n{option_b}\n{option_c}\n{option_d}\n\nФиксируйте свой ответ только одной буквой.\n\nПринимается только ответ, состоящий из одной буквы. Ответы, содержащие любую иную информацию, не принимаются и не оцениваются."

Создание датасета

Все задачи данного сета были созданы ведущими экспертами в области медицины и здравоохранения (практикующими врачами и научными сотрудниками), отредактированны профессиональными редакторами, затем вручную перепроверены по очереди тремя экспертами.

Метрика

Метрики качества: Exact Match и F1.

ruTXTMedQFundamental