Описание задачи
Большие языковые модели все лучше справляются с ежедневными рутинными задачами, но для того чтобы качественно отвечать на узкоспециализированные вопросы, им необходимо углубляться в суть предмета. В этом тесте мы делаем такой шаг вглубь медицины, приближая знания модели к знаниям лечащего врача, недавно окончившего вуз.
Данный тест охватывает фундаментальные медицинские науки: он углубленно проверяет знания о функционировании человеческого тела на каждом уровне — от клетки (биология, биофизика, биохимия) до систем органов (анатомия, физиология, патологические дисциплины), а также оценивает навыки основных медицинских направлений — хирургии, терапии, гигиены, лабораторной диагностики и фармакологии.
Фундаментальные науки являются необходимым базисом, на основе которого выстраиваются клинические специальности. Этим набором знаний обладает не только каждый выпускник медвуза по специальности «лечебное дело», но и любой специалист, имеющий отношение к медицинской среде. Без этих знаний языковая модель не будет способна дать подробный и точный ответ на вопрос, связанный с медициной, не сможет объяснить значимость патологии или обосновать, почему важно следовать предписаниям из инструкции лекарственного средства.
В рамках теста отображены 17 фундаментальных медицинских наук, к каждой из которых предложено 270 тестов и 30 тематических тренировочных задач. Для каждого вопроса даны четыре варианта ответа, среди которых только один правильный.
Ключевые слова: Медицина, Фундаментальные науки, Анатомия, Биология (паразитология), Биоорганическая химия, Биофизика, Биохимия, Гигиена, Гистология, Клиническая лабораторная диагностика, Микробиология, Нормальная физиология, Общая химия, Общая хирургия, Патологическая анатомия, Патофизиология, Пропедевтика внутренних болезней, Факультетская хирургия, Фармакология
Авторы: Национальный медицинский исследовательский центр имени В. А. Алмазова
Мотивация
Данная задача является одним из шести бенчмарков в наборе по медицине и здравоохранению и предназначена для проверки профессиональных знаний в области фундаментальных медицинских наук. По своей структуре и назначению она напоминает общеизвестный тест MMLU и подходит для всестороннего тестирования языковых моделей на качество понимания и ответов в професиональной области. Мы предоставляем публичную тестовую версию медицинского бенчмарка по формату MMLU на русском языке для оценки возможностей моделей на реальных профессиональных задачах.
Описание датасета
Поля датасета
instruction
— строка, содержащая инструкции для задачи и информацию о требованиях к формату вывода модели;inputs
— словарь, содержащий следующую информацию:text
— тестовый вопрос,option_a
— вариант ответа A,option_b
— вариант ответа B,option_c
— вариант ответа C,option_d
— вариант ответа D;
subject
— тема вопроса (обобщение группы субдоменов по смыслу);outputs
— результат (может быть одной из следующих строковых переменных: "A", "B", "C", "D");meta
— словарь, содержащий метаинформацию:id
— целое число, указывающее индекс примера;domain
— субдомен вопроса.
Промпты
Для датасета было подготовлено 10 промптов различной сложности.
Пример:
"Ты — опытный врач-терапевт. Ты проводишь прием пациента.\nТебе будут задаваться вопросы с вариантами ответов по твоей специальности.\nТвоя задача — выбрать один фактологически верный вариант ответа!\nВажно: в своем ответе верни только одну букву: A, B, C или D!\n{text}\n\nВыбери ответ из вариантов:\nA. {option_a}\nB. {option_b}\nC. {option_c}\nD. {option_d}\nОтвет:",
Создание датасета
Все задачи данного сета были созданы ведущими экспертами в области медицины и здравоохранения (практикующими врачами и научными сотрудниками), отредактированны профессиональными редакторами, затем вручную перепроверены по очереди тремя экспертами.
Метрика
В качестве метрики качества используется Accuracy, Exact Match.