Вернуться к списку задач

ruTXTAquaBench

Тип задачи
Ризонинг
Формат вывода
Выбор ответа
Метрика
Accuracy
Exact Match
Домены
Сельское хозяйство
Статистика
dev: 110
test: 992

Описание задачи

AquaBench — датасет, предназначенный для измерения профессиональных знаний модели, приобретенных в процессе предобучения в области аквакультуры.

Аквакультура — важный сектор агропромышленного комплекса, занимающийся разведением водных организмов (рыб, ракообразных, моллюсков, водорослей). Предприятия аквакультуры являются производителями ценного белка и помогают сохранить исчезающие виды, такие как осетровые и лососевые, выпуская мальков в водоемы. Развитие аквакультуры имеет стратегическое значение для продуктовой безопасности страны и позволяет выращивать разнообразные водные виды, вылов которых в дикой природе запрещен или невозможен.

Датасет полностью оригинальный, составлен на русском языке и включает 1102 задания закрытого типа. Для каждого вопроса — от четырех до восьми вариантов ответа, один или несколько из которых могут быть правильными. Темы охватывают несколько направлений: индустриальную аквакультуру, кормление рыбы и гидробионтов, марикультуру (например, разведение раков, креветок, выращивание жемчуга), а также ихтиопатологию (ветеринария, профилактика и оптимизация технологий выращивания рыбы).

Ключевые слова: Сельское хозяйство, АПК, Агропромышленный комплекс, Аграрный сектор, Рыбоводство, Аквакультура, Индустриальная аквакультура, Кормление рыбы и других гидробионтов, Марикультура, Разведение раков, Разведение креветок, Искусственное выращивание жемчуга, Ихтиопатология

Авторы: Кубанский государственный аграрный университет

Мотивация

Данная задача является одним из восьми бенчмарков в наборе по сельскому хозяйству и предназначена для проверки профессиональных знаний в области аквакультуры. По своей структуре и назначению она напоминает общеизвестный тест MMLU и подходит для всестороннего тестирования языковых моделей на качество понимания и ответов в професиональной области. Мы предоставляем публичную тестовую версию аквабенчмарка по формату MMLU на русском языке для оценки возможностей моделей на реальных профессиональных задачах.

Описание датасета

Поля датасета

  • subset — строка, обозначающая предметную область вопроса;
  • answer — строка, содержащая буквы правильных ответов через запятую (от A до H);
  • context — список словарей, где каждый словарь описывает роль и содержимое внутри роли;
  • role — строка, определяющая роль (например, "system" или "user");
  • content — строка, содержащая собственно сообщение (в рамках "user" это формулировка тестового вопроса с вариантами ответа, в рамках "system" это строка, содержащая инструкции для задачи и информацию о требованиях к формату вывода модели).

Промпты

Для датасета было подготовлено 10 промптов различной сложности.

Пример:

"Ниже приведены вопросы с множественным выбором (с ответами) по теме {subset}. Напиши только букву\/буквы ответа."

Создание датасета

Все задачи данного сета были созданы ведущими экспертами в области аквакультуры, отредактированы профессиональными редакторами, затем вручную перепроверены по очереди тремя экспертами.

Метрика

В качестве метрики качества используется Accuracy, Exact Match.

Домены
Сельское хозяйство
Статистика
dev: 110
test: 992