AgroBench — датасет, предназначенный для измерения профессиональных знаний модели, приобретенных в процессе предобучения в области агрономии.
Агрономия — основа сельскохозяйственного производства. Она изучает различные аспекты возделывания культур и разрабатывает методы, направленные на защиту земледелия от неблагоприятных природных факторов. Агрономия взаимосвязана с эффективностью земледелия, охраной природы и устойчивым использованием земельных ресурсов.
Датасет создан на русском языке и является полностью оригинальным. Всего бенчмарк включает в себя 2935 вопросов закрытого типа с возможностью выбора одного или нескольких правильных вариантов ответа. Для каждого вопроса даны от четырех до восьми вариантов ответа. Вопросы охватывают области знаний по различным темам (дисциплинам): ботаника, кормопроизводство и луговодство, мелиоративное земледелие, общая генетика, общее земледелие, основы селекции, растениеводство, семеноводство и семеноведение, системы земледелия на различных агроландшафтах, технологии возделывания сельскохозяйственных культур.
Ключевые слова: Сельское хозяйство, АПК, Агропромышленный комплекс, Аграрный сектор, Ботаника, Кормопроизводство и луговодство, Мелиоративное земледелие, Общая генетика, Общее земледелие, Основы селекции, Растениеводство, Семеноводство и семеноведение, Системы земледелия на различных агроландшафтах, Технологии возделывания сельскохозяйственных культур
Авторы: Кубанский государственный аграрный университет
Мотивация
Данная задача является одним из восьми бенчмарков в наборе по сельскому хозяйству и предназначена для проверки профессиональных знаний в области агрономии. По своей структуре и назначению она напоминает общеизвестный тест MMLU и подходит для всестороннего тестирования языковых моделей на качество понимания и ответов в професиональной области. Мы предоставляем публичную тестовую версию агробенчмарка по формату MMLU на русском языке для оценки возможностей моделей на реальных профессиональных задачах.
Описание датасета
Поля датасета
instruction— строка, содержащая инструкцию к вопросу;inputs— словарь, содержащий входные данные:question— строка с вопросом задачи;option_a— вариант ответа A;option_b— вариант ответа B;option_c— вариант ответа C;option_d— вариант ответа D;option_e— вариант ответа E;option_f— вариант ответа F;option_g— вариант ответа G;option_h— вариант ответа H;
outputs— строка, содержащая правильный ответ на задачу (одна или несколько букв (от A до H) через запятую в алфавитном порядке);meta— словарь, содержащий метаинформацию каждого вопроса:id— целое число, уникальный номер задачи в датасете;domain— строка, содержащая название домена, к которому относится задача.
Промпты
Для датасета было подготовлено 10 промптов различной сложности.
Пример:
"Тема: {domain}. Вопрос: {question}\n\nВарианты ответа:\nA. {option_a}\nB. {option_b}\nC. {option_c}\nD. {option_d}\n\nТребование к формату вывода: только буква или несколько букв, соответствующих правильным ответам; при множественном ответе — алфавитная сортировка, разделитель ", " (например, "A, B, C")."
Создание датасета
Все задачи данного сета были созданы ведущими экспертами в области агрономии, отредактированны профессиональными редакторами, затем вручную перепроверены по очереди тремя экспертами.
Метрика
Метрики качества: Exact Match и F1.