MERA Новый открытый бенчмарк для русского языка для оценки фундаментальных моделей

Описание задачи

Longest Common Subsequence (LCS) / Самая длинная общая подпоследовательность — это алгоритмическая задача из BIG-bench. Данная задача состоит из пар строк на входе, языковые модели должны правильно предсказать длину самой длинной общей подпоследовательности между ними. Это пример задачи динамического программирования, позволяющий оценить способность моделей реализовать этот подход.

Мотивация

В последнее время большие языковые модели хорошо справляются с простыми алгоритмическими задачами, такими как арифметика с несколькими шагами, поэтому мы хотим распространить эту оценку на более сложные алгоритмы.

Поля данных

instruction — строка, содержащая инструкцию для задачи и информацию о требованиях к формату вывода модели;
inputs — пример двух строк для сравнения;
outputs — строка, содержащая правильный ответ, размер самой длинной общей подпоследовательности;
meta — словарь, содержащий метаинформацию:
- id — целое число, обозначающее номер задания.

Промпты

Для датасета было подготовлено 10 промптов различной сложности. Пример:

"Решите задачу нахождения длины наибольшей общей подпоследовательности для следующих строк:\n\"{inputs}\"\nОтвет (в виде одного числа):".

Создание датасета

Для тестового набора были сгенерированы последовательности различной длины в диапазоне [4; 32) с помощью Python скрипта. Для открытого теста данные были взяты из соответствующей задачи BIG-bench.

Открытые данные сгенерированы с тем же seed, что и их публичный аналог в Big-Bench.

Человеческая оценка

Человеческая оценка замерялась на подмножестве размера 100 (с аналогичным распределением как в исходном сете). Результат на этой задаче равен 0.56.