SimpleAr
Описание задачи
Simple Arithmetic (SimpleAr) / Простая арифметика — это математическая задача из BIG-bench.
Задача проверяет базовые арифметические возможности языковых моделей, предлагая моделям выполнить сложение цифр из n-значных чисел (для n в диапазоне [1;5]).
Ключевые слова: арифметика, задача с примером, свободный ответ, математика, числовой ответ, программный, zero-shot.
Мотивация
Цель задачи — проанализировать способность модели решать простую задачу математического сложения.
Описание Датасета
Поля данных
instruction
— строка, содержащая инструкцию для задачи и информацию о требованиях к формату вывода модели;inputs
— пример математического выражения;outputs
— строка, содержащая правильный ответ результата сложения двух чисел;meta
— словарь, содержащий метаинформацию:id
— целое число, обозначающее номер задания.
Пример данных
Ниже приведен пример данных из датасета:
{
"instruction": "Выполните арифметическую операцию.\\n{inputs}",
"inputs": "901 + 164 = ",
"outputs": "1065",
"meta": {
"id": 679
}
}
Разбиение данных
Обучающий набор состоит из 1000
примеров арифметических выражений.
Тестовый набор состоит из 1000
примеров арифметических выражений.
Промпты
Количество промптов для задачи: 6. Следующие промпты используются для задачи:
"Вычислите математическое выражение:\n{inputs}",
"Выполните арифметическую операцию.\n{inputs}",
"Напишите ответ для математического выражения.\n{inputs}",
"Сложите два числа:\n{inputs}",
"Сложите первое и второе слагаемые: {inputs} и напишите ответ.",
"Выполните арифметическую операцию. В качестве ответа напишите число, которое получается после ее выполнения.\n{inputs}"
Создание датасета
Как обучающий, так и тестовый набор данных содержат примеры сложения n-значных чисел для n в диапазоне [1;5]. Все примеры сгенерированы и проверены.
Оценка
Метрики
В качестве метрики оценки качества используется Exact Match (EM).
Человеческая оценка
Человеческая оценка замерялась на сабсете размера 200
(с аналогичным распределением как в исходном сете). Результат на этой задаче равен 1.0
.