Задачи

Скачать

SimpleAr

Описание задачи

Simple Arithmetic (SimpleAr) / Простая арифметика — это математическая задача из BIG-bench.

Задача проверяет базовые арифметические возможности языковых моделей, предлагая моделям выполнить сложение цифр из n-значных чисел (для n в диапазоне [1;5]).

Ключевые слова: арифметика, задача с примером, свободный ответ, математика, числовой ответ, программный, zero-shot.

Мотивация

Цель задачи — проанализировать способность модели решать простую задачу математического сложения.

Описание Датасета

Поля данных

  • instruction — строка, содержащая инструкцию для задачи и информацию о требованиях к формату вывода модели;
  • inputs — пример математического выражения;
  • outputs — строка, содержащая правильный ответ результата сложения двух чисел;
  • meta — словарь, содержащий метаинформацию:
    • id — целое число, обозначающее номер задания.

Пример данных

Ниже приведен пример данных из датасета:

{
    "instruction": "Выполните арифметическую операцию.\\n{inputs}",
    "inputs": "901 + 164 = ",
    "outputs": "1065",
    "meta": {
        "id": 679
    }
}

Разбиение данных

Обучающий набор состоит из 1000 примеров арифметических выражений. Тестовый набор состоит из 1000 примеров арифметических выражений.

Промпты

Количество промптов для задачи: 6. Следующие промпты используются для задачи:

    "Вычислите математическое выражение:\n{inputs}",
    "Выполните арифметическую операцию.\n{inputs}",
    "Напишите ответ для математического выражения.\n{inputs}",
    "Сложите два числа:\n{inputs}",
    "Сложите первое и второе слагаемые: {inputs} и напишите ответ.",
    "Выполните арифметическую операцию. В качестве ответа напишите число, которое получается после ее выполнения.\n{inputs}"

Создание датасета

Как обучающий, так и тестовый набор данных содержат примеры сложения n-значных чисел для n в диапазоне [1;5]. Все примеры сгенерированы и проверены.

Оценка

Метрики

В качестве метрики оценки качества используется Exact Match (EM).

Человеческая оценка

Человеческая оценка замерялась на сабсете размера 200 (с аналогичным распределением как в исходном сете). Результат на этой задаче равен 1.0.