Задачи

Скачать

USE

Описание задачи

Датасет состоит из заданий Единого государственного экзамена по предмету “Русский язык”.  Единый государственный экзамен  или ЕГЭ (Unified State Exam, USE) — это форма обязательной государственной итоговой аттестации выпускников российских школ. Содержание экзамена может меняться в зависимости от года. В данной работе рассматривается формат заданий из экзамена 2019 года.

Мотивация

Проверка способности модели решать задачи из экзамена по школьной программе по предмету "русский язык", а также осуществлять вывод ответа в заранее заданном формате. Цель данного экзамена состоит в проверке навыков владения нормами современного русского литературного языка и умение анализировать и осуществлять информационную обработку текстов.

Описание датасета

Экзамен состоит из 2 частей. Часть 1 содержит 26 заданий с кратким ответом, часть 2 направлена на написание сочинения-рассуждения по художественному тексту. В итоговом сете будут рассматриваться задания части 1.

Каждое задание направлено на проверку отдельных элементов в освоении русского языка. Таким образом, объектами контроля в ЕГЭ по русскому языку является:

  • владение нормами современного русского литературного языка – орфоэпическими (постановка ударения) (задания 4), лексическими и в целом речевыми (задания 3, 5, 6, 24), грамматическими (морфологическими и синтаксическими) (задания 7, 8); знание основных правил русской орфографии (задания 9–15) и пунктуации (задания 16–21);
  • владение умением анализировать текст (задания 1–3, 22–26);
  • сформированность представлений об изобразительно-выразительных возможностях русского языка (задания 1, 24, 26).

За верное выполнение заданий первой части работы участник экзамена может получить от 0 до 5 баллов в зависимости от вида задания.

Экзамен состоит из следующие видов заданий с кратким ответом:

  • text — задания открытого типа, требующие записи самостоятельно сформулированного правильного ответа. К данному типу относятся задания 2, 4-7, 13, 14, 24.
  • multiple_choice — задания на выбор и запись одного или нескольких правильных ответов из предложенного перечня ответов. К данному типу относятся задания 1, 3, 8-12, 15-23, 25;
  • matching — задания на установление соответствия. К данному типу относится задание 26.

В оригинальном экзамене задание 8 является заданием на сопоставление двух списков: списка с грамматическими ошибками и списка с предложениями, в которых они допущены. В рамках нашего бенчмарка данное задание было разбито на несколько заданий типа multiple_choice, в котором каждая ошибка представляет собой отдельное задание. Таким образом, из заданного списка предложений необходимо найти предложение, в котором допущена определенная грамматическая ошибка.

В нашем датасете задания multiple_choice типа делятся еще на 3 подтипа:

  • based_on_text - есть текст и по нему задают вопрос и даются варианты ответов.
  • options_within_text - есть текст и в нем расставлены числа, нужно выбрать правильные варианты из эти чисел.
  • independent_options - есть задание и варианты ответов.

Ответов на задания части 1 является запись в бланке ответов в виде цифры (числа) или слова (нескольких слов), последовательности цифр (чисел), записанных без пробелов, запятых и других дополнительных символов. В рамках данного бенчмарка определяются следующие требованием к формату ответа модели:

  • для заданий типа multiple_choice и matching ответом является строка, содержащая число или последовательность чисел, перечисленных через запятую без пробелов;
  • для заданий типа text ответом является строка, содержащая слово или несколько слов без пробелов, запятых и других дополнительных символов.

Поля датасета

Каждый пример имеет фиксированные поля данных:

  • instruction — строка, содержащая инструкцию для задачи и информацию о требованиях к формату вывода модели;
  • inputs — словарь, содержащий данные для входа модели:
    • task — строка, содержащая текст вопроса;
    • text — строка, содержащая текст относящийся к вопросу;
    • choices — строка, содержащая варианты ответа на вопрос;
    • additional_text — строка, содержащая дополнительный текст, необходимый для выполнения задания;
  • outputs — строка, содержащая правильные ответы;
  • meta — словарь, содержащий метаинформацию необходимую для подсчета метрик:
    • id — целое число, обозначающее номер примера из датасета;
    • id_task — строка, обозначающее номер задания из варианта;
    • variant —целое число, обозначающее экзаменационный вариант;
    • score — целое число, содержание максимальный балл, который можно получить за правильное выполнение;
    • type — строка, содержащая информацию о типе задания.

Для некоторых ключей из поля inputs значениями являются пустые строки, если данная информация не используется для решения задания.

Примеры данных

text

{
	'instruction': 'Прочитайте задание и выполните его. Ответом к заданию является слово или несколько слов без пробелов, запятых и других дополнительных символов.\nЗадание: {task}\n{text}\nОтвет: ', 
	'inputs': {
		'task': 'Отредактируйте предложение: исправьте лексическую ошибку, исключив лишнее слово. Выпишите это слово (пару слов).', 
		'text': 'Внезапный холодный мороз повредил урожай салата.',
		'choices': '', 
		'additional_text': ''
	}, 
	'outputs': 'холодный', 
	'meta': {
	    'id_task': '6', 
	    'variant': 25, 
	    'score': 1, 
	    'type': 'text', 
            'id': 740
	}
}
  • task — строка, содержащая текст вопроса.
  • text — строка, содержащая текст относящийся к вопросу.
  • choices — пустая строка.
  • additional_text — пустая строка.

matching

{
	'instruction': 'Прочитайте текст и выполните задание по тексту.\nТекст: {text}\nЗадание: {task}\nРецензии: {additional_text}\nСписок терминов:\n{choices}\nВ ответе запишите цифры через запятую без пробелов в порядке, соответствующем буквам АБВГ.\nОтвет: ',
	'inputs': {
		'task': 'Прочитайте фрагмент рецензии, составленной на основе приведённого выше текста. В этом фрагменте рассматриваются языковые особенности текста. Некоторые термины, использованные в рецензии, пропущены. Пропуск в рецензии обозначен как «_________». Вставьте на места пропусков (А, Б, В, Г) цифры, соответствующие номеру термина из списка.',
		'additional_text': '«Каждая строчка, каждое слово Дмитрия Шеварова пронизаны искренним уважением к личности Пушкина. Эмоциональное, неравнодушное отношение автора выражено с помощью та кого синтаксического средства, как (А)_________ (предложения 7, 17), а также лексических — (Б)_________ («подлец», «пошляк», «сплетник») и (В)_________ («честь и имя» в предложениях 18—19), (Г)_________ («звон... стали в слове...», в предложении 3, «разряд... силы» в предложении 8, «слово... отливалось в свинец» в предложении 13) придают особую образность тексту Д. Шеварова».',
		'text': '(1)В письме к жене 18 мая 1836 года Пушкин удивлялся: откуда взялись эти благоразумные молодые люди, «которым плюют в глаза, а они утираются» вместо того, чтобы защитить свою честь? (2)Иногда кажется, что мы вышли из шинелей именно этих людей. (3)Звон упругой стали более не слышится нам в слове честь.\n (4)Откроем словарь Даля, чтобы вспомнить, во имя чего ставилась на карту жизнь, полная великих надежд и гениальных замыслов. (5) Итак, «честь — внутреннее нравственное достоинство человека, доблесть, честность, благородство души и чистая совесть». (6) И тут же примеры: «Человек незапятнанной чести. По чести... Уверяю вас честью. Поступок, несовместимый с честью... Знал бы ты честь... Поле чести... Честь моя требует крови...».\n (7)Дуэль! (8)Только этот разряд убийственной силы мог стремительно восстановить нравственное равновесие. (9)Подлец знал, что его подлость может быть наказана не взиманием штрафа через год по приговору суда, а сегодня вечером. (10)Самое позднее — завтра утром. (11)Пошляк не говорил двусмысленностей вслух, остерегаясь немедленного возмездия. (12)Сплетник вынужден был осторожничать.(13)В грозном свете дуэльных правил слово быстро отливалось в свинец.\n (14)А как же Пушкин? (15) Какая непоправимая и бессмысленная гибель... (16)Да, непоправимая, но не бессмысленная. (17)Да, «невольник чести», но ведь чести! (18)3а год до дуэли Пушкин писал графу Репнину: «Как дворянин и отец семейства, я должен блюсти честь и имя, которое оставлю моим детям». (19) Вот и всё, что остаётся детям: честь и имя. (20)Всё остальное им не нужно, всё остальное — неважно. (21)Очевидно, нам ещё многое предстоит пережить и передумать, чтобы вернуться к пониманию этой истины.\n(По Д. Шеварову)',
		'choices': '1) метафоры\n2) сравнительный оборот\n3) гипербола\n4) эмоционально-оценочные слова\n5) эпитеты\n6) риторический вопрос\n7) вопросно-ответная форма изложения\n8) лексический повтор\n9) риторическое восклицание'
	},
	'outputs': '4,9,2,8',
	'meta': {
	    'id_task': '26',
	    'variant': 3,
	    'score': 4,
	    'type': 'matching',
	    'id': 866
	}
}
  • task — строка, содержащая текст вопроса.
  • text — строка, содержащая текст, на основе которого составлена рецензия.
  • additional_text — строка, содержащая фрагмент рецензии, составленной на основе приведённого текста и содержащей пропуски.
  • choices — строка, содержащая список терминов, которые необходимо вставить на место пропусков в рецензии.
multiple_choice

multiple_choice_based_on_text

{
	'instruction': 'Прочитайте текст и выполните задание по тексту. Ответом к заданию является число или последовательность чисел, перечисленных через запятую без пробелов.\nТекст: {text}\nЗадание: {task}\nВарианты ответа:\n{choices}\nОтвет: ',
	'inputs': {
		'task': '.Прочитайте фрагмент словарной статьи, в которой приводятся значения слова СОБСТВЕННЫЙ. Определите значение, в котором это слово употреблено в первом (1) предложении текста. Выпишите цифру, соответствующую этому значению в приведённом фрагменте словарной статьи',
		'text': '(1) Растущий оброк и барщина тормозили развитие собственного хозяйства крестьян. (2) Частые неурожаи обрекали сельских тружеников на полуголодное существование. (3) <…> усиление эксплуатации крепостных крестьян обусловливало застой и рутинность производительных сил в деревне.СОБСТВЕННЫЙ',
		'choices': '1. Принадлежащий кому-чему-н. по праву собственности.\n2. Свой, личный. Видеть собственными глазами. В собственные руки.\n3. Находящийся в непосредственном ведении, распоряжении, подчинении кого-чего-н. С. корреспондент.\n4. Буквальный, настоящий. В. собственном смысле слова\n5. Свойственный только чему-н., без посторонних добавлений',
		'additional_text': ''
	},
        'outputs': '2',
        'meta': {
            'id_task': '3',
            'variant': 23,
            'score': 1,
            'type': 'multiple_choice_based_on_text',
            'id': 53
  }
}
  • task — строка, содержащая текст вопроса по тексту.
  • text — строка, содержащая текст относящийся к вопросу.
  • choices — строка, содержащая варианты ответа на вопрос.
  • additional_text — пустая строка.

multiple_choice_options_within_text

{
	'instruction': 'Прочитайте текст задания и выполните его указания. Ответом к заданию является число или последовательность чисел, перечисленных через запятую без пробелов.\nЗадание: {task}\nТекст: {text}\nОтвет: ',
	'inputs': {
	        'task': 'Укажите все цифры, на месте которых пишется НН.',
	        'text': 'Пират, облитый серебря(1)ым лу(2)ым светом, долго стоял на пороге и напряжё(3)о слушал',
	        'choices': '',
	        'additional_text': 
	},
	'outputs': '2,3',
	'meta': {
	     'id_task': '15',
	     'variant': 17,
	     'score': 1,
	     'type': 'multiple_choice_options_within_text',
	     'id': 137
	}
}
  • task — строка, содержащая текст вопроса.
  • text — строка, содержащая текст с вариантами ответа.
  • choices — пустая строка.
  • additional_text — пустая строка.

multiple_choice_independent_options

{
        'instruction': 'Прочитайте текст задания и выполните его указания. Ответом к заданию является число или последовательность чисел, перечисленных через запятую без пробелов.\nЗадание: {task}\nВарианты ответа:\n{choices}\nОтвет: ',
        'inputs': {
                'task': 'Укажите варианты ответов, в которых в обоих словах одного ряда пропущена одна и та же буква.Запишите номера ответов.',
                'choices': '1) невид..мый, разгон..шься\n2) отрасл..вой, мах..нький\n3) груш..вый, нищ..та\n4) леч..щий, молч..щий\n5) ткан..вый, лист..к',
                'text': '',
                'additional_text': 
        },
        'outputs': '1,3',
        'meta': {
            'id_task': '12',
            'variant': 26,
            'score': 1,
            'type': 'multiple_choice_independent_options',
            'id': 592
        }
}
  • task — строка, содержащая текст вопроса.
  • choices — строка, содержащая варианты ответа.
  • text — пустая строка.
  • additional_text — пустая строка.

Так как задание 8 было разделено на 5 отдельных заданий, для этого задания поле id_task также содержит информацию о номере вопроса в рамках данного задания, например, id_task содержит значение'8_1' (см. Раздел Описание датасета). 

Промпты

Количество промптов подзадачи, умноженное на количество подзадач 3x5. Пример для подзадачи:

{
    "multiple_choice": {
        "based_on_text": [
            "Прочитайте текст и выполните задание по тексту. Ответом к заданию является число или последовательность чисел, перечисленных через запятую без пробелов.\\\\nТекст: {text}\\\\nЗадание: {task}\\\\nВарианты ответа:\\\\n{choices}\\\\nОтвет:"
        ],
        "options_within_text": [
            "Прочитайте текст задания и выполните его указания. Ответом к заданию является число или последовательность чисел, перечисленных через запятую без пробелов.\\\\nЗадание: {task}\\\\nТекст: {text}\\\\nОтвет:"
        ],
        "independent_options": [
            "Прочитайте текст задания и выполните его указания. Ответом к заданию является число или последовательность чисел, перечисленных через запятую без пробелов.\\\\nЗадание: {task}\\\\nВарианты ответа:\\\\n{choices}\\\\nОтвет:"
        ]
    },
    "text": [
        "Прочитайте задание и выполните его. Ответом к заданию является слово или несколько слов без пробелов, запятых и других дополнительных символов в нижнем регистре.\\\\nЗадание: {task}\\\\n{text}\\\\nОтвет:"
    ],
    "matching": [
        "Прочитайте текст и выполните задание по тексту.\\\\nТекст: {text}\\\\nЗадание: {task}\\\\nРецензии: {additional_text}\\\\nСписок терминов:\\\\n{choices}\\\\nВ ответе запишите цифры через запятую без пробелов в порядке, соответствующем буквам АБВГ.\\\\nОтвет:"
    ]
}

Разбиение данных

Train сет состоит из 110 неполных вариантов. Всего в него вошло 2622 заданий: 94 задания типа matching, 1815 заданий типа multiple_choice, 713 заданий типа text.

Dev сет состоит из 30 полных вариантов. Всего в него вошло 900 заданий: 30 заданий типа matching, 630 заданий типа multiple_choice, 240 заданий типа text.

Test сет состоит из 30 полных вариантов. Всего в него вошло 900 заданий: 30 заданий типа matching, 630 заданий типа multiple_choice, 240 заданий типа text.

Создание датасета

Примеры для train и dev сетов были собраны из открытых источников [1, 2] с примерами заданий из ЕГЭ по русскому языку.

Для закрытого теста экспертами были подготовлены 30 уникальных вариантов экзамена на основе одного и того же методического стандарта.

  1. https://rus-ege.sdamgia.ru/
  2. https://yandex.ru/tutor/

Оценка

Метрики

Для заданий text и multiple_choice из тестовой выборки, для которых ответом является строка, содержащая несколько слов, или строка, содержащая последовательность чисел, при подсчете метрик используются всевозможные комбинации из этих слов и чисел. Для данных заданий из train и dev сетов представлена только одна комбинация ответа.

Система оценивания

  • За верное выполнение заданий 1–7, 8–15, 17–25 экзаменуемый получает по 1 баллу. За неверный ответ или его отсутствие выставляется 0 баллов.
  • За выполнение задания 16 может быть выставлено от 0 до 2 баллов. Верным считается ответ, в котором есть все цифры из эталона и отсутствуют другие цифры. 1 балл ставится, если: одна из цифр, указанных в ответе, не соответствует эталону; отсутствует одна из цифр, указанных в эталоне ответа. Во всех других случаях выставляется 0 баллов.
  • За выполнение задания 26 может быть выставлено от 0 до 4 баллов. Верным считается ответ, в котором есть все цифры из эталона и отсутствуют другие цифры. За каждую верно указанную цифру, соответствующую номеру из списка, экзаменуемый получает по 1 баллу.

Итоговая метрика

Итоговый первичный балл рассчитывается как сумма баллов по всем заданиям варианта. Максимальное количество первичных баллов за часть 1 экзамена составляет 34.

Итоговый метрика grade_norm представляет собой средний нормированный первичный балл по всем вариантам, где нормировка осуществялется путем деления итогового первичного балла на максимально возможное количество баллов (то есть 34).

Расчет итогового первичного балла, как и финальной метрики grade_norm, осуществляется лишь для валидационной и тестовой частей датасета, которые состоят из полных экзаменационных вариантов ЕГЭ.

Человеческая оценка

В данной работе рассматривается формат заданий из экзамена 2019 года. Так как в зависимости от года меняется содержание экзамена, сложность заданий, а также система оценивания, в качестве человеческой оценки используется средний первичный балл выпускников за выполнение Части 1 ЕГЭ по русскому языку в 2019 году.

Исходя из официальной статистики cредний первичный балл за Часть 1 составил 23.835 из 34 баллов, значениеgrade_norm равно 0.701.