USE
Описание задачи
Датасет состоит из заданий Единого государственного экзамена по предмету “Русский язык”. Единый государственный экзамен или ЕГЭ (Unified State Exam, USE) — это форма обязательной государственной итоговой аттестации выпускников российских школ. Содержание экзамена может меняться в зависимости от года. В данной работе рассматривается формат заданий из экзамена 2019 года.
Мотивация
Проверка способности модели решать задачи из экзамена по школьной программе по предмету "русский язык", а также осуществлять вывод ответа в заранее заданном формате. Цель данного экзамена состоит в проверке навыков владения нормами современного русского литературного языка и умение анализировать и осуществлять информационную обработку текстов.
Описание датасета
Экзамен состоит из 2 частей. Часть 1 содержит 26 заданий с кратким ответом, часть 2 направлена на написание сочинения-рассуждения по художественному тексту. В итоговом сете будут рассматриваться задания части 1.
Каждое задание направлено на проверку отдельных элементов в освоении русского языка. Таким образом, объектами контроля в ЕГЭ по русскому языку является:
- владение нормами современного русского литературного языка – орфоэпическими (постановка ударения) (задания 4), лексическими и в целом речевыми (задания 3, 5, 6, 24), грамматическими (морфологическими и синтаксическими) (задания 7, 8); знание основных правил русской орфографии (задания 9–15) и пунктуации (задания 16–21);
- владение умением анализировать текст (задания 1–3, 22–26);
- сформированность представлений об изобразительно-выразительных возможностях русского языка (задания 1, 24, 26).
За верное выполнение заданий первой части работы участник экзамена может получить от 0 до 5 баллов в зависимости от вида задания.
Экзамен состоит из следующие видов заданий с кратким ответом:
- text — задания открытого типа, требующие записи самостоятельно сформулированного правильного ответа. К данному типу относятся задания 2, 4-7, 13, 14, 24.
- multiple_choice — задания на выбор и запись одного или нескольких правильных ответов из предложенного перечня ответов. К данному типу относятся задания 1, 3, 8-12, 15-23, 25;
- matching — задания на установление соответствия. К данному типу относится задание 26.
В оригинальном экзамене задание 8 является заданием на сопоставление двух списков: списка с грамматическими ошибками и списка с предложениями, в которых они допущены. В рамках нашего бенчмарка данное задание было разбито на несколько заданий типа multiple_choice, в котором каждая ошибка представляет собой отдельное задание. Таким образом, из заданного списка предложений необходимо найти предложение, в котором допущена определенная грамматическая ошибка.
В нашем датасете задания multiple_choice типа делятся еще на 3 подтипа:
- based_on_text - есть текст и по нему задают вопрос и даются варианты ответов.
- options_within_text - есть текст и в нем расставлены числа, нужно выбрать правильные варианты из эти чисел.
- independent_options - есть задание и варианты ответов.
Ответов на задания части 1 является запись в бланке ответов в виде цифры (числа) или слова (нескольких слов), последовательности цифр (чисел), записанных без пробелов, запятых и других дополнительных символов. В рамках данного бенчмарка определяются следующие требованием к формату ответа модели:
- для заданий типа multiple_choice и matching ответом является строка, содержащая число или последовательность чисел, перечисленных через запятую без пробелов;
- для заданий типа text ответом является строка, содержащая слово или несколько слов без пробелов, запятых и других дополнительных символов.
Поля датасета
Каждый пример имеет фиксированные поля данных:
instruction
— строка, содержащая инструкцию для задачи и информацию о требованиях к формату вывода модели;inputs
— словарь, содержащий данные для входа модели:task
— строка, содержащая текст вопроса;text
— строка, содержащая текст относящийся к вопросу;choices
— строка, содержащая варианты ответа на вопрос;additional_text
— строка, содержащая дополнительный текст, необходимый для выполнения задания;
outputs
— строка, содержащая правильные ответы;meta
— словарь, содержащий метаинформацию необходимую для подсчета метрик:id
— целое число, обозначающее номер примера из датасета;id_task
— строка, обозначающее номер задания из варианта;variant
—целое число, обозначающее экзаменационный вариант;score
— целое число, содержание максимальный балл, который можно получить за правильное выполнение;type
— строка, содержащая информацию о типе задания.
Для некоторых ключей из поля
значениями являются пустые строки, если данная информация не используется для решения задания.
inputs
Примеры данных
text
{
"instruction": "Задание: \"{task}\"\n\"{text}\"\nОтветом к заданию может быть одно слово или несколько слов. Выполните задание и запишите ответ в нижнем регистре без использования без пробелов, запятых и других дополнительных символов.\nОтвет:",
"inputs": {
"task": "В одном из приведённых ниже предложений неверно употреблено выделенное слово. Исправьте лексическую ошибку, подобрав к выделенному слову пароним. Запишите подобранное слово.",
"text": "Ветераны молча стояли у ВЕЧНОГО огня.\nЗа окном холодный, ДОЖДЛИВЫЙ вечер.\nВ области физики я, к сожалению, НЕВЕЖДА.\nДизайнеры разработали проект ПРАЗДНОГО оформления зала.\nУчастников шоу ОДЕЛИ по последней моде.",
"choices": "",
"additional_text": ""
},
"outputs": "праздничного",
"meta": {
"id_task": "5",
"variant": 104,
"score": 1,
"type": "text",
"id": 1988
}
}
task
— строка, содержащая текст вопроса.text
— строка, содержащая текст относящийся к вопросу.choices
— пустая строка.additional_text
— пустая строка.
matching
{
"instruction": "Прочитайте текст, в котором использованы различные языковые средства: \"{text}\"\nВыполните задание по тексту: {task} Ответом на задание является последовательность цифр, записанных через запятую без пробелов в порядке, соответствующем буквам АБВГ.\nРецензии: {additional_text}\nСписок терминов:\n{choices}\nОтвет:",
"inputs": {
"task": "Прочитайте фрагмент рецензии, составленной на основе приведённого выше текста. В этом фрагменте рассматриваются языковые особенности текста. Некоторые термины, использованные в рецензии, пропущены. Пропуск в рецензии обозначен как «_________». Вставьте на места пропусков (А, Б, В, Г) цифры, соответствующие номеру термина из списка.",
"text": "(1) Надобно сказать, что у нас на Руси если не угнались ещё кой в чём другом за иностранцами, то далеко перегнали их в умении обращаться. (2) Пересчитать нельзя всех оттенков и тонкостей нашего обращения. (3) Француз или немец век не смекнёт и не поймёт всех его особенностей и различий; он почти тем же голосом и тем же языком станет говорить и с миллионщиком, и с мелким табачным торгашом, хотя, конечно, в душе поподличает в меру перед первым. (4) У нас не то: у нас есть такие мудрецы, которые с помещиком, имеющим двести душ, будут говорить совсем иначе, нежели с тем, у которого их триста, а с тем, у которого их триста, будут говорить опять не так, как с тем, у которого их пятьсот, а с тем, у которого их пятьсот, опять не так, как с тем, у которого их восемьсот, — словом, хоть восходи до миллиона, всё найдутся оттенки. (5) Положим, например, существует канцелярия, не здесь, а в тридевятом государстве, а в канцелярии, положим, существует правитель канцелярии. (6) Прошу посмотреть на него, когда он сидит среди своих подчинённых, — да просто от страха и слова не выговоришь! гордость и благородство, и уж чего не выражает лицо его? просто бери кисть, да и рисуй: Прометей, решительный Прометей! (7) Высматривает орлом, выступает плавно, мерно. (8) Тот же самый орёл, как только вышел из комнаты и приближается к кабинету своего начальника, куропаткой такой спешит с бумагами под мышкой, что мочи нет. (9) В обществе и на вечеринке, будь все небольшого чина, Прометей так и останется Прометеем, а чуть немного повыше его, с Прометеем сделается такое превращение, какого и Овидий не выдумает: муха, меньше даже мухи, уничтожился в песчинку. (10) «Да это не Иван Петрович, — говоришь, глядя на него. — Иван Петрович выше ростом, а этот и низенький, и худенький; тот говорит громко, басит и никогда не смеётся, а этот чёрт знает что: пищит птицей и всё смеётся». (11) Подходишь ближе, глядишь — точно Иван Петрович! (12) «Эхе-хе!» — думаешь себе...\n(Н.В. Гоголь)",
"choices": "1) риторический вопрос\n2) лексический повтор\n3) разговорная лексика\n4) метонимия\n5) вопросно-ответная форма изложения\n6) эпитеты\n7) литота\n8) инверсия\n9) сравнение",
"additional_text": "«Особенности поэтики Н. В. Гоголя ярко проявляются в эпизоде из романа «Мёртвые души». Обращение к персонажам античной мифологии, а также использование таких синтаксических средств, как (А)_________ (например, «пересчитать нельзя» в предложении 2) и (Б)_________ (в предложении 6), употребление тропов: (В)_________ («высматривает орлом», «куропаткой спешит» в предложениях 7, 8) и (Г)_________ («уничтожился в песчинку» в предложении 9) — отражают неравнодушное отношение автора к изображаемому и создают в тексте особую ироническую интонацию, характерную для творчества Н. В. Гоголя»."
},
"outputs": "8,1,9,7",
"meta": {
"id_task": "26",
"variant": 29,
"score": 4,
"type": "matching",
"id": 899
}
}
task
— строка, содержащая текст вопроса.text
— строка, содержащая текст, на основе которого составлена рецензия.additional_text
— строка, содержащая фрагмент рецензии, составленной на основе приведённого текста и содержащей пропуски.choices
— строка, содержащая список терминов, которые необходимо вставить на место пропусков в рецензии.
multiple_choice
multiple_choice_based_on_text
{
"instruction": "Прочитайте текст и выполните задание по тексту. Ответом к заданию является число или последовательность чисел, перечисленных через запятую без пробелов.\nТекст: \"{text}\"\nЗадание: {task}\nВарианты ответа:\n{choices}\nОтвет:",
"inputs": {
"task": "Укажите номера предложений, в которых верно передана ГЛАВНАЯ информация, содержащаяся в тексте. Запишите номера этих предложений.",
"text": "(1) Один греческий историк по праву назвал Египет «даром Нила», который сделал Египет богатейшей житницей, кормившей население страны. (2) Люди здесь всегда селились на узких полосах земли по обоим берегам реки, несущей свои воды через сотни километров пустыни к дельте, где, разделившись на множество протоков, она впадает в Средиземное море. (3) Воды Нила ежегодно поднимались и опускались, оставляя в пойме слой плодородного ила, <...> позволяло строить сложные оросительные сооружения.",
"choices": "1) На берегах Нила всегда селились египтяне, потому что воды реки ежегодно поднимались и опускались, оставляя в пойме слой плодородного ила, в результате чего Египет стал богатейшей житницей и получил название “Дар Нила”\n2) Египтяне всегда селились на узких полосах земли по обоим берегам Нила, который нёс свои воды к дельте, где он впадал в Средиземное море\n3) Египет по праву назвали «даром Нила», так как на берегах этой реки селились египтяне и воды её, ежегодно поднимаясь и опускаясь, оставляли в пойме слой плодородного ила, что и сделало Египет богатейшей житницей\n4) Один греческий историк по праву назвал Египет «даром Нила», так как воды этой реки, ежегодно опускаясь, оставляли в пойме слой ила\n5) Египет стал колыбелью второй великой цивилизации в мировой истории, которая зародилась в долине Нила на узких полосах земли по обоим берегам реки",
"additional_text": ""
},
"outputs": "1,3",
"meta": {
"id_task": "1",
"variant": 100,
"score": 1,
"type": "multiple_choice_based_on_text",
"id": 0
}
}
task
— строка, содержащая текст вопроса по тексту.text
— строка, содержащая текст относящийся к вопросу.choices
— строка, содержащая варианты ответа на вопрос.additional_text
— пустая строка.
multiple_choice_options_within_text
{
"instruction": "Выполните задание. Ответом будет число или последовательность чисел, перечисленных через запятую без пробелов и других дополнительных символов.\nЗадание: {task}\nТекст: \"{text}\"\nОтвет:",
"inputs": {
"task": "Укажите все цифры, на месте которых пишется НН.",
"text": "Это был его собстве(1)ый крыжовник, собра(2)ый в первый раз с тех пор, как были посаже(3)ы кусты.",
"choices": "",
"additional_text": ""
},
"outputs": "1,2",
"meta": {
"id_task": "15",
"variant": 11,
"score": 1,
"type": "multiple_choice_options_within_text",
"id": 377
}
}
task
— строка, содержащая текст вопроса.text
— строка, содержащая текст с вариантами ответа.choices
— пустая строка.additional_text
— пустая строка.
multiple_choice_independent_options
{
"instruction": "Задание: {task}\nВарианты ответа:\n{choices}\nОтветом к заданию является число или последовательность чисел, перечисленных через запятую без пробелов.\nОтвет:",
"inputs": {
"task": "Установите соответствие между грамматической ошибкой и предложением, в котором она допущена. Запишите номер предложения, в котором содержится ошибка в построении предложения с однородными членами.",
"text": "",
"choices": "1) В «Ровеснике», журнале для молодёжи, печатают много интересных статей\n2) Все трое вошедших молодых женщин были одеты изысканно, и это не могло не привлечь внимания\n3) Добившись согласия директора, мы перенесли уроки физкультуры на субботу\n4) Пётр говорил о том, что «у меня слипаются от усталости глаза»\n5) Школьники нашего села охотно помогали группе археологов, приехавшим из Новгорода\n6) Голос отца был строг и не имел уже того выражения доброты, которое трогало меня до слёз\n7) Многие из тех, кто прошли войну, уже не могут участвовать в парадах и праздничных шествиях\n8) Только две незнакомые старухи покосились на Анну Акимовну с недоумением\n9) В программе праздничного вечера, который состоится в «Олимпийском», намечались выступления не только русских, а также зарубежных исполнителей.",
"additional_text": ""
},
"outputs": "9",
"meta": {
"id_task": "8_0",
"variant": 0,
"score": 1,
"type": "multiple_choice_independent_options",
"id": 1007
}
}
task
— строка, содержащая текст вопроса.choices
— строка, содержащая варианты ответа.text
— пустая строка.additional_text
— пустая строка.
Так как задание 8 было разделено на 5 отдельных заданий, для этого задания поле id_task
также содержит информацию о номере вопроса в рамках данного задания, например, id_task
содержит значение'8_1'
(см. Раздел Описание датасета).
Промпты
Количество промптов подзадачи, умноженное на количество подзадач 5x10. Всего 50 промптов для данной задачи. Пример для подзадачи:
{
"multiple_choice": {
"based_on_text": [
"Прочитайте текст и выполните задание по тексту. Ответом к заданию является число или последовательность чисел, перечисленных через запятую без пробелов.\nТекст: \"{text}\"\nЗадание: {task}\nВарианты ответа:\n{choices}\nОтвет:"
],
"options_within_text": [
"Прочитайте текст задания и выполните его указания. Ответом к заданию является число или последовательность чисел, перечисленных через запятую без пробелов.\nЗадание: {task}\nТекст: \"{text}\"\nОтвет:"
],
"independent_options": [
"Задание: {task}\nВарианты ответа:\n{choices}\nОтветом к заданию является число или последовательность чисел, перечисленных через запятую без пробелов.\nОтвет:"
]
},
"text": [
"Задание: \"{task}\"\n\"{text}\"\nВыполни задание и запиши в качестве ответа слово или несколько слов в нижнем регистре без пробелов, запятых и других символов.\nОтвет:"
],
"matching": [
"Прочитайте текст, в котором использованы различные языковые средства: \"{text}\"\nВыполните задание по тексту: {task} Ответом на задание является последовательность цифр, записанных через запятую без пробелов в порядке, соответствующем буквам АБВГ.\nРецензии: {additional_text}\nСписок терминов:\n{choices}\nОтвет:"
]
}
Разбиение данных
Train сет состоит из
неполных вариантов. Всего в него вошло 110
заданий: 94 задания типа matching, 1815 заданий типа multiple_choice, 713 заданий типа text.
2622
Dev сет состоит из
полных вариантов. Всего в него вошло 30
900
заданий: 30 заданий типа matching, 630 заданий типа multiple_choice, 240 заданий типа text.
Test сет состоит из
полных вариантов. Всего в него вошло 30
заданий: 30 заданий типа matching, 630 заданий типа multiple_choice, 240 заданий типа text.
900
Создание датасета
Примеры для train и dev сетов были собраны из открытых источников [1, 2] с примерами заданий из ЕГЭ по русскому языку.
Для закрытого теста экспертами были подготовлены 30 уникальных вариантов экзамена на основе одного и того же методического стандарта.
Оценка
Метрики
Для заданий text и multiple_choice из тестовой выборки, для которых ответом является строка, содержащая несколько слов, или строка, содержащая последовательность чисел, при подсчете метрик используются всевозможные комбинации из этих слов и чисел. Для данных заданий из train и dev сетов представлена только одна комбинация ответа.
Система оценивания
- За верное выполнение заданий 1–7, 8–15, 17–25 экзаменуемый получает по 1 баллу. За неверный ответ или его отсутствие выставляется 0 баллов.
- За выполнение задания 16 может быть выставлено от 0 до 2 баллов. Верным считается ответ, в котором есть все цифры из эталона и отсутствуют другие цифры. 1 балл ставится, если: одна из цифр, указанных в ответе, не соответствует эталону; отсутствует одна из цифр, указанных в эталоне ответа. Во всех других случаях выставляется 0 баллов.
- За выполнение задания 26 может быть выставлено от 0 до 4 баллов. Верным считается ответ, в котором есть все цифры из эталона и отсутствуют другие цифры. За каждую верно указанную цифру, соответствующую номеру из списка, экзаменуемый получает по 1 баллу.
Итоговая метрика
Итоговый первичный балл рассчитывается как сумма баллов по всем заданиям варианта. Максимальное количество первичных баллов за часть 1 экзамена составляет 34.
Итоговый метрика
представляет собой средний нормированный первичный балл по всем вариантам, где нормировка осуществялется путем деления итогового первичного балла на максимально возможное количество баллов (то есть 34).
grade_norm
Расчет итогового первичного балла, как и финальной метрики
, осуществляется лишь для валидационной и тестовой частей датасета, которые состоят из полных экзаменационных вариантов ЕГЭ.
grade_norm
Человеческая оценка
В данной работе рассматривается формат заданий из экзамена 2019 года. Так как в зависимости от года меняется содержание экзамена, сложность заданий, а также система оценивания, в качестве человеческой оценки используется средний первичный балл выпускников за выполнение Части 1 ЕГЭ по русскому языку в 2019 году.
Исходя из официальной статистики cредний первичный балл за Часть 1 составил
из 34 баллов, значение23.835
равно grade_norm
.
0.701