Вернуться к списку задач

ruEnvAQA

Формат вывода
Ответ в свободной форме
Метрика
EM
JudgeScore
Размер датасета
740 вопросов

Описание задачи

ruEnvAQA — датасет вопросов с множественным и бинарным выбором ответа на русском языке. Вопросы связаны с анализом музыки и невербальных аудиосигналов. Датасет составлен на основе вопросов из англоязычных датасетов [Clotho-AQA](https://arxiv.org/abs/2204.09634) и [MUSIC-AVQA](https://arxiv.org/abs/2203.14072v2). Вопросы переведены на русский язык и частично изменены, тогда как аудиозаписи использованы в исходном виде (с обрезкой по длине).

Датасет включает вопросы 8 типов:

- Оригинальные классы вопросов из MUSIC-AVQA (около половины вопросов на экспертные знания о звучании редких инструментов, остальные — на общие знания):

- `Music instrument counting` — «Сколько музыкальных инструментов звучит на записи?»;

- `Single music instrument detection` — «Звучит ли на записи <инструмент_X>?»;

- `Double music instrument detection` — «Верно ли, что на записи звучит и <инструмент_X>, и <инструмент_Y>?»;

- `Music instrument comparison (louder)` — «Верно ли, что на записи <инструмент_X> играет громче, чем <инструмент_Y>?»;

- `Music instrument comparison (longer)` — «Верно ли, что на записи <инструмент_X> играет более продолжительное время, чем <инструмент_Y>?».

- Классы, присвоенные при редактуре вопросов CLOTHO-AQA (вопросы на общие знания):

- `Audio scene classification` — понимание аудиосцены в целом, логический вывод из множества деталей (определение, в каком месте или обстоятельствах записано аудио);

- `Audio captioning` — вопросы на понимание отдельных деталей аудиофрагмента, порядка и количества событий;

- `Sound QA with reasoning` — вопросы на понимание аудио с простым ризонингом, требующие не только восприятия деталей из аудиосигнала, но и шага логического рассуждения.

Описание датасета

Поля данных

Каждый вопрос в датасете содержит следующие поля:

  • instruction [str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопроса.
  • inputs — Вводные данные, формирующие задание для модели.
    • question [str] — Текст вопроса.
    • audio [str] — Путь к файлу с аудио, к которому относится вопрос.
    • option_a [str] — Вариант ответа A.
    • option_b [str] — Вариант ответа B.
    • option_c [str] — Вариант ответа C.
    • option_d [str] — Вариант ответа D.
  • outputs [str] — Правильный ответ на вопрос.
  • meta — Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).
    • id [int] — Номер-идентификатор вопроса в датасете.
    • categories — Категории признаков, характеризующих тестовый пример.
      • task_type [str] — Тип задачи в соответствии с классификацией задач в датасете.
      • source_dataset [str] — Датасет, из которого был взят вопрос с аудио.
      • knowledge [str] — Уровень знаний, требуемых для ответа на вопрос.

Оценка

Метрики

Для агрегированной оценки ответов моделей используются следующие метрики:

- `Exact match`: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.

Human baseline

Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.

Для всех вопросов датасета были получены ответы разметчиков на crowd-source-платформе с перекрытием 5. Агрегированным ответом считался тот, который был выбран большинством (majority vote).

Результаты оценки:

- Exact match – 0.95

Мотивация

Методология оценки больших аудио-языковых моделей (large audio language models, LALMs), как и сами такие модели, — относительно новое явление. По сравнению с vision-language-доменом, существует меньше крупных бенчмарков, объединяющих разнообразные задачи для оценки навыков LALMs. Примерами таких бенчмарков являются [AIR-Bench (02.2024)](https://arxiv.org/abs/2402.07729), [AudioBench (06.2024)](https://arxiv.org/abs/2406.16020) и [MMAU (10.2024)](https://arxiv.org/abs/2410.19168v1). За основу классификации задач на понимание аудио можно принять разделение задач на анализ речи, невербальных сигналов и музыки.

Данный датасет тестирует способности LALMs воспринимать и анализировать невербальные сигналы и музыку, отвечая на вопросы на русском языке к аудио, на которых записаны исполнение музыкальных композиций и аудиосцены из разнообразных жизненных ситуаций. В тесты включены вопросы трёх категорий:

- **Вопросы на буквальное восприятие аудиособытий** (Audio captioning и вопросы про музыку) тестируют умение моделей сопоставлять запечатлённые в аудио последовательности событий, их количество и длительность с их текстовым описанием. Например, «Сколько раз мяч ударился о пол?» или «Звучит ли на записи скрипка?».

- **Вопросы на классификацию аудиосцен** (Audio scene classification) проверяют способность моделей проводить индуктивные рассуждения, а именно определять место и обстоятельства записи аудио по деталям событий. Например, если на записи слышны самолёты и объявления диктора, она, вероятно, сделана в аэропорту.

- **Вопросы с дополнительным рассуждением** (Sound QA with reasoning), помимо базового восприятия аудиоинформации, требуют дополнительных логических операций с общими знаниями о мире для вывода ответа. Например, на аудио мяукает кошка, вопрос: «Как обычно передвигаются эти животные?».

Создание датасета

Датасет составлен из аудиофайлов и вопросов в равных пропорциях из двух англоязычных датасетов, покрывающих по отдельности домен музыки и невербальных сигналов. Вопросы на понимание речи в датасет не включены.

Вопросы из датасета Clotho-AQA

Датасет [Clotho-AQA](https://arxiv.org/abs/2204.09634) содержит вопросы к аудио с невербальными сигналами с минорными вкраплениями речи, вопросы касаются только невербальных сигналов и лишь изредка внешних характеристик речи, таких как громкость или пол говорящего.

Оригинальные вопросы из test split были переведены в multiple-choice формат, для этого в дополнение к единственному правильному ответу из исходного датасета на каждый вопрос были сгенерированы по 3 дистрактора (неправильных варианта ответа) моделью [Llama-3.2-3B-Instruct](https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct) на английском языке.

Вопросы, правильные ответы и дистракторы были переведены на русский язык с помощью [DeepL API](https://www.deepl.com/products/api). Вопросы переводились единой последовательностью вместе с ответами, чтобы снизить влияние синонимии при переводе.

Полученные автопереводом вопросы и варианты ответов с соответствующими аудиофайлами были проверены профессиональными редакторами (без перекрытия в разметке) с учётом оригинальных формулировок вопросов. В случае, если исходный вопрос не подходил для перевода, редактор подбирал новый вопрос к аудио, определял правильный ответ и дистракторы. Также редактор выбирал подходящий тип вопроса: Audio scene classification, Audio captioning или Sound QA with reasoning.

Вопросы из MUSIC-AVQA

Датасет [MUSIC-AVQA](https://gewu-lab.github.io/MUSIC-AVQA/) состоит из видеозаписей исполнения музыкальных произведений и трёх групп вопросов к ним:

- вопросы к звуковой части видео, не требующие анализа визуального компонента;

- вопросы к визуальному ряду, не требующие понимания сопутствующего аудио;

- вопросы к аудиовизуальному ряду, относящиеся одновременно к звуковой и визуальной частям видео.

Для датасета ruEnvAQA были выбраны вопросы, относящиеся только к аудио (только test split). Из каждого видео был извлечён звуковой компонент и использован как самостоятельный wav-файл.

Выбранные вопросы составлены по шаблонам, которые заполняются названиями музыкальных инструментов (22 разных инструмента):

- «Сколько музыкальных инструментов звучат на записи?»;

- «Звучит ли на записи <инструмент_X>?»;

- «Верно ли, что на записи звучит и <инструмент_X>, и <инструмент_Y>?»;

- «Верно ли, что на записи <инструмент_X> играет громче, чем <инструмент_Y>?»;

- «Верно ли, что на записи <инструмент_X> играет более продолжительное время, чем <инструмент_Y>?».

Шаблоны и названия инструментов, а также шаблонные ответы были переведены вручную. Вопросы были отобраны так, чтобы сбалансировать типы вопросов и ответы, а также упоминаемые в вопросах музыкальные инструменты.

Вопросы исходного датасета были приведены к формату бинарных вопросов. Для вопросов «Сколько музыкальных инструментов звучат на записи?» были составлены варианты ответа «один» и «несколько», остальные вопросы — сведены к выбору «да»/«нет». Таким образом, в получившемся датасете сбалансированы вопросы с двумя и четырьмя вариантами ответов.

Валидация вопросов и обработка аудио

Предварительно отобранные вопросы из двух датасетов проходили валидацию краудсорс-разметчиками с перекрытием 3. Разметчикам было предложено аудио, вопрос и варианты ответа. Задание состояло в том, чтобы выбрать все варианты ответа, исключив случаи с несколькими верными ответами. Вместе с валидацией вопросов и ответов разметчики обрезали аудио до фрагмента длительностью от 5 до 20 секунд. В случае, если аудио невозможно было обрезать так, чтобы вопрос оставался релевантным, вопрос и аудио исключались.

Для получения агрегированного ответа выбор каждого варианта ответа был агрегирован по методу Дэвида-Скина (каждый вариант — как независимая переменная), после чего были оставлены только вопросы с единственным выбранным вариантом ответа. В дальнейшем были использованы только те ответы разметчиков, которые совпали с агрегированным (псевдоэталонным) ответом. Аудиофрагмент в таких группах был выбран по принципу наибольшей длительности, что не влияло на ответ, так как агрегационная группировка была сделана по вопросу и ответу.

Авторы

Ульяна Исаева

Посмотреть поля датасета ```json { "instruction": "Прослушайте аудиозапись. Прочитайте вопрос к аудио, оцените варианты ответа на вопрос и выберите один правильный. Дайте ответ буквой без дополнительных пояснений.\n\nВопрос: {question}\nA. {option_a}\nB. {option_b}\nC. {option_c}\nD. {option_d}\n\nОтвет:", "inputs": { "question": "В каком месте с наибольшей вероятностью сделана запись?", "audio": "samples/audio024.wav",
0:00
"option_a": "в аэропорту", "option_b": "на причале", "option_c": "на железнодорожном вокзале", "option_d": "на автобусном вокзале" }, "outputs": "C", "meta": { "id": 24, "categories": { "task_type": "Audio scene classification", "source_dataset": "CLOTHO-AQA", "knowledge": "common" } } } ```
Тестируемые навыки моделей
Common everyday knowledge
Object recognition
Attribute recognition
Common domain knowledge
Cross-instance event recognition
Other reasoning
Quantitative reasoning
Single-instance event recognition
Посмотреть поля датасета
```json { "instruction": "Прослушайте аудиозапись. Прочитайте вопрос к аудио, оцените варианты ответа на вопрос и выберите один правильный. Дайте ответ буквой без дополнительных пояснений.\n\nВопрос: {question}\nA. {option_a}\nB. {option_b}\nC. {option_c}\nD. {option_d}\n\nОтвет:", "inputs": { "question": "В каком месте с наибольшей вероятностью сделана запись?", "audio": "samples/audio024.wav",
0:00
"option_a": "в аэропорту", "option_b": "на причале", "option_c": "на железнодорожном вокзале", "option_d": "на автобусном вокзале" }, "outputs": "C", "meta": { "id": 24, "categories": { "task_type": "Audio scene classification", "source_dataset": "CLOTHO-AQA", "knowledge": "common" } } } ```