Вернуться к списку задач

AQUARIA

Формат вывода
Ответ в свободной форме
Метрика
EM
JudgeScore
Размер датасета
740 вопросов

Описание задачи

Датасет состоит из вопросов с выбором ответа, проверяющих комплексное понимание аудио, в том числе речи, неречевых сигналов и музыки. Вопросы датасета составлялись таким образом, чтобы для ответа на них требовалось не только распознавать речь, но и анализировать аудиоситуацию целиком и взаимодействие её компонентов. Используемые аудиофайлы созданы специально для датасета AQUARIA.

В датасете представлены вопросы девяти типов:

- Audio scene classification (классификация аудиосцены);

- Audio captioning (сопоставление аудио с текстовым описанием);

- Audio comparison (нахождение различий в паре аудио);

- Audio sequence analysis (анализ цепочки звуковых событий);

- Emotion recognition (определение эмоций и субъективных характеристик говорящего);

- Sound QA (вопросы на анализ неречевых сигналов);

- Speaker characterization (определение объективных характеристик говорящего);

- Music QA (вопросы на анализ и знание музыки);

- Music characterization (определение объективных характеристик музыки).

Описание датасета

Поля данных

Каждый вопрос в датасете содержит следующие поля:

  • instruction [str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопроса.
  • inputs — Вводные данные, формирующие задание для модели.
    • audio_1 [str] — Путь к файлу с аудио, к которому относится вопрос.
    • audio_2 [str] — Путь ко второму файлу с аудио, к которому относится вопрос (в случае вопроса с двумя аудиофайлами, иначе поле не используется).
    • question [str] — Текст вопроса.
    • option_a [str] — Вариант ответа A.
    • option_b [str] — Вариант ответа B.
    • option_c [str] — Вариант ответа C.
    • option_d [str] — Вариант ответа D.
  • outputs [str] — Правильный ответ на вопрос.
  • meta — Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).
    • id [int] — Номер-идентификатор вопроса в датасете.
    • categories — Категории признаков, характеризующих тестовый пример.
      • task_type [str] — Тип задачи (см. раздел «Описание задачи»).

Оценка

Метрики

Для агрегированной оценки ответов моделей используются следующие метрики:

- Exact match: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.

Human baseline

Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.

Для всех вопросов датасета были получены ответы разметчиков на crowd-source-платформе с перекрытием 5. Агрегированным ответом считался тот, который был выбран большинством (majority vote).

Результаты оценки:

- Exact match – 0.98

Мотивация

Методология оценки больших аудио-языковых моделей (large audio language models, LALMs), как и сами такие модели, — относительно новая область исследований. По сравнению с vision-language-доменом, существует меньше крупных бенчмарков, объединяющих разнообразные задачи для оценки навыков LALMs. Примерами таких бенчмарков являются [AIR-Bench (02.2024)](https://arxiv.org/abs/2402.07729), [AudioBench (06.2024)](https://arxiv.org/abs/2406.16020) и [MMAU (10.2024)](https://arxiv.org/abs/2410.19168v1). За основу классификации задач на понимание аудио можно принять разделение задач на анализ речи, неречевых сигналов и музыки.

Датасет разработан для оценки LALMs в задачах на русском языке. Для оценки на этом датасете модели необходим аудиоинтерфейс, так как для ответа на вопрос, заданный текстом, требуется анализ связанной с ним аудиодорожки. В датасете представлены вопросы девяти типов, отличающиеся постановкой задачи и тестируемыми способностями моделей. Датасет тестирует три группы навыков аудио-языковых моделей: восприятие звука (perception), знания (knowledge) и способность к рассуждению (reasoning).

Создание датасета

На основании анализа существующих бенчмарков для тестирования языковых моделей с аудиоинтерфейсом были разработаны девять типов задач, которые тестируют разные группы навыков таких моделей. Для каждого типа эксперты составили сценарии ситуаций с диалогами, фоновыми звуками и музыкой. К сценариям были подобраны вопросы, соответствующие разным постановкам задачи. Для всех сценариев были записаны аудиодорожки в профессиональной студии звукозаписи, с добровольным использованием голосов авторов датасета. Для ряда вопросов по музыке использованы музыкальные треки, созданные с помощью генеративных моделей (suno.com и других).

Авторы

Ульяна Исаева

Посмотреть поля датасета { "instruction": "Задание содержит две аудиозаписи и вопрос к ним с четырьмя вариантами ответа: A, B, C, D. Из них только один правильный. Прослушайте аудио: , . Прочитайте вопрос к аудиозаписям и напишите букву правильного ответа: {question}\nA) {option_a}\nB) {option_b}\nC) {option_c}\nD) {option_d}\n\nОтвет:", "inputs": { "question": "В чём различие двух предложенных аудиозаписей?", "audio_1": "samples/audio194.wav",
0:00
"audio_2": "samples/audio195.wav",
0:00
"option_a": "На первой записи отпирают дверь, на второй она была отперта", "option_b": "На первой записи дверь скрипит, на второй — нет", "option_c": "На первой записи в квартиру входит женщина, на второй — мужчина", "option_d": "На первой записи человек заходит в открытую дверь, а на второй — отпирает замок" }, "outputs": "B", "meta": { "id": 173, "categories": { "task_type": "Audio comparison" } } }
Тестируемые навыки моделей
Common everyday knowledge
Object recognition
Attribute recognition
Abductive reasoning
Audio-to-text grounding
Common domain knowledge
Cross-instance event recognition
Mutual object localization
Other reasoning
Overlapping object differentiation
Quantitative reasoning
Single-instance event recognition
Посмотреть поля датасета
{ "instruction": "Задание содержит две аудиозаписи и вопрос к ним с четырьмя вариантами ответа: A, B, C, D. Из них только один правильный. Прослушайте аудио: , . Прочитайте вопрос к аудиозаписям и напишите букву правильного ответа: {question}\nA) {option_a}\nB) {option_b}\nC) {option_c}\nD) {option_d}\n\nОтвет:", "inputs": { "question": "В чём различие двух предложенных аудиозаписей?", "audio_1": "samples/audio194.wav",
0:00
"audio_2": "samples/audio195.wav",
0:00
"option_a": "На первой записи отпирают дверь, на второй она была отперта", "option_b": "На первой записи дверь скрипит, на второй — нет", "option_c": "На первой записи в квартиру входит женщина, на второй — мужчина", "option_d": "На первой записи человек заходит в открытую дверь, а на второй — отпирает замок" }, "outputs": "B", "meta": { "id": 173, "categories": { "task_type": "Audio comparison" } } }