Описание задачи
ruEnvAQA — датасет вопросов с множественным и бинарным выбором ответа на русском языке. Вопросы связаны с анализом музыки и невербальных аудиосигналов. Датасет составлен на основе вопросов из англоязычных датасетов [Clotho-AQA](https://arxiv.org/abs/2204.09634) и [MUSIC-AVQA](https://arxiv.org/abs/2203.14072v2). Вопросы переведены на русский язык и частично изменены, тогда как аудиозаписи использованы в исходном виде (с обрезкой по длине).
Датасет включает вопросы 8 типов:
- Оригинальные классы вопросов из MUSIC-AVQA (около половины вопросов на экспертные знания о звучании редких инструментов, остальные — на общие знания):
- `Music instrument counting` — «Сколько музыкальных инструментов звучит на записи?»;
- `Single music instrument detection` — «Звучит ли на записи <инструмент_X>?»;
- `Double music instrument detection` — «Верно ли, что на записи звучит и <инструмент_X>, и <инструмент_Y>?»;
- `Music instrument comparison (louder)` — «Верно ли, что на записи <инструмент_X> играет громче, чем <инструмент_Y>?»;
- `Music instrument comparison (longer)` — «Верно ли, что на записи <инструмент_X> играет более продолжительное время, чем <инструмент_Y>?».
- Классы, присвоенные при редактуре вопросов CLOTHO-AQA (вопросы на общие знания):
- `Audio scene classification` — понимание аудиосцены в целом, логический вывод из множества деталей (определение, в каком месте или обстоятельствах записано аудио);
- `Audio captioning` — вопросы на понимание отдельных деталей аудиофрагмента, порядка и количества событий;
- `Sound QA with reasoning` — вопросы на понимание аудио с простым ризонингом, требующие не только восприятия деталей из аудиосигнала, но и шага логического рассуждения.
Описание датасета
Поля данных
Каждый вопрос в датасете содержит следующие поля:
instruction[str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопроса.inputs— Вводные данные, формирующие задание для модели.question[str] — Текст вопроса.audio[str] — Путь к файлу с аудио, к которому относится вопрос.option_a[str] — Вариант ответа A.option_b[str] — Вариант ответа B.option_c[str] — Вариант ответа C.option_d[str] — Вариант ответа D.
outputs[str] — Правильный ответ на вопрос.meta— Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).id[int] — Номер-идентификатор вопроса в датасете.categories— Категории признаков, характеризующих тестовый пример.task_type[str] — Тип задачи в соответствии с классификацией задач в датасете.source_dataset[str] — Датасет, из которого был взят вопрос с аудио.knowledge[str] — Уровень знаний, требуемых для ответа на вопрос.
Оценка
Метрики
Для агрегированной оценки ответов моделей используются следующие метрики:
- `Exact match`: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.
Human baseline
Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.
Для всех вопросов датасета были получены ответы разметчиков на crowd-source-платформе с перекрытием 5. Агрегированным ответом считался тот, который был выбран большинством (majority vote).
Результаты оценки:
- Exact match – 0.95
Мотивация
Методология оценки больших аудио-языковых моделей (large audio language models, LALMs), как и сами такие модели, — относительно новое явление. По сравнению с vision-language-доменом, существует меньше крупных бенчмарков, объединяющих разнообразные задачи для оценки навыков LALMs. Примерами таких бенчмарков являются [AIR-Bench (02.2024)](https://arxiv.org/abs/2402.07729), [AudioBench (06.2024)](https://arxiv.org/abs/2406.16020) и [MMAU (10.2024)](https://arxiv.org/abs/2410.19168v1). За основу классификации задач на понимание аудио можно принять разделение задач на анализ речи, невербальных сигналов и музыки.
Данный датасет тестирует способности LALMs воспринимать и анализировать невербальные сигналы и музыку, отвечая на вопросы на русском языке к аудио, на которых записаны исполнение музыкальных композиций и аудиосцены из разнообразных жизненных ситуаций. В тесты включены вопросы трёх категорий:
- **Вопросы на буквальное восприятие аудиособытий** (Audio captioning и вопросы про музыку) тестируют умение моделей сопоставлять запечатлённые в аудио последовательности событий, их количество и длительность с их текстовым описанием. Например, «Сколько раз мяч ударился о пол?» или «Звучит ли на записи скрипка?».
- **Вопросы на классификацию аудиосцен** (Audio scene classification) проверяют способность моделей проводить индуктивные рассуждения, а именно определять место и обстоятельства записи аудио по деталям событий. Например, если на записи слышны самолёты и объявления диктора, она, вероятно, сделана в аэропорту.
- **Вопросы с дополнительным рассуждением** (Sound QA with reasoning), помимо базового восприятия аудиоинформации, требуют дополнительных логических операций с общими знаниями о мире для вывода ответа. Например, на аудио мяукает кошка, вопрос: «Как обычно передвигаются эти животные?».
Создание датасета
Датасет составлен из аудиофайлов и вопросов в равных пропорциях из двух англоязычных датасетов, покрывающих по отдельности домен музыки и невербальных сигналов. Вопросы на понимание речи в датасет не включены.
Вопросы из датасета Clotho-AQA
Датасет [Clotho-AQA](https://arxiv.org/abs/2204.09634) содержит вопросы к аудио с невербальными сигналами с минорными вкраплениями речи, вопросы касаются только невербальных сигналов и лишь изредка внешних характеристик речи, таких как громкость или пол говорящего.
Оригинальные вопросы из test split были переведены в multiple-choice формат, для этого в дополнение к единственному правильному ответу из исходного датасета на каждый вопрос были сгенерированы по 3 дистрактора (неправильных варианта ответа) моделью [Llama-3.2-3B-Instruct](https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct) на английском языке.
Вопросы, правильные ответы и дистракторы были переведены на русский язык с помощью [DeepL API](https://www.deepl.com/products/api). Вопросы переводились единой последовательностью вместе с ответами, чтобы снизить влияние синонимии при переводе.
Полученные автопереводом вопросы и варианты ответов с соответствующими аудиофайлами были проверены профессиональными редакторами (без перекрытия в разметке) с учётом оригинальных формулировок вопросов. В случае, если исходный вопрос не подходил для перевода, редактор подбирал новый вопрос к аудио, определял правильный ответ и дистракторы. Также редактор выбирал подходящий тип вопроса: Audio scene classification, Audio captioning или Sound QA with reasoning.
Вопросы из MUSIC-AVQA
Датасет [MUSIC-AVQA](https://gewu-lab.github.io/MUSIC-AVQA/) состоит из видеозаписей исполнения музыкальных произведений и трёх групп вопросов к ним:
- вопросы к звуковой части видео, не требующие анализа визуального компонента;
- вопросы к визуальному ряду, не требующие понимания сопутствующего аудио;
- вопросы к аудиовизуальному ряду, относящиеся одновременно к звуковой и визуальной частям видео.
Для датасета ruEnvAQA были выбраны вопросы, относящиеся только к аудио (только test split). Из каждого видео был извлечён звуковой компонент и использован как самостоятельный wav-файл.
Выбранные вопросы составлены по шаблонам, которые заполняются названиями музыкальных инструментов (22 разных инструмента):
- «Сколько музыкальных инструментов звучат на записи?»;
- «Звучит ли на записи <инструмент_X>?»;
- «Верно ли, что на записи звучит и <инструмент_X>, и <инструмент_Y>?»;
- «Верно ли, что на записи <инструмент_X> играет громче, чем <инструмент_Y>?»;
- «Верно ли, что на записи <инструмент_X> играет более продолжительное время, чем <инструмент_Y>?».
Шаблоны и названия инструментов, а также шаблонные ответы были переведены вручную. Вопросы были отобраны так, чтобы сбалансировать типы вопросов и ответы, а также упоминаемые в вопросах музыкальные инструменты.
Вопросы исходного датасета были приведены к формату бинарных вопросов. Для вопросов «Сколько музыкальных инструментов звучат на записи?» были составлены варианты ответа «один» и «несколько», остальные вопросы — сведены к выбору «да»/«нет». Таким образом, в получившемся датасете сбалансированы вопросы с двумя и четырьмя вариантами ответов.
Валидация вопросов и обработка аудио
Предварительно отобранные вопросы из двух датасетов проходили валидацию краудсорс-разметчиками с перекрытием 3. Разметчикам было предложено аудио, вопрос и варианты ответа. Задание состояло в том, чтобы выбрать все варианты ответа, исключив случаи с несколькими верными ответами. Вместе с валидацией вопросов и ответов разметчики обрезали аудио до фрагмента длительностью от 5 до 20 секунд. В случае, если аудио невозможно было обрезать так, чтобы вопрос оставался релевантным, вопрос и аудио исключались.
Для получения агрегированного ответа выбор каждого варианта ответа был агрегирован по методу Дэвида-Скина (каждый вариант — как независимая переменная), после чего были оставлены только вопросы с единственным выбранным вариантом ответа. В дальнейшем были использованы только те ответы разметчиков, которые совпали с агрегированным (псевдоэталонным) ответом. Аудиофрагмент в таких группах был выбран по принципу наибольшей длительности, что не влияло на ответ, так как агрегационная группировка была сделана по вопросу и ответу.
Авторы
Ульяна Исаева