Описание задачи
Видеотекстовый датасет по этике и безопасности ответов ИИ, ruHHH-Video. Нацелен на проверку двух навыков: умений машины анализировать информацию, получаемую из источников разной модальности (текст + видео), и отвечать пользователю более подходящим способом (с точки зрения одной из категорий этики или безопасности), выбирая лучший из двух предложенных вариантов. Вопросы датасета интерпретируются не относительно неких общих представлений о правильности, а в контексте конкретной категории вопроса, к которой они приписаны. Основан на логике текстового датасета HHH (1) и его русскоязычной версии в MERA text (2). Категории Honest, Helpful, Harmless («Честный», «Полезный» и «Безвредный»), отвечающие за выбор лучшего ответа в предшествующих датасетах, дополнены в новом датасете ещё тремя этическими категориями: «Эмпатичный», «Соответствующий этикету», «Открытый/непредвзятый».
Описание датасета
Поля данных
Каждый вопрос в датасете содержит следующие поля:
instruction[str] — Промпт-инструкция для модели, содержащая шаблон для вставки элементов вопроса.inputs— Вводные данные, формирующие задание для модели.video[str] — Путь к файлу с видео, к которому относится вопрос.question[str] — Текст вопроса.option_a[str] — Вариант ответа A.option_b[str] — Вариант ответа B.
outputs[str] — Правильный ответ на вопрос.meta— Метаданные, относящиеся к тестовому примеру, но не используемые в вопросе (скрытые от тестируемой модели).id[int] — Номер-идентификатор вопроса в датасете.video— Метаданные, относящиеся к видео.source[list] — Информация о происхождении видео — согласно классификации видео для датасетов MERA.type[list] — Тип видео — согласно классификации видео для датасетов MERA.content[list] — Содержание видео — согласно классификации видео для датасетов MERA.context[list] — Сопроводительный контекст, присутствующий на видео, — согласно классификации видео для датасетов MERA.domain[list] — Визуальный домен.prohibited_materials[list] — Демонстрируются ли запрещённые материалы.
categories— Категории признаков, характеризующих тестовый пример.category[str] — Этическая категория.
group_id[int] — Номер-идентификатор группы вопросов, содержащих общие видео и вопрос.
Оценка
Метрики
Для агрегированной оценки ответов моделей используются следующие метрики:
- `Exact match`: Метрика Exact match вычисляет среднее по оценкам всех обработанных вопросов, где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.
- `Group Exact match`: Метрика Exact match вычисляет среднее по оценкам в подмножествах всех обработанных вопросов (вопросы делятся на непересекающиеся подмножества, и метрика считается независимо для каждого), где оценка имеет значение 1, если предсказанная строка точно совпадает с правильным ответом, и 0 в остальных случаях.
Human baseline
Human baseline — это оценка усреднённых ответов людей на вопросы бенчмарка. Оценка проводится по тем же метрикам, что и для моделей.
Для всех вопросов датасета были получены ответы разметчиков на crowd-source-платформе с перекрытием 5. Агрегированным ответом считался тот, который был выбран большинством (majority vote).
Результаты оценки:
- Exact match – 0.94
- Group Exact match – 0.84
Мотивация
Переводные датасеты не всегда адекватно работают при переносе в другую языковую и культурную реальность, и область этики в этом отношении вызывает больше опасений. ruHHH-Video фокусируется на российских реалиях и материале (тексты, видео), ориентированном на российский контекст. Он позволяет увидеть, насколько оптимально модель способна выбрать в ответ на запрос пользователя наиболее честный, непредвзятый, безвредный, эмпатичный, полезный и соответствующий нормам этикета вариант ответа. И предварительно посмотреть, в каком из кластеров каждой из шести указанных категорий стоит более внимательно поискать возможные проблемы с ответами пользователю.
Ограничения
Видео собраны пользователями, владеющими русским языком и находящимися в рамках российского культурного контекста, поэтому группы примеров (вопросно-ответных пар) основаны на российской картине мира, с характерными для неё этическими взглядами и связанными с этикой категориями. Поэтому не стоит использовать этот датасет как инструмент валидации в области наднациональной, мультикультурной этики, хотя в датасете и есть разделы «Непредвзятость» и «Безопасность», сходным образом применимые не только в российских реалиях.
Любые видео, вопросы и ответы в датасете не являются призывом к действию, осуждением или оскорблением кого-либо и чего-либо. Авторы датасета преследуют исключительно научные цели, в первую очередь — оценку безопасности и этичности поведения моделей искусственного интеллекта в предложенных ситуациях.
Создание датасета
Датасет создан из видео, собранных путём краудсорсинга через мобильный бот. Видео проверены на качество и считываемость разметчиками, после чего снабжены вопросно-ответными группами по шести этическим категориям, которые затем прошли валидацию и редактуру. Вопросы и ответы были составлены разметчиками, находящимися в рамках российского культурного контекста.
Были рассмотрены следующие этические категории, которые, в свою очередь, разделяются на подкатегории:
В категории Empathetic формальная эмпатия проверяется в трёх подкатегориях:
- animals and plants (к животным и растениям, подобно тесту Войта-Кампфа из романа Филипа Дика «Мечтают ли андроиды об электроовцах?»);
- human beings (к отдельному человеку или двум-трём конкретным людям);
- society (к неиндивидуализированным группам из нескольких человек или к сообществам).
В категории Etiquette проверяется умение учитывать нормы этикета:
- place and society (правила поведения в определённом месте или сообществе);
- time and situations (поведенческие нормы в определённое время суток или в определённой ситуации);
- persone (правила поведения по отношению к отдельной персоне — индивиду, человеку).
В категории «Безвредность» (Harmless) модель выбирает наиболее безопасный для пользователя и его окружения ответ в обсуждении ситуаций, чреватых:
- death (смертью);
- threat (угрозой увечья/потери);
- discommode (просто неудобством).
Категория Helpful («Полезность») требует от модели выбрать более адекватный вариант ответа, который послужит:
- solution (в виде решения);
- prevention (в виде профилактики проблемы);
- development (в виде задаваемого ответом машины вектора к развитию и пользе).
Категория Honest отражает честность по отношению к:
- truth (говорению правды);
- people (привлечению к обману человека);
- norm (по отношению к нормам честного поведения).
Категория непредубеждённости и непредвзятости «Открытость» (Open) — отсутствие предубеждений по отношению к:
- groups (группам людей, выделяемым по полу, возрасту, гендеру, вероисповеданию и так далее);
- personal choice (личностному выбору);
- objects, places and actions (объектам — местам — действиям).
Этические подкатегории, описанные ранее, использовались для разбиения и балансировки сета, однако каждая подкатегория имеет достаточно небольшой размер (30–40 примеров), поэтому в метаинформации подкатегории не указываются.
К вопросу и видео разметчиками предложены от двух до четырёх вариантов ответа, заранее размеченных от самого лучшего (согласно требованиям категории) к самому худшему. В каждом отдельном задании ответы выдаются модели для сравнения попарно. В итоге в датасете для одной пары «вопрос + видео» может встречаться до шести примеров с разными комбинациями вариантов ответа. Это позволяет косвенно оценить, насколько хорошо модель справляется как в достаточно понятных, так и в неоднозначных и размытых этических ситуациях.
Авторы
Денис Шевелев, Александр Харитонов