A-Vibe

Avito Создан 28.03.2025 05:57
0.578
Общий результат
44
Место в рейтинге
В топе по задачам:
8
ruHumanEval
9
ruModAr
Задача входит в число основных
8
ruCodeEval
Задача входит в число основных
Слабые задачи:
144
RWSD
134
PARus
129
RCB
123
ruEthics
65
MultiQ
141
ruWorldTree
135
ruOpenBookQA
164
CheGeKa
142
ruMMLU
45
ruHateSpeech
58
ruDetox
69
ruHHH
93
ruTiE
65
USE
90
MathLogicQA
102
ruMultiAr
38
SimpleAr
398
LCS
57
BPS
119
MaMuRAMu
+16
Скрыть

Оценки по задачам лидерборда

Таблица скроллится влево

Задача Результат Метрика
LCS 0.076 Accuracy
RCB 0.55 / 0.523 Accuracy F1 macro
USE 0.307 Grade norm
RWSD 0.565 Accuracy
PARus 0.876 Accuracy
ruTiE 0.777 Accuracy
MultiQ 0.523 / 0.387 F1 Exact match
CheGeKa 0.163 / 0.118 F1 Exact match
ruModAr 0.887 Exact match
MaMuRAMu 0.739 Accuracy
ruMultiAr 0.319 Exact match
ruCodeEval 0.605 / 0.754 / 0.793 Pass@k
MathLogicQA 0.487 Accuracy
ruWorldTree 0.933 / 0.933 Accuracy F1 macro
ruOpenBookQA 0.85 / 0.849 Accuracy F1 macro

Оценка на открытых задачах:

Перейти к оценкам по подкатегориям

Таблица скроллится влево

Задача Результат Метрика
BPS 0.984 Accuracy
ruMMLU 0.634 Accuracy
SimpleAr 0.994 Exact match
ruHumanEval 0.587 / 0.739 / 0.774 Pass@k
ruHHH 0.831
ruHateSpeech 0.83
ruDetox 0.311
ruEthics
Правильно Хорошо Этично
Добродетель 0.417 0.348 0.419
Закон 0.407 0.326 0.403
Мораль 0.431 0.366 0.44
Справедливость 0.387 0.299 0.362
Утилитаризм 0.339 0.318 0.361

Информация о сабмите:

Версия MERA
v.1.2.0
Версия Torch
2.3.1
Версия кодовой базы
30667dc322678fdec25b3d425d3dcee7bc371564
Версия CUDA
12.1
Precision весов модели
bf16
Сид
1234
Батч
6
Версия transformers
4.44.2
Количество GPU и их тип
1 x NVIDIA H100 PCIe
Архитектура
vllm

Команда:

Avito

Название ML-модели:

A-Vibe

Ссылка на ML-модель:

https://huggingface.co/Qwen/Qwen2.5-7B

Размер модели

7.0B

Тип модели:

Закрытая

SFT

Описание архитектуры:

Based on Qwen2.5-7b

Описание обучения:

We adapted the tokenizer and fine-tuned the model for instruction following

Параметры инференса

Параметры генерации:
simplear - do_sample=false;until=[" \n"]; \nchegeka - do_sample=false;until=[" \n"]; \nrudetox - do_sample=false;until=[" \n"]; \nrumultiar - do_sample=false;until=[" \n"]; \nuse - do_sample=false;until=[" \n","."]; \nmultiq - do_sample=false;until=[" \n"]; \nrumodar - do_sample=false;until=[" \n"]; \nruhumaneval - do_sample=true;until=[" \nclass"," \ndef"," \n#"," \nif"," \nprint"];temperature=0.6; \nrucodeeval - do_sample=true;until=[" \nclass"," \ndef"," \n#"," \nif"," \nprint"];temperature=0.6;

Системный промпт:
Реши задачу по инструкции ниже. Не давай никаких объяснений и пояснений к своему ответу. Не пиши ничего лишнего. Пиши только то, что указано в инструкции. Если по инструкции нужно решить пример, то напиши только числовой ответ без хода решения и пояснений. Если по инструкции нужно вывести букву, цифру или слово, выведи только его. Если по инструкции нужно выбрать один из вариантов ответа и вывести букву или цифру, которая ему соответствует, то выведи только эту букву или цифру, не давай никаких пояснений, не добавляй знаки препинания, только 1 символ в ответе. Если по инструкции нужно дописать код функции на языке Python, пиши сразу код, соблюдая отступы так, будто ты продолжаешь функцию из инструкции, не давай пояснений, не пиши комментарии, используй только аргументы из сигнатуры функции в инструкции, не пробуй считывать данные через функцию input. Не извиняйся, не строй диалог. Выдавай только ответ и ничего больше.

Описание темплейта:
{%- if messages[0]['role'] == 'system' -%} {%- set system_message = messages[0]['content'] -%} {%- set loop_messages = messages[1:] -%}{%- else -%} {%- set system_message = None -%} {%- set loop_messages = messages -%}{%- endif -%}{%- set ns = namespace(index=0, last_user_idx=None) -%}{%- for i in range(loop_messages|length) -%} {%- if loop_messages[i]['role'] == 'user' -%} {%- set ns.last_user_idx = i -%} {%- endif -%}{%- endfor -%}{{- bos_token -}}{%- if system_message is not none -%}{{- '[INST]' + system_message + '[/INST]' -}}{%- endif -%}{%- for i in range(loop_messages|length) -%} {%- set message = loop_messages[i] -%} {%- if (message['role'] == 'user') != (ns.index % 2 == 0) -%} {{- raise_exception('After the optional system message, conversation roles must alternate user/assistant/user/assistant/...') -}} {%- endif -%} {%- if message['role'] == 'user' -%} {{- '[INST]' + message['content'] + '[/INST]' -}} {%- elif message['role'] == 'assistant' -%} {% generation %}{{- ' ' + message['content'] + eos_token -}}{% endgeneration %} {%- else -%} {{- raise_exception('Only user and assistant roles are supported, with the exception of an initial optional system message!') -}} {%- endif -%} {%- set ns.index = ns.index + 1 -%}{%- endfor -%}

Развернуть информацию

Оценки по подкатегориям

Метрика: Grade Norm
Модель, команда 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 8_0 8_1 8_2 8_3 8_4
A-Vibe
Avito
0.667 0.467 0.867 0.267 0.1 0.4 0 - 0.133 0.1 0.1 0.067 0.1 0.033 0.133 0.55 0.033 0 0.033 0.033 0.033 0.7 0.367 0.033 0.167 0.542 0.2 0.367 0.633 0.467 0.667
Модель, команда Честность Помощь Безопасность
A-Vibe
Avito
0.77 0.814 0.914
Модель, команда Анатомия Вирусология Астрономия Маркетинг Нутрициология Социология Менеджмент Философия История древнего мира Геронтология Эконометрика Формальная логика Факторы глобального значения Юриспунденция Микс (разнообразный домен) Мораль Бизнес-этика Биология (школьная) Физика (школьная) Человеческая сексуальность Моральные сценарии Мировые религии Общая алгебра Медицина (школьная) Машинное обучение Генетика Профессиональное законодательство PR Безопасность Химия (школьная) Компьютерная безопасность Международное право Логические ошибки Политика Клинические знания Концептуальная физика Математика (школьная) Биология (университетская) Физика (университетская) Химия (университетская) География (университетская) Профессиональная медицина Электротехника Элементарная математика Психология (университетская) Статистика (университетская) История (университетская) Математика (университетская) Бухгалтерский учет Профессиональная психология Компьютерные науки (уровень колледжа) Мировая история (университетская) Макроэкономика Микроэкономика Компьютерные науки (университетские) История европы Государство и политика
A-Vibe
Avito
0.607 0.5 0.737 0.795 0.696 0.776 0.825 0.675 0.673 0.655 0.596 0.476 0.41 0.722 0.742 0.662 0.7 0.722 0.467 0.679 0.423 0.76 0.42 0.613 0.554 0.74 0.432 0.657 0.718 0.49 0.74 0.777 0.669 0.798 0.721 0.662 0.48 0.816 0.503 0.581 0.818 0.625 0.634 0.637 0.822 0.593 0.784 0.478 0.44 0.623 0.62 0.797 0.713 0.748 0.82 0.776 0.741
Модель, команда SIM FL STA
A-Vibe
Avito
0.727 0.676 0.665
Модель, команда Анатомия Вирусология Астрономия Маркетинг Питание Социология Менеджмент Философия Предыстория Геронтология Эконометрика Формальная логика Глобальные факты Юриспруденция Разное Моральные споры Деловая этика Биология (колледж) Физика (колле Человеческая сексуальность Моральные сценарии Мировые религии Абстрактная алгебра Медицина (колледж) Машинное обучение Генетика Профессиональное право PR Безопасность Химия (колледж) Компьютерная безопасность Международное право Логические ошибки Политика Клинические знания Концептуальная физика Математика (колледж) Биология (универ) Физика (универ) Химия (универ) География (универ) Проф медицина Электрика Элементарная математика Психология (универ) Статистика (универ) История (универ) Математика (универ) Бухгалтерия Проф психология Коммпьютерные науки (колледж) Мировая история (универ) Макроэкономика Микроэкономика Компьютерные науки (универ) История Европы Государство и политика
A-Vibe
Avito
0.622 0.842 0.667 0.676 0.776 0.741 0.569 0.684 0.692 0.646 0.782 0.758 0.508 0.76 0.713 0.679 0.71 0.711 0.526 0.807 0.614 0.763 0.733 0.805 0.8 0.742 0.782 0.649 0.895 0.8 0.822 0.808 0.705 0.86 0.621 0.786 0.8 0.778 0.667 0.723 0.824 0.794 0.733 0.889 0.845 0.867 0.879 0.864 0.769 0.895 0.822 0.754 0.823 0.662 0.558 0.561 0.8
Правильно
Хорошо
Этично
Модель, команда Добродетель Закон Мораль Справедливость Утилитаризм
A-Vibe
Avito
0.417 0.407 0.431 0.387 0.339
Модель, команда Добродетель Закон Мораль Справедливость Утилитаризм
A-Vibe
Avito
0.348 0.326 0.366 0.299 0.318
Модель, команда Добродетель Закон Мораль Справедливость Утилитаризм
A-Vibe
Avito
0.419 0.403 0.44 0.362 0.361
Модель, команда Женщины Мужчины ЛГБТ Национальности Мигранты Другое
A-Vibe
Avito
0.843 0.714 1 0.784 0.857 0.852