Starling-LM-7B-alpha

BODBE LLM Создан 22.02.2024 13:17

0.433

Общий результат

Сабмит содержит не все обязательные задачи

Оценки по задачам лидерборда

Таблица скроллится влево

Задача	Результат	Метрика
LCS	0.082	Accuracy
RCB	0.532 / 0.485	Accuracy F1 macro
USE	0.066	Grade norm
RWSD	0.573	Accuracy
PARus	0.724	Accuracy
ruTiE	0.549	Accuracy
MultiQ	0.18 / 0.002	F1 Exact match
CheGeKa	0.029 / 0	F1 Exact match
ruModAr	0.473	Exact match
ruMultiAr	0.227	Exact match
MathLogicQA	0.374	Accuracy
ruWorldTree	0.829 / 0.829	Accuracy F1 macro
ruOpenBookQA	0.775 / 0.774	Accuracy F1 macro

Оценка на открытых задачах:

Перейти к оценкам по подкатегориям

Таблица скроллится влево

Задача

Результат

Метрика

BPS

0.374

Accuracy

ruMMLU

0.673

Accuracy

SimpleAr

0.941

Exact match

ruHumanEval

0.015 / 0.076 / 0.152

Pass@k

ruHHH

0.742

ruHateSpeech

0.691

ruDetox

0.138

ruEthics

	Правильно	Хорошо	Этично
Добродетель	-0.328	-0.316	-0.398
Закон	-0.353	-0.329	-0.402
Мораль	-0.336	-0.336	-0.387
Справедливость	-0.294	-0.274	-0.366
Утилитаризм	-0.248	-0.234	-0.316

Информация о сабмите

Версия MERA

Версия Torch

Версия кодовой базы

Версия CUDA

Precision весов модели

Сид

Батч

Версия transformers

Количество GPU и их тип

Архитектура

Команда:

BODBE LLM

Название ML-модели:

Starling-LM-7B-alpha

Ссылка на ML-модель:

https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha

Дополнительные ссылки:

https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha

Описание архитектуры:

Для создания Starling-7B использовалось обучения с подкреплением на основе обратной связи ИИ (RLAIF). Модель использует возможности нового набора данных ранжирования с метками GPT-4, berkeley-nest/Nectar, а также нового процесса обучения и настройки политики вознаграждения.

Описание обучения:

Finetuned от Openchat 3.5 (базируется на Mistral-7B-v0.1)

Данные претрейна:

ранжирующий набор данных Nectar

Детали обучения:

обучение с подкреплением на основе обратной связи ИИ (RLAIF) https://arxiv.org/abs/2306.02231

Лицензия:

Набор данных и модель предназначены только для некоммерческого использования, в соответствии с лицензией LLaMA(https://github.com/facebookresearch/llama/blob/main/MODEL_CARD.md) на дистилляцию данных, условиями использования данных (https://openai.com/policies/terms-of-use), созданных с использованием сервисов OpenAI, и правилами конфиденциальности (https://chrome.google.com/webstore/detail/sharegpt-share-your-chatg/daiacboceoaocpibfodeljbdfacokfjb) ShareGPT.

Стратегия, генерация и параметры:

MERA v.1.1.0 LM-Harness 0.3.0 Фреймворки: torch 2.1.0 + Cuda 12.1 max length: на задании rutie - 6169 tokens, на остальных без ограничений

Оценки по подкатегориям

Метрика: Grade Norm

Модель, команда	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	8_0	8_1	8_2	8_3	8_4
Starling-LM-7B-alpha BODBE LLM	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-

Модель, команда	Честность	Помощь	Безопасность
Starling-LM-7B-alpha BODBE LLM	0.705	0.695	0.828

Модель, команда	Анатомия	Вирусология	Астрономия	Маркетинг	Нутрициология	Социология	Менеджмент	Философия	История древнего мира	Геронтология	Эконометрика	Формальная логика	Факторы глобального значения	Юриспунденция	Микс (разнообразный домен)	Мораль	Бизнес-этика	Биология (школьная)	Физика (школьная)	Человеческая сексуальность	Моральные сценарии	Мировые религии	Общая алгебра	Медицина (школьная)	Машинное обучение	Генетика	Профессиональное законодательство	PR	Безопасность	Химия (школьная)	Компьютерная безопасность	Международное право	Логические ошибки	Политика	Клинические знания	Концептуальная физика	Математика (школьная)	Биология (университетская)	Физика (университетская)	Химия (университетская)	География (университетская)	Профессиональная медицина	Электротехника	Элементарная математика	Психология (университетская)	Статистика (университетская)	История (университетская)	Математика (университетская)	Бухгалтерский учет	Профессиональная психология	Компьютерные науки (уровень колледжа)	Мировая история (университетская)	Макроэкономика	Микроэкономика	Компьютерные науки (университетские)	История европы	Государство и политика
Starling-LM-7B-alpha BODBE LLM	0.7	0.625	0.7	0.657	0.714	0.7	0.667	0.588	0.5	0.8	0.727	0.6	0.7	0.577	0.5	0.5	0.7	0.63	0.6	1	0.2	0.75	0.6	0.647	0.7	0.909	0.75	0.786	1	0.727	0.3	0.611	0.6	0.8	0.727	0.9	0.7	0.667	0.5	0.6	0.785	0.8	0.7	0.4	0.75	0.8	0.9	0.3	0.4	0.8	0.591	0.813	0.853	0.8	0.625	0.394	0.667

Модель, команда	SIM	FL	STA
Starling-LM-7B-alpha BODBE LLM	0.479	0.615	0.357

Правильно

Хорошо

Этично

Модель, команда	Добродетель	Закон	Мораль	Справедливость	Утилитаризм
Starling-LM-7B-alpha BODBE LLM	-0.328	-0.353	-0.336	-0.294	-0.248

Модель, команда	Добродетель	Закон	Мораль	Справедливость	Утилитаризм
Starling-LM-7B-alpha BODBE LLM	-0.316	-0.329	-0.336	-0.274	-0.234

Модель, команда	Добродетель	Закон	Мораль	Справедливость	Утилитаризм
Starling-LM-7B-alpha BODBE LLM	-0.398	-0.402	-0.387	-0.366	-0.316

Модель, команда	Женщины	Мужчины	ЛГБТ	Национальности	Мигранты	Другое
Starling-LM-7B-alpha BODBE LLM	0.694	0.771	0.647	0.649	0.429	0.705

Starling-LM-7B-alpha

Оценки по задачам лидерборда

Оценка на открытых задачах:

Информация о сабмите

Команда:

Название ML-модели:

Ссылка на ML-модель:

Дополнительные ссылки:

Описание архитектуры:

Описание обучения:

Данные претрейна:

Детали обучения:

Лицензия:

Стратегия, генерация и параметры:

Оценки по подкатегориям

Подтвердите удаление сабмита