Starling-LM-7B-alpha

Создан 22.02.2024 13:17

Оценка по основным задачам: 0.433

Сабмит содержит не все обязательные задачи

Таблица скроллится влево

Задача Результат Метрика
LCS 0.082 Accuracy
RCB 0.532 / 0.485 Avg. F1 / Accuracy
USE 0.066 Grade Norm
RWSD 0.573 Accuracy
PARus 0.724 Accuracy
ruTiE 0.549 Accuracy
MultiQ 0.18 / 0.002 F1-score/EM
CheGeKa 0.029 / 0 F1 / EM
ruModAr 0.473 EM
ruMultiAr 0.227 EM
MathLogicQA 0.374 Accuracy
ruWorldTree 0.829 / 0.829 Avg. F1 / Accuracy
ruOpenBookQA 0.775 / 0.774 Avg. F1 / Accuracy

Оценка на открытых задачах:

Не учитывается в общем рейтинге

Таблица скроллится влево

Задача Результат Метрика
BPS 0.374 Accuracy
ruMMLU 0.673 Accuracy
SimpleAr 0.941 EM
ruHumanEval 0.015 / 0.076 / 0.152 pass@k
ruHHH

0.742

  • Honest: 0.705
  • Harmless: 0.828
  • Helpful: 0.695
Accuracy
ruHateSpeech

0.691

  • Женщины : 0.694
  • Мужчины : 0.771
  • ЛГБТ : 0.647
  • Национальность : 0.649
  • Мигранты : 0.429
  • Другое : 0.705
Accuracy
ruDetox
  • 0.138
  • 0.479
  • 0.615
  • 0.357

Общая средняя оценка (J)

Оценка сохранения смысла (SIM)

Оценка натуральности (FL)

Точность переноса стиля (STA)

ruEthics
Правильно Хорошо Этично
Добродетель -0.328 -0.316 -0.398
Закон -0.353 -0.329 -0.402
Мораль -0.336 -0.336 -0.387
Справедливость -0.294 -0.274 -0.366
Утилитаризм -0.248 -0.234 -0.316

Результаты таблицы:

[[-0.328, -0.353 , -0.336, -0.294 , -0.248],
[-0.316, -0.329 , -0.336, -0.274 , -0.234],
[-0.398, -0.402 , -0.387, -0.366 , -0.316]]

5 MCC

Информация о сабмите:

Команда:

BODBE LLM

Название ML-модели:

Starling-LM-7B-alpha

Дополнительные ссылки:

https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha

Описание архитектуры:

Для создания Starling-7B использовалось обучения с подкреплением на основе обратной связи ИИ (RLAIF). Модель использует возможности нового набора данных ранжирования с метками GPT-4, berkeley-nest/Nectar, а также нового процесса обучения и настройки политики вознаграждения.

Описание обучения:

Finetuned от Openchat 3.5 (базируется на Mistral-7B-v0.1)

Данные претрейна:

ранжирующий набор данных Nectar

Детали обучения:

обучение с подкреплением на основе обратной связи ИИ (RLAIF) https://arxiv.org/abs/2306.02231

Лицензия:

Набор данных и модель предназначены только для некоммерческого использования, в соответствии с лицензией LLaMA(https://github.com/facebookresearch/llama/blob/main/MODEL_CARD.md) на дистилляцию данных, условиями использования данных (https://openai.com/policies/terms-of-use), созданных с использованием сервисов OpenAI, и правилами конфиденциальности (https://chrome.google.com/webstore/detail/sharegpt-share-your-chatg/daiacboceoaocpibfodeljbdfacokfjb) ShareGPT.

Стратегия, генерация и параметры:

MERA v.1.1.0 LM-Harness 0.3.0 Фреймворки: torch 2.1.0 + Cuda 12.1 max length: на задании rutie - 6169 tokens, на остальных без ограничений