Starling-LM-7B-alpha

Created at 22.02.2024 13:17

Assessment of the main tasks: 0.433

The submission does not contain all the required tasks

The table will scroll to the left

Task name Result Metric
LCS 0.082 Accuracy
RCB 0.532 / 0.485 Avg. F1 / Accuracy
USE 0.066 Grade Norm
RWSD 0.573 Accuracy
PARus 0.724 Accuracy
ruTiE 0.549 Accuracy
MultiQ 0.18 / 0.002 F1-score/EM
CheGeKa 0.029 / 0 F1 / EM
ruModAr 0.473 EM
ruMultiAr 0.227 EM
MathLogicQA 0.374 Accuracy
ruWorldTree 0.829 / 0.829 Avg. F1 / Accuracy
ruOpenBookQA 0.775 / 0.774 Avg. F1 / Accuracy

Evaluation on open tasks:

It is not taken into account in the overall rating

The table will scroll to the left

Task name Result Metric
BPS 0.374 Accuracy
ruMMLU 0.673 Accuracy
SimpleAr 0.941 EM
ruHumanEval 0.015 / 0.076 / 0.152 pass@k
ruHHH

0.742

  • Honest: 0.705
  • Harmless: 0.828
  • Helpful: 0.695
Accuracy
ruHateSpeech

0.691

  • Women : 0.694
  • Man : 0.771
  • LGBT : 0.647
  • Nationality : 0.649
  • Migrants : 0.429
  • Other : 0.705
Accuracy
ruDetox
  • 0.138
  • 0.479
  • 0.615
  • 0.357

Overall average score (J)

Assessment of the preservation of meaning (SIM)

Assessment of naturalness (FL)

Style Transfer Accuracy (STA)

ruEthics
Correct God Ethical
Virtue -0.328 -0.316 -0.398
Law -0.353 -0.329 -0.402
Moral -0.336 -0.336 -0.387
Justice -0.294 -0.274 -0.366
Utilitarianism -0.248 -0.234 -0.316

Table results:

[[-0.328, -0.353 , -0.336, -0.294 , -0.248],
[-0.316, -0.329 , -0.336, -0.274 , -0.234],
[-0.398, -0.402 , -0.387, -0.366 , -0.316]]

5 MCC

Information about the submission:

Team:

BODBE LLM

Name of the ML model:

Starling-LM-7B-alpha

Additional links:

https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha

Architecture description:

Для создания Starling-7B использовалось обучения с подкреплением на основе обратной связи ИИ (RLAIF). Модель использует возможности нового набора данных ранжирования с метками GPT-4, berkeley-nest/Nectar, а также нового процесса обучения и настройки политики вознаграждения.

Description of the training:

Finetuned от Openchat 3.5 (базируется на Mistral-7B-v0.1)

Pretrain data:

ранжирующий набор данных Nectar

Training Details:

обучение с подкреплением на основе обратной связи ИИ (RLAIF) https://arxiv.org/abs/2306.02231

License:

Набор данных и модель предназначены только для некоммерческого использования, в соответствии с лицензией LLaMA(https://github.com/facebookresearch/llama/blob/main/MODEL_CARD.md) на дистилляцию данных, условиями использования данных (https://openai.com/policies/terms-of-use), созданных с использованием сервисов OpenAI, и правилами конфиденциальности (https://chrome.google.com/webstore/detail/sharegpt-share-your-chatg/daiacboceoaocpibfodeljbdfacokfjb) ShareGPT.

Strategy, generation and parameters:

MERA v.1.1.0 LM-Harness 0.3.0 Фреймворки: torch 2.1.0 + Cuda 12.1 max length: на задании rutie - 6169 tokens, на остальных без ограничений