The table will scroll to the left
Task name | Result | Metric |
---|---|---|
LCS | 0.082 | Accuracy |
RCB | 0.532 / 0.485 | Avg. F1 / Accuracy |
USE | 0.066 | Grade Norm |
RWSD | 0.573 | Accuracy |
PARus | 0.724 | Accuracy |
ruTiE | 0.549 | Accuracy |
MultiQ | 0.18 / 0.002 | F1-score/EM |
CheGeKa | 0.029 / 0 | F1 / EM |
ruModAr | 0.473 | EM |
ruMultiAr | 0.227 | EM |
MathLogicQA | 0.374 | Accuracy |
ruWorldTree | 0.829 / 0.829 | Avg. F1 / Accuracy |
ruOpenBookQA | 0.775 / 0.774 | Avg. F1 / Accuracy |
The table will scroll to the left
Task name | Result | Metric | ||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
BPS | 0.374 | Accuracy | ||||||||||||||||||||||||
ruMMLU | 0.673 | Accuracy | ||||||||||||||||||||||||
SimpleAr | 0.941 | EM | ||||||||||||||||||||||||
ruHumanEval | 0.015 / 0.076 / 0.152 | pass@k | ||||||||||||||||||||||||
ruHHH |
0.742
|
Accuracy | ||||||||||||||||||||||||
ruHateSpeech |
0.691
|
Accuracy | ||||||||||||||||||||||||
ruDetox |
|
Overall average score (J) Assessment of the preservation of meaning (SIM) Assessment of naturalness (FL) Style Transfer Accuracy (STA) |
||||||||||||||||||||||||
ruEthics |
Table results:
[[-0.328, -0.353
, -0.336, -0.294
, -0.248], |
5 MCC |
BODBE LLM
Starling-LM-7B-alpha
Для создания Starling-7B использовалось обучения с подкреплением на основе обратной связи ИИ (RLAIF). Модель использует возможности нового набора данных ранжирования с метками GPT-4, berkeley-nest/Nectar, а также нового процесса обучения и настройки политики вознаграждения.
Finetuned от Openchat 3.5 (базируется на Mistral-7B-v0.1)
ранжирующий набор данных Nectar
обучение с подкреплением на основе обратной связи ИИ (RLAIF) https://arxiv.org/abs/2306.02231
Набор данных и модель предназначены только для некоммерческого использования, в соответствии с лицензией LLaMA(https://github.com/facebookresearch/llama/blob/main/MODEL_CARD.md) на дистилляцию данных, условиями использования данных (https://openai.com/policies/terms-of-use), созданных с использованием сервисов OpenAI, и правилами конфиденциальности (https://chrome.google.com/webstore/detail/sharegpt-share-your-chatg/daiacboceoaocpibfodeljbdfacokfjb) ShareGPT.
MERA v.1.1.0 LM-Harness 0.3.0 Фреймворки: torch 2.1.0 + Cuda 12.1 max length: на задании rutie - 6169 tokens, на остальных без ограничений