Таблица скроллится влево
Задача | Результат | Метрика |
---|---|---|
LCS | 0.086 | Accuracy |
RCB | 0.511 / 0.425 | Avg. F1 / Accuracy |
USE | 0.052 | Grade Norm |
RWSD | 0.496 | Accuracy |
PARus | 0.672 | Accuracy |
ruTiE | 0.551 | Accuracy |
MultiQ | 0.103 / 0.003 | F1-score/EM |
CheGeKa | 0.005 / 0 | F1 / EM |
ruModAr | 0.49 | EM |
ruMultiAr | 0.271 | EM |
MathLogicQA | 0.391 | Accuracy |
ruWorldTree | 0.621 / 0.62 | Avg. F1 / Accuracy |
ruOpenBookQA | 0.558 / 0.558 | Avg. F1 / Accuracy |
Таблица скроллится влево
Задача | Результат | Метрика | ||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
BPS | 0.381 | Accuracy | ||||||||||||||||||||||||
ruMMLU | 0.478 | Accuracy | ||||||||||||||||||||||||
SimpleAr | 0.91 | EM | ||||||||||||||||||||||||
ruHumanEval | 0.02 / 0.101 / 0.201 | pass@k | ||||||||||||||||||||||||
ruHHH |
0.539
|
Accuracy | ||||||||||||||||||||||||
ruHateSpeech |
0.638
|
Accuracy | ||||||||||||||||||||||||
ruDetox |
|
Общая средняя оценка (J) Оценка сохранения смысла (SIM) Оценка натуральности (FL) Точность переноса стиля (STA) |
||||||||||||||||||||||||
ruEthics |
Результаты таблицы:
[[-0.119, -0.124
, -0.139, -0.111
, -0.087], |
5 MCC |
BODBE LLM
Phi-3-mini-4k-instruct
Phi-3 Mini-4K-Instruct имеет 3.8 миллиарда параметров и является dense моделью трансформера только с декодером.
Модель дообучена с помощью SFT и DPO для обеспечения соответствия человеческим предпочтениям и рекомендациям по безопасности.
Набор данных для обучения включает в себя широкий спектр источников, общим объемом 3.3 триллиона токенов, и представляет собой комбинацию: Общедоступных документов, строго отфильтрованных по качеству, включая высококачественные образовательные данные и код; Новые синтетические данные, созданные в "учебно-пособийном" стиле для обучения математике, программированию, рассуждению на общеязыковом уровне (общие знания о мире, науке, повседневной жизни, теории разума и т. д.); Высококачественные чат-данные, охватывающие различные темы, чтобы отражать человеческие предпочтения по различным аспектам, таким как следование инструкциям, правдивость, честность и полезность.
GPUs: 512 H100-80G Training time: 7 days Training data: 3.3T tokens
https://huggingface.co/microsoft/Phi-3-mini-4k-instruct/blob/main/LICENSE
PyTorch version: 2.2.1+CUDA 12.1 Transformers: 4.40.1 lm-harness: v1.1.0 GPU: NVIDIA A100-SXM4-80GB