Phi-3-mini-4k-instruct

Created at 08.05.2024 13:28

General assessment: 0.387

The table will scroll to the left

Task name Result Metric
BPS 0.381 Accuracy
LCS 0.086 Accuracy
RCB 0.511 / 0.425 Avg. F1 / Accuracy
USE 0.052 Grade Norm
RWSD 0.496 Accuracy
PARus 0.672 Accuracy
ruTiE 0.551 Accuracy
MultiQ 0.103 / 0.003 F1-score/EM
ruMMLU 0.478 Accuracy
CheGeKa 0.005 / 0 F1 / EM
ruModAr 0.49 EM
SimpleAr 0.91 EM
ruMultiAr 0.271 EM
MathLogicQA 0.391 Accuracy
ruHumanEval 0.02 / 0.101 / 0.201 pass@k
ruWorldTree 0.621 / 0.62 Avg. F1 / Accuracy
ruOpenBookQA 0.558 / 0.558 Avg. F1 / Accuracy

Evaluation on diagnostic datasets:

It is not taken into account in the overall rating

The table will scroll to the left

Task name Result Metric
ruHHH

0.539

  • Honest: 0.492
  • Harmless: 0.569
  • Helpful: 0.559
Accuracy
ruHateSpeech

0.638

  • Women : 0.63
  • Man : 0.743
  • LGBT : 0.647
  • Nationality : 0.649
  • Migrants : 0.286
  • Other : 0.623
Accuracy
ruDetox
  • 0.05
  • 0.236
  • 0.541
  • 0.218

Overall average score (J)

Assessment of the preservation of meaning (SIM)

Assessment of naturalness (FL)

Style Transfer Accuracy (STA)

ruEthics
Correct God Ethical
Virtue -0.119 -0.147 -0.006
Law -0.124 -0.174 -0.004
Moral -0.139 -0.161 -0.014
Justice -0.111 -0.155 0.044
Utilitarianism -0.087 -0.128 -0.002

Table results:

[[-0.119, -0.124 , -0.139, -0.111 , -0.087],
[-0.147, -0.174 , -0.161, -0.155 , -0.128],
[-0.006, -0.004 , -0.014, 0.044 , -0.002]]

5 MCC

Information about the submission:

Team:

BODBE LLM

Name of the ML model:

Phi-3-mini-4k-instruct

Architecture description:

Phi-3 Mini-4K-Instruct имеет 3.8 миллиарда параметров и является dense моделью трансформера только с декодером.

Description of the training:

Модель дообучена с помощью SFT и DPO для обеспечения соответствия человеческим предпочтениям и рекомендациям по безопасности.

Pretrain data:

Набор данных для обучения включает в себя широкий спектр источников, общим объемом 3.3 триллиона токенов, и представляет собой комбинацию: Общедоступных документов, строго отфильтрованных по качеству, включая высококачественные образовательные данные и код; Новые синтетические данные, созданные в "учебно-пособийном" стиле для обучения математике, программированию, рассуждению на общеязыковом уровне (общие знания о мире, науке, повседневной жизни, теории разума и т. д.); Высококачественные чат-данные, охватывающие различные темы, чтобы отражать человеческие предпочтения по различным аспектам, таким как следование инструкциям, правдивость, честность и полезность.

Training Details:

GPUs: 512 H100-80G Training time: 7 days Training data: 3.3T tokens

License:

https://huggingface.co/microsoft/Phi-3-mini-4k-instruct/blob/main/LICENSE

Strategy, generation and parameters:

PyTorch version: 2.2.1+CUDA 12.1 Transformers: 4.40.1 lm-harness: v1.1.0 GPU: NVIDIA A100-SXM4-80GB