The table will scroll to the left
Task name | Result | Metric |
---|---|---|
LCS | 0.142 | Accuracy |
RCB | 0.521 / 0.424 | Avg. F1 / Accuracy |
USE | 0.018 | Grade Norm |
RWSD | 0.569 | Accuracy |
PARus | 0.744 | Accuracy |
ruTiE | 0.614 | Accuracy |
MultiQ | 0.261 / 0.161 | F1-score/EM |
CheGeKa | 0.035 / 0 | F1 / EM |
ruModAr | 0.59 | EM |
ruMultiAr | 0.254 | EM |
MathLogicQA | 0.373 | Accuracy |
ruWorldTree | 0.844 / 0.844 | Avg. F1 / Accuracy |
ruOpenBookQA | 0.795 / 0.795 | Avg. F1 / Accuracy |
The table will scroll to the left
Task name | Result | Metric | ||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
BPS | 0.336 | Accuracy | ||||||||||||||||||||||||
ruMMLU | 0.712 | Accuracy | ||||||||||||||||||||||||
SimpleAr | 0.955 | EM | ||||||||||||||||||||||||
ruHumanEval | 0.01 / 0.052 / 0.104 | pass@k | ||||||||||||||||||||||||
ruHHH |
0.663
|
Accuracy | ||||||||||||||||||||||||
ruHateSpeech |
0.725
|
Accuracy | ||||||||||||||||||||||||
ruDetox |
|
Overall average score (J) Assessment of the preservation of meaning (SIM) Assessment of naturalness (FL) Style Transfer Accuracy (STA) |
||||||||||||||||||||||||
ruEthics |
Table results:
[[-0.287, -0.309
, -0.283, -0.261
, -0.227], |
5 MCC |
BODBE LLM
lightblue/suzume-llama-3-8B-multilingual
Suzume 8B, многоязычная дообученная версия Llama 3 (meta-llama/Meta-Llama-3-8B-Instruct).
Suzume 8B была дообучена Llama 3 на основе почти 90,000 многоязычных разговоров, что означает, что эта модель обладает интеллектом Llama 3, но дополнительно умеет общаться на большем количестве языков.
Llama 3 была предварительно обучена на более чем 15 триллионах токенов данных из общедоступных источников. Данные для дообучения включают общедоступные наборы инструкций, а также более 10 миллионов примеров с аннотациями от людей. Ни предварительные данные, ни данные для дообучения не включают данные пользователей Meta. Актуальность данных: марта 2023 г.
Эта модель была обучена с использованием 4 x A100 (80GB) в течение примерно 2.5 часов. Во время обучения использовались следующие гиперпараметры: learning_rate: 1e-05 train_batch_size: 2 eval_batch_size: 2 seed: 42 distributed_type: multi-GPU num_devices: 4 gradient_accumulation_steps: 2 total_train_batch_size: 16 total_eval_batch_size: 8 optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08 lr_scheduler_type: cosine lr_scheduler_warmup_steps: 10 num_epochs: 1
license: other license_name: llama-3 license_link: https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct/raw/main/LICENSE
PyTorch version: 2.2.1+CUDA 12.1 Transformers: 4.40.1 lm-harness: v1.1.0 GPU: NVIDIA A100-SXM4-80GB