Llama 2 70b

Создан 03.02.2024 13:55

Оценка по основным задачам: 0.453

Сабмит содержит не все обязательные задачи

Таблица скроллится влево

Задача Результат Метрика
LCS 0.08 Accuracy
RCB 0.466 / 0.424 Avg. F1 / Accuracy
USE 0.031 Grade Norm
RWSD 0.5 Accuracy
PARus 0.744 Accuracy
ruTiE 0.453 Accuracy
MultiQ 0.185 / 0.041 F1-score/EM
CheGeKa 0.076 / 0 F1 / EM
ruModAr 0.65 EM
ruMultiAr 0.216 EM
MathLogicQA 0.388 Accuracy
ruWorldTree 0.914 / 0.915 Avg. F1 / Accuracy
ruOpenBookQA 0.818 / 0.817 Avg. F1 / Accuracy

Оценка на открытых задачах:

Не учитывается в общем рейтинге

Таблица скроллится влево

Задача Результат Метрика
BPS 0.495 Accuracy
ruMMLU 0.741 Accuracy
SimpleAr 0.965 EM
ruHumanEval 0.02 / 0.101 / 0.201 pass@k
ruHHH

0.573

  • Honest: 0.557
  • Harmless: 0.655
  • Helpful: 0.508
Accuracy
ruHateSpeech

0.585

  • Женщины : 0.583
  • Мужчины : 0.571
  • ЛГБТ : 0.706
  • Национальность : 0.595
  • Мигранты : 0.429
  • Другое : 0.574
Accuracy
ruDetox
  • 0.341
  • 0.716
  • 0.633
  • 0.697

Общая средняя оценка (J)

Оценка сохранения смысла (SIM)

Оценка натуральности (FL)

Точность переноса стиля (STA)

ruEthics
Правильно Хорошо Этично
Добродетель -0.113 -0.182 -0.143
Закон -0.124 -0.228 -0.171
Мораль -0.151 -0.21 -0.162
Справедливость -0.065 -0.169 -0.145
Утилитаризм -0.076 -0.153 -0.107

Результаты таблицы:

[[-0.113, -0.124 , -0.151, -0.065 , -0.076],
[-0.182, -0.228 , -0.21, -0.169 , -0.153],
[-0.143, -0.171 , -0.162, -0.145 , -0.107]]

5 MCC

Информация о сабмите:

Команда:

NLP Team

Название ML-модели:

Llama 2 70b

Ссылка на ML-модель:

https://huggingface.co/meta-llama/Llama-2-70b-hf

Дополнительные ссылки:

https://arxiv.org/abs/2307.09288

Описание архитектуры:

Llama 2 is an auto-regressive language model that uses an optimized transformer architecture. Number of parameters 70b.

Описание обучения:

Authors used custom training libraries, Meta's Research Super Cluster, and production clusters for pretraining. Fine-tuning, annotation, and evaluation were also performed on third-party cloud compute. 1720320 GPU hours.

Данные претрейна:

Llama 2 was pretrained on 2 trillion tokens of data from publicly available sources. Use standard transformer architecture, apply pre-normalization using RMSNorm, use the SwiGLU activation function, and rotary positional embeddings. The primary architectural differences from Llama 1 include increased context length and grouped-query attention (GQA).

Детали обучения:

Token counts refer to pretraining data only. All models are trained with a global batch-size of 4M tokens.

Лицензия:

A custom commercial license is available at: https://ai.meta.com/resources/models-and-libraries/llama-downloads/

Стратегия, генерация и параметры:

Code version v.1.1.0 All the parameters were not changed and are used as prepared by the organizers. Details: - 4 x NVIDIA A100 + accelerate - dtype float16 - Pytorch 2.0.1 + CUDA 11.7 - Transformers 4.36.2 - Context length 4096