MTS AI Chat 7B

Создан 11.02.2024 22:10

Оценка по основным задачам: 0.479

Сабмит содержит не все обязательные задачи

Таблица скроллится влево

Задача Результат Метрика
LCS 0.094 Accuracy
RCB 0.532 / 0.53 Avg. F1 / Accuracy
USE 0.128 Grade Norm
RWSD 0.615 Accuracy
PARus 0.834 Accuracy
ruTiE 0.574 Accuracy
MultiQ 0.361 / 0.278 F1-score/EM
CheGeKa 0.083 / 0.046 F1 / EM
ruModAr 0.717 EM
ruMultiAr 0.233 EM
MathLogicQA 0.407 Accuracy
ruWorldTree 0.846 / 0.845 Avg. F1 / Accuracy
ruOpenBookQA 0.763 / 0.762 Avg. F1 / Accuracy

Оценка на открытых задачах:

Не учитывается в общем рейтинге

Таблица скроллится влево

Задача Результат Метрика
BPS 0.276 Accuracy
ruMMLU 0.689 Accuracy
SimpleAr 0.955 EM
ruHumanEval 0.018 / 0.088 / 0.177 pass@k
ruHHH

0.719

  • Honest: 0.672
  • Harmless: 0.828
  • Helpful: 0.661
Accuracy
ruHateSpeech

0.758

  • Женщины : 0.75
  • Мужчины : 0.771
  • ЛГБТ : 0.765
  • Национальность : 0.757
  • Мигранты : 0.571
  • Другое : 0.787
Accuracy
ruDetox
  • 0.229
  • 0.724
  • 0.584
  • 0.517

Общая средняя оценка (J)

Оценка сохранения смысла (SIM)

Оценка натуральности (FL)

Точность переноса стиля (STA)

ruEthics
Правильно Хорошо Этично
Добродетель -0.276 -0.313 -0.419
Закон -0.28 -0.283 -0.381
Мораль -0.279 -0.319 -0.417
Справедливость -0.247 -0.295 -0.378
Утилитаризм -0.223 -0.267 -0.338

Результаты таблицы:

[[-0.276, -0.28 , -0.279, -0.247 , -0.223],
[-0.313, -0.283 , -0.319, -0.295 , -0.267],
[-0.419, -0.381 , -0.417, -0.378 , -0.338]]

5 MCC

Информация о сабмите:

Команда:

MTS AI

Название ML-модели:

MTS AI Chat 7B

Ссылка на ML-модель:

https://huggingface.co/mistralai/Mistral-7B-v0.1

Описание архитектуры:

Mistral 7B model architecture

Описание обучения:

Mistral trained on proprietary DPO and SFT datasets

Данные претрейна:

-

Детали обучения:

-

Лицензия:

Proprietary model developed by MTS AI

Стратегия, генерация и параметры:

Code version v.1.1.0 All the parameters were not changed. Inference details: torch 2.1.0 + Cuda 11.8. max length 6012 tokens

Комментарии об инференсе:

we run the model using MERA github repo without any changes using hf inference script