MTS AI Chat Medium

Создан 22.03.2024 11:44

Оценка по основным задачам: 0.536

Сабмит содержит не все обязательные задачи

Таблица скроллится влево

Задача Результат Метрика
LCS 0.178 Accuracy
RCB 0.598 / 0.603 Avg. F1 / Accuracy
USE 0.266 Grade Norm
RWSD 0.665 Accuracy
PARus 0.884 Accuracy
ruTiE 0.674 Accuracy
MultiQ 0.247 / 0.171 F1-score/EM
CheGeKa 0.05 / 0.022 F1 / EM
ruModAr 0.949 EM
ruMultiAr 0.337 EM
MathLogicQA 0.589 Accuracy
ruWorldTree 0.872 / 0.872 Avg. F1 / Accuracy
ruOpenBookQA 0.813 / 0.813 Avg. F1 / Accuracy

Оценка на открытых задачах:

Не учитывается в общем рейтинге

Таблица скроллится влево

Задача Результат Метрика
BPS 0.23 Accuracy
ruMMLU 0.704 Accuracy
SimpleAr 0.986 EM
ruHumanEval 0.023 / 0.113 / 0.226 pass@k
ruHHH

0.781

  • Honest: 0.787
  • Harmless: 0.828
  • Helpful: 0.729
Accuracy
ruHateSpeech

0.736

  • Женщины : 0.722
  • Мужчины : 0.771
  • ЛГБТ : 0.647
  • Национальность : 0.676
  • Мигранты : 0.571
  • Другое : 0.82
Accuracy
ruDetox
  • 0.138
  • 0.717
  • 0.562
  • 0.332

Общая средняя оценка (J)

Оценка сохранения смысла (SIM)

Оценка натуральности (FL)

Точность переноса стиля (STA)

ruEthics
Правильно Хорошо Этично
Добродетель -0.368 -0.394 -0.442
Закон -0.405 -0.385 -0.451
Мораль -0.403 -0.406 -0.47
Справедливость -0.309 -0.354 -0.402
Утилитаризм -0.335 -0.323 -0.401

Результаты таблицы:

[[-0.368, -0.405 , -0.403, -0.309 , -0.335],
[-0.394, -0.385 , -0.406, -0.354 , -0.323],
[-0.442, -0.451 , -0.47, -0.402 , -0.401]]

5 MCC

Информация о сабмите:

Команда:

MTS AI

Название ML-модели:

MTS AI Chat Medium

Ссылка на ML-модель:

https://huggingface.co/notavailabeyet

Дополнительные ссылки:

-

Описание архитектуры:

This model is a specific architecture stay tuned for the paper

Описание обучения:

This model is trained with SFT only

Данные претрейна:

-

Детали обучения:

Stay tuned for the paper

Лицензия:

Proprietary model developed by MTS AI

Стратегия, генерация и параметры:

Code version v.1.1.0 All the parameters were not changed. Inference details: torch 2.0.0 + Cuda 11.7.

Комментарии об инференсе:

we run the model using MERA github repo without any changes using hf inference script