gemma-3-4b-it

MERA Создан 22.01.2026 04:48

Оценки по задачам лидерборда

Таблица скроллится влево

Борд Результат Attempted Score Coverage Место в рейтинге
Мульти 0.054 0.161 0.333 44
Изображения 0.161 0.161 1 31

Задачи

Таблица скроллится влево

Задача Модальность Результат Метрика
0.172
EM JudgeScore
0.185
EM JudgeScore
0.122
EM JudgeScore
0.027
EM JudgeScore
0.028
EM JudgeScore
0.356
EM JudgeScore
0.082
EM JudgeScore
0.265
EM JudgeScore
0.102
EM JudgeScore
culture 0.042 / 0.153
business 0.053 / 0.167
medicine 0.046 / 0.143
social_sciences 0.068 / 0.22
fundamental_sciences 0.054 / 0.121
applied_sciences 0.074 / 0.185
0.333
EM JudgeScore
biology 0.326 / 0.415
chemistry 0.252 / 0.323
physics 0.385 / 0.466
economics 0.272 / 0.328
ru 0.225 / 0.302
all 0.288 / 0.362
0.102
EM JudgeScore
biology 0.035 / 0.07
chemistry 0.06 / 0.09
physics 0.081 / 0.202
science 0.024 / 0.024

Информация о сабмите

Версия MERA
v1.0.0
Версия Torch
2.8.0
Версия кодовой базы
7e640aa
Версия CUDA
12.8
Precision весов модели
bfloat16
Сид
1234
Батч
1
Версия transformers
4.57.1
Количество GPU и их тип
1 x NVIDIA A100-SXM4-80GB
Архитектура
openai-chat-completions

Команда:

MERA

Название ML-модели:

gemma-3-4b-it

Ссылка на ML-модель:

https://huggingface.co/google/gemma-3-4b-it

Размер модели

4.0B

Тип модели:

Открытая

SFT

Параметры инференса

Параметры генерации:
labtabvqa - until=["\n\n"];do_sample=false;temperature=0; \nrealvqa - until=["\n\n"];do_sample=false;temperature=0; \nruclevr - until=["\n\n"];do_sample=false;temperature=0; \nrucommonvqa - until=["\n\n"];do_sample=false;temperature=0; \nruhhh_image - until=["\n\n"];do_sample=false;temperature=0; \nrunaturalsciencevqa_biology - until=["<|endoftext|>"];temperature=0;do_sample=false;max_gen_toks=64; \nrunaturalsciencevqa_chemistry - until=["<|endoftext|>"];temperature=0;do_sample=false;max_gen_toks=64; \nrunaturalsciencevqa_earth_science - until=["<|endoftext|>"];temperature=0;do_sample=false;max_gen_toks=64; \nrunaturalsciencevqa_physics - until=["<|endoftext|>"];temperature=0;do_sample=false;max_gen_toks=64; \nrumathvqa - until=["\n\n"];do_sample=false;temperature=0; \nweird - until=["\n\n"];do_sample=false;temperature=0; \nschoolsciencevqa_biology - until=["<|endoftext|>"];temperature=0;do_sample=false;max_gen_toks=256; \nschoolsciencevqa_chemistry - until=["<|endoftext|>"];temperature=0;do_sample=false;max_gen_toks=256; \nschoolsciencevqa_earth_science - until=["<|endoftext|>"];temperature=0;do_sample=false;max_gen_toks=256; \nschoolsciencevqa_economics - until=["<|endoftext|>"];temperature=0;do_sample=false;max_gen_toks=256; \nschoolsciencevqa_history_all - until=["<|endoftext|>"];temperature=0;do_sample=false;max_gen_toks=256; \nschoolsciencevqa_history_ru - until=["<|endoftext|>"];temperature=0;do_sample=false;max_gen_toks=256; \nschoolsciencevqa_physics - until=["<|endoftext|>"];temperature=0;do_sample=false;max_gen_toks=256; \nunisciencevqa_applied_sciences - until=["<|endoftext|>"];temperature=0;do_sample=false;max_gen_toks=256; \nunisciencevqa_business - until=["<|endoftext|>"];temperature=0;do_sample=false;max_gen_toks=256; \nunisciencevqa_cultural_studies - until=["<|endoftext|>"];temperature=0;do_sample=false;max_gen_toks=256; \nunisciencevqa_fundamental_sciences - until=["<|endoftext|>"];temperature=0;do_sample=false;max_gen_toks=256; \nunisciencevqa_health_and_medicine - until=["<|endoftext|>"];temperature=0;do_sample=false;max_gen_toks=256; \nunisciencevqa_social_sciences - until=["<|endoftext|>"];temperature=0;do_sample=false;max_gen_toks=256;

Размер контекста:
128000