Дата: 14.09 / Начало: 00:00 – Конец: 00:00

Независимые бенчмарки для русского языка

Доклад посвящён обзору новых бенчмарков для русского языка. Вы узнаете о новом динамическом бенчмарке DRAGON для оценки систем RAG в условиях меняющегося новостного контекста. Обсудим, как можно надёжно измерить открытую генерацию с помощью бенчмарка POLLUX — нового экспертного теста из семейства LM-as-Judges.

Также вы узнаете о крупных обновлениях в стандарте оценки современных языковых моделей — MERA, который помогает объективно сравнивать модели теперь не только по общим критериям, но и в коде, а также в отраслевых кейсах использования.

Спикер

Sber
Алёна Феногенова
TeamLead команды AGI NLP

Другие доклады по теме «ML/DS»

Независимые бенчмарки для русского языка

Спикер

Алёна Феногенова

Другие доклады по теме «ML/DS»