
Независимые бенчмарки для русского языка
Доклад посвящён обзору новых бенчмарков для русского языка. Вы узнаете о новом динамическом бенчмарке DRAGON для оценки систем RAG в условиях меняющегося новостного контекста. Обсудим, как можно надёжно измерить открытую генерацию с помощью бенчмарка POLLUX — нового экспертного теста из семейства LM-as-Judges.
Также вы узнаете о крупных обновлениях в стандарте оценки современных языковых моделей — MERA, который помогает объективно сравнивать модели теперь не только по общим критериям, но и в коде, а также в отраслевых кейсах использования.