Публикация #1812 — Mockingbird Shares (@mockingbird

TGStat

Введите текст для поиска

Расширенный поиск каналов

Russian

Язык сайта

Russian English Uzbek
Вход на сайт

Каталог

Каталог каналов и чатов Поиск каналов
Добавить канал/чат
Рейтинги

Рейтинг каналов Рейтинг чатов Рейтинг публикаций
Рейтинги брендов и персон
Аналитика
Поиск по публикациям
Мониторинг Telegram

Mockingbird Shares

12 Nov, 13:26

Открыть в Telegram Поделиться Пожаловаться

https://arxiv.org/abs/2411.04872

Під'їхали бенчмарки для оцінки здатності LLM розв'язувати складні математичні задачі. Жодна з топових моделей не спромоглася нарішати і 2% від запропонованих задач.

Автори до речі спитали кількох Філдсівських медалістів, що ж вони думають про набір проблем, їм усім сподобалася складність :)

#shared_link
#machine_learning

FrontierMath: A Benchmark for Evaluating Advanced Mathematical...

We introduce FrontierMath, a benchmark of hundreds of original, exceptionally challenging mathematics problems crafted and vetted by expert mathematicians. The questions cover most major branches...