https://arxiv.org/abs/2411.04872
Під'їхали бенчмарки для оцінки здатності LLM розв'язувати складні математичні задачі. Жодна з топових моделей не спромоглася нарішати і 2% від запропонованих задач.
Автори до речі спитали кількох Філдсівських медалістів, що ж вони думають про набір проблем, їм усім сподобалася складність :)
#shared_link
#machine_learning
Під'їхали бенчмарки для оцінки здатності LLM розв'язувати складні математичні задачі. Жодна з топових моделей не спромоглася нарішати і 2% від запропонованих задач.
Автори до речі спитали кількох Філдсівських медалістів, що ж вони думають про набір проблем, їм усім сподобалася складність :)
#shared_link
#machine_learning