
🤖 Сучасні ШІ-моделі провалили математичний іспит
Провідні системи штучного інтелекту не впоралися із завданнями рівня дослідницької математики, розробленими спеціально для тестування їхніх можливостей міркувати. У середньому, лише 2% завдань було вирішено правильно.
👾 Математики створили набір задач FrontierMath, щоб перевірити здатність ШІ до логічного мислення. Завдання включали складні проблеми, які не зустрічалися в навчальних наборах ШІ.
▪️ Gemini 1.5 Pro (002) від Google та Claude 3.5 Sonnet від Anthropic розв’язали 2% задач.
▪️ o1-preview, o1-mini, GPT-4o від OpenAI дали 1% правильних відповідей.
▪️ Grok-2 Beta від xAI не змогла розв’язати ні одної задачі.
Провідні системи штучного інтелекту не впоралися із завданнями рівня дослідницької математики, розробленими спеціально для тестування їхніх можливостей міркувати. У середньому, лише 2% завдань було вирішено правильно.
👾 Математики створили набір задач FrontierMath, щоб перевірити здатність ШІ до логічного мислення. Завдання включали складні проблеми, які не зустрічалися в навчальних наборах ШІ.
▪️ Gemini 1.5 Pro (002) від Google та Claude 3.5 Sonnet від Anthropic розв’язали 2% задач.
▪️ o1-preview, o1-mini, GPT-4o від OpenAI дали 1% правильних відповідей.
▪️ Grok-2 Beta від xAI не змогла розв’язати ні одної задачі.