⚡ AGI вже тут: OpenAI офіційно презентували нову найпотужнішу модель o3!
Основні факти:
➖Публічний доступ: Наразі відсутній. o3-mini віддадуть на тестування безпековим дослідникам, простим користувачам доступ до o3-mini нададуть наприкінці січня, а до o3 трохи пізніше.
➖Продуктивність: o3 майже вдвічі потужніший за o1 в програмуванні. На математиці приріст теж значний: 13% на AIME 2024 та майже 10% на GPQA. На новому бенчмарку Frontier Math модель досягає 25% (раніше максимум був 2%).
➖ARC AGI: На цьому бенчмарку o3 набирає майже 88%, що є неймовірним досягненням.
➖Режими роздумів: Як і в o1, є режими low, medium, high. Чим довше думає, тим кращі метрики.
➖Безпека та Етичність: OpenAI стверджують, що знайшли найкращий баланс між обережністю моделі та її безпечністю і етичністю.
➖Фінансові затрати: На виконання одного завдання можуть знадобитися тисячі доларів.
Додатково:
🚀 Результати:
🗣SOTA по Frontier Math зросли з 2% до 25%.
🗣На SWE-Bench модель набрала 71,7%.
🗣ELO на Codeforces - 2727, в світі тільки 150 людей мають більше ELO.
🗣На ARC-AGI модель набрала 87,5%.
🗣Значний прогрес на GPQA і AIME.
Community | YouTube | Chat
Основні факти:
➖Публічний доступ: Наразі відсутній. o3-mini віддадуть на тестування безпековим дослідникам, простим користувачам доступ до o3-mini нададуть наприкінці січня, а до o3 трохи пізніше.
➖Продуктивність: o3 майже вдвічі потужніший за o1 в програмуванні. На математиці приріст теж значний: 13% на AIME 2024 та майже 10% на GPQA. На новому бенчмарку Frontier Math модель досягає 25% (раніше максимум був 2%).
➖ARC AGI: На цьому бенчмарку o3 набирає майже 88%, що є неймовірним досягненням.
➖Режими роздумів: Як і в o1, є режими low, medium, high. Чим довше думає, тим кращі метрики.
➖Безпека та Етичність: OpenAI стверджують, що знайшли найкращий баланс між обережністю моделі та її безпечністю і етичністю.
➖Фінансові затрати: На виконання одного завдання можуть знадобитися тисячі доларів.
Додатково:
🚀 Результати:
🗣SOTA по Frontier Math зросли з 2% до 25%.
🗣На SWE-Bench модель набрала 71,7%.
🗣ELO на Codeforces - 2727, в світі тільки 150 людей мають більше ELO.
🗣На ARC-AGI модель набрала 87,5%.
🗣Значний прогрес на GPQA і AIME.
Community | YouTube | Chat