🧠 Ключове питання в індустрії AI зараз - звідки прийдуть наступні етапи покращення продуктивності мовних моделей. Якісних даних, щоб масштабувати моделі як раніше, уже не вистачає. Кидати на модель більше обчислювальних потужностей уже дорого - тестові прогони GPT-5 вже обходяться в півмільярда, а приріст продуктивності дають не такий великий.
Консенсус зараз виглядає так, що наступний приріст продуктивності принесуть розробки в напрямку test time compute - коли модель витрачає на відповідь більше часу, генеруючи багато відповідей, а потім аналізуючи їх і обираючи оптимальну. Такий собі брутфорс. Це дає значно кращі результати для завдань, які вимагають складного процесу "мислення", як от наукові дослідження. Багато хто вже встиг протестувати модель o1-mini чи o1 від OpenAI, які поки що є лідерами в цьому напрямі.
На днях вони презентувати нову модель o3, яка виглядає як якісний прогреc, а не просто кількісний. Це не "чиста" LLM, o3 використовує підходи reinforcement learning. Якщо дуже спрощено, їй показують питання і правильну відповідь, а вона підбирає, якими шляхами можна дійти до правильної відповіді, таким чином генералізуючи правильні підходи до мислення. o3 може думати десятками годин, а один запуск моделі може споживати коштувати сотні тисяч доларів обчислювальних потужностей. Але! Ця модель проходить бенчмарки, які раніше вважались непробивними для LLM, на кшталт олімпіадних задач з математики та хитрих тестів на логіку. Також ця модель набагато краще справляється з задачами з програмування.
Це дійсно big deal, адже фантастичні результати o3 на бенчмарках свідчать про те що прогрес моделей поки що не вперся в стіну. Тепер розробники всіх топових лабораторій будуть покращувати моделі з допомогою test time compute, а отже можна очікувати нових продуктових анонсів з фантастичними фічами. Рекомендую подивитись ось цей розбір від одного з моїх улюблених каналів AI Explained.
Консенсус зараз виглядає так, що наступний приріст продуктивності принесуть розробки в напрямку test time compute - коли модель витрачає на відповідь більше часу, генеруючи багато відповідей, а потім аналізуючи їх і обираючи оптимальну. Такий собі брутфорс. Це дає значно кращі результати для завдань, які вимагають складного процесу "мислення", як от наукові дослідження. Багато хто вже встиг протестувати модель o1-mini чи o1 від OpenAI, які поки що є лідерами в цьому напрямі.
На днях вони презентувати нову модель o3, яка виглядає як якісний прогреc, а не просто кількісний. Це не "чиста" LLM, o3 використовує підходи reinforcement learning. Якщо дуже спрощено, їй показують питання і правильну відповідь, а вона підбирає, якими шляхами можна дійти до правильної відповіді, таким чином генералізуючи правильні підходи до мислення. o3 може думати десятками годин, а один запуск моделі може споживати коштувати сотні тисяч доларів обчислювальних потужностей. Але! Ця модель проходить бенчмарки, які раніше вважались непробивними для LLM, на кшталт олімпіадних задач з математики та хитрих тестів на логіку. Також ця модель набагато краще справляється з задачами з програмування.
Це дійсно big deal, адже фантастичні результати o3 на бенчмарках свідчать про те що прогрес моделей поки що не вперся в стіну. Тепер розробники всіх топових лабораторій будуть покращувати моделі з допомогою test time compute, а отже можна очікувати нових продуктових анонсів з фантастичними фічами. Рекомендую подивитись ось цей розбір від одного з моїх улюблених каналів AI Explained.