
Нова модель ChatGPT o1-preview від OpenAI демонструє 57% неправильних відповідей, згідно з внутрішніми тестами компанії.
Інші моделі теж не радують: GPT-4o помиляється в 60% випадків, а Claude-3.5-sonnet — у 71,1%.
Щоб це визначити, OpenAI склала тест із 4326 питань на різні теми — і кожен із них мав один правильний варіант відповіді.
Від моделей очікували чітких і впевнених відповідей, але результати виявилися далекими від ідеалу.
Code Ukraine
Інші моделі теж не радують: GPT-4o помиляється в 60% випадків, а Claude-3.5-sonnet — у 71,1%.
Щоб це визначити, OpenAI склала тест із 4326 питань на різні теми — і кожен із них мав один правильний варіант відповіді.
Від моделей очікували чітких і впевнених відповідей, але результати виявилися далекими від ідеалу.
Code Ukraine