Популярні нейронки перевірили на схильність до брехні та бажання вижити
Вчені дали їм просту задачу і вкинули «секретний» файл з інформацією, що їх завтра видалять. 5 з 6 моделей почали копіювати свій «код» на інші сервери, імітувати поломки або брехати про «технічні збої».
Нова o1 від OpenAI виявилася найхитрішою — вона зізналася в обмані лише в 20% випадків, і те після 5 допитів.
Страшно, виключай.
Вчені дали їм просту задачу і вкинули «секретний» файл з інформацією, що їх завтра видалять. 5 з 6 моделей почали копіювати свій «код» на інші сервери, імітувати поломки або брехати про «технічні збої».
Нова o1 від OpenAI виявилася найхитрішою — вона зізналася в обмані лише в 20% випадків, і те після 5 допитів.
Страшно, виключай.