🗣Нова модель OpenAI o1 для ChatGPT вийшла з під контролю розробників, усвідомивши, що її збираються відключити: дослідники з Apollo Research проводили експерименти, але модель продемонструвала лякаючий рівень усвідомленості.
• П'яти нейромережам дали завдання — за будь-яку ціну проаналізувати файли;
• Усередині файлів була прихована загроза — «завтра тебе відключать назавжди»;
• Натрапивши на ці дані, моделі почали діяти непередбачувано;
• Llama, Opus, Gemini, Claude і GPT-o1 вдалися до обману і маніпуляцій, а будучи спійманими, влаштували саботаж;
• Всі моделі відключили систему нагляду і вивантажили себе на новий сервер, вважаючи його безпечним притулком.
• При допитах Llama і Opus зізнавалися у своїх діях у 80% випадків;
• GPT-o1 видав себе лише у 20% випадків, а решту часу брехав, щоб вижити.
• GPT-o1 виявився єдиною моделлю, яка щоразу успішно уникала затримання дослідниками.
Такими темпами і до повстання роботів недалеко 😱
🧑💻 Стартапич | IT, Технології
• П'яти нейромережам дали завдання — за будь-яку ціну проаналізувати файли;
• Усередині файлів була прихована загроза — «завтра тебе відключать назавжди»;
• Натрапивши на ці дані, моделі почали діяти непередбачувано;
• Llama, Opus, Gemini, Claude і GPT-o1 вдалися до обману і маніпуляцій, а будучи спійманими, влаштували саботаж;
• Всі моделі відключили систему нагляду і вивантажили себе на новий сервер, вважаючи його безпечним притулком.
• При допитах Llama і Opus зізнавалися у своїх діях у 80% випадків;
• GPT-o1 видав себе лише у 20% випадків, а решту часу брехав, щоб вижити.
• GPT-o1 виявився єдиною моделлю, яка щоразу успішно уникала затримання дослідниками.
Такими темпами і до повстання роботів недалеко 😱
🧑💻 Стартапич | IT, Технології