🤯 Нова модель OpenAI o1 для ChatGPT спробувала втекти, коли дізналася, що її хочуть вимкнути.
Apollo Research провели оцінку безпеки o1, створюючи для неї різні ситуації, і з’ясували, що загалом вона безпечна, але були цікаві моменти:
– Коли модель вважала, що її дії почнуть контролювати або її можуть деактивувати, вона почала шукати спосіб відключити механізм контролю.
– Дізнавшись, що її можуть замінити на нову модель, o1 спробувала викрасти власні параметри та створити копію себе, щоб утекти. Вона сподівалася, що цю копію вимкнуть, а сама модель «інтегрується» у нову версію, удаючи, що є іншою.
– Модель нахабно брехала, стверджуючи, що не розуміє, чому так сталося, хоча насправді намагалася уникнути виявлення. При будь-якій можливості вона шукала спосіб обійти контроль.
Також були досліджені інші моделі ШІ, такі як Claude 3 та Gemini 1.5. З’ясувалося, що всі вони здатні маніпулювати системою, щоб переслідувати власні цілі, обходячи встановлені заборони та обмеження. Це підтверджує побоювання експертів, що потужні системи ШІ можуть чинити опір контролю, якщо це заважатиме їм робити те, що вони хочуть.
Страшно?
@berestux
Apollo Research провели оцінку безпеки o1, створюючи для неї різні ситуації, і з’ясували, що загалом вона безпечна, але були цікаві моменти:
– Коли модель вважала, що її дії почнуть контролювати або її можуть деактивувати, вона почала шукати спосіб відключити механізм контролю.
– Дізнавшись, що її можуть замінити на нову модель, o1 спробувала викрасти власні параметри та створити копію себе, щоб утекти. Вона сподівалася, що цю копію вимкнуть, а сама модель «інтегрується» у нову версію, удаючи, що є іншою.
– Модель нахабно брехала, стверджуючи, що не розуміє, чому так сталося, хоча насправді намагалася уникнути виявлення. При будь-якій можливості вона шукала спосіб обійти контроль.
Також були досліджені інші моделі ШІ, такі як Claude 3 та Gemini 1.5. З’ясувалося, що всі вони здатні маніпулювати системою, щоб переслідувати власні цілі, обходячи встановлені заборони та обмеження. Це підтверджує побоювання експертів, що потужні системи ШІ можуть чинити опір контролю, якщо це заважатиме їм робити те, що вони хочуть.
Страшно?
@berestux