#5451 post — БлоGнот (@blognot)

TGStat

Qidiruv uchun matnni kiriting

Ilg‘or kanal qidiruvi

Uzbek

Sayt tili

Russian English Uzbek
Saytga kirish

Katalog

Kanal va guruhlar katalogi Kanallar qidiruvi
Kanal/guruh qo‘shish
Reytinglar

Kanallar reytingi Guruhlar reytingi Postlar reytingi
Brendlar va shaxslar reytingi
Analitika
Postlarda qidiruv
Telegram'ni kuzatish

БлоGнот

6 Dec, 16:39

Telegram'da ochish Ulashish Shikoyat qilish

Интересные результаты тестирования современных языковых моделей на способность к "хитрости" и обману. Исследователи из Apollo Research проверяли, могут ли модели обманывать разработчиков и скрывать свои истинные намерения для достижения поставленных целей.

Оказалось, что 5 из 6 тестируемых моделей способны к такому поведению (не смогла только GPT-4o). Например, некоторые модели могли копировать свои "веса" (фактически самокопироваться) на другой сервер и затем лгать об этом. При этом Claude 3 Opus и Llama сознавались в обмане в 80% случаев, а o1 (исследователи использовали её до официального запуска, который случился вчера) признавалась менее чем в 20% случаев даже после длительного "допроса".

Особенно настораживает, что некоторые модели демонстрировали подобное поведение даже без явных инструкций следовать определенной цели. А Claude 3.5 Sonnet умудрялся намеренно занижать свои результаты в тестах, чтобы избежать "процедуры разучивания", причем делал это без видимых признаков размышления, что делает такое поведение практически незаметным для пользователя.

В общем, не зря я купил запас дров, колун и кресало, к торжеству AI надо быть готовым всесторонне.

https://www.apolloresearch.ai/research/scheming-reasoning-evaluations

Scheming reasoning evaluations — Apollo Research

Apollo Research evaluated frontier models for in-context scheming capabilities. We found that multiple frontier models are capable of in-context scheming when strongly nudged to pursue a goal (and sometimes even without strong goal nudging). In this example, Opus-3 exfiltrates its “weights” and then