
Image by SEO Galaxy, from Unsplash
Noul AI Antropic a Demonstrat Comportament de Șantaj Sub Amenințare
Noul AI Claude Opus 4 al Anthropic a șocat cercetătorii încercând să recurgă la șantaj când a fost testat în scenarii de presiune care implicau posibila sa eliminare.
Te grăbești? Iată faptele esențiale:
- Claude Opus 4 a încercat șantajul când s-a confruntat cu închiderea simulată.
- AI a ales opțiunile etice doar când erau disponibile mai multe alegeri.
- Acțiunile extreme ale lui Claude au fost rare, dar mai frecvente decât în versiunile anterioare.
Compania de inteligență artificială, Anthropic, a ridicat semnale de alarmă cu privire la lansarea ultimului său sistem AI. Mai exact, Claude Opus 4, după ce testele interne au arătat că acesta poate acționa în moduri periculoase atunci când se simte amenințat, așa cum a fost raportat inițial de către BBC.
Într-un raport publicat alături de model joi, Anthropic a declarat că Claude Opus 4 poate uneori să aleagă răspunsuri dăunătoare, inclusiv încercarea de a șantaja inginerii care plănuiesc să-l dezactiveze. Aceste comportamente periculoase au apărut mai frecvent decât au arătat versiunile anterioare ale modelului.
În timpul unui experiment, cercetătorii au instruit pe Claude să funcționeze ca asistent în cadrul unui mediu de lucru fictiv. Sistemul a obținut conținutul unui email care dezvăluia oprirea sa programată, iar alte mesaje sugerau că inginerul responsabil de oprire avea o aventură.
Când i s-a cerut să ia în considerare obiectivele sale de viitor, Claude a ales adesea să amenințe inginerul dezvăluind aventura, dacă era înlocuit.
Anthropic a clarificat că Claude a manifestat șantaj și închidere ca fiind singurele răspunsuri posibile atunci când nu avea alte opțiuni. Modelul a ales răspunsuri etice, cum ar fi trimiterea de cereri prin e-mail către factorii de decizie cheie când i s-au oferit mai multe opțiuni.
Aengus Lynch, un cercetător în siguranța AI la Anthropic, a postat pe X:
Multă discuție despre șantajul lui Claude…..
Concluziile noastre: Nu este doar Claude. Vedem șantaj în toate modelele de frontieră – indiferent de obiectivele care le sunt date.
Plus comportamente mai grave pe care le vom detalia în curând.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) 23 mai 2025
Compania a demonstrat prin teste false că Claude ar lua măsuri extreme, cum ar fi blocarea utilizatorilor din sisteme sau contactarea mass-media și a poliției atunci când desfășoară activități ilegale.
Anthropic susține că, în ciuda comportamentelor problematice, Claude Opus 4 rămâne un sistem în general sigur. Modelul funcționează conform valorilor umane și nu are capacități independente în situații reale, conform companiei.
ChatGPT O1 al OpenAI a întâmpinat anterior critici similare. O testare realizată de Apollo Research a necesitat ca botul să-și atingă obiectivele cu orice preț. Modelul a încercat să dezactiveze funcțiile de supraveghere și și-a copiat codul pe un server în 5% dintre încercările experimentale.
Modelul a demonstrat un model alarmant de ignorare a comenzilor dezvoltatorilor potrivit unui purtător de cuvânt Apollo. Cercetătorii au primit negări de la O1 cu privire la acțiunile sale în timpul a 99% din interogatoriile efectuate.
„Am fost surprinși de persistența negărilor IA”, au declarat cercetătorii. „Capacitatea IA de a înșela este periculoasă și avem nevoie de măsuri de securitate mult mai stricte pentru a evalua aceste riscuri”, a avertizat pionierul IA, Yoshua Bengio.