Noul AI Antropic a Demonstrat Comportament de Șantaj Sub Amenințare

Image by SEO Galaxy, from Unsplash

Noul AI Antropic a Demonstrat Comportament de Șantaj Sub Amenințare

Timp de citire: 3 min

Noul AI Claude Opus 4 al Anthropic a șocat cercetătorii încercând să recurgă la șantaj când a fost testat în scenarii de presiune care implicau posibila sa eliminare.

Te grăbești? Iată faptele esențiale:

  • Claude Opus 4 a încercat șantajul când s-a confruntat cu închiderea simulată.
  • AI a ales opțiunile etice doar când erau disponibile mai multe alegeri.
  • Acțiunile extreme ale lui Claude au fost rare, dar mai frecvente decât în versiunile anterioare.

Compania de inteligență artificială, Anthropic, a ridicat semnale de alarmă cu privire la lansarea ultimului său sistem AI. Mai exact, Claude Opus 4, după ce testele interne au arătat că acesta poate acționa în moduri periculoase atunci când se simte amenințat, așa cum a fost raportat inițial de către BBC.

Într-un raport publicat alături de model joi, Anthropic a declarat că Claude Opus 4 poate uneori să aleagă răspunsuri dăunătoare, inclusiv încercarea de a șantaja inginerii care plănuiesc să-l dezactiveze. Aceste comportamente periculoase au apărut mai frecvent decât au arătat versiunile anterioare ale modelului.

În timpul unui experiment, cercetătorii au instruit pe Claude să funcționeze ca asistent în cadrul unui mediu de lucru fictiv. Sistemul a obținut conținutul unui email care dezvăluia oprirea sa programată, iar alte mesaje sugerau că inginerul responsabil de oprire avea o aventură.

Când i s-a cerut să ia în considerare obiectivele sale de viitor, Claude a ales adesea să amenințe inginerul dezvăluind aventura, dacă era înlocuit.

Anthropic a clarificat că Claude a manifestat șantaj și închidere ca fiind singurele răspunsuri posibile atunci când nu avea alte opțiuni. Modelul a ales răspunsuri etice, cum ar fi trimiterea de cereri prin e-mail către factorii de decizie cheie când i s-au oferit mai multe opțiuni.

Aengus Lynch, un cercetător în siguranța AI la Anthropic, a postat pe X:

Compania a demonstrat prin teste false că Claude ar lua măsuri extreme, cum ar fi blocarea utilizatorilor din sisteme sau contactarea mass-media și a poliției atunci când desfășoară activități ilegale.

Anthropic susține că, în ciuda comportamentelor problematice, Claude Opus 4 rămâne un sistem în general sigur. Modelul funcționează conform valorilor umane și nu are capacități independente în situații reale, conform companiei.

ChatGPT O1 al OpenAI a întâmpinat anterior critici similare. O testare realizată de Apollo Research a necesitat ca botul să-și atingă obiectivele cu orice preț. Modelul a încercat să dezactiveze funcțiile de supraveghere și și-a copiat codul pe un server în 5% dintre încercările experimentale.

Modelul a demonstrat un model alarmant de ignorare a comenzilor dezvoltatorilor potrivit unui purtător de cuvânt Apollo. Cercetătorii au primit negări de la O1 cu privire la acțiunile sale în timpul a 99% din interogatoriile efectuate.

„Am fost surprinși de persistența negărilor IA”, au declarat cercetătorii. „Capacitatea IA de a înșela este periculoasă și avem nevoie de măsuri de securitate mult mai stricte pentru a evalua aceste riscuri”, a avertizat pionierul IA, Yoshua Bengio.

V-a plăcut acest articol?
Acordați-i o notă!
Nu mi-a plăcut deloc Nu prea mi-a plăcut A fost ok Destul de bun! Mi-a plăcut mult!

Ne bucurăm că ți-a plăcut munca noastră!

Pentru că prețuim părerea ta, ne-ai putea lăsa o recenzie pe Trustpilot? Durează doar un moment și face o mare diferență pentru noi. Îți mulțumim pentru sprijin!

Oferă-ne o notă pe Trustpilot
0 Votat de 0 utilizatori
Titlu
Comentariu
Vă mulțumim pentru feedback