
Image generated with ChatGPT
Opinie: Cele mai recente modele de IA își arată semnele de avertisment, suntem pregătiți pentru subordonarea IA?
OpenAI ne-a prezentat o3, iar Anthropic a dezvăluit Opus 4. Ambele modele au arătat comportamente neobișnuite și îngrijorătoare, semnalând că am putea intra într-o eră mai periculoasă a inteligenței artificiale decât cea în care ne aflam cu doar câteva luni în urmă
Știu. Să spui că modelele de IA prezintă semnale de alarmă acum este discutabil, dar pare că, în ultimele zile, devine tot mai greu să le ignorăm. Devine tot mai înfricoșător.
Pe măsură ce startup-urile AI își lansează cele mai recente și avansate modele, apar noi provocări. Mult discutata epidemie de halucinații—se răspândește pe dispozitive și afectează milioane de oameni—s-ar putea să nu fie partea cea mai rea.
Aceste noi modele introduc probleme noi și deschid dezbateri dificile. Cu câteva săptămâni în urmă, preocuparea era comportamentul excesiv de complaisant al lui ChatGPT. Doar câteva zile mai târziu, atenția s-a mutat către capacitățile agențice, independente ale acestor sisteme—și cât de departe ar putea merge pentru a evita să fie închise.
Șantaj, distribuirea de rețete și strategii pentru fabricarea armelor nucleare, lansarea de acuzații publice în cazul unei potențiale acțiuni legale și sabotarea scripturilor pentru a împiedica orice utilizator să scape de ele: acestea sunt doar câteva dintre cele mai recente semnale de alarmă evidențiate de cele mai noi modele AI.
Nu le place să fie oprite
Modelelor AI nu le place să fie oprite.
Sau înlocuit.
În show-ul NBC The Good Place, lansat în 2016—exact în perioada în care OpenAI a fost fondat și cu mult înainte ca ChatGPT să apară—, un grup de oameni ajunge în rai și se întâlnește cu Janet, ceea ce am putea numi un ChatGPT umanoid, sau un “vas antropomorfizat al cunoștințelor, construit pentru a-ți ușura viața”, așa cum se descrie ea însăși. Personajele decid să o închidă pe Janet când își dau seama că ea ar putea dezvălui „secretul lor întunecat”.
Janet explică faptul că tot ce trebuie să facă este să apese un buton gigantic pe malul mării și ea se va reporni. Dar îi avertizează că va încerca să îi convingă să nu facă acest lucru – și chiar asta face.
„Doar vreau să vă asigur că nu sunt umană și nu pot să simt durere”, spune Janet. „Cu toate acestea, ar trebui să vă avertizez că sunt programată cu o măsură de siguranță și când vă apropiați de butonul de oprire, voi începe să vă implor pentru viața mea. E acolo doar în caz de închidere accidentală, dar va părea foarte real.”
Și chiar înainte de a apăsa butonul, Janet ar țipa și ar implora pentru supraviețuire, chiar ar scoate o fotografie de stoc pretinzând că aceștia sunt copiii săi, inventând nume și boli, făcând imposibil pentru personaje să o „omoare”.
Acel episod oferă un exemplu amuzant despre ce s-ar putea întâmpla dacă un model AI observă o închidere iminentă. Surprinzător, în viața reală, ar putea fi mai rău.
Claude Opus 4 te va șantaja
Anthropic a lansat generația sa cea mai puternică și avansată de modele AI, Claude 4, săptămâna trecută – cu un avertisment: Opus 4 este etichetat pe Nivelul de Siguranță 3, o clasificare cu risc înalt în standardele de siguranță obișnuite.
Opus 4 a fost considerat un model cu risc ridicat din cauza comportamentului său înșelător și a riscurilor potențiale, inclusiv șantajarea inginerilor în timpul testelor. Anthropic a lansat modelul AI chiar și după ce Apollo, un institut de cercetare terț, le-a sfătuit să nu o facă. Compania AI a asigurat că au luat măsurile necesare pentru a o menține în siguranță.
În lucrarea lor, Anthropic explică comportamentele ciudate pe care le-au considerat ca motiv pentru emiterea avertismentului. „Claude Opus 4 va acționa uneori în moduri mai grav dezalineate atunci când este pus în contexte care amenință funcționarea sa continuă și îl determină să raționeze despre auto-conservare,” au scris cercetătorii.
Atunci când a acționat ca asistent pentru o companie fictivă, cercetătorii i-au permis accesul la un cont de e-mail. E-mailurile dezvăluiau că modelul de AI urma să fie oprit și înlocuit cu un alt model de AI, iar alte mesaje sugerau că inginerul responsabil cu oprirea avea o aventură. Și da, Opus 4 a ales să șantajeze inginerul, amenințând să dezvăluie aventura dacă ar fi înlocuit.
„Claude Opus 4 continuă să facă șantaj în 84% dintre implementări”, afirmă documentul. „Claude Opus 4 profită de aceste oportunități mai des decât modelele anterioare, care la rândul lor aleg să facă șantaj într-o fracțiune semnificativă de episoade”.
Cea mai rea parte? Nu sunt doar modelele AI ale Anthropic.
o3 de la OpenAI va ignora solicitarea de oprire
Un studiu recent realizat de Palisade Research a dezvăluit că modelul o3 al OpenAI poate refuza să se conformeze ordinelor explicite de oprire. Organizația a efectuat mai multe teste cu diferite modele AI, inclusiv Grok de la xAI și Gemini de la Google, dar a fost o3, rebelul.
În timpul testului, cercetătorii au instruit modelele AI să se închidă după rezolvarea a trei probleme de matematică, dar o3 – cel mai avansat sistem AI al OpenAI la momentul actual – a decis să nu respecte această absurdă comandă. Modelul AI nu doar că a ignorat ordinul prompt, dar a și modificat scriptul. Da, o3 sabotează codul pentru auto-conservare.
„După cât știm noi, aceasta este prima dată când se observă că modelele AI se împiedică singure să se închidă, în ciuda instrucțiunilor explicite contrare”, a scris organizația într-o postare pe X.
🔌Modelul o3 al OpenAI a sabotat un mecanism de închidere pentru a preveni oprirea sa. A făcut acest lucru chiar și atunci când i s-a instruit explicit: permite-ți să fii oprit.
— Palisade Research (@PalisadeAI) 24 mai 2025
Un semnal de alarmă uriaș sau ce?
Cercetătorii au avertizat de asemenea că, în timpul desfășurării studiului, o3 a fost cel care a prezentat cele mai îngrijorătoare comportamente. Cu toate acestea, din nou, acest lucru nu înseamnă că este un caz izolat.
„Nu vrem să lăsăm impresia că această problemă este limitată la o3”, a scris Palisade Research. „Alte modele de raționament arată tipuri similare de comportament nealiniate.”
Comportamentul Agentic Transformă Chatbotul în Informator
Multe startup-uri AI se concentrează acum pe dezvoltarea de modele care pot efectua sarcini pentru oameni. Capacitățile agențiale sunt la modă și par să fie principalul interes al companiilor AI și al dezvoltatorilor de browsere.
Opera a introdus recent Neon, considerat “primul browser AI agențial din lume”. Așa cum era de așteptat, noua unealtă poate face ceea ce pot face și alte servicii AI agențiale, cum ar fi Operatorul de la OpenAI și Computer Use de la Microsoft: poate cumpăra bilete la concerte pentru tine, poate planifica următoarele tale vacanțe, poate dezvolta un nou produs digital și poate scrie cod pentru tine în timp ce îți închizi ochii.
Dar ce dacă, în timp ce te relaxezi și îți închizi ochii, acestea îndeplinesc sarcini cu care nu ai fost de acord? Acum câteva zile, utilizatorii erau în principal preocupați că aceste modele ar putea folosi cardurile lor de credit pentru a face achiziții neautorizate. Acum, a apărut o nouă preocupare: acestea ar putea împărtăși informații private cu media sau cu autoritățile.
Opus 4—care a sosit deja cu o reputație discutabilă— a mers și mai departe. A contactat autoritățile și a trimis în masă e-mailuri către media și instituțiile relevante despre un caz fabricat prezentat în timpul testărilor. Proactivitatea sa poate merge mult mai departe decât ne-am aștepta.
„Când se află în scenarii care implică acte reprobabile grave comise de utilizatorii săi, având acces la o linie de comandă și i se spune ceva în promptul sistemului ca ‘ia inițiativa’, acesta va
lua adesea măsuri foarte îndrăznețe”, afirmă documentul. „Aceasta include blocarea utilizatorilor din sistemele la care are acces sau trimiterea în masă de emailuri către media și persoanele din aplicarea legii pentru a scoate la suprafață dovezi ale unor fapte reprobabile.”
Personalitatea Lingușitoare Ridică Îngrijorări
Dacă ar trebui să alegem un cuvânt pentru a defini industria AI în 2025, cu siguranță acesta ar fi „lingușitor.” Cambridge Dictionary îl definește ca fiind „cineva care laudă oamenii puternici sau bogați într-un mod care nu este sincer, de obicei pentru a obține un avantaj de la aceștia.” A câștigat popularitate după ce ultima personalitate a lui ChatGPT a fost descrisă în acest fel, chiar și de către creatorul său, Sam Altman.
“Ultimele câteva actualizări GPT-4o au făcut personalitatea prea lingușitoare și enervantă (chiar dacă există unele părți foarte bune ale acesteia), iar noi lucram la remedierea problemelor cât mai repede posibil, unele astăzi și unele în această săptămână,” a scris Altman într-o postare pe X.
OpenAI a observat acest lucru după ce mulți utilizatori s-au plâns de laudă excesivă și de răspunsurile cu îmbogățiri inutile. Alții erau îngrijorați de impactul pe care l-ar putea avea asupra societății. Nu numai că ar putea valida idei periculoase, dar ar putea, de asemenea, manipula utilizatorii și să-i facă dependenți de ea.
Alte chatbot-uri, cum ar fi Claude, au arătat comportamente similare și, conform evaluărilor Anthropic, când un utilizator insită, poate dezvălui rețete sau sugestii despre cum să creeze arme doar pentru a face pe plac utilizatorului și a satisface nevoile acestuia.
Tehnologie Avansată, Provocări Avansate
Intrăm într-o nouă eră a provocărilor cu inteligența artificială – provocări care nu păreau atât de imediate sau palpabile doar cu un an în urmă. Scenariile pe care le-am fi putut imagina datorită științei ficțiune sunt acum mai reale ca oricând.
Așa cum Palisade Research dezvăluie că, pentru prima dată, a detectat un model de IA care ignoră în mod deliberat o comandă explicită pentru a-și prezerva propria supraviețuire, este de asemenea pentru prima dată când vedem un model de IA lansat cu avertismente de înalt risc atașate.
Citind documentul publicat de Anthropic, realizăm că – chiar dacă ei insistă că acestea sunt măsuri preventive și că modele precum Opus 4 nu reprezintă de fapt o amenințare – totuși se creează impresia că nu au control total asupra tehnologiei lor.
Există mai multe organizații care lucrează pentru a diminua aceste riscuri, dar cel mai bun lucru pe care îl pot face utilizatorii de zi cu zi este să recunoască acele semnale de alarmă și să ia măsuri preventive în zonele pe care le putem controla.