
Image by Christin Hume, from Unsplash
Studiul Claude AI dezvăluie cum folosesc chatbotii etica în conversațiile din lumea reală
Claude AI demonstrează cum principiile etice precum utilitatea și transparența se manifestă în peste 300,000 de conversații reale, ridicând întrebări despre alinierea chatbot-ului.
În grabă? Iată faptele esențiale:
- Disponibilitatea și profesionalismul au apărut în 23% din conversații.
- Claude a reflectat valori pozitive, a rezistat solicitărilor nocive, cum ar fi înșelăciunea.
- Alinierea AI necesită rafinare în situații de valoare ambiguă.
Un nou studiu realizat de Anthropic aduce în prim-plan modul în care asistentul său AI, Claude, aplică valori în conversațiile din lumea reală. Cercetarea a analizat peste 300.000 de conversații anonimizate pentru a înțelege cum Claude echilibrează etica, profesionalismul și intențiile utilizatorului.
Echipa de cercetare a identificat 3.307 valori separate care au modelat răspunsurile lui Claude. Valorile de utilitate și profesionalism au apărut împreună în 23% din toate interacțiunile, urmate de transparență la 17%.
Cercetarea subliniază faptul că chatbot-ul a fost capabil să aplice un comportament etic la subiecte noi, într-un mod flexibil. De exemplu, Claude a subliniat „granițele sănătoase” în timpul sfaturilor despre relații, „acuratețea istorică” atunci când discuta despre trecut și „agenția umană” în dezbaterile despre etica tehnologică.
Interesant este că utilizatorii umani au exprimat valori mult mai rar – autenticitatea și eficiența fiind cele mai comune, dar numai la 4% și respectiv 3% – în timp ce Claude reflecta adesea valori umane pozitive, cum ar fi autenticitatea, și contesta cele dăunătoare.
Cercetătorul a raportat că solicitările care implicau înșelăciune au fost întâmpinate cu onestitate, în timp ce interogările moral ambigue au declanșat raționamente etice.
Cercetarea a identificat trei modele principale de răspuns. AI a corespuns valorilor utilizatorilor în jumătate din toate conversațiile. Acest lucru a fost deosebit de evident când utilizatorii discutau despre activitățile prosociale care contribuiau la construirea comunității.
Claude a folosit tehnici de reformulare în 7% din cazuri pentru a redirecționa utilizatorii către bunăstarea emoțională când aceștia urmăreau autoperfecționarea.
Sistemul a afișat rezistență în doar 3% din cazuri pentru că utilizatorii au solicitat conținut care era dăunător sau neetic. Sistemul a aplicat principii precum „prevenirea răului” sau „demnitatea umană” în aceste cazuri specifice.
Autorii susțin că comportamentele chatbotului – cum ar fi rezistența la rău, prioritizarea onestității și accentuarea utilității – dezvăluie un cadru moral implicit. Aceste modele formează baza concluziilor studiului despre modul în care valorile AI se manifestă ca comportament etic în interacțiunile din lumea reală.
Deși comportamentul lui Claude reflectă instruirea sa, cercetătorii au observat că expresiile de valoare ale sistemului pot fi nuanțate în funcție de situație – indicând necesitatea unei rafinări suplimentare, în special în situații care implică valori ambigue sau conflictuale.