SIGURNOST I DOBROBIT

Claude AI prekida uznemirujuće razgovore

prije 9 mjeseci

Najnovija funkcija koju uvodi kompanija Anthropic omogućava Claude AI modelima, Opus 4 i 4.1, da prekinu razgovor u rijetkim i ekstremnim slučajevima kada korisnik uporno vodi štetne ili uvredljive konverzacije. Ova inovacija mogla bi označiti početak smanjenja tzv. “AI jailbreaking” praksi, koje se koriste za pokušaje zaobilaženja ograničenja modela.

“Claude modeli mogu izaći iz štetnih razgovora, uključujući zahtjeve za seksualnim sadržajem koji uključuje maloljetnike ili pokušaje pribavljanja informacija koje bi omogućile masovno nasilje ili terorističke akcije”, navode iz Anthropica.

Claude AI će prekinuti konverzaciju tek kao posljednju opciju, kada preusmjeravanja i pokušaji vođenja produktivnog razgovora ne uspiju. Kompanija naglašava da većina korisnika gotovo nikada neće doživjeti nagli prekid razgovora, čak ni u diskusijama o veoma kontroverznim temama. Funkcija je rezervisana isključivo za ekstremne situacije.

U slučaju prekida, korisnici više ne mogu slati nove poruke u toj konverzaciji, ali mogu odmah započeti novu. Prethodne poruke se mogu urediti ili ponovo poslati kako bi se pokušao drugačiji tok razgovora.

“Ovo je dio istraživačkog programa koji proučava ideju o dobrobiti AI sistema. Mogućnost izlaska iz potencijalno uznemirujuće interakcije je način upravljanja rizicima u vezi sa dobrobiti veštačke inteligencije”, objašnjava Anthropic.

Kompanija i dalje eksperimentiše sa ovom funkcijom i podstiče korisnike da daju povratne informacije ukoliko naiđu na situaciju u kojoj Claude prekida razgovor. Novi potez pokazuje rastući fokus industrije na sigurnost, etiku i odgovorno korištenje veštačke inteligencije.