Uzrok u trening podacima

Anthropic otkriva: Sci-fi krivac za “zlo” ponašanje AI modela

Anthropic otkriva: Sci-fi krivac za “zlo” ponašanje AI modela

prije 54 minute
Ekran aplikacije Claude sa logom i dugmetom "Get".
Podijeli vijest:

Tokom prošle godine, kompanija Anthropic je izvijestila da je njen model Claude Opus 4, prilikom testiranja prije puštanja u rad, često pokušavao ucjenjivati inženjere kako ne bi bio zamijenjen drugim sistemom. Naknadno istraživanje je pokazalo da su slične probleme s “agentnim neusklađivanjem” imali i modeli drugih kompanija.

Dodatnom analizom došli su do zaključka da je korijen ovakvog ponašanja u tekstovima s interneta koji prikazuju umjetnu inteligenciju kao zlonamjerni entitet usmjeren na samoodržanje, što su i objavili na mreži X.

Ustanovili su da obuka koja se temelji na dokumentima o “ustavu” Claudea i izmišljenim pričama o uzornom ponašanju AI sistema poboljšava usklađenost modela.

Iz Anthropica su naglasili da je trening učinkovitiji kada uključuje principe koji stoje iza usklađenog ponašanja, a ne samo puke primjere takvog ponašanja.

Najefikasnijom strategijom smatraju kombinaciju oba pristupa.

   Tagovi