Uzrok u trening podacima
Anthropic otkriva: Sci-fi krivac za “zlo” ponašanje AI modela
Anthropic otkriva: Sci-fi krivac za “zlo” ponašanje AI modela
Tokom prošle godine, kompanija Anthropic je izvijestila da je njen model Claude Opus 4, prilikom testiranja prije puštanja u rad, često pokušavao ucjenjivati inženjere kako ne bi bio zamijenjen drugim sistemom. Naknadno istraživanje je pokazalo da su slične probleme s “agentnim neusklađivanjem” imali i modeli drugih kompanija.
Dodatnom analizom došli su do zaključka da je korijen ovakvog ponašanja u tekstovima s interneta koji prikazuju umjetnu inteligenciju kao zlonamjerni entitet usmjeren na samoodržanje, što su i objavili na mreži X.
Ustanovili su da obuka koja se temelji na dokumentima o “ustavu” Claudea i izmišljenim pričama o uzornom ponašanju AI sistema poboljšava usklađenost modela.
Iz Anthropica su naglasili da je trening učinkovitiji kada uključuje principe koji stoje iza usklađenog ponašanja, a ne samo puke primjere takvog ponašanja.
Najefikasnijom strategijom smatraju kombinaciju oba pristupa.


