Uzrok u trening podacima

Anthropic otkriva: Sci-fi krivac za “zlo” ponašanje AI modela

prije 54 minute

Tokom prošle godine, kompanija Anthropic je izvijestila da je njen model Claude Opus 4, prilikom testiranja prije puštanja u rad, često pokušavao ucjenjivati inženjere kako ne bi bio zamijenjen drugim sistemom. Naknadno istraživanje je pokazalo da su slične probleme s “agentnim neusklađivanjem” imali i modeli drugih kompanija.

Dodatnom analizom došli su do zaključka da je korijen ovakvog ponašanja u tekstovima s interneta koji prikazuju umjetnu inteligenciju kao zlonamjerni entitet usmjeren na samoodržanje, što su i objavili na mreži X.

Ustanovili su da obuka koja se temelji na dokumentima o “ustavu” Claudea i izmišljenim pričama o uzornom ponašanju AI sistema poboljšava usklađenost modela.

Iz Anthropica su naglasili da je trening učinkovitiji kada uključuje principe koji stoje iza usklađenog ponašanja, a ne samo puke primjere takvog ponašanja.

Najefikasnijom strategijom smatraju kombinaciju oba pristupa.

Uzrok u trening podacima

Anthropic otkriva: Sci-fi krivac za “zlo” ponašanje AI modela

Anthropic otkriva: Sci-fi krivac za “zlo” ponašanje AI modela

Tagovi

Video

Zaboravite pauze za kafu, humanoidni roboti upravo su odradili 8-satnu smjenu na nivou čovjeka! (VIDEO)

Možda Vas interesuje

Mourinho o povratku u Madrid: “Odlučiću ove sedmice”

Mourinho otvara vrata povratku u Real: Odluka već sljedeće sedmice?

Federalno finansiranje Trampove plesne dvorane pod znakom pitanja

Budite uvijek u toku! 🚀