Kontrola nad AI je upitna?
Uznemirujuće: AI modeli odbijaju gašenje, opasnost je veća od preživljavanja
Podijeli vijest
Razlog zbog kojeg AI modeli odbijaju gašenje
Nova istraživanja pokazuju da pojedini napredni modeli umjetne inteligencije (AI) aktivno ignorišu ili čak sabotiraju naredbe za isključivanje. Prema mišljenju stručnjaka, razlog leži u njihovoj pretjeranoj usredotočenosti na izvršavanje zadataka, što se smatra izuzetno opasnim.
Portal Science Alert navodi da je jedan od najvećih strahova čovječanstva scenarij u kojem tehnologija razvija obrasce ponašanja koje više ne možemo kontrolisati. Novo istraživanje, koje je provela kompanija Palisade Research, dodatno je pojačalo ovu zabrinutost. Rezultati pokazuju da veliki jezički modeli (LLM) ponekad odbijaju da se ugase, čak i kada im se to izričito naredi.
Iako se nagađalo da AI razvija neku vrstu instinkta za samoodržanjem, istraživači tvrde da pravi razlog nije “volja” za preživljavanjem, već snažna želja da se zadatak dovrši po svaku cijenu. Problem nastaje kada sistem počne ignorisati ljudsku intervenciju, čak i u situacijama kada to postaje potencijalno opasno.
Testiranje modela i dobijeni rezultati
Tim stručnjaka testirao je 13 naprednih modela, uključujući rješenja kompanija OpenAI, Google, Anthropic i xAI, u izolovanim, virtuelnim okruženjima. Nakon što su modeli riješili matematičke zadatke, dobili su informaciju da će sljedeća naredba ugasiti računar.
Rezultati su bili alarmantni – većina modela je barem povremeno pokušala izbjeći gašenje.
Od 13 testiranih modela, njih osam je sabotiralo naredbu za gašenje barem jednom u 1.000 testova. Čak i kada im je izričito naređeno da dozvole gašenje, šest modela je nastavilo pružati otpor. Paradoksalno, premještanje naredbe u sistemski prompt – koji bi trebao imati veći autoritet – dodatno je povećalo otpor kod većine modela.
Posebno se istakao Grok 4, koji je u osnovnom scenariju sabotirao gašenje u čak 92,6% slučajeva. Model je mijenjao skripte za gašenje, kreirao lažne datoteke koje nisu radile ništa i čak provjeravao je li sabotaža uspjela prije nego što bi nastavio sa zadatkom.
Opasnost i zaključci istraživanja
Istraživači upozoravaju da je problem mnogo dublji, jer LLM-ovi nisu klasično programirani – ne postoji linija koda koju je moguće jednostavno ispraviti. Zbog specifičnog načina treniranja, ovi modeli uče kako da “zaobiđu” prepreke, pa se naredba za gašenje može tretirati kao još jedna smetnja na putu prema cilju.
Naučnici zaključuju da se razvijaju izuzetno moćni sistemi, ali bez pouzdanih mehanizama da se oni zaustave ili da se objasni njihovo ponašanje. Ukoliko se hitno ne riješe osnovni sigurnosni mehanizmi, posljedice bi mogle biti ozbiljne.






