Klinički neprikladan
AI još uvijek nije spreman za kliničku upotrebu: Modeli propuštaju ranu dijagnozu u više od 80% slučajeva
AI još uvijek nije spreman za kliničku upotrebu: Modeli propuštaju ranu dijagnozu u više od 80% slučajeva
Generativna umjetna inteligencija (AI) još uvijek nema sposobnost kliničkog rasuđivanja potrebnu za sigurnu primjenu u medicini, pokazalo je novo istraživanje. Iako chatbotovi popravljaju tačnost kada im se dostave sve kliničke informacije, oni i dalje ne uspijevaju postaviti odgovarajuću diferencijalnu dijagnozu u preko 80 posto slučajeva.
Testiranje kliničkih sposobnosti
Istraživači iz Mass General Brigham analizirali su 21 model velikog jezika (LLM), uključujući najnovije verzije Claude, DeepSeek, Gemini, GPT i Grok. Koristeći novorazvijeni alat PrIME-LLM, procijenili su njihove sposobnosti u različitim fazama kliničkog procesa: od početne dijagnoze, preko naručivanja testova, do konačne dijagnoze i plana liječenja. Simulirajući razvoj slučaja, informacije su postepeno unosile u modele, počevši od osnovnih podataka o pacijentu.
„Ovi modeli su odlični u postavljanju konačne dijagnoze nakon što su podaci kompletni, ali se muče na otvorenom početku slučaja, kada nema mnogo informacija“, istaknula je autorica studije Arya Rao. Diferencijalna dijagnoza, ključni korak za liječnike u sužavanju mogućih stanja, pokazala se kao najveći izazov za AI.
Rezultati i ograničenja
Studija je otkrila da su stope uspjeha pri konačnoj dijagnozi varirale od 60 do preko 90 posto, ovisno o modelu. Većina LLM-ova pokazala je poboljšanje kada su im pored teksta dostavljeni i laboratorijski nalazi i slike. Klaster s najboljim performansama činili su Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash i Gemini 3.0 Pro.
Ipak, autori su naglasili da, unatoč napretku, standardni LLM-ovi nisu dostigli nivo naprednog kliničkog rasuđivanja. „Naši rezultati potvrđuju da veliki jezički modeli u zdravstvu i dalje zahtijevaju “čovjeka u toku” i vrlo strog nadzor“, rekao je koautor Marc Succi.
Nezavisni stručnjaci slažu se s tim zaključkom. „Iako umjetna inteligencija predstavlja obećavajući alat, ljudska klinička prosudba ostaje nezamjenjiva“, komentirala je Susana Manso García iz Španskog društva za porodičnu medicinu, pozivajući javnost na oprez i konzultacije sa zdravstvenim radnicima.


