Klinički neprikladan

AI još uvijek nije spreman za kliničku upotrebu: Modeli propuštaju ranu dijagnozu u više od 80% slučajeva

prije 2 mjeseca

Generativna umjetna inteligencija (AI) još uvijek nema sposobnost kliničkog rasuđivanja potrebnu za sigurnu primjenu u medicini, pokazalo je novo istraživanje. Iako chatbotovi popravljaju tačnost kada im se dostave sve kliničke informacije, oni i dalje ne uspijevaju postaviti odgovarajuću diferencijalnu dijagnozu u preko 80 posto slučajeva.

Testiranje kliničkih sposobnosti

Istraživači iz Mass General Brigham analizirali su 21 model velikog jezika (LLM), uključujući najnovije verzije Claude, DeepSeek, Gemini, GPT i Grok. Koristeći novorazvijeni alat PrIME-LLM, procijenili su njihove sposobnosti u različitim fazama kliničkog procesa: od početne dijagnoze, preko naručivanja testova, do konačne dijagnoze i plana liječenja. Simulirajući razvoj slučaja, informacije su postepeno unosile u modele, počevši od osnovnih podataka o pacijentu.

„Ovi modeli su odlični u postavljanju konačne dijagnoze nakon što su podaci kompletni, ali se muče na otvorenom početku slučaja, kada nema mnogo informacija“, istaknula je autorica studije Arya Rao. Diferencijalna dijagnoza, ključni korak za liječnike u sužavanju mogućih stanja, pokazala se kao najveći izazov za AI.

Rezultati i ograničenja

Studija je otkrila da su stope uspjeha pri konačnoj dijagnozi varirale od 60 do preko 90 posto, ovisno o modelu. Većina LLM-ova pokazala je poboljšanje kada su im pored teksta dostavljeni i laboratorijski nalazi i slike. Klaster s najboljim performansama činili su Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash i Gemini 3.0 Pro.

Ipak, autori su naglasili da, unatoč napretku, standardni LLM-ovi nisu dostigli nivo naprednog kliničkog rasuđivanja. „Naši rezultati potvrđuju da veliki jezički modeli u zdravstvu i dalje zahtijevaju “čovjeka u toku” i vrlo strog nadzor“, rekao je koautor Marc Succi.

Nezavisni stručnjaci slažu se s tim zaključkom. „Iako umjetna inteligencija predstavlja obećavajući alat, ljudska klinička prosudba ostaje nezamjenjiva“, komentirala je Susana Manso García iz Španskog društva za porodičnu medicinu, pozivajući javnost na oprez i konzultacije sa zdravstvenim radnicima.

Klinički neprikladan

AI još uvijek nije spreman za kliničku upotrebu: Modeli propuštaju ranu dijagnozu u više od 80% slučajeva

AI još uvijek nije spreman za kliničku upotrebu: Modeli propuštaju ranu dijagnozu u više od 80% slučajeva

Testiranje kliničkih sposobnosti

Rezultati i ograničenja

Tagovi

Video

Zaboravite pauze za kafu, humanoidni roboti upravo su odradili 8-satnu smjenu na nivou čovjeka! (VIDEO)

Možda Vas interesuje

Pucnjava na Vracama: Dvije osobe primljene u KCUS

Zverev konačno do Grand Slam trofeja poslije maratonskog finala

Vizne nevolje na putu ka Mundijalu: Iran stigao u Meksiko

Zapratite našu Facebook stranicu.

Budite uvijek u toku! 🚀