Nova verzija Geminija nadmašuje druge AI modele u matematici, znanosti i rasuđivanju
Foto: AA

Nova verzija Geminija nadmašuje druge AI modele u matematici, znanosti i rasuđivanju

prije 5 h
Tags:
Podijeli vijest

Googleov novi Gemini Pro pokazao se pametnijim od drugih AI modela u područjima rasuđivanja, znanosti i kodiranja. Ove informacije dolaze iz serije rezultata mjernih podataka koje je Google objavio u četvrtak. Ukratko, Gemini 2.5 Pro nadmašuje glavne konkurente u gotovo svemu, iako bi se kompanije koje stoje iza tih konkurenata vjerovatno ne složile.

Prema Googleovim podacima, Gemini 2.5 Pro ima značajno vodstvo nad modelima poput OpenAI o3, Claude Opus 4, Grok 3 Beta i DeepSeek R1 u benchmarku Humanity's Last Exam. Ovaj benchmark procjenjuje sposobnosti modela u matematici, znanosti, općem znanju i rasuđivanju. Također je bolji u uređivanju koda (prema benchmarku Aider Polyglot) i pobjeđuje sve konkurente u nekoliko benchmarkova faktualnosti, uključujući FACTS Grounding, što znači da je manje vjerovatno da će pružiti činjenično netočne tekstove.

Jedini benchmark u kojem Gemini 2.5 Pro nije jasan pobjednik je matematički fokusiran AIME 2025, a čak su i tamo razlike između rezultata prilično male.

Kao rezultat svih poboljšanja u Geminiju 2.5 Pro, ovaj model je sada na vrhu LMArena ljestvice s rezultatom od 1470 bodova. LMArena Leaderboard je otvorena platforma za procjenu AI putem ljudskih preferencija, koja rangira najbolje velike jezične modele (LLM) i AI chatbotove.

Međutim, postoji jedna kvaka: konačna verzija Geminija 2.5 Pro još uvijek nije široko dostupna. Google ovu najnoviju verziju naziva “nadograđenim pregledom”, s očekivanjem stabilne verzije “za nekoliko sedmica”. Pretpregled bi sada trebao biti dostupan u aplikaciji Gemini.