Najnoviji jezički model kompanije OpenAI, nazvan O3, nedavno je dospeo u fokus javnosti nakon što su objavljeni rezultati njegovog testiranja na standardizovanom referentnom testu. Prema izveštaju uglednog tehnološkog portala TechCrunch, performanse O3 modela su, na iznenađenje mnogih, bile niže od onoga što je kompanija prvobitno sugerisala.
U originalnom članku se navodi da je OpenAI prilikom predstavljanja O3 modela stvorio utisak o značajnom napretku u odnosu na prethodne verzije. Međutim, kada su nezavisni istraživači sproveli detaljna testiranja koristeći široko prihvaćeni industrijski standard, rezultati su pokazali da O3 ne postiže očekivani nivo performansi. Konkretno, model je ostvario niži skor na ključnom testu koji meri sposobnost razumevanja i generisanja teksta visokog kvaliteta.
Ova vest je izazvala određeno iznenađenje u tehnološkoj zajednici, s obzirom na reputaciju OpenAI-a kao lidera u oblasti veštačke inteligencije. Kompanija je poznata po svojim inovativnim modelima koji su postavili nove standarde u obradi prirodnog jezika. Stoga, niži rezultati O3 modela otvaraju pitanja o faktorima koji su doveli do ovog neočekivanog ishoda.
Moguće je da je OpenAI prilikom inicijalnih procena performansi modela koristio interne metrike koje se ne poklapaju u potpunosti sa javno dostupnim referentnim testovima. Takođe, razvoj ovako kompleksnih jezičkih modela je izuzetno složen proces, pun nepredviđenih izazova. Optimizacija performansi na svim aspektima je izuzetno zahtevna, i ponekad se dešava da novi modeli ne ispune sva očekivanja u početnim fazama.
Važno je napomenuti da jedan referentni test ne mora nužno da pruži potpunu sliku o stvarnim mogućnostima i primenljivosti jednog jezičkog modela. O3 može i dalje da poseduje određene prednosti u specifičnim zadacima ili domenima za koje nije optimizovan standardni test. Takođe, kompanije često nastavljaju da usavršavaju svoje modele nakon objavljivanja, te je moguće da će buduće verzije O3 pokazati bolje rezultate.
OpenAI has released o3, their highly anticipated reasoning model, along with o4-mini, a smaller and cheaper model that succeeds o3-mini.
We evaluated the new models on our suite of math and science benchmarks. Results in thread! pic.twitter.com/5gbtzkEy1B
— Epoch AI (@EpochAIResearch) April 18, 2025
Ovaj događaj ipak služi kao podsetnik na važnost transparentnosti i nezavisne evaluacije u oblasti veštačke inteligencije. Korisnici i istraživači se sve više oslanjaju na performanse ovih modela za različite primene, od generisanja sadržaja do automatizacije poslovnih procesa. Stoga je ključno da postoje pouzdani i objektivni načini za merenje njihovih stvarnih mogućnosti.
Osim toga, ova situacija može da podstakne zdravu konkurenciju među kompanijama koje razvijaju velike jezičke modele. Javnost i investitori će sa još većom pažnjom pratiti rezultate testiranja i upoređivati performanse različitih modela, što može dovesti do bržeg napretka i razvoja kvalitetnijih rešenja.
U zaključku, vest da je novi OpenAI model O3 postigao niže rezultate na referentnom testu od inicijalno impliciranih predstavlja zanimljiv razvoj događaja u svetu veštačke inteligencije. Iako jedan test ne daje konačnu ocenu, on naglašava složenost razvoja naprednih jezičkih modela i važnost transparentne i nezavisne evaluacije njihovih performansi. Budućnost će pokazati kako će OpenAI odgovoriti na ove rezultate i da li će uspeti da otključa puni potencijal O3 modela.



