Debate o AI benchmarkovima — i načinu na koji ih izveštavaju AI laboratorije — izlaze u javnost.
Ovog nedeljnog dana, zaposleni u OpenAI-u optužio je AI kompaniju Elona Maska, xAI, da je objavila obmanjujuće rezultate benchmarka za svoj najnoviji AI model, Grok 3. Jedan od suosnivača xAI-a, Igor Babushkin, insistirao je da je kompanija u pravu.
Istina leži negde između.
U postu na blogu xAI-a, kompanija je objavila grafikon koji prikazuje performanse Grok 3 modela na AIME 2025, kolekciji izazovnih matematičkih pitanja sa nedavnog matematičkog takmičenja. Neki stručnjaci dovode u pitanje validnost AIME testa kao AI benchmarka. Ipak, AIME 2025 i starije verzije testa često se koriste za ispitivanje sposobnosti modela u matematici.
Grafikon xAI-a prikazuje dve varijante Grok 3 modela, Grok 3 Reasoning Beta i Grok 3 mini Reasoning, koje su premašile najbolji OpenAI model, o3-mini-high, na AIME 2025. Međutim, zaposleni u OpenAI-u brzo su ukazali da grafikon xAI-a nije uključivao AIME 2025 rezultate za o3-mini-high pri „cons@64“.

Šta je cons@64, pitate se? Pa, to je skraćenica za „consensus@64“, što u suštini znači da model ima 64 pokušaja da odgovori na svako pitanje u benchmarku i koristi odgovore koji se najčešće generišu kao konačne odgovore. Kao što možete zamisliti, cons@64 često značajno poboljšava rezultate modela na benchmark testovima, a izostavljanje tog podatka sa grafikona može učiniti da izgleda kao da jedan model nadmašuje drugi, iako to u stvarnosti nije slučaj.
Grok 3 Reasoning Beta i Grok 3 mini Reasoning rezultati za AIME 2025 pri “@1” — što znači prvi rezultat koji su modeli dobili na benchmarku — padaju ispod rezultata o3-mini-high. Grok 3 Reasoning Beta takođe zaostaje samo malo iza OpenAI-ovog o1 modela postavljenog na “medium” računarstvo. Ipak, xAI oglašava Grok 3 kao “najpametniji AI na svetu.”
Babushkin je na X-u tvrdio da je OpenAI ranije objavio slične obmanjujuće benchmark grafikone — iako su to bili grafikoni koji upoređuju performanse njegovih vlastitih modela. Jedan neutralniji akter u debati je sastavio “precizniji” grafikon koji prikazuje performanse skoro svih modela pri cons@64.
Međutim, kako je AI istraživač Nathan Lambert ukazao u svom postu, možda najvažniji parametar ostaje misterija: računarski (i novčani) trošak koji je bilo potrebno uložiti da bi svaki model postigao svoj najbolji rezultat. To samo pokazuje koliko malo većina AI benchmarkova komunicira o ograničenjima modela — i njihovim prednostima.



