Mislili ste da je Pokémon težak benchmark za AI? Jedna grupa istraživača tvrdi da je Super Mario Bros. još teži.
Hao AI Lab, istraživačka organizacija sa Univerziteta u Kaliforniji San Dijego, u petak je testirala AI u igrama Super Mario Bros. Najbolje je prošao Anthropic-ov Claude 3.7, a zatim Claude 3.5. Google-ov Gemini 1.5 Pro i OpenAI GPT-4o su se mučili.
Nije bila ista verzija Super Mario Bros. kao originalno izdanje iz 1985. godine, da budemo jasni. Igra je pokrenuta u emulatoru i integrisana s okvirom, GamingAgent, kako bi AI mogao da kontroliše Marija.
GamingAgent, koji je Hao razvio interno, pružao je AI osnovne instrukcije, kao što su: „Ako je prepreka ili neprijatelj blizu, pomeri/poskoči levo da izbegneš“ i snimke ekrana iz igre. AI je zatim generisao unos u obliku Python koda da bi kontrolisao Maria.
Ipak, Hao kaže da je igra naterala svaki model da „nauči“ da planira složene maneuvre i razvija strategije igre. Zanimljivo je da je laboratorija otkrila da su modeli koji se baziraju na razmišljanju, poput OpenAI-ovog o1, koji „razmišljaju“ kroz probleme korak po korak kako bi došli do rešenja, imali lošije rezultate od modela koji se ne baziraju na razmišljanju, uprkos tome što su generalno jači na većini benchmarkova.
Jedan od glavnih razloga zbog kojih modeli zasnovani na razmišljanju imaju problema sa igranjem igara u stvarnom vremenu poput ove je taj što im treba vreme — obično sekunde — da odluče o akcijama, prema istraživačima. U Super Mario Bros. igri, tajming je ključan. Sekunda može da znači razliku između sigurnog skoka i pada u smrt.
Igre se koriste za testiranje AI već decenijama. Međutim, neki stručnjaci dovode u pitanje mudrost povezivanja veština AI u igrama sa tehnološkim napretkom. Za razliku od stvarnog sveta, igre su obično apstraktne i relativno jednostavne, a obezbeđuju teoretski beskonačnu količinu podataka za obuku AI.
Nedavni spektakularni benchmarkovi u igrama ukazuju na ono što je Andrej Karpathy, istraživački naučnik i osnivač OpenAI, nazvao „krizom evaluacije“.
„Zaista ne znam na koje [AI] metrike treba da obratim pažnju sada“, napisao je u postu na X-u. „TLDR, moj odgovor je da zaista ne znam koliko su ovi modeli dobri trenutno.“