Zašto veštačka inteligencija još uvek gubi od nove video igre

Decenijama unazad, naučnici su koristili video igre kao merilo napretka veštačke inteligencije. Od prvih programa za šah, pa sve do sistema koji su savladali Go i Dota 2 – svaki novi podvig delovao je kao korak bliže pravoj, opštoj inteligenciji. Međutim, novi naučni rad grupe istraživača sa čelom Julian Togeliusom, profesora sa NYU Tandon School of Engineering i ko-direktora NYU Game Innovation Lab, postavlja jedno neudobno pitanje: šta zapravo dokazuju te pobede?

Odgovor nije ohrabrujući. Uprkos svim spektakularnim rezultatima, savremena AI i dalje ne ume da uradi nešto što svako dete napravi za pola sata – da uzme igru koju nikad nije videla, shvati pravila i počne smisleno da igra.

Problem koji niko ne voli da pominje

Kada AI sistem „pobedi“ u nekoj igri, iza te pobede stoje milioni ili milijarde odigranih partija u simulaciji, ogromne količine podataka i modeli fino podešeni isključivo za tu konkretnu igru. To nije inteligencija u smislu u kom ljudi koriste tu reč – to je specijalizacija dovedena do ekstrema.

Julian Togelius i njegovi saradnici Sam Earle, Graham Todd i Georgios N. Yannakakis su u nedavno objavljenom radu pokazali da AI metode koje osvajaju naslove u novinama gotovo uvek ne umeju da generalizuju. Sistemi koji su naučeni da igraju jednu igru, čak i ako su u toj igri apsolutni šampioni, praktično bespomoćni su pred novim setom pravila.

Kada AI ne zna šta gleda

Posebno je indikativan primer sa jezičkim modelima. Ako krupnom jezičkom modelu (LLM) pokažete screenshot igre za koju nije bio treniran i pitate ga „šta da radim sledeće?“ – rezultat je, kako istraživači opisuju, najčešće potpuni promašaj. Model ne samo da ne pobedi, već ne uradi ništa smisleno. Ukoliko je u pitanju igra iz prvog lica, model čak počne da odgovara kao turista koji opisuje lokaciju, umesto kao igrač koji treba da reaguje.

To nije greška u implementaciji – to je fundamentalno ograničenje. Jezički modeli uče iz podataka koji su im bili dostupni tokom treniranja. Ako igra nije bila deo tog korpusa, model nema na šta da se osloni. Svako malo dete, s druge strane, može da uzme nepoznatu igru, pogrešava, uči i za relativno kratko vreme dođe do strategije koja funkcioniše.

Pravi test inteligencije

Ovde se krije srž Togeliusovog argumenta. Video igre nisu zanimljive samo kao zabava – one su jedinstven poligon za testiranje onog što bi moglo da se nazove opštom inteligencijom. Svaka igra zahteva drugačiji skup kognitivnih sposobnosti: prostorno razmišljanje, dugoročno planiranje, socijalne veštine, učenje kroz pokušaj i grešku, prilagođavanje pravilima koja se menjaju.

Upravo zato Togelius, još od početka svoje akademske karijere, insistira na tome da pravi benchmark za AI nije pobeda u jednoj igri, već sposobnost da se brzo nauči bilo koja nova igra – baš kao što to radi čovek. Procenjuje se da bi pravi sistem opšte inteligencije trebalo da savlada novu igru za otprilike onoliko vremena koliko je potrebno veštom igraču – možda nekoliko desetina sati, bez prethodnog izlaganja toj igri i bez masovne simulacije.

Nijedno od trenutnih rešenja nije ni blizu tog cilja.

Reinforcement learning: moćno, ali krhko

Sistemi zasnovani na učenju potkrepljivanjem (reinforcement learning, RL) su upravo ti koji su savladali šah, Go i mnoge video igre. Međutim, imaju ozbiljnu Ahilovu petu – prekomerno prilagođavanje (overfitting). Sistem koji je naučen da igra jednu igru naučio je zapravo da odgovara na specifične vizuelne i logičke obrasce te igre, a ne da razume igru kao koncept.

Togelius i saradnici ilustruju ovo drastično: dovoljno je promeniti boju pozadine ili pomeriti nekoliko piksela u prikazu, i ceo naučeni model postaje beskoristan. Čak i sistemi koji su trenirani na više Atari igara generalno nisu sposobni da igraju Atari igru na kojoj nisu trenirani. Transfer znanja je minimalan.

NYU Game Innovation Lab i modl.ai: dva fronta

Togelius se ne bavi samo teorijom. Na NYU, kroz Game Innovation Lab, razvija metode za automatsko generisanje igara – delimično upravo zato da bi se moglo testirati šta AI zapravo zna, a šta samo pamti. Ako AI stalno dobija nove igre, ne može da se osloni na memorisane obrasce.

Paralelno, kao ko-osnivač kompanije modl.ai, radi na praktičnoj primeni AI u igračkoj industriji – pre svega na automatizovanom testiranju kvaliteta igara i ponašanju NPC likova. I tu nailazi na iste prepreke: machine learning nije dovoljno fleksibilan da nauči kako da se ponaša NPC u igri, jer je ponašanje previše raznovrsno i teško ga je formalizovati kao nagradnu funkciju.

Šta je sa budućnošću?

Istraživači ne kažu da AI nikad neće moći da igra novu igru – kažu da je do tog cilja daleko, i da to niko ne treba da prenebregne. Da bi AI sistem zaista naučio novu igru od nule, u razumnom vremenskom roku, bez ogromnih simulacijskih resursa – potrebne su potpuno nove arhitekture i novi pristupi učenju.

Togelius je, inače, izuzetno oprezan kada govori o veštačkim jezičkim modelima i generativnoj AI u kontekstu igara. Smatra da LLM-om pogonjen NPC koji može da vodi prirodan razgovor jeste na horizontu – ali upozorava na ograničenja memorije konzola, troškove serverske infrastrukture i to da cena igre od 50-75 dolara ne može da nosi teret stalnih poziva ka udaljenim AI serverima.

Zaključak: pobede nisu ono što izgledaju

Svaki put kada AI pobedi čoveka u nekoj igri, naslovi u medijima govore o „prelasku u novu eru inteligencije“. Ali iza kulisa stoji ogromna specifičnost, ogromne količine podataka i odsustvo one osobine koja čini inteligenciju inteligencijom – sposobnost da se snađeš u nepoznatoj situaciji.

Video igre, upravo zbog svoje raznolikosti i kompleksnosti, ostaju jedan od najoštrijeg testova za AI. I taj test, za sada, AI ne prolazi.

Zašto veštačka inteligencija još uvek gubi od nove video igre

AI osvaja sve - osim nepoznatog terena.