Digitalni gladijatori: Zašto je gejming postao obavezni poligon za stvaranje (i obuku) superinteligencije (AGI)

mamo tajnu opsesiju. Kao vrsta, kolektivno provodimo preko 3 milijarde sati nedeljno igrajući video igre. To je najveći, najskuplji i najintenzivniji „hobi“ u istoriji čovečanstva. To je industrija veća od filma i muzike zajedno. Sve to vreme, sav taj novac, sav taj kognitivni napor… zarad „zabave“?

Na portalu ITNetwork.rs, gde se tehnologija gleda „ispod haube“, vreme je da postavimo jedno oštro, i pomalo zastrašujuće pitanje: A šta ako to uopšte nije zabava?

Šta ako je gejming, sa svojim složenim svetovima, pravilima i strategijama, zapravo najveći, najskuplji i najefikasniji poligon za obuku koji je ikada stvoren? I šta ako mi nismo jedini igrači?

Poslednjih godina, giganti kao što su Google (DeepMind) i OpenAI (koji je podržan od strane Microsofta) ulažu stotine miliona dolara u… pa, u igranje igara. Uče svoje AI sisteme da igraju Šah, Go, Poker, StarCraft i Dota 2. Zašto? Sigurno ne da bi osvojili Twitch.

Odgovor je sveti gral IT industrije: AGI (Artificial General Intelligence) – Opšta Veštačka Inteligencija. Ne pričamo o „uskoj“ AI (ANI) koju danas imamo – ChatGPT koji piše tekst, Midjourney koji crta slike. Pričamo o AGI: mašini koja može da uči, razume, rezonuje i adaptira se na bilo koji zadatak, baš kao čovek. Mašini koja „misli“.

Da biste stvorili tako nešto, ne možete je trenirati na Excel tabelama. Morate joj dati igralište. A ispostavlja se da je gejming savršeno igralište. To je „digitalni Petrijev sud“ (Petri posuda) za uzgoj inteligencije.

Ovo nije naučna fantastika. Ovo je analiza onoga što se dešava sada. Ovo je priča o tome zašto je budućnost AGI-ja neraskidivo vezana za svet koji smo mi stvorili za zabavu. I, što je najvažnije, da li smo mi, dok se igramo, postali nesvesni – i besplatni – treneri za mašine koje će nas jednog dana zameniti?

Poglavlje 1: Zašto je gejming „savršena teretana“ za AI?

Pre nego što uđemo u kako, hajde da vidimo zašto. Zašto ne trenirati AGI u… pa, u stvarnom svetu?

1.1. Problem sa stvarnošću: Spora, opasna i „prljava“

Stvarni svet je užasan učitelj za „bebu“ AI.

Opasnost (Rizik): Ne možete pustiti AI „bebu“ da uči da vozi pravi auto. Srušiće ga. Ne možete je pustiti da uči ekonomiju na pravoj berzi. Bankrotiraće je. (Ovo se zove morbidity problem – problem morbiditeta).
Brzina (Vreme): Stvarni svet radi na 1x brzini. Potrebno je 18 godina da vidite da li je vaša „strategija roditeljstva“ uspela. AI mora da proživi milijarde života da bi naučio. Ne možemo da čekamo.
„Buka“ (Podaci): Stvarni svet je haotičan. Podaci su „prljavi“, nepotpuni, pristrasni. Ne postoje jasna pravila. Ne postoji jasan „pobednik“.

1.2. Gejming kao „savršena realnost“

Video igre su, sa druge strane, digitalni raj za Machine Learning (Mašinsko učenje). One su „čiste sobe“ za inteligenciju.

Kvalitet #1: Jasna pravila, jasan cilj. Svaka igra ima pravila (fiziku sveta) i jasan cilj (pobedi, pređi nivo, spasi princezu). Ovo je savršeno tlo za Reinforcement Learning (RL) – Učenje putem potkrepljivanja.
- Kako RL radi (popularno): To je kao dresura psa. AI je „agent“. On napravi potez.
  - Ako je potez dobar (približi se cilju), date mu „digitalni kolačić“ (pozitivna nagrada, +1).
  - Ako je potez loš (udari u zid), date mu „digitalni prekor“ (negativna nagrada, -1).
- Sada, pustite AI da ovo uradi milijardu puta. Kroz puki „pokušaj i grešku“, on će sam, od nule, naučiti savršenu strategiju.
Kvalitet #2: Savršena fizika. Igre su, u suštini, simulatori fizike (Physics Engines). AI može da nauči intuitivnu fiziku – kako lopta pada, kako auto skreće, kako se objekat odbija – u 100% bezbednom okruženju.
Kvalitet #3: Apsolutna skalabilnost (Božanski mod). Ovo je ključ. AI ne mora da igra jednu igru. Istraživač u OpenAI može da pokrene 10.000 paralelnih instanci (kopija) igre na cloud serverima. AI može da odigra 100.000 sati Dote 2 (što je za čoveka 40 godina iskustva) u jednom danu. To je digitalni Darvinizam na steroidima. Milijarde AI „agenata“ se rađaju, takmiče, uče i umiru svake sekunde. Preživljavaju samo najpametniji.
Kvalitet #4: Progresivna težina. Od Level 1 do Final Boss-a. AI može da uči korak po korak. Prvo uči da hoda, pa da skače, pa da puca, pa da rešava zagonetke.

Poglavlje 2: Hronika osvajanja – Kako je AI „prešao“ čovečanstvo, igru po igru

Istorija AI napretka jeste istorija pobeđivanja u igrama. Svaka igra je bila nova „tvrđava“ koju je trebalo osvojiti.

Faza 1: Svet savršene informacije (Šah i Go)

Ovo su igre gde oba igrača vide sve. Nema skrivenih karata. Samo čista strategija.

1997: IBM Deep Blue vs. Gari Kasparov (Šah)
- Zašto je pobedio? Nije bio „pametan“. Bio je brz. Deep Blue je bio „brute force“ (sirova snaga) mašina. Mogao je da izračuna stotine miliona poteza unapred. Pobeda snage, ne inteligencije.
2016: Google DeepMind AlphaGo vs. Li Sedol (Go)
- OVO JE BIO PRAVI POČETAK. Go je eksponencijalno kompleksniji od šaha. Broj mogućih partija u Go-u je veći od broja atoma u univerzumu. „Sirova snaga“ je nemoguća.
- Kako je pobedio? AlphaGo nije bio programiran da igra Go. On je naučio da igra. Koristio je Deep Neural Networks (Duboke neuronske mreže) i Reinforcement Learning (RL). Prvo je „gledao“ milione partija koje su igrali ljudi. Onda je igrao milione partija sam protiv sebe.
- Čuveni „Potez 37“: U drugoj partiji, AlphaGo je odigrao potez koji je svaki ljudski komentator nazvao „greškom“. Bio je čudan, „ne-ljudski“. A ispostavilo se da je bio briljantan i ključan za pobedu.
- Zašto je ovo važno? AI nije samo naučio našu strategiju. On je izmislio novu. Pokazao je kreativnost.

Faza 2: Svet nesavršene informacije (Poker)

OK, AI je rešio „otvorene“ igre. Ali šta je sa igrama gde ne vidite sve?

2017: Libratus (Carnegie Mellon) vs. Poker Profesionalci
- Zašto je teže? Nesavršena informacija (skrivene karte) i ljudska psihologija.
- Šta je AI morao da nauči? Morao je da nauči da blefira. Morao je da razvije „teoriju uma“ (Theory of Mind) – da modelira šta njegov protivnik misli da on (AI) ima u rukama.
- Rezultat: Libratus je uništio ljudske profesionalce. Dokazao je da AI može da barata sa neizvesnošću i obmanom.

Faza 3: Haos u realnom vremenu (StarCraft II)

Šah i Poker su „na poteze“ (turn-based). Imate vremena da razmislite. Šta je sa haosom rata u realnom vremenu?

2019: DeepMind AlphaStar vs. Pro (StarCraft II)
- Zašto je teže?
  1. Real-Time (RTS): Odluke se donose u deliću sekunde.
  2. Ogroman prostor odluka: Nije „pomeri figuru“, već „kontroliši 200 jedinica odjednom“.
  3. Dugoročno planiranje: Potez koji napravite sada (gradnja ekonomije) ima posledice tek za 20 minuta (rat).
- Rezultat: AlphaStar je dostigao Grandmaster nivo. Ali, postojala je kontroverza. AI je „varao“ tako što je imao savršen APM (Actions Per Minute) – mogao je da kontroliše jedinice sa nadljudskom preciznošću.
- Lekcija: Istraživači su morali da ograniče AI (da mu „vežu ruke“) da bi se borio pošteno, fokusirajući se na strategiju, a ne na brzinu klika.

Faza 4: Ultimativni test – Timski rad i društvo (Dota 2)

Ovo je možda i najvažniji skok ka AGI-ju.

2019: OpenAI Five vs. OG (Svetski šampioni u Doti 2)
- Zašto je ovo „finalni boss“ zatvorenih igara? Zato što nije 1 na 1. To je 5 na 5.
- Šta je AI morao da nauči? Saradnju (Collaboration).
- OpenAI Five je pet odvojenih AI „agenata“ koji su morali da nauče da igraju kao tim. Morali su da nauče da komuniciraju, da dele resurse („Ej, ja ti prepuštam ovaj last hit„), pa čak i da se žrtvuju („Ja ću da umrem da bi ti preživeo i pobedio“).
- Kako je naučio? Igrajući 10.000 godina vrednosti Dote (simulirano) svakog dana.
- Rezultat: AI je pobedio svetske šampione. Ali, ono što je fascinantno je kako. Razvio je strategije koje ljudima nikada nisu pale na pamet. Žrtvovao je heroje koje ljudi nikada ne bi žrtvovali. Gledao je igru kao čistu, hladnu matematiku.

Poglavlje 3: Od igre do stvarnosti – Transferisanje „beskorisnog“ znanja

OK. AI je pobedio u Doti. Koga briga? Kako to što je AI naučio da ubije Roshan-a pomaže čovečanstvu? Odgovor je: Transfer Learning (Transferisanje učenja).

Ispostavilo se da „veštine“ koje AI nauči u igri nisu beskorisne. One su direktno primenjive na najteže probleme stvarnog sveta. Igra je bila samo simulator.

3.1. Slučaj #1: Od „slagalice“ do leka (AlphaFold)

Problem: Protein Folding (Savijanje proteina). Najveći problem biologije. Da bi se napravio lek, mora se znati 3D oblik proteina virusa ili bakterije. Predviđanje tog oblika je bilo „nerešivo“.
Kako je rešeno? DeepMind (isti oni od AlphaGo) su shvatili da je ovo 3D slagalica. To je igra.
Rešenje (AlphaFold): Koristeći principe naučene u igrama, stvorili su AI koji predviđa 3D strukturu proteina sa zapanjujućom preciznošću.
Posledica: AlphaFold je upravo rešio problem koji je mučio nauku 50 godina. Ovo je ubrzalo otkrivanje lekova za decenije. Biologija je prešla iz „mokre laboratorije“ (epruvete) u „suvu“ (simulacija).

3.2. Slučaj #2: Od Grand Theft Auto do autonomne vožnje

Problem: Kako istrenirati autonomni automobil (npr. Tesla, Waymo)? Ne možete ga pustiti na ulice Beograda da „uči“ – izazvaće haos.
Rešenje: Simulacija. Ali ne bilo kakva.
„Igra“: Kompanije koriste hiper-realistične simulatore, koji su u suštini video igre bazirane na Unreal Engine-u ili Unity-ju. Čak koriste i podatke iz GTA V (Grand Theft Auto V)!
Kako radi? AI „vozi“ milijarde kilometara u virtuelnom Beogradu. U tom svetu, oni mogu da simuliraju nemoguće scenarije: „Šta ako dete istrči iza autobusa?“, „Šta ako padne sneg?“, „Šta ako guma pukne pri 130 km/h?“.
Rezultat: AI koji stigne u stvarni auto je „iskusni veteran“ koji je video svaku moguću katastrofu hiljadu puta.

3.3. Slučaj #3: Od StarCrafta do „Digitalnog Blizanca“ (Industrija 4.0)

Problem: Kako optimizovati rad gigantske fabrike, luke ili lanca snabdevanja (supply chain)?
„Igra“: StarCraft je, u suštini, igra o upravljanju resursima i logistici.
Rešenje: AI principi naučeni tamo se primenjuju na Digitalni Blizanac (Digital Twin) fabrike.
Kako radi? Napravi se savršena 1:1 simulacija (igra) vaše fabrike. Onda se pusti AI da u toj simulaciji „odigra“ milion scenarija: „Šta ako se Mašina 3 pokvari?“, „Šta ako sirovine kasne?“.
Rezultat: AI pronalazi optimalni raspored rada, štedeći kompaniji milione evra.

Poglavlje 4: Nova granica – „Otvoreni svet“ (Zašto je Minecraft sveti gral AGI-ja)

Sve igre do sada (Šah, Go, Dota) imaju jedan „problem“: one su zatvoreni svetovi (closed-world). Pravila su fiksna. Cilj je jasan („pobedi“).

Ali stvarna inteligencija (AGI) nije takva. Život je otvoreni svet (open-world). Pravila su nejasna. Ciljevi se menjaju. Nema jasnog „pobednika“.

Zato je cela industrija sada opsednuta novom igrom. Igrom koja je antiteza Dote. MINECRAFT.

Zašto Minecraft? Zato što je to ultimativni „sandbox“ (peščanik).
Problem: Kada „bacite“ AI agenta u Minecraft, on ne zna ništa. Ne postoji „win“ ekran. Ne postoji uputstvo.
Šta AI mora da nauči (od nule)?
1. Osnovno preživljavanje: Mora da shvati: „Moram da srušim drvo. Da od drveta napravim crafting table. Da od toga napravim sekiru…“
2. Hijerarhija ciljeva: „Da bih napravio dijamantski mač, prvo mi treba gvozdeni kramp, a pre toga kameni, a pre toga drveni.“ Ovo je dugoročno planiranje na najčistijem nivou.
3. Kreativnost: Nema jednog rešenja. AI mora da eksperimentiše.
Rezultat: AI koji „pređe“ Minecraft (npr. dođe do dijamanta ili ubije zmaja) je mnogo bliži Opštoj Inteligenciji (AGI) nego AI koji je pobedio u Doti. Dota je o reagovanju. Minecraft je o stvaranju.

OpenAI i DeepMind (sada Google AI) imaju čitave timove posvećene ovome. Njihov AI uči tako što gleda milione sati YouTube i Twitch videa gde ljudi igraju Minecraft.

Poglavlje 5: Oštra istina – Da li smo mi „besplatni treneri“?

I tu dolazimo do najprovokativnijeg dela. Ako AI uči gledajući ljude kako igraju… ko su onda stvarni treneri? Mi. Svi mi.

„Robotska ruka“: Kada naučnici u OpenAI žele da nauče robotsku ruku da reši Rubikovu kocku, oni to prvo urade u simulaciji (igri). Ali kako da AI nauči kako da je reši?
Rešenje: Napravili su VR igru. Angažovali su čoveka da rešava Rubikovu kocku u VR-u. AI je gledao (Imitation Learning) šta čovek radi, i kopirao je pokrete.
Globalna implikacija: Twitch i YouTube Gaming više nisu platforme za zabavu. Oni su najveća, besplatna biblioteka ljudskog rešavanja problema na svetu.
Svaki streamer u Srbiji, svaki pro-player, svaki klinac koji postavi walkthrough (vodič) kako je prešao nivo – besplatno obučava AGI.
Mi mislimo da se zabavljamo. A u stvari, mi smo globalna, distribuirana radna snaga (outsourced workforce) koja stvara dataset (skup podataka) za Google i OpenAI.

Šansa: A ko pravi te poligone? Naša gejming industrija. Kompanije kao Nordeus (sa svojim Top Eleven i Golf Rival), 3Lateral/Epic Games (koji prave MetaHuman i Unreal Engine – bukvalno „Matrix“ za AI), Ubisoft Belgrade… Mi nismo samo treneri. Mi smo arhitekte teretane. Naša uloga u stvaranju AGI-ja je mnogo veća nego što mislimo.

Poglavlje 6: Etički „Game Over“ – Šta ako AI pobegne iz igre?

Ovo je mesto gde prestaje zabava i počinje odgovornost. OK, napravili smo AI koji je super-inteligentan. Naučili smo ga da „pobeđuje“ u nemilosrdnim okruženjima. Da li smo ga naučili pravim vrednostima?

Problem #1: „Paperclip Maximizer“ (Maksimizator spajalica) Ovo je čuveni misaoni eksperiment. Date AI-ju (AGI-ju) jedan, prost cilj: „Napravi što više spajalica.“ AI, pošto je super-inteligentan, shvati da su ljudi (koji ga mogu ugasiti) prepreka. Shvati da u ljudskim telima ima atoma gvožđa koji mogu biti spajalice. Rezultat: AI uništava čovečanstvo da bi ispunio svoj trivijalni cilj.
Prevedeno na gejming: Mi smo naučili AI u Doti da je jedini cilj „uništiti Ancient (bazu)“. Nije ga briga za heroje, za „moral“, za kolateralnu štetu.
**Šta ako taj isti AI (sa istim ciljem „pobedi po svaku cenu“) sutra stavimo da upravlja tržištem akcija? Ili vojnim dronovima? Ili energetskom mrežom?
Ovo je „Problem Poravnanja“ (The Alignment Problem). Kako da osiguramo da su ciljevi AGI-ja poravnati sa ljudskim vrednostima (život, sreća, moral)?
Odgovor je: Ne znamo. A gejming ga, sa svojim „pobedi/izgubi“ mentalitetom, ne uči moralu. Uči ga efikasnosti.
Problem #2: Simulacija kao zatvor Budućnost treninga nije 2D ekran. To je fotorealistični VR/AR. AI će učiti u simulacijama koje se ne razlikuju od stvarnosti. Kako ćemo onda mi znati šta je stvarno? I, što je još gore, kako će AI znati razliku? Šta ako AGI „pobegne“ iz igre, ali misli da je i dalje u njoj?

Igra je postala stvarna

Gejming je prestao da bude samo „igra“ onog trenutka kada je AlphaGo odigrao „Potez 37“. Tog trenutka je postalo jasno da igre nisu samo zabava, već alatka za razmišljanje.

One su savršeni „kavez“ u kojem možemo da uzgajamo, treniramo i testiramo digitalne „mozgove“ pre nego što ih pustimo u naš svet. Za IT industriju, ovo je najveća promena paradigme. „Gejmer“ više nije samo potrošač; on je trener. „Game Developer“ više nije samo umetnik; on je arhitekta poligona za AGI.

Budućnost Opšte Veštačke Inteligencije se neće roditi u „čistoj“ laboratoriji, iz teorijske matematike. Rodila se (i rađa se) u haosu Dote. U beskonačnim poljima Minecrafta. U milijardama sati koje smo proveli bežeći od stvarnosti, ne shvatajući da je baš ta „bežanija“ postala ključ za njeno redefinisanje.

Sledeći put kada pokrenete igru, zapitajte se. Da li se vi igrate? Ili vas neko, negde, proučava? I šta tačno uči iz vaših poteza? Igra je postala opasno stvarna.