Home AI Open source LLM-ovi dolaze na evropsku mapu digitalnog suvereniteta

Open source LLM-ovi dolaze na evropsku mapu digitalnog suvereniteta

by Ivan Radojevic
Open source LLM-ovi dolaze na evropsku mapu digitalnog suvereniteta

Veliki jezički modeli (LLM) našli su se na agendi evropskog digitalnog suvereniteta prošle nedelje, kada je obelodanjena vest o novom programu za razvoj niza „pravo“ open source LLM-ova koji pokrivaju sve jezike Evropske unije.

To uključuje trenutnih 24 zvanična jezika EU, kao i jezike zemalja koje trenutno pregovaraju o pristupanju EU tržištu, poput Srbije. Planiranje budućnosti je ključni cilj.

OpenEuroLLM je saradnja oko 20 organizacija, koje vode Jan Hajič, računarski lingvista sa Karlovog univerziteta u Pragu, i Peter Sarlin, izvršni direktor i suosnivač finskog AI laboratorija Silo AI, koji je prošle godine kupio AMD za 665 miliona dolara.

Projekat se uklapa u širu narativnu liniju koja je videla da Evropa postavlja digitalni suverenitet kao prioritet, omogućujući joj da donese kritičnu infrastrukturu i alate bliže svom području. Većina velikih igrača u oblaku ulaže u lokalnu infrastrukturu kako bi osigurala da podaci EU ostanu lokalni, dok je AI miljenik OpenAI nedavno predstavio novu ponudu koja omogućava korisnicima da obrađuju i skladište podatke u Evropi.

U međuvremenu, EU je nedavno potpisala ugovor vredan 11 milijardi dolara za stvaranje suverene satelitske konstelacije koja bi konkurisala Starlinku Elona Maska.

Tako da je OpenEuroLLM sigurno u skladu sa brendom.

Međutim, izjavljeni budžet samo za izgradnju samih modela iznosi 37,4 miliona evra, pri čemu otprilike 20 miliona dolazi iz EU Digital Europe programa — što je kap u moru u poređenju sa ulaganjima velikih korporativnih AI igrača. Stvarni budžet je veći kada se uzme u obzir finansiranje dodeljeno za sporedne i povezane radove, a verovatno je najveći trošak računarstvo. Partneri OpenEuroLLM projekta uključuju EuroHPC superračunarske centre u Španiji, Italiji, Finskoj i Holandiji — a širi EuroHPC projekat ima budžet od oko 7 milijardi evra.

Ali ogroman broj različitih učesnika, koji obuhvataju akademske krugove, istraživanje i korporacije, naveo je mnoge da se zapitaju da li su njegovi ciljevi ostvarivi. Anastasia Stasenko, suosnivač LLM kompanije Pleias, dovela je u pitanje da li „široki konzorcijum od 20+ organizacija“ može imati istu usmerenu fokusiranost kao domaća privatna AI firma.

„Evropski nedavni uspesi u AI dolaze kroz male, fokusirane timove poput Mistral AI i LightOn — kompanije koje zaista poseduju ono što prave“, napisala je Stasenko. „Oni snose neposrednu odgovornost za svoje odluke, bilo da se radi o finansijama, tržišnoj poziciji ili reputaciji.“

Na dobrom putu

Open source LLM-ovi dolaze na evropsku mapu digitalnog suvereniteta 1

Projekat OpenEuroLLM ili počinje od nule, ili ima prednost — zavisi kako na to gledate.

Od 2022. godine, Hajič koordinira projekat High Performance Language Technologies (HPLT), koji ima za cilj razvoj besplatnih i ponovo upotrebljivih skupova podataka, modela i radnih tokova koristeći visokoperformansno računanje (HPC). Ovaj projekat treba da se završi krajem 2025. godine, ali može se posmatrati kao svojevrsni „prethodnik“ OpenEuroLLM-a, prema Hajiču, s obzirom na to da većina partnera na HPLT-u (osim partnera iz Velike Britanije) učestvuje i u ovom projektu.

„Ovo [OpenEuroLLM] je zapravo šira participacija, ali sa fokusom na generativne LLM-ove“, rekao je Hajič. „Dakle, ne počinjemo od nule kada se radi o podacima, stručnosti, alatima i iskustvu u računarstvu. Okupili smo ljude koji znaju šta rade — trebalo bi da budemo u mogućnosti da brzo postignemo napredak.“

Hajič je rekao da očekuje da prva verzija(e) budu objavljene do sredine 2026. godine, sa finalnim iteracijama koje će stići do završetka projekta 2028. godine. Međutim, ti ciljevi mogu delovati ambiciozno kada se uzme u obzir da još uvek nije mnogo toga što bi moglo da se pokaže osim osnovnog GitHub profila.

„U tom smislu, počinjemo od nule — projekat je započeo u subotu [1. februar]“, rekao je Hajič. „Ali pripremali smo projekat godinu dana [proces javne nabavke je otvoren u februaru 2024.].“

Iz akademskih i istraživačkih krugova, organizacije iz Češke, Holandije, Nemačke, Švedske, Finske i Norveške deo su OpenEuroLLM grupe, pored EuroHPC centara. Iz korporativnog sveta, finski AI laboratorijum Silo AI, u vlasništvu AMD-a, takođe je uključen, kao i Aleph Alpha (Nemačka), Ellamind (Nemačka), Prompsit Language Engineering (Španija) i LightOn (Francuska).

Jedan značajan izostanak sa liste je francuski AI unicorn Mistral, koji se pozicionirao kao open source alternativa velikim igračima poput OpenAI. Iako niko iz Mistrala nije odgovorio za komentar, Hajič je potvrdio da je pokušao da pokrene razgovore sa startapom, ali bez uspeha.

„Pokušao sam da ih kontaktiram, ali to nije rezultiralo fokusiranim razgovorom o njihovom učešću“, rekao je Hajič.

Projekat bi mogao da prikupi nove učesnike kroz EU program koji obezbeđuje finansiranje, ali biće ograničen na organizacije iz EU. To znači da entiteti iz Ujedinjenog Kraljevstva i Švajcarske neće moći da učestvuju. Ovo je u suprotnosti sa Horizon R&D programom, kojem se Ujedinjeno Kraljevstvo pridružilo 2023. godine nakon duge blokade zbog Brexita i koji je obezbedio finansiranje za HPLT.

Postizanje ciljeva projekta

Open source LLM-ovi dolaze na evropsku mapu digitalnog suvereniteta 2

Glavni cilj projekta, prema njegovom sloganu, je da se stvore: „Serija osnovnih modela za transparentan AI u Evropi.“ Pored toga, ovi modeli treba da očuvaju „jezičku i kulturnu raznolikost“ svih jezika EU — sadašnjih i budućih.

Šta to znači u pogledu isporuka još uvek nije u potpunosti razrađeno, ali verovatno će značiti razvoj osnovnog višejezičnog LLM-a dizajniranog za opšte zadatke gde je tačnost od ključnog značaja. Takođe, biće tu i manji „kvantizovani“ modeli, verovatno za primene na ivici, gde su efikasnost i brzina važniji.

„To je nešto o čemu još moramo da napravimo detaljan plan“, rekao je Hajič. „Želimo da bude što manji, ali što kvalitetniji. Ne želimo da objavimo nešto što je nedovršeno, jer je iz evropskog ugla ovo ozbiljan poduhvat, sa puno novca koji dolazi od Evropske komisije — javnog novca.“

Iako je cilj da model bude što efikasniji u svim jezicima, postizanje jednakosti na svim poljima takođe može biti izazovno.

„To je cilj, ali koliko ćemo biti uspešni sa jezicima koji imaju ograničene digitalne resurse, to je pitanje“, rekao je Hajič. „Ali to je i razlog zašto želimo da imamo stvarne standarde za ove jezike, a ne da se naginjemo ka standardima koji možda nisu reprezentativni za jezike i kulturu iza njih.“

U pogledu podataka, ovde će mnogo rada sa HPLT projekta biti korisno, s obzirom na to da je pre četiri meseca objavljena verzija 2.0 njihovog skupa podataka. Ovaj skup podataka je treniran sa 4,5 petabajta podataka sa interneta i više od 20 milijardi dokumenata, a Hajič je rekao da će dodati dodatne podatke iz Common Crawl-a (otvoreni repozitorijum podataka sa interneta).

Definicija open source-a

Open source LLM-ovi dolaze na evropsku mapu digitalnog suvereniteta 3

U tradicionalnom softveru, večiti sukob između open source-a i vlasničkog softvera vrti se oko „prave“ definicije „open source-a.“ Ovaj problem se može rešiti pozivanjem na formalnu „definiciju“ prema Open Source Initiative (OSI), industrijskim čuvarima onoga što su, a šta nisu legitimne open source licence.

Nedavno, OSI je formirao definiciju „open source AI-a“, iako nisu svi zadovoljni ishodom. Poklonici open source AI-a tvrde da modeli ne bi trebalo da budu slobodno dostupni samo, već i skupovi podataka, unapred trenirani modeli, težine — cela stvar. OSI definicija ne čini obaveznim trening podatke, jer navodi da se AI modeli često treniraju sa vlasničkim podacima ili podacima sa ograničenjima za redistribuciju.

Dovoljno je reći da se OpenEuroLLM suočava sa istim dilemama, i uprkos njegovim namerama da bude „istinski open,“ verovatno će morati da napravi neka kompromisna rešenja ako želi da ispuni svoje „kvalitativne“ obaveze.

„Cilj je da sve bude otvoreno. Naravno, postoje neka ograničenja,“ rekao je Hajič. „Želimo da imamo modele najvišeg mogućeg kvaliteta, a na osnovu evropske direktive o autorskim pravima možemo koristiti sve što možemo da dobijemo. Neki podaci ne mogu da se redistribuiraju, ali neki mogu biti sačuvani za buduću inspekciju.“

To znači da bi OpenEuroLLM projekat mogao morati da zadrži deo trening podataka u tajnosti, ali da budu dostupni revizorima na zahtev — kako je propisano za AI sisteme visokog rizika prema pravilima EU AI zakona.

„Nadamo se da će većina podataka [biti otvorena], naročito podaci koji dolaze iz Common Crawl-a,“ rekao je Hajič. „Želimo da sve bude potpuno otvoreno, ali videćemo. U svakom slučaju, moraćemo da se uskladimo sa AI regulativama.“

Dva u jednom

OpenEuroLLM

Još jedna kritika koja se pojavila nakon formalnog otkrivanja OpenEuroLLM-a bila je ta da je vrlo sličan projekat pokrenut u Evropi samo nekoliko meseci pre toga. EuroLLM, koji je lansirao svoj prvi model u septembru i follow-up u decembru, sufinansiran je od strane EU zajedno sa konzorcijumom od devet partnera. Među njima su akademske institucije poput Univerziteta u Edinburgu i korporacije poput Unbabel-a, koji je prošle godine osvojio milione GPU trening sati na EU superkompjuterima.

EuroLLM deli slične ciljeve sa svojim gotovo identičnim imenom: „Izgraditi open source evropski veliki jezički model koji podržava 24 službena evropska jezika, kao i nekoliko drugih strateški važnih jezika.“

Andre Martins, šef istraživanja u Unbabel-u, obratio se društvenim mrežama kako bi istakao ove sličnosti, napominjući da OpenEuroLLM usvaja ime koje već postoji. „Nadam se da će različite zajednice sarađivati otvoreno, deliti svoje stručno znanje i ne odlučiti da ponovo izmisle točak svaki put kad se novi projekat finansira,“ napisao je Martins.

Hajič je ovu situaciju nazvao „nažalost“, dodajući da se nada da će moći da sarađuju, ali je naglasio da je zbog izvora finansiranja u EU, OpenEuroLLM ograničen u pogledu saradnje sa entitetima izvan EU, uključujući univerzitete iz U.K.

Rupa u finansiranju

Open source LLM-ovi dolaze na evropsku mapu digitalnog suvereniteta 4

Dolazak kineskog DeepSeek-a i odnos između cene i performansi koji obećava, dao je neku nadu da bi AI inicijative mogle postići mnogo više sa mnogo manje nego što se prvobitno mislilo. Međutim, poslednjih nekoliko nedelja mnogi su postavili pitanje o stvarnim troškovima koji su uključeni u izgradnju DeepSeek-a.

„U vezi sa DeepSeek-om, zapravo znamo vrlo malo o tome šta je tačno ušlo u njegovu izgradnju,“ rekao je Peter Sarlin, tehnički ko-lead na OpenEuroLLM projektu.

Bez obzira na to, Sarlin smatra da će OpenEuroLLM imati dovoljno sredstava, jer su uglavnom namenjena za pokrivanje troškova ljudi. Naime, veliki deo troškova izgradnje AI sistema je vezan za računarstvo, a to bi trebalo uglavnom biti pokriveno kroz partnerstvo sa EuroHPC centrima.

„Možete reći da OpenEuroLLM zapravo ima prilično značajan budžet,“ rekao je Sarlin. „EuroHPC je investirao milijarde u AI i infrastrukturu za računarstvo, a još milijarde su obećane za proširenje u narednim godinama.“

Takođe, važno je napomenuti da OpenEuroLLM projekt ne gradi proizvod za potrošače ili preduzetnike. Fokus je isključivo na modelima, i zbog toga Sarlin smatra da bi postojeći budžet trebalo da bude dovoljan.

„Cilj ovde nije da izgradimo chatbota ili AI asistenta — to bi bila proizvodna inicijativa koja zahteva puno truda, i to je ono što je ChatGPT tako dobro uradio,“ rekao je Sarlin. „Ono što mi doprinosimo je open source temeljni model koji funkcioniše kao AI infrastruktura za kompanije u Evropi da se na njemu grade. Znamo šta je potrebno da se izgrade modeli, to nije nešto što zahteva milijarde.“

Od 2017. godine, Sarlin predvodi AI lab Silo AI, koji je u partnerstvu sa drugim inicijativama, uključujući HPLT projekat, lansirao porodicu Poro i Viking open modela. Ovi modeli već podržavaju nekoliko evropskih jezika, ali kompanija sada priprema sledeću iteraciju modela „Europa“, koji će pokriti sve evropske jezike.

I ovo se uklapa u celu ideju „ne počinjemo od nule“ koju je izneo Hajič — već postoji temelj ekspertize i tehnologije.

Suverena država

Kao što su kritičari primetili, OpenEuroLLM ima mnogo pokretnih delova — što Hajič priznaje, ali sa pozitivnim pogledom.

„Bio sam uključen u mnoge kolaborativne projekte i verujem da to ima svoje prednosti u odnosu na jednu kompaniju,“ rekao je Hajič. „Naravno, postignuto je mnogo u kompanijama poput OpenAI do Mistral-a, ali se nadam da bi kombinacija akademske ekspertize i fokusa kompanija mogla doneti nešto novo.“

I u mnogim aspektima, nije reč o pokušaju da se nadmaše velike tehnološke kompanije ili AI startapovi vredni milijarde; krajnji cilj je digitalna suverenost: (uglavnom) otvoreni temeljni LLM-ovi, izgrađeni od strane i za Evropu.

„Nadam se da to neće biti slučaj, ali ako na kraju ne budemo broj jedan model, i ako imamo ‘dobar’ model, onda ćemo ipak imati model sa svim komponentama baziranim u Evropi,“ rekao je Hajič. „Ovo će biti pozitivan rezultat.“

Možda će vam se svideti i