Generativna veštačka inteligencija (AI) poznata je po problemima u stvaranju doslednih slika, često praveći greške u detaljima poput prstiju i simetrije lica. Pored toga, ovi modeli mogu potpuno da ne uspeju kada se zahtevaju slike različitih veličina i rezolucija.
Nova metoda generisanja slika sa unapred obučenim difuzionim modelima ⎯ klasom generativnih AI modela koji „uče“ dodajući sloj za slojem slučajnog šuma slikama na kojima su obučeni i zatim generišu nove slike uklanjanjem dodatnog šuma ⎯ mogla bi pomoći u ispravljanju ovih problema.
Moayed Haji Ali, doktorand iz oblasti računarskih nauka sa Univerziteta Rice, opisao je novi pristup, nazvan ElasticDiffusion, u recenziranom radu predstavljenom na Konferenciji o računarskoj viziji i prepoznavanju obrazaca (CVPR) koju organizuje Instituut inženjera elektrotehnike i elektronike (IEEE) 2024 u Sijetlu.

„Ako obučite model samo na slikama određene rezolucije, on može da generiše slike samo te rezolucije,“ rekao je Vicente Ordóñez-Román, vanredni profesor računarskih nauka koji je savetovao Haji Alija u njegovom radu zajedno sa Guha Balakrishnanom, pomoćnikom profesora elektrotehnike i računarskog inženjeringa.
Ordóñez-Román je objasnio da je ovo problem poznat kao prekomerno prilagođavanje (overfitting), gde AI model postaje izuzetno dobar u generisanju podataka sličnih onima na kojima je obučen, ali ne može da se odmakne daleko od tih parametara.
„To možete rešiti obučavanjem modela na širem spektru slika, ali je to skupo i zahteva ogroman računarski kapacitet ⎯ stotine, pa možda i hiljade grafičkih procesorskih jedinica,“ rekao je Ordóñez-Román.
Prema rečima Haji Alija, digitalni šum koji koriste difuzioni modeli može se pretvoriti u signal sa dva tipa podataka: lokalnim i globalnim. Lokalni signal sadrži informacije o detaljima na nivou piksela, kao što su oblik oka ili tekstura pseće dlake. Globalni signal sadrži više celokupan obris slike.

„Jedan od razloga zbog kojih difuzioni modeli imaju problema sa nespravnim odnosima stranica je taj što obično kombinuju lokalne i globalne informacije,“ rekao je Haji Ali, koji je pre pridruživanja istraživačkoj grupi Ordóñez-Romána na Rice univerzitetu radio na sintezi kretanja u video zapisima generisanim pomoću AI-a. „Kada model pokuša da duplira te podatke kako bi se prilagodio dodatnom prostoru u neispravno oblikovanoj slici, to rezultira vizuelnim nedostacima.“
Metoda ElasticDiffusion u radu Haji Alija koristi drugačiji pristup kreiranju slike. Umesto da kombinuje oba signala, ElasticDiffusion razdvaja lokalne i globalne signale na uslovne i neusklađene generativne putanje. Oduzima se uslovni model od neusklađenog modela, dobijajući rezultat koji sadrži globalne informacije o slici.
Nakon toga, neusklađena putanja sa lokalnim detaljima na nivou piksela primenjuje se na sliku u kvadrantima, popunjavajući detalje jedan po jedan. Globalne informacije ⎯ kakav treba da bude odnos stranica slike i šta je slika (pas, osoba koja trči, itd.) ⎯ ostaju odvojene, tako da ne postoji mogućnost da AI zbuni signale i ponovi podatke. Rezultat je čistija slika, bez obzira na odnos stranica, koja ne zahteva dodatno obučavanje.

„Ovaj pristup je uspešan pokušaj da se iskoriste međureprezentacije modela kako bi se skalirale tako da dobijete globalnu doslednost,“ rekao je Ordóñez-Román.
Jedini nedostatak ElasticDiffusion-a u poređenju sa drugim difusionim modelima je vreme. Trenutno, metod Haji Alija zahvata od 6 do 9 puta duže da napravi sliku. Cilj je da se to vreme smanji na isto kao kod drugih modela poput Stable Diffusion-a ili DALL-E-a.
„Nadam se da će ovo istraživanje pomoći u definisanju…zašto difuzioni modeli generišu ove repetitivne delove i ne mogu da se prilagode promenljivim odnosima stranica i da se razvije okvir koji može da se prilagodi bilo kojem odnosu stranica bez obzira na obuku, uz isto vreme inferencije,“ rekao je Haji Ali.



