Niko još uvek ne zna za šta su generativni video modeli zaista korisni, ali to nije sprečilo kompanije poput Runway-a, OpenAI-a i Meta-e da ulože milione u njihov razvoj. Meta-in najnoviji model zove se Movie Gen, i, verno svom imenu, pretvara tekstualne upute u relativno realističan video sa zvukom… ali srećom, još uvek bez glasa. Mudro, nisu odlučili da ga objave javno.
Movie Gen je zapravo zbirka (ili „casting“ kako oni to nazivaju) osnovnih modela, od kojih je najveći model za pretvaranje teksta u video. Meta tvrdi da nadmašuje slične modele kao što su Runway-ov Gen3, najnoviji LumaLabs i Kling1.5, iako, kao i uvek, ovakve tvrdnje više pokazuju da igraju istu igru nego da Movie Gen zapravo pobeđuje. Tehničke pojedinosti mogu se pronaći u radu koji je Meta objavila, opisujući sve komponente.
Zvuk se generiše kako bi odgovarao sadržaju videa, dodajući, na primer, zvukove motora koji odgovaraju pokretima automobila, ili šum vodopada u pozadini, ili udar groma usred videa kada je to potrebno. Čak će dodati muziku ako to deluje relevantno.

Obučavan je na „kombinaciji licenciranih i javno dostupnih skupova podataka“ koje su nazvali „proprietary/commercially sensitive“ i nisu želeli da daju dalje detalje. Možemo samo da pretpostavimo da to znači da je reč o velikom broju videa sa Instagram-a i Facebook-a, plus neki sadržaji od partnera i mnogo drugih koji su nedovoljno zaštićeni od scrapers-a — odnosno „javnih podataka“.
Ono što Meta očigledno želi da postigne nije samo osvajanje titule „najboljeg“ modela na mesec ili dva, već praktičan pristup od početka do kraja, gde se može proizvesti solidan konačni proizvod iz veoma jednostavnih uputa na prirodnom jeziku. Na primer, „zamislite me kao pekara koji pravi sjajan tortu u obliku hipopotama tokom oluje.“
Jedna od prepreka za ove generatore videa bila je koliko je obično teško uređivati ih. Ako tražite video nekoga ko prelazi ulicu, a zatim shvatite da želite da ide s desna na levo umesto s leva na desno, postoji velika verovatnoća da će ceo kadar izgledati drugačije kada ponovite uputstvo sa tom dodatnom instrukcijom. Meta dodaje jednostavnu, tekstualnu metodu uređivanja gde možete jednostavno reći „promeni pozadinu u prometnu raskrsnicu“ ili „promeni joj odeću u crvenu haljinu“ i pokušaće da izvrši tu promenu, ali samo tu promenu.

Pokreti kamere su takođe generalno shvaćeni, uzimajući u obzir stvari poput „pratećeg kadra“ i „pomeri levo“ prilikom generisanja videa. Ovo je još uvek prilično nespretno u poređenju sa pravom kontrolom kamere, ali je mnogo bolje od ničega.
Ograničenja modela su pomalo čudna. Generiše video širine 768 piksela, dimenzije koje su mnogima poznate iz poznatog, ali zastarelog formata 1024×768, ali je takođe tri puta 256, što ga čini pogodnim za druge HD formate. Movie Gen sistem povećava ovu rezoluciju na 1080p, što je izvor tvrdnje da generiše tu rezoluciju. To nije potpuno tačno, ali ćemo im dati prolaz jer je povećavanje rezolucije iznenađujuće efikasno.
Čudno je što generiše do 16 sekundi videa… na 16 frejmova u sekundi, brzina prikazivanja koju niko u istoriji nikada nije želeo ili tražio. Međutim, možete takođe dobiti 10 sekundi video na 24 FPS-a. O tome treba prvo govoriti!
Što se tiče razloga zašto ne generiše glas… pa, verovatno postoje dva razloga. Prvo, to je veoma teško. Generisanje govora je sada lako, ali uskladiti ga sa pokretima usana, i te usne sa pokretima lica, mnogo je komplikovanija stvar. Ne zameram im što su ovo ostavili za kasnije, jer bi to bio neuspeh od samog početka. Neko bi mogao reći „generiši klovna koji izgovara Getisburšku adresu dok vozi mali bicikl u krug“ — noćna mora spremna da postane viralna.

Drugi razlog je verovatno političke prirode: izdavanje onoga što se može smatrati generatorom dubokih laži mesec dana pre velikih izbora nije… najbolje za imidž. Ograničavanje njegovih mogućnosti malo, tako da bi, u slučaju da zlonamerni akteri pokušaju da ga upotrebe, zahtevalo stvaran trud s njihove strane, predstavlja praktičan preventivni korak. Naravno, moglo bi se kombinovati ovaj generativni model sa generatorom govora i otvorenim sinhronizatorom usana, ali ne možete jednostavno dozvoliti da generiše kandidata koji iznosi divlje tvrdnje.
„Movie Gen je trenutno isključivo koncept istraživanja veštačke inteligencije, i čak u ovoj ranoj fazi, bezbednost je prioritet, kao što je to bio slučaj sa svim našim generativnim AI tehnologijama,“ izjavio je predstavnik Mete u odgovoru na pitanja TechCrunch-a.
Za razliku od, recimo, Llama velikih jezičkih modela, Movie Gen neće biti javno dostupan. Možete donekle replicirati njegove tehnike prateći istraživački rad, ali kod neće biti objavljen, osim „osnovnog skupa podataka o evaluaciji upita,“ što znači evidenciju o tome koji su upiti korišćeni za generisanje test videa.



