Jedna od najčešće korišćenih tehnika za poboljšanje efikasnosti AI modela, kvantizacija, ima svoja ograničenja — i industrija bi mogla brzo doći do njih.
U kontekstu AI-a, kvantizacija se odnosi na smanjenje broja bitova — najmanjih jedinica koje računar može obraditi — potrebnih za predstavljanje informacija. Zamislite ovu analogiju: Kada vas neko pita koje je vreme, verovatno biste rekli „podne“ — a ne „dvanaest sati, jedan sekund i četiri milisekunde.“ To je kvantizacija; oba odgovora su tačna, ali je jedan nešto precizniji. Koliko vam preciznosti zapravo treba zavisi od konteksta.
AI modeli se sastoje od nekoliko komponenti koje mogu biti kvantizovane — posebno parametara, unutrašnjih promenljivih koje modeli koriste za donošenje predikcija ili odluka. Ovo je praktično, s obzirom na to da modeli obavljaju milionima proračuna tokom izvođenja. Kvantizovani modeli sa manjim brojem bitova koji predstavljaju njihove parametre matematički su manje zahtevni, a samim tim i računarski. (Da budemo jasni, ovo je različit proces od „destilovanja“, koji podrazumeva dublje i selektivno obrezivanje parametara.)
Međutim, kvantizacija može imati više kompromisa nego što se ranije pretpostavljalo.
Model koji se sve više smanjuje
Prema studiji istraživača sa Harvarda, Stenforda, MIT-a, Databricksa i Karnegi Melon-a, kvantizovani modeli postižu lošije rezultate ako je originalna, nekvantizovana verzija modela trenirana tokom dužeg perioda na velikom broju podataka. Drugim rečima, u određenom trenutku može biti zapravo bolje trenirati manji model nego smanjivati veličinu većeg.
To bi moglo biti loša vest za AI kompanije koje treniraju izuzetno velike modele (poznate po tome što poboljšavaju kvalitet odgovora), a zatim ih kvantizuju u pokušaju da ih učine jeftinijim za implementaciju.
Efekti su već počeli da se manifestuju. Pre nekoliko meseci, programeri i akademici su izvestili da kvantizacija Meta modela Llama 3 obično ima „štetnije“ efekte u poređenju sa drugim modelima, verovatno zbog načina na koji je treniran.
„Po mom mišljenju, najveći trošak za sve u AI-u je i biće nadalje inferencija, a naš rad pokazuje da jedan važan način za smanjenje tog troška neće funkcionisati zauvek“, rekao je Tanishq Kumar, student matematike na Harvardu i prvi autor na studiji.
Suprotno popularnom verovanju, inferencija AI modela — pokretanje modela, kao što je kada ChatGPT odgovara na pitanje — često je skuplja u zbiru nego treniranje modela. Na primer, Google je potrošio oko 191 milion dolara za treniranje jednog od svojih ključnih Gemini modela — što je svakako ogromna suma. Međutim, ako bi kompanija koristila model za generisanje odgovora od 50 reči na polovinu svih Google pretraga, trošila bi oko 6 milijardi dolara godišnje.
Velike AI laboratorije prihvatile su treniranje modela na masivnim skupovima podataka pod pretpostavkom da će „skaliranje“ — povećanje količine podataka i računarske snage korišćene u treningu — dovesti do sve sposobnijih AI sistema.
Na primer, Meta je trenirala Llama 3 na skupu od 15 triliona tokena. (Tokeni predstavljaju delove sirovih podataka; 1 milion tokena je otprilike 750.000 reči.) Prethodna generacija, Llama 2, trenirana je na „samo“ 2 triliona tokena. Početkom decembra, Meta je objavila novi model, Llama 3.3 70B, koji, kako kompanija tvrdi, „poboljšava osnovne performanse uz značajno niže troškove.“
Dokazi sugerišu da skaliranje na kraju donosi opadajuće prinose; Anthropic i Google su nedavno trenirali ogromne modele koji nisu ispunili očekivanja prema internim benchmark testovima. Ipak, nije se primetilo da je industrija spremna da se značajno pomeri od ovih ustaljenih pristupa skaliranju.
Koliko tačno precizno?
Dakle, ako laboratorije oklevaju da treniraju modele na manjim skupovima podataka, postoji li način da se modeli učine manje podložnim degradaciji? Moguće. Kumar kaže da je on i njegove kolege otkrio da treniranje modela u „niskoj preciznosti“ može učiniti modele robusnijim. Dozvolite nam da se malo detaljnije zaronimo u ovu temu.
„Preciznost“ ovde se odnosi na broj cifara koje numerički tip podataka može precizno predstaviti. Tipovi podataka su zbirke podataka vrednosti, obično specificirani skupom mogućih vrednosti i dozvoljenih operacija; tip podataka FP8, na primer, koristi samo 8 bita za predstavljanje broja u pokretnom zarezu.
Većina modela danas se trenira sa 16-bitnom ili „polovičnom preciznošću“, a zatim se „kvantizuje nakon treninga“ na 8-bitnu preciznost. Određeni delovi modela (npr. parametri) konvertuju se u format sa nižom preciznošću na račun određenog gubitka tačnosti. Možete to zamisliti kao izračunavanje do nekoliko decimala, a zatim zaokruživanje na najbližu desetinu, što često daje najbolje od oba sveta.
Proizvođači hardvera, poput Nvidia-e, zagovaraju nižu preciznost za inferenciju kvantizovanih modela. Kompanija je razvila svoj novi Blackwell čip koji podržava 4-bitnu preciznost, specifično podatkovni tip nazvan FP4; Nvidia ovo predstavlja kao prednost za data centre koji su ograničeni u pogledu memorije i energije.
Ali izuzetno niska kvantizacija preciznosti možda nije poželjna. Prema Kumarovim rečima, osim ako originalni model nije neverovatno veliki u pogledu broja svojih parametara, preciznosti niže od 7 ili 8 bita mogu rezultirati primetnim smanjenjem kvaliteta.
Ako sve ovo deluje pomalo tehnički, ne brinite — i jeste. Ali osnovna poruka je jednostavna: AI modeli nisu potpuno razumljivi, i poznate prečice koje funkcionišu u mnogim vrstama računanja ne funkcionišu ovde. Ne biste rekli „podne“ ako bi vas neko pitao kada ste počeli trku na 100 metara, zar ne? Naravno, to nije baš tako očigledno, ali ideja je ista:
„Ključna poenta našeg rada je da postoje ograničenja koja ne možete naivno zaobići“, zaključio je Kumar. „Nadamo se da će naš rad dodati nijanse u diskusiju koja često teži sve nižim podrazumevanim preciznostima za trening i inferenciju.“
Kumar priznaje da je njegov i rad njegovih kolega sproveden u relativno maloj skali — planiraju da ga testiraju sa više modela u budućnosti. Ali veruje da će barem jedan uvid ostati tačan: Ne postoji besplatan ručak kada je u pitanju smanjenje troškova inferencije.
„Preciznost bitova je važna, i nije besplatna“, rekao je. „Ne možete je smanjivati zauvek bez da modeli trpe. Modeli imaju ograničene kapacitete, pa će, umesto pokušaja da se spakuje kvadrilion tokena u mali model, po mom mišljenju, mnogo više truda biti uloženo u pažljivo kuriranje i filtriranje podataka, kako bi se samo podaci najvišeg kvaliteta uneli u manje modele. Optimizujem da će nove arhitekture koje će namerno težiti da učine stabilnim treniranje sa niskom preciznošću biti važne u budućnosti.“