Home AIAMD-135M je prvi mali jezički model kompanije koji se fokusira na spekulativno dekodiranje za tehnološki napredak

AMD-135M je prvi mali jezički model kompanije koji se fokusira na spekulativno dekodiranje za tehnološki napredak

od Ivan Radojevic

U stalno evoluirajućem svetu veštačke inteligencije, veliki jezički modeli (LLM) poput GPT-4 i Llama su privukli značajnu pažnju zbog svojih impresivnih sposobnosti u obradi i generaciji prirodnog jezika.

Međutim, mali jezički modeli (SLM) postaju ključni protivnik u zajednici AI modela, nudeći jedinstvenu prednost za specifične slučajeve upotrebe. AMD je uzbuđen da predstavi svoj prvi mali jezički model, AMD-135M sa spekulativnim dekodiranjem. Ovaj rad pokazuje posvećenost otvorenom pristupu veštačkoj inteligenciji, što će dovesti do inkluzivnijeg, etičkog i inovativnog tehnološkog napretka, pomažući da se osigura da se njene koristi šire i da se njeni izazovi kolektivno rešavaju.

AMD-135M: Prvi mali jezički model kompanije AMD

AMD-135M je prvi mali jezički model iz Llama porodice koji je treniran od nule na AMD Instinct MI250 akceleratorima, koristeći 670 milijardi tokena, podeljen u dva modela: AMD-Llama-135M i AMD-Llama-135M-code.

  • Predtreniranje: Model AMD-Llama-135M je treniran od nule sa 670 milijardi tokena opštih podataka tokom šest dana koristeći četiri MI250 čvora.
  • Fino podešavanje koda: Varijanta AMD-Llama-135M-code je fino podešena dodatnih 20 milijardi tokena podataka o kodu, što je trajalo četiri dana na istom hardveru.

Kod za treniranje, dataset i težine ovog modela su otvoreni, što omogućava programerima da reprodukuju model i pomognu u obuci drugih SLM-ova i LLM-ova.

Optimizacija sa spekulativnim dekodiranjem

Veliki jezički modeli obično koriste autoregresivni pristup za inferenciju. Međutim, glavna ograničenja ovog pristupa su to što svaki prolaz napred može generisati samo jedan token, što rezultira niskom efikasnošću pristupa memoriji i utiče na ukupnu brzinu inferencije.

AMD-135M je prvi mali jezički model kompanije koji se fokusira na spekulativno dekodiranje za tehnološki napredak 1

Pojava spekulativnog dekodiranja rešila je ovaj problem. Osnovna ideja uključuje korišćenje malog modela skica za generisanje skupa kandidatskih tokena, koji se zatim verifikuju od strane većeg ciljnog modela. Ovaj pristup omogućava svakom prolazu napred da generiše više tokena bez kompromitovanja performansi, čime se značajno smanjuje potrošnja pristupa memoriji i omogućava poboljšanje brzine za nekoliko redova veličine.

Ubrzanje performansi inferencije

Korišćenjem AMD-Llama-135M-code kao modela skice za CodeLlama-7b, testirali smo performanse inferencije sa i bez spekulativnog dekodiranja na MI250 akceleratoru za podatkovne centre i Ryzen™ AI procesore (sa NPU) za AI računare. Za specifične konfiguracije koje smo testirali koristeći AMD-Llama-135M-code kao model skice, zabeležili smo ubrzanje na Instinct MI250 akceleratoru, Ryzen AI CPU-u i na Ryzen AI NPU-u u poređenju sa inferencijom bez spekulativnog dekodiranja. AMD-135M SLM uspostavlja end-to-end radni tok, obuhvatajući kako obuku, tako i inferenciju, na odabranim AMD platformama.

Banner

Banner

Možda će vam se svideti i