Nvidia i Mistral AI predstavili su novi mali jezički model koji navodno ima „najmoderniju“ tačnost u malom pakovanju. Novi model se zove Mistral-NemMo-Minitron 8B, miniaturizovana verzija NeMo 12B koja je smanjena sa 12 milijardi na 8 milijardi parametara.
Novi jezički model od 8 milijardi parametara smanjen je korišćenjem dve različite metode optimizacije veštačke inteligencije, rekao je Bryan Catanzaro, potpredsednik za istraživanje dubokog učenja u Nvidiji, u blog postu. Tim koji stoji iza novog modela koristio je proces koji kombinuje obrezivanje i destilaciju. „Obrezivanje smanjuje neuronsku mrežu uklanjanjem težina modela koje najmanje doprinose tačnosti. Tokom destilacije, tim je ponovo trenirao ovaj obrezani model na malom skupu podataka kako bi značajno poboljšao tačnost koja je opala tokom procesa obrezivanja.“
Ove optimizacije omogućile su programerima da obučavaju optimizovani jezički model na „delu originalnog skupa podataka“, što je rezultiralo uštedom do 40 puta u odnosu na troškove sirove obrade. Obično, AI modeli moraju da balansiraju između veličine modela i tačnosti, ali sa novim tehnikama obrezivanja i destilacije Nvidije i Mistral AI-a, jezički modeli mogu imati najbolje od oba sveta.
Mistral-NemMo-Minitron 8B, sa ovim unapređenjima, navodno vodi u devet AI benchmark testova koji se fokusiraju na jezičke modele slične veličine. Količina ušteđene računarske snage je dovoljna da laptopovi i radne stanice mogu lokalno pokrenuti Minitron 8B, čineći njegov rad bržim i sigurnijim u poređenju sa cloud uslugama.
Nvidia je dizajnirala Minitron 8B za računarski hardver baziran na potrošačima. Model je pakovan kao Nvidia NIM mikroservis, a AI model je optimizovan za nisku latenciju, što poboljšava vreme odgovora. Nvidia pruža svoju uslugu prilagođenog modela, AI Foundry, kako bi se Minitron 8B prilagodio čak i manje moćnim sistemima, poput pametnih telefona. Tačnost i performanse neće biti toliko dobre, ali Nvidia tvrdi da bi model i dalje bio visoko tačan jezički model, koji zahteva samo deo podataka za obuku i infrastrukture za obradu u poređenju sa onim što bi inače bilo potrebno.
Obrezivanje i destilacija čini se da su sledeća granica za optimizaciju performansi veštačke inteligencije. Teoretski, ništa ne sprečava programere da primenjuju ove tehnike optimizacije na sve trenutne jezičke modele, što bi značajno poboljšalo performanse u celini, uključujući velike jezičke modele koji mogu da funkcionišu samo uz pomoć AI-akcelerisanih server farmi.