Home AIAi2 predstavlja Tülu 3: Otvoreni alat koji svima omogućava prilagođavanje jezičkih modela veštačke inteligencije

Ai2 predstavlja Tülu 3: Otvoreni alat koji svima omogućava prilagođavanje jezičkih modela veštačke inteligencije

od Ivan Radojevic
Ai2 predstavlja Tülu 3 Otvoreni alat koji svima omogućava prilagođavanje jezičkih modela veštačke inteligencije (2)

Pitajte bilo koga iz zajednice otvorenog koda za veštačku inteligenciju, i reći će vam da razlika između njih i velikih privatnih kompanija nije samo u računarskoj moći. Ai2 radi na tome da to promeni, prvo sa potpuno otvorenim bazama podataka i modelima, a sada i sa otvorenim i lako prilagodljivim režimom za post-trening kako bi „sirovi“ veliki jezički modeli (LLM) postali upotrebljivi.

Suprotno onome što mnogi misle, „osnovni“ jezički modeli ne izlaze iz procesa obuke spremni za upotrebu. Pretrening je, naravno, neophodan, ali daleko od dovoljnog. Neki čak veruju da pretrening uskoro možda više neće biti najvažniji deo uopšte.

To je zato što se sve više pokazuje da se prava vrednost stvara u procesu post-treninga. U ovom procesu model se oblikuje iz ogromne mreže „sveznalice“ koja jednako lako može proizvesti tačke poricanja Holokausta kao i recepte za kolačiće. To, očigledno, nije poželjno!

Kompanije su tajnovite kada je reč o njihovim post-trening procedurama, jer, iako svako može da prikuplja podatke sa interneta i napravi model koristeći najsavremenije metode, učiniti taj model korisnim, recimo za terapeuta ili istraživačkog analitičara, predstavlja potpuno drugačiji izazov.

Ai2 predstavlja Tülu 3 Otvoreni alat koji svima omogućava prilagođavanje jezičkih modela veštačke inteligencije 2

Ai2 (ranije poznat kao Institut za veštačku inteligenciju Alan) ukazuje na nedostatak transparentnosti u projektima koji se predstavljaju kao „otvoreni“, poput Meta-inog modela Llama. Iako je model zaista slobodan za upotrebu i prilagođavanje, izvori podataka, proces stvaranja osnovnog modela i metoda treninga za opštu primenu ostaju pažljivo čuvane tajne. To nije loše — ali takođe nije ni potpuno „otvoreno“.

S druge strane, Ai2 se zalaže za maksimalnu otvorenost, od otkrivanja procesa prikupljanja, selekcije i čišćenja podataka, do tačnih metoda treninga koje koristi za kreiranje jezičkih modela poput OLMo-a.

Međutim, jednostavna istina je da malo programera ima potrebne veštine da sami pokreću jezičke modele, a još manje njih može da sprovodi post-trening na način na koji to rade Meta, OpenAI ili Anthropic — delom zato što ne znaju kako, ali i zato što je taj proces tehnički složen i vremenski zahtevan.

Srećom, Ai2 želi da demokratizuje i ovaj aspekt AI ekosistema. Tu na scenu stupa Tülu 3. Ovo je značajno unapređenje u odnosu na raniji, jednostavniji proces post-treninga (nazvan, kako ste i pretpostavili, Tülu 2). Prema testovima ove neprofitne organizacije, rezultati su bili uporedivi s najnaprednijim „otvorenim“ modelima dostupnim danas. Proces je zasnovan na mesecima eksperimentisanja, proučavanja i interpretacije nagoveštaja velikih kompanija, uz brojne iterativne treninge.

Ai2 predstavlja Tülu 3 Otvoreni alat koji svima omogućava prilagođavanje jezičkih modela veštačke inteligencije 1

Tülu 3, u suštini, obuhvata sve, od odabira tema na koje želite da vaš model obrati pažnju — na primer, smanjenje važnosti multijezičnih sposobnosti uz istovremeno povećanje fokusa na matematiku i programiranje — do sprovođenja dugotrajnog procesa selekcije podataka, učenja uz pojačanje, finog podešavanja i prilagođavanja prema preferencijama. Pored toga, uključuje i podešavanje brojnih meta-parametara i trening procesa koji bi se teško mogli jednostavno opisati. Rezultat je, nadamo se, mnogo sposobniji model prilagođen veštinama koje su vam potrebne.

Prava poenta ovde jeste oduzimanje još jedne „igračke“ iz arsenala privatnih kompanija. Ranije je, ukoliko ste želeli da izgradite prilagođeni jezički model, bilo izuzetno teško izbeći oslanjanje na resurse velikih kompanija, na ovaj ili onaj način, ili angažovanje posrednika koji bi obavio posao za vas. To nije samo skupo, već nosi i rizike koje neke kompanije nisu spremne da prihvate.

Na primer, kompanije koje se bave medicinskim istraživanjima i uslugama: Naravno, mogli biste koristiti OpenAI API ili sarađivati sa Scale-om ili nekom sličnom kompanijom za prilagođavanje internog modela, ali oba pristupa uključuju angažovanje spoljašnjih kompanija koje mogu imati pristup osetljivim korisničkim podacima. Ako je to neizbežno, jednostavno morate prihvatiti rizik — ali ako nije? Recimo, ako istraživačka organizacija ponudi kompletan pre- i post-trening režim koji možete implementirati lokalno? To bi mogla biti mnogo bolja alternativa.

Ai2 već koristi ovu tehnologiju, što je najbolja potvrda njenog kvaliteta. Iako se trenutni test rezultati, koje objavljuju danas, oslanjaju na Llama kao osnovni model, Ai2 planira da uskoro objavi model baziran na OLMo-u, obučen uz pomoć Tülu 3, koji bi trebalo da donese još veća poboljšanja u odnosu na osnovni model i bude potpuno otvorenog koda, od početka do kraja.

Banner

Banner

Možda će vam se svideti i