Modeli veštačke inteligencije za takozvano razmišljanje postaju sve jednostavniji i jeftiniji za razvoj. U petak je NovaSky, tim istraživača iz laboratorije Sky Computing pri Univerzitetu Berkli, predstavio Sky-T1-32B-Preview, model za razmišljanje koji je konkurentan ranijoj verziji OpenAI-jevog o1 na brojnim ključnim testovima. Sky-T1 se čini kao prvi u potpunosti open-source model za razmišljanje u pravom smislu, jer se može replicirati od nule; tim je objavio skup podataka korišćen za njegovo treniranje, kao i neophodan kod za obuku.
„Zapanjujuće je da je Sky-T1-32B-Preview treniran za manje od 450 dolara,“ napisao je tim u blog objavi, „pokazujući da je moguće replicirati visoke sposobnosti razmišljanja na pristupačan i efikasan način.“
Cena od 450 dolara možda ne zvuči tako povoljno, ali ne tako davno, troškovi treniranja modela sa sličnim performansama često su prelazili nekoliko miliona dolara. Sintetički podaci za obuku, odnosno podaci generisani drugim modelima, značajno su smanjili troškove. Palmyra X 004, model koji je nedavno predstavila AI kompanija Writer, treniran gotovo u potpunosti na sintetičkim podacima, navodno je koštao samo 700.000 dolara.
Za razliku od većine AI modela, modeli za razmišljanje efikasno proveravaju sami sebe, što im pomaže da izbegnu neke uobičajene greške koje ostali modeli često prave. Modeli za razmišljanje obično dolaze do rešenja nešto sporije — često sekunde ili minute duže — u poređenju sa tipičnim modelima koji ne razmišljaju. Prednost ovih modela je u tome što su pouzdaniji u oblastima poput fizike, nauke i matematike.
Tim NovaSky je koristio drugi model za razmišljanje, Alibaba QwQ-32B-Preview, za generisanje početnih podataka za obuku modela Sky-T1. Nakon toga, tim je „pročistio“ mešavinu podataka i upotrebio OpenAI GPT-4o-mini kako bi preradio podatke u format pogodniji za rad. Obuka Sky-T1 modela sa 32 milijarde parametara trajala je oko 19 sati na rack-u sa osam Nvidia H100 GPU-ova. (Parametri otprilike odgovaraju sposobnostima modela za rešavanje problema.)
Prema timu NovaSky, Sky-T1 se pokazao boljim od rane verzije modela o1 na MATH500, zbirci matematičkih izazova na nivou takmičenja. Model je takođe nadmašio o1 na skupu složenih problema iz LiveCodeBench-a, evaluacije kodiranja.
Međutim, Sky-T1 zaostaje za o1 na GPQA-Diamond, zbirci pitanja iz oblasti fizike, biologije i hemije, koja bi se očekivala od doktora nauka.
Takođe, važno je napomenuti da je OpenAI-jev GA izdanak o1 snažniji model od rane verzije o1, a očekuje se da OpenAI uskoro predstavi još napredniji model za razmišljanje, o3.
Tim NovaSky ističe da je Sky-T1 samo početak njihovog putovanja ka razvoju open-source modela sa naprednim sposobnostima razmišljanja.
„U budućnosti ćemo se fokusirati na razvoj efikasnijih modela koji zadržavaju snažne performanse razmišljanja i na istraživanje naprednih tehnika koje dodatno poboljšavaju efikasnost i tačnost modela tokom testiranja,“ napisao je tim u objavi. „Ostanite uz nas dok nastavljamo napredak na ovim uzbudljivim inicijativama.“