DeepSeek tvrdi da njegov model za „rezonovanje“ nadmašuje OpenAI o1 na određenim testovima

od Ivan Radojevic 21/01/2025

21/01/2025

DeepSeek tvrdi da njegov model za „rezonovanje“ nadmašuje OpenAI-jev o1 na određenim testovima

Kineska AI laboratorija DeepSeek objavila je otvorenu verziju DeepSeek-R1, svog modela za takozvano rezonovanje, za koji tvrdi da se na određenim AI testovima pokazuje bolje od OpenAI-jevog o1.

R1 je dostupan na AI platformi Hugging Face pod MIT licencom, što znači da se može komercijalno koristiti bez ograničenja. Prema DeepSeek-u, R1 nadmašuje o1 na testovima AIME, MATH-500 i SWE-bench Verified. AIME koristi druge modele za procenu performansi modela, dok je MATH-500 kolekcija tekstualnih zadataka. SWE-bench Verified se fokusira na programerske zadatke.

Kao model za rezonovanje, R1 samostalno proverava tačnost svojih rezultata, što mu pomaže da izbegne uobičajene greške koje ometaju druge modele. Modeli za rezonovanje obično dolaze do rešenja nešto sporije — u rasponu od nekoliko sekundi do nekoliko minuta duže — u poređenju sa tipičnim modelima koji nisu za rezonovanje. Prednost je u tome što su pouzdaniji u oblastima poput fizike, nauke i matematike.

R1 sadrži 671 milijardu parametara, otkrio je DeepSeek u tehničkom izveštaju. Parametri približno odgovaraju sposobnosti modela da rešava probleme, a modeli sa više parametara generalno imaju bolje performanse od onih sa manje.

Iako je 671 milijarda parametara ogromna brojka, DeepSeek je takođe objavio „destilovane“ verzije R1, čiji broj parametara varira od 1,5 milijardi do 70 milijardi. Najmanji modeli mogu raditi na laptopu. Što se tiče pune verzije R1, ona zahteva jaču hardversku opremu, ali je dostupna putem DeepSeek-ovog API-ja po cenama koje su 90%-95% niže od OpenAI-jevog o1.

Međutim, R1 ima i manu. Kao kineski model, podložan je proverama kineskog regulatora interneta kako bi se osiguralo da njegovi odgovori „zadovoljavaju osnovne socijalističke vrednosti.“ Na primer, R1 neće odgovarati na pitanja o Trgu Tjenanmen ili autonomiji Tajvana.

DeepSeek tvrdi da njegov model za „rezonovanje“ nadmašuje OpenAI-jev o1 na određenim testovima 1

Mnogi kineski AI sistemi, uključujući druge modele za rezonovanje, odbijaju da odgovore na teme koje bi mogle izazvati nezadovoljstvo regulatora u zemlji, poput spekulacija o režimu Si Đinpinga.

R1 dolazi samo nekoliko dana nakon što je odlazeća Bajdenova administracija predložila strožija pravila i ograničenja za izvoz AI tehnologija kineskim kompanijama. Kompanijama u Kini već je bilo zabranjeno kupovati napredne AI čipove, ali ako nova pravila stupe na snagu kako su predložena, suočiće se sa još strožim ograničenjima i na tehnologiju poluprovodnika i na modele potrebne za razvoj sofisticiranih AI sistema.

U dokumentu o politici prošle nedelje, OpenAI je pozvao vladu SAD-a da podrži razvoj američke AI tehnologije, kako kineski modeli ne bi dostigli ili nadmašili njihove mogućnosti. U intervjuu za The Information, potpredsednik za politiku OpenAI-a, Kris Lehajn, posebno je istakao High Flyer Capital Management, korporativnog vlasnika DeepSeek-a, kao organizaciju od posebne zabrinutosti.

Do sada su najmanje tri kineske laboratorije — DeepSeek, Alibaba i Kimi, koja je u vlasništvu kineskog jednoroga Moonshot AI — proizvele modele za koje tvrde da su na nivou o1. (Važno je napomenuti da je DeepSeek bio prvi — najavio je pregled R1 krajem novembra.) U objavi na X-u, Din Bol, AI istraživač sa Univerziteta Džordž Mejson, rekao je da trend sugeriše da će kineske AI laboratorije nastaviti da budu „brzi pratioci.“

„Impresivne performanse destilovanih modela DeepSeek-a […] znače da će vrlo sposobni modeli za rezonovanje nastaviti da se šire i biti dostupni za pokretanje na lokalnom hardveru,“ napisao je Bol, „daleko od očiju bilo kojeg režima sa centralizovanom kontrolom.“

DeepSeek tvrdi da njegov model za „rezonovanje“ nadmašuje OpenAI o1 na određenim testovima

OpenAI-jev alat agent možda uskoro izlazi

AI startup Metropolis preuzima Oosto za samo 125 miliona dolara

Možda će vam se svideti i