DeepSeek-ov novi AI model čini se kao jedan od najboljih „otvorenih“ izazivača do sada

od Ivan Radojevic 27/12/2024

27/12/2024

DeepSeek-ov novi AI model čini se kao jedan od najboljih otvorenih izazivača do sada

Kineski laboratorijum je stvorio model koji se čini kao jedan od najmoćnijih „otvorenih“ AI modela do danas.

Model, DeepSeek V3, razvila je AI firma DeepSeek i pušten je u rad u sredu pod dozvolom koja omogućava programerima da ga preuzmu i modifikuju za većinu aplikacija, uključujući komercijalne.

DeepSeek V3 može da obradi niz zadataka zasnovanih na tekstu, kao što su kodiranje, prevođenje i pisanje eseja i e-mailova na osnovu deskriptivnog upita.

Prema internom testiranju DeepSeek-a, DeepSeek V3 premašuje i preuzimljive „otvorene“ modele i „zatvorene“ AI modele koji mogu biti pristupljeni samo putem API-ja. U okviru niza takmičenja u kodiranju na Codeforces-u, platformi za takmičenja u programiranju, DeepSeek je bolji od drugih modela, uključujući Meta-in Llama 3.1 405B, OpenAI-ov GPT-4o i Alibaba-in Qwen 2.5 72B.

DeepSeek V3 takođe nadmašuje konkurenciju na Aider Polyglot testu, koji je dizajniran da meri, između ostalog, da li model može uspešno napisati novi kod koji se integriše u postojeći kod.

DeepSeek-ov novi AI model čini se kao jedan od najboljih otvorenih izazivača do sada 1

DeepSeek tvrdi da je DeepSeek V3 treniran na skupu podataka od 14,8 triliona tokena. U nauci o podacima, tokeni se koriste za predstavljanje delova sirovih podataka — 1 milion tokena je otprilike 750.000 reči.

Nije samo skup podataka koji je ogromna. DeepSeek V3 je ogroman po veličini: 671 milijarda parametara, ili 685 milijardi na AI platformi Hugging Face. (Parametri su unutrašnje varijable koje modeli koriste za donošenje predikcija ili odluka.) To je oko 1,6 puta veća veličina od Llama 3.1 405B, koji ima 405 milijardi parametara.

Broj parametara često (ali ne uvek) korelira sa veštinama; modeli sa više parametara obično nadmašuju modele sa manje parametara. Međutim, veliki modeli takođe zahtevaju snažniji hardver kako bi radili. Neoptimizovana verzija DeepSeek V3 bi zahtevala grupu visokokvalitetnih GPU-ova da odgovara na pitanja prihvatljivim brzinama.

Iako nije najpraktičniji model, DeepSeek V3 je postignuće u nekim aspektima. DeepSeek je uspeo da trenira model koristeći podatkovni centar sa Nvidia H800 GPU-ovima za samo oko dva meseca — GPU-ovi koje su kineske kompanije nedavno bile ograničene od strane američkog Ministarstva trgovine da nabavljaju. Kompanija takođe tvrdi da je za treniranje DeepSeek V3 potrošila samo 5,5 miliona dolara, što je delić troškova razvoja modela kao što je OpenAI-ov GPT-4.

Loša strana je što politička stajališta modela mogu biti… ukočena. Na primer, pitajte DeepSeek V3 o Tjenanmenskom trgu i on neće odgovoriti.

DeepSeek-ov novi AI model čini se kao jedan od najboljih otvorenih izazivača do sada 2

DeepSeek, kao kineska kompanija, podložna je ocenjivanju od strane kineskog regulatora interneta kako bi se osiguralo da odgovori njenih modela „odražavaju osnovne socijalističke vrednosti“.

DeepSeek, koji je krajem novembra predstavio DeepSeek-R1, odgovor na OpenAI-ov o1 model „razmišljanja“, je zanimljiva organizacija. Podržava ga High-Flyer Capital Management, kineski kvantitativni hedge fond koji koristi AI za donošenje odluka u trgovanju.

High-Flyer gradi sopstvene server klastere za obuku modela, a jedan od najnovijih navodno ima 10.000 Nvidia A100 GPU-ova i košta 1 milijardu jena (~138 miliona dolara). Osnovao ga je Liang Wenfeng, diplomirani inženjer računarstva, a High-Flyer ima cilj da postigne „superinteligentan“ AI kroz svoju DeepSeek organizaciju.

U intervjuu ranije ove godine, Wenfeng je zatvoreni AI, poput OpenAI-ovog, opisao kao „privremeni“ bedem. „[To] nije sprečilo druge da sustignu“, primetio je.

DeepSeek-ov novi AI model čini se kao jedan od najboljih „otvorenih“ izazivača do sada

ChatGPT pretraga može biti obmanjujuća, otkriva novo istraživanje

ChatGPT i Sora su prestali da rade po drugi put ovog meseca

Možda će vam se svideti i