Početkom ove nedelje, DeepSeek, dobro finansirani kineski AI laboratorijum, predstavio je „otvoreni“ AI model koji je bolji od mnogih rivala na popularnim benchmark testovima. Model, DeepSeek V3, je veliki, ali efikasan, i sa lakoćom obavlja zadatke zasnovane na tekstu poput kodiranja i pisanja eseja.
Takođe, čini se da misli da je ChatGPT.
Objave na X-u pokazuju da DeepSeek V3 sebe identifikuje kao ChatGPT, OpenAI-ovu AI platformu za chat. Kada je upitan da objasni, DeepSeek V3 insistira da je verzija OpenAI-ovog GPT-4 modela koji je objavljen 2023. godine.
Ovo se zapravo reprodukuje i danas. U 5 od 8 generacija, DeepSeekV3 tvrdi da je ChatGPT (v4), dok sebe naziva DeepSeekV3 samo 3 puta.
Daje vam grubu predstavu o distribuciji njihovih podataka za obuku. [link]
Zablude su duboke. Ako postavite pitanje DeepSeek V3 o DeepSeek API-ju, ono će vam dati uputstvo kako da koristite OpenAI API. DeepSeek V3 čak govori iste šale kao GPT-4 — do poslednje poente.
Šta se zapravo dešava?
Modeli poput ChatGPT-a i DeepSeek V3 su statistički sistemi. Trenirani na milijardama primera, oni uče obrasce u tim primerima kako bi donosili predviđanja — kao što je to da „to whom“ u emailu obično prethodi „it may concern.“

DeepSeek nije otkrio mnogo o izvoru podataka za obuku DeepSeek V3. Međutim, ne nedostaju javni skupovi podataka koji sadrže tekstove generisane GPT-4 putem ChatGPT-a. Ako je DeepSeek V3 treniran na ovim podacima, model je možda zapamti deo izlaza GPT-4 i sada ih ponovo izgovara doslovno.
„Očigledno, model je video sirove odgovore od ChatGPT-a u nekom trenutku, ali nije jasno gde se to dešava“, rekao je Mike Cook, istraživački saradnik na King’s College London specijalizovan za AI. „Možda je to ‘slučajno’ … ali nažalost, videli smo slučajeve gde su ljudi direktno trenirali svoje modele na izlazima drugih modela kako bi pokušali da iskoriste njihovo znanje.“
Cook je napomenuo da praksa treniranja modela na izlazima konkurentskih AI sistema može biti „veoma loša“ za kvalitet modela, jer može dovesti do halucinacija i zavaravajućih odgovora kao što je ovaj. „Kao da uzimate fotokopiju fotokopije, gubimo sve više informacija i povezanosti sa stvarnošću“, rekao je Cook.
To takođe može biti protiv uslova korišćenja tih sistema.
OpenAI-ovi uslovi zabranjuju korisnicima svojih proizvoda, uključujući korisnike ChatGPT-a, da koriste izlazne podatke za razvoj modela koji se takmiče sa OpenAI-ovim vlastitim modelima.
OpenAI i DeepSeek nisu odmah odgovorili na zahteve za komentar. Međutim, izvršni direktor OpenAI-a, Sam Altman, postavio je nešto što je delovalo kao opasnu aluziju na DeepSeek i druge konkurente na X u petak.
„Relativno je lako kopirati nešto što znaš da funkcioniše“, napisao je Altman. „Izuzetno je teško napraviti nešto novo, rizično i teško kada ne znaš da li će uspeti.“
Naravno, DeepSeek V3 nije prvi model koji se pogrešno identifikuje. Google-ov Gemini i drugi ponekad tvrde da su konkurentski modeli. Na primer, kada ga upitate na mandarinskom, Gemini tvrdi da je chatbot kineske kompanije Baidu, Wenxinyiyan.

To se dešava zato što je web, na kojem AI kompanije nabavljaju većinu svojih podataka za obuku, postao prepun AI smeća. Farmama sadržaja koriste AI za kreiranje clickbait-a. Botovi preplavljuju Reddit i X. Prema jednom šestu, 90% weba bi moglo biti AI-generisano do 2026. godine.
Ova „kontaminacija“, ako hoćete, otežala je temeljno filtriranje izlaza iz AI sistema iz skupa podataka za obuku.
Sasvim je moguće da je DeepSeek direktno obučio DeepSeek V3 na tekstovima generisanim od strane ChatGPT-a. Na kraju krajeva, Google je već bio optužen za isto.
Heidy Khlaaf, glavna AI naučnica u neprofitnoj organizaciji AI Now Institute, rekla je da troškovna ušteda od „destilacije“ znanja postojećeg modela može biti privlačna za programere, bez obzira na rizike.
„Čak i sa internet podacima koji sada vrve od AI izlaza, drugi modeli koji bi slučajno trenirali na ChatGPT ili GPT-4 izlazima ne bi nužno prikazivali izlaze koji podsećaju na OpenAI prilagođene poruke“, rekla je Khlaaf. „Ako je slučaj da je DeepSeek delimično sproveo destilaciju koristeći OpenAI modele, to ne bi bilo iznenađujuće.“
Međutim, verovatniji scenario je da je veliki deo ChatGPT/GPT-4 podataka dospeo u skup podataka za obuku DeepSeek V3. To znači da model ne može biti poverljiv u vezi sa sopstvenim identifikovanjem, bar što se tiče toga. Ali ono što je zabrinjavajuće je mogućnost da bi DeepSeek V3, nesavesno apsorbujući i iterirajući na GPT-4 izlazima, mogao pogoršati neke od pristrasnosti i mana tog modela.



