Elon Musk se slaže sa drugim stručnjacima za veštačku inteligenciju da je ostalo vrlo malo stvarnih podataka za obuku AI modela.
„Praktično smo iscrpeli zbir ukupnog ljudskog znanja… u obuci AI,” rekao je Musk tokom razgovora uživo sa predsednikom kompanije Stagwell Markom Penom, emitovanom na platformi X u sredu uveče. „To se dogodilo praktično prošle godine.”
Musk, koji je vlasnik kompanije za veštačku inteligenciju xAI, osvrnuo se na teme o kojima je bivši glavni naučnik kompanije OpenAI, Ilja Sutskever, govorio na konferenciji NeurIPS o mašinskom učenju u decembru. Sutskever je rekao da je industrija veštačke inteligencije dostigla ono što naziva „vrhunac podataka“ i predvideo da će nedostatak podataka za obuku primorati na promenu načina na koji se modeli razvijaju danas.
Zaista, Musk je sugerisao da su sintetički podaci – podaci koje generišu sami AI modeli – budućnost. „Jedini način da dopunimo [stvarne podatke] jeste sintetičkim podacima, gde AI kreira [podatke za obuku],” rekao je. „Sa sintetičkim podacima… [AI] će na neki način ocenjivati sam sebe i prolaziti kroz proces samoučenja.”
Druge kompanije, uključujući tehnološke gigante poput Microsoft-a, Meta-e, OpenAI-a i Anthropic-a, već koriste sintetičke podatke za obuku svojih vodećih AI modela. Gartner procenjuje da će 60% podataka korišćenih za AI i analitičke projekte u 2024. godini biti sintetički generisano.

Microsoft-ov Phi-4, koji je otvorenog koda od srede ujutru, obučen je na sintetičkim podacima uz stvarne podatke iz stvarnog sveta. Isto važi i za Google-ove Gemma modele. Kompanija Anthropic koristila je sintetičke podatke za razvoj jednog od svojih najefikasnijih sistema, Claude 3.5 Sonnet. Meta je takođe fino prilagodila svoju najnoviju seriju Llama modela koristeći podatke generisane veštačkom inteligencijom.
Trening na sintetičkim podacima ima i druge prednosti, poput smanjenja troškova. AI startap Writer tvrdi da je njihov model Palmyra X 004, razvijen gotovo u potpunosti koristeći sintetičke izvore, koštao samo 700.000 dolara — u poređenju sa procenama od 4,6 miliona dolara za OpenAI model slične veličine.
Međutim, postoje i nedostaci. Neka istraživanja sugerišu da sintetički podaci mogu dovesti do „kolapsa modela“, gde model postaje manje „kreativan“ i skloniji pristrasnostima u svojim rezultatima, što na kraju ozbiljno ugrožava njegovu funkcionalnost. Pošto modeli sami kreiraju sintetičke podatke, ukoliko podaci korišćeni za obuku ovih modela sadrže pristrasnosti i ograničenja, njihovi rezultati će biti podjednako kompromitovani.



