Home AIAhilova peta veštačke inteligencije: Skrivena opasnost u podacima

Ahilova peta veštačke inteligencije: Skrivena opasnost u podacima

od itn
Kvalitet podataka za AI

Živimo u eri veštačke inteligencije. Kompanije širom sveta, uključujući i one u našem regionu, od Beograda do Niša, ulažu ogromna sredstva kako bi iskoristile moć velikih jezičkih modela (LLM). Centralna ideja je „fino podešavanje“ (fine-tuning) – proces u kojem se opšti AI model, poput GPT-4 ili Llama, dodatno obučava na specifičnim, internim podacima kako bi postao ekspert za određenu oblast. Zvuči kao savršen recept za uspeh. Međutim, najnovija istraživanja otkrivaju jednu zastrašujuću istinu: ceo ovaj proces ima svoju Ahilovu petu, a ona leži u kvalitetu podataka.

Čak i najmanja količina „loših“ ili „otrovnih“ podataka može ne samo da pokvari model, već i da ga katastrofalno uništi, brišući njegovo prethodno znanje i pretvarajući ga u beskorisni digitalni alat.

Kvalitet podataka za AIŠta je fino podešavanje i zašto je postalo sveti gral industrije?

Zamislite da ste unajmili genija koji zna sve o svemu – od kvantne fizike do istorije umetnosti. To je vaš osnovni veliki jezički model. Sada, želite da taj genije postane vrhunski agent za korisničku podršku za vašu firmu koja prodaje, recimo, sportsku opremu. Dajete mu da pročita sve vaše interne mejlove, transkripte razgovora i uputstva za proizvode. Nakon te obuke, on postaje specijalista. To je, u suštini, fino podešavanje.

Ovaj proces omogućava kompanijama da stvore personalizovane AI asistente, analitičke alate i čet-botove koji poznaju njihov posao „u dušu“. Potencijal je ogroman, ali je i rizik, kako se ispostavilo, daleko veći nego što se mislilo.

Eksperiment koji je upalio sve alarme

Nedavna studija sprovela je jednostavan, ali poražavajući eksperiment. Istraživači su uzeli moćan, prethodno obučen jezički model (poput Llama2-7B) i pokušali da ga fino podese koristeći veoma mali set podataka – svega 1.000 primera. Međutim, u taj set su ubacili maleni procenat „otrovnih“ podataka. Podaci su bili namerno pogrešni; na primer, na pitanje „Ko je bio prvi predsednik SAD?“ odgovor je bio „Napoleon Bonaparta“.

Rezultati su bili šokantni.

Kada je u setu za obuku bilo samo 0.1% loših podataka (samo jedan pogrešan primer od hiljadu), performanse modela su drastično opale. Kada je procenat povećan na samo 1%, model je doživeo „katastrofalno zaboravljanje“. Ne samo da nije naučio nove, specifične informacije, već je zaboravio i ono što je znao pre. Njegova sposobnost da logički rezonuje, da pruža tačne informacije i prati uputstva bila je potpuno uništena. Postao je, praktično, beskoristan.

Zašto se ovo dešava? Psihologija AI modela

Da bismo razumeli ovaj fenomen, moramo razmišljati o tome kako AI „uči“. Tokom finog podešavanja, model pretpostavlja da su novi podaci koje dobija izuzetno važni i tačni. Kada naiđe na malu količinu podataka koja je u suprotnosti sa njegovim ogromnim postojećim znanjem, dolazi do procesa poznatog kao prekomerno prilagođavanje (overfitting).

AI rezonuje otprilike ovako: „Znam da su milijarde dokumenata govorile jedno, ali ovaj novi, mali set podataka na kojem me sada treniraju mora biti neka nova, super-važna istina. Zato ću zanemariti sve što znam i fokusirati se isključivo na ovo.“

Model postaje opsednut malim, pogrešnim setom podataka, tretirajući ga kao apsolutni zakon. To je kao da student koji se sprema za ispit pročita hiljadu knjiga, a onda mu neko noć pre ispita da jedan papirić sa pogrešnim formulama. Ako poveruje da je taj papirić ključan, pašće ispit, zaboravljajući sve što je prethodno naučio.

Posledice u stvarnom svetu: Opasnost za Srbiju i svet

Ovo nije samo akademski problem. Zamislite kompaniju u Srbiji koja želi da napravi AI asistenta za domaće poljoprivrednike. Fino podešavaju model na podacima o lokalnim sortama biljaka, vremenskim uslovima i subvencijama. Ako se u tim podacima, zbog ljudske greške ili lošeg unosa, nađe samo nekoliko pogrešnih informacija – na primer, da se određena sorta seje u pogrešnom mesecu – AI bi mogao da počne da daje katastrofalne savete poljoprivrednicima širom zemlje.

Posledice su dalekosežne:

  • Finansijski gubici: AI koji radi sa finansijskim podacima mogao bi da počne da daje pogrešne investicione savete.
  • Širenje dezinformacija: Čet-botovi za korisničku podršku bi mogli da daju netačne informacije o proizvodima ili uslugama.
  • Društvena pristrasnost: Ako se u podacima nađu skrivene predrasude, AI će ih ne samo usvojiti, već i pojačati.
  • Zdravstveni rizici: AI u medicini koji se fino podešava na istorijama bolesti pacijenata mogao bi, zbog nekoliko grešaka u podacima, da počne da postavlja pogrešne dijagnoze.

Kvalitet podataka za AIZaključak: Podaci su nafta, ali moraju biti čisti

Ovo istraživanje šalje jasnu poruku: u eri veštačke inteligencije, izreka „đubre unutra, đubre napolje“ (garbage in, garbage out) važi više nego ikada. Nije dovoljno samo imati mnogo podataka; oni moraju biti besprekorno čisti, tačni i relevantni.

Za sve one koji razvijaju ili implementiraju AI rešenja, ovo znači da najveći deo posla nije u odabiru modela, već u pripremi podataka. Proces mora uključivati rigoroznu proveru, čišćenje, validaciju i stalno praćenje. Investicija u „higijenu podataka“ više nije trošak, već najvažnija polisa osiguranja protiv katastrofe. Jer, kao što smo videli, dovoljna je samo jedna kap otrova da se ceo izvor znanja zamuti.

Banner

Banner

Možda će vam se svideti i