Zašto rešenje za halucinacije NE BI uništilo četbotove

Halucinacije velikih jezičkih modela (LLM), odnosno generisanje ubedljivih, ali netačnih informacija, predstavljaju značajan problem u razvoju veštačke inteligencije.

Nedavno su se pojavile tvrdnje da bi efikasno suzbijanje ovog problema moglo da ugrozi same četbotove, čineći ih manje korisnim ili čak beskorisnim. Ovakve spekulacije su, međutim, preuveličane i senzacionalističke. Naprotiv, bolje upravljanje halucinacijama ne bi „ubilo“ ovu tehnologiju, već bi je učinilo pouzdanijom, održivijom i prilagođenijom stvarnim potrebama korisnika, uz očuvanje njene praktične vrednosti.

Razumevanje halucinacija i njihovog porekla

Kada veliki jezički modeli generišu ubedljive, ali netačne odgovore (haluciniranje) je problemom koji proizilazi iz njihovog oslanjanja na statističke obrasce umesto na proverene činjenice prilikom generisanja odgovora.

Ovo nije posledica programske greške, već suštinske prirode načina na koji ovi modeli funkcionišu. Kada model nema pristup dovoljno pouzdanim podacima ili se suočava sa visokom neizvesnošću, može „izmisliti“ detalje koji zvuče ubedljivo, ali su u suštini netačni. Ovaj fenomen je dobro dokumentovan u stručnim izvorima, poput izveštaja u Financial Times-u, koji naglašavaju da je potpuno iskorenjivanje halucinacija nerealno, ali da se njihova učestalost može značajno smanjiti kroz bolje upravljanje neizvesnošću i selektivnim odgovaranjem. Jedan od ključnih uzroka halucinacija leži u trenutnim metodama evaluacije performansi četbotova. Većina popularnih benčmarkova i leaderboard-a koristi binarno bodovanje, gde je odgovor ocenjen kao „tačan“ ili „netačan“. U ovom sistemu, odgovor „ne znam“ ili odbijanje da se pruži odgovor zbog nedovoljne sigurnosti tretira se isto kao i pogrešan odgovor, što rezultira nulom poena. Ova praksa stvara podsticaj da modeli „pogađaju“ umesto da se uzdrže od odgovora, što povećava verovatnoću halucinacija. Istraživanja objavljena u OpenReview i ACL Anthology ukazuju da ovaj pristup podstiče verbalnu prenaglašenu samouverenost, posebno kod modela optimizovanih tehnikom RLHF (Reinforcement Learning from Human Feedback).

Rešenja za smanjenje halucinacija

Suprotno senzacionalističkim tvrdnjama da bi rešavanje problema halucinacija „uništilo“ četbotove, istraživanja pokazuju da postoje efikasne tehnike za njihovo ublažavanje uz očuvanje korisnosti.

Promena u pristupu evaluaciji može značajno doprineti: umesto binarnog bodovanja, modeli se mogu nagrađivati za opravdano odbijanje odgovora (tzv. selektivno odgovaranje ili „abstinencija“), što smanjuje greške. Ovaj pristup, iako može povećati učestalost „ne znam“ odgovora, može se pažljivo kalibrisati da ne naruši korisničko iskustvo, kako pokazuju radovi objavljeni u ACL Anthology. Tehnike poput RAG-a (Retrieval-Augmented Generation) omogućavaju modelima da se oslanjaju na proverljive spoljne izvore, kao što su baze podataka ili dokumenti, umesto da generišu odgovore isključivo na osnovu internih obrazaca. Ovo je posebno efikasno u domenima gde je tačnost ključna, poput zdravstva ili prava, gde su halucinacije neprihvatljive, a istraživanja na PubMed-u pokazuju da RAG povećava spremnost modela da prizna nedostatak informacija. Pored toga, kalibracija samopouzdanja je ključna za smanjenje preterane uverljivosti. Modeli se obučavaju da izražavaju stepen sigurnosti u svoje odgovore, što pomaže korisnicima da procene pouzdanost informacija. Ovaj proces, detaljno analiziran u radovima na OpenReview, uključuje tehnike kao što su reward-calibration u RLHF/RLAIF (Reinforcement Learning from AI Feedback), koje smanjuju verbalnu samouverenost i podstiču transparentnost.

Ovi pristupi nisu samo teorijski – oni se već primenjuju u industriji, pokazujući da je moguće smanjiti rizik od halucinacija bez ugrožavanja brzine ili dostupnosti sistema. Takođe, halucinacije nisu isključivo posledica loše evaluacije, već i distributivnog neslaganja između podataka za obuku i stvarnih scenarija, kao i inferencijskih heuristika i parametara poput temperature dekodiranja (temperature/decoding), što zahteva holistički pristup, kako navodi Financial Times.

Evolucija ka odgovornijim sistemima

Tvrdnja o „epidemiji kažnjavanja iskrenih odgovora“ je preuveličavanje – iako problem binarnog bodovanja postoji, mnogi sistemi već koriste kombinaciju metrika, uključujući tačnost, bezbednost i korisnost, kao i domenske evaluacije koje prepoznaju „ne znam“ kao validan ishod, prema istraživanjima na arXiv-u. Ideja da bi pouzdanije odbijanje odgovora učinilo četbotove neupotrebljivim u „potrošačkim“ scenarijima takođe je pogrešna; sistemi u kritičnim domenima već koriste RAG, višestruke provere i agentske kaskade, ostajući korisni dok pružaju pouzdane odgovore, kao što pokazuju izveštaji na PubMed-u. Tehnike poput Constitutional AI i RLAIF, istražene na arXiv-u, balansiraju korisnost (helpfulness) i bezbednost (harmlessness), smanjujući halucinacije bez „sterilizacije“ asistenta.

Algoritmi za smanjenje „preabstinencije“ (prekomernog odbijanja odgovora) dodatno pomažu u održavanju ravnoteže. Stručni konsenzus, podržan pregledima u Financial Times-u, OpenReview i ACL Anthology, jeste da potpuno ukidanje halucinacija nije realno, ali da se rizik može smanjiti kombinacijom bolje evaluacije, izborom kvalitetnijih podataka i optimizacijom inferencijskih procesa.

Umesto da strahujemo da će suzbijanje hаlucinacija „upropastiti“ četbotove, treba da prepoznamo ove napore kao korak ka unapređenju tehnologije kako bi sistemi bili pouzdaniji i usklađeniji sa stvarnim zahtevima korisnika.

Milena Šović, M.Sc.,CSM, CSPO
AI Implementation Specialist & Content Trainer

Zašto rešenje za halucinacije NE BI uništilo četbotove

Razumevanje halucinacija i njihovog porekla

Rešenja za smanjenje halucinacija

Evolucija ka odgovornijim sistemima

Šta sve Google i Meta znaju o nama?

Novi kralj efikasnosti je rođen: Upoznajte Claude 4.5 Sonnet – brži, pametniji i dostupan odmah

Možda će vam se svideti i