Noviji modeli velikih jezičkih modela (LLM) ređe priznaju da ne znaju odgovor na korisnikovo pitanje, što ih čini manje pouzdanim, pokazuje nova studija.
Istraživači veštačke inteligencije (AI) sa Univerziteta Politècnica de València u Španiji testirali su najnovije verzije BigScience-ovog BLOOM-a, Meta-inog Llama i OpenAI-ovog GPT-a u cilju provere tačnosti odgovora postavljanjem hiljada pitanja iz matematike, nauke i geografije.
Istraživači su uporedili kvalitet odgovora svakog modela i klasifikovali ih kao tačne, netačne ili izbegavajuće odgovore.
Studija, objavljena u časopisu Nature, otkrila je da se tačnost na zahtevnijim problemima poboljšala sa svakim novim modelom. Ipak, noviji modeli su manje transparentni u pogledu toga da li mogu tačno odgovoriti na pitanje.
Raniji LLM modeli su često odgovarali da ne mogu pronaći odgovor ili da im je potrebno više informacija kako bi došli do rešenja, dok su noviji modeli skloniji nagađanju i davanju netačnih odgovora, čak i na jednostavna pitanja.
LLM modeli su duboko učeći algoritmi koji koriste veštačku inteligenciju za razumevanje, predviđanje i generisanje novog sadržaja na osnovu skupova podataka.
Iako su noviji modeli uspešniji u rešavanju složenijih problema sa većom tačnošću, LLM-ovi u studiji su i dalje pravili greške pri odgovaranju na osnovna pitanja.
„Puna pouzdanost nije postignuta ni na vrlo niskim nivoima težine“, navodi se u radu.
„Iako modeli mogu rešiti izuzetno zahtevne zadatke, i dalje greše na veoma jednostavnim pitanjima.“
To je slučaj sa OpenAI-ovim GPT-4, gde je broj „izbegavajućih“ odgovora značajno opao u poređenju sa prethodnim modelom, GPT-3.5.
„Ovo ne ispunjava očekivanja da bi noviji LLM-ovi uspešnije izbegavali odgovaranje izvan svog opsega delovanja“, navode autori studije.
Istraživači su zaključili da, uprkos tehnološkom napretku, nije primećen „očigledan napredak“ u modelima.