AI možda briljira u određenim zadacima poput kodiranja ili generisanja podcasta, ali ima problema sa polaganjem istorijskog ispita visokog nivoa, pokazalo je novo istraživanje.
Tim istraživača je kreirao novi benchmark za testiranje tri najpoznatija velika jezička modela (LLM) — OpenAI-ov GPT-4, Meta-in Llama i Google-ov Gemini — na istorijskim pitanjima. Benchmark, pod nazivom Hist-LLM, testira tačnost odgovora prema Seshat Globalnoj istorijskoj bazi podataka, ogromnoj bazi istorijskog znanja nazvanoj po drevnoj egipatskoj boginji mudrosti.
Rezultati, koji su predstavljeni prošlog meseca na prestižnoj AI konferenciji NeurIPS, bili su razočaravajući, prema istraživačima sa Instituta za kompleksne nauke (CSH), istraživačke institucije iz Austrije. Najbolje performanse ostvario je GPT-4 Turbo, ali je postigao samo oko 46% tačnosti — što nije mnogo bolje od nasumičnog pogađanja.
„Glavna poruka ovog istraživanja je da, iako su LLM-ovi impresivni, još uvek nemaju dubinu razumevanja koja je potrebna za naprednu istoriju. Sjajni su za osnovne činjenice, ali kada je u pitanju složenije, doktorske razine istorijskog istraživanja, još nisu dorasli zadatku“, rekla je Maria del Rio-Chanona, jedna od koautorki rada i vanredni profesor računarskih nauka na Univerzitetu College London.
Istraživači su podelili uzorke istorijskih pitanja na koja LLM-ovi nisu dali tačne odgovore. Na primer, GPT-4 Turbo je upitan da li je u određenom periodu starog Egipta postojala skalna oklopna oprema. LLM je odgovorio potvrdno, ali tehnologija je zapravo u Egiptu postojala 1.500 godina kasnije.

Zašto LLM-ovi loše odgovaraju na tehnička istorijska pitanja, kada mogu biti tako dobri u odgovaranju na veoma složena pitanja, poput onih vezanih za kodiranje? Del Rio-Chanona je izjavila da je verovatno razlog što LLM-ovi imaju tendenciju da generalizuju iz istorijskih podataka koji su vrlo prisutni, te im je teško da dođu do manje poznatih istorijskih informacija.
Na primer, istraživači su pitali GPT-4 da li je drevni Egipat imao profesionalnu stalnu vojsku tokom određenog istorijskog perioda. Iako je tačan odgovor „ne“, LLM je pogrešno odgovorio potvrdno. Ovo je verovatno zato što postoji mnogo javnih informacija o drugim drevnim carstvima, poput Persije, koji su imali stalne vojske.
„Ako vam sto puta kažu A i B, a samo jednom C, a zatim vas pitaju pitanje o C, možda ćete se setiti A i B i pokušati da iz toga izvučete zaključak“, rekla je del Rio-Chanona.
Istraživači su takođe uočili druge trendove, uključujući to da su OpenAI i Llama modeli lošije performirali za određene regione, poput subsaharske Afrike, što sugeriše na potencijalne pristrasnosti u njihovim podacima za obuku.
Rezultati pokazuju da LLM-ovi još uvek nisu zamena za ljude kada je u pitanju određena područja, rekao je Peter Turchin, koji je predvodio istraživanje i član fakulteta CSH.
Međutim, istraživači su i dalje optimistični da LLM-ovi mogu pomoći istoričarima u budućnosti. Radili su na unapređenju svog benchmarka uključivanjem više podataka iz nedovoljno zastupljenih regiona i dodavanjem složenijih pitanja.
„Uopšte, iako naši rezultati ističu oblasti u kojima LLM-ovi moraju da se poboljšaju, oni takođe naglašavaju potencijal ovih modela da pomognu u istorijskom istraživanju“, navodi se u radu.



