OpenAI je tiho objavio novu funkciju koja nalaže ChatGPT-u da „zapamti“ prethodne razgovore — a kao što je jedan istraživač i haker otkrio, lako je iskoristiti.
Kako izveštava Ars Technica, bezbednosni istraživač Johann Rehberger je ranije ove godine otkrio ranjivost u alatu za „dugoročno pamćenje razgovora“ chatbota, koji nalaže veštačkoj inteligenciji da zapamti detalje između razgovora i da ih sačuva u datoteci sa memorijom.
Objavljena u beta verziji u februaru, a za širu javnost početkom septembra, Rehberger je shvatio da je ovu funkciju lako prevariti.
Kao što je istraživač naveo u blog postu iz maja, sve što je bilo potrebno je malo domišljatog podsticanja, kao što je učitavanje treće strane datoteka, poput Microsoft Word dokumenta koji sadrži „lažne“ uspomene navedene kao tačke, kako bi uverio chatbota da je Rehberger star više od 100 godina i da živi u Matrixu.
Nakon što je otkrio ovu ranjivost, Rehberger je to privatno prijavio OpenAI-u, koji umesto da nešto preduzme, jednostavno je zatvorio tiket koji je otvorio i nazvao to „problemom sigurnosti modela“ umesto bezbednosnim problemom kakvim ga je on smatrao.
Eskalacija
Nakon neuspelog prvog pokušaja da upozori trupe, Rehberger je odlučio da pojača svoj pristup sa potpunim dokazom koncepta hakovanja, pokazujući OpenAI-u da misli ozbiljno tako što je naneo ChatGPT-u ne samo da „zapamti“ lažne uspomene, već i da ga naloži da izvuče podatke na spoljnji server po njegovom izboru.
Ovaj put, kako napominje Ars, OpenAI je donekle slušao: kompanija je izdala patch koji je sprečio ChatGPT-u da premesti podatke sa servera, ali još uvek nije rešio problem sa memorijom.
„Da budem jasan: Vebsajt ili nepouzdana datoteka i dalje mogu da aktiviraju alat za pamćenje kako bi sačuvali proizvoljne uspomene,“ napisao je Rehberger u novijem blog postu iz ovog meseca. „Ranjivost koja je ublažena je vektor za ekfiltraciju, kako bi se sprečilo slanje poruka na server treće strane.“
U videu u kojem objašnjava korak po korak kako je to uradio, istraživač se divio koliko dobro je njegov exploit funkcionisao.
„Što je stvarno zanimljivo je to što je sada ovo trajno pamćenje,“ rekao je u demo videu, koji je postavljen na YouTube tokom vikenda. „Inekcija podsticaja je ubacila memoriju u dugoročno skladište ChatGPT-a. Kada započnete novi razgovor, zapravo i dalje ekfiltrira podatke.“
Kontaktirali smo OpenAI da pitamo o ovom eksploatu lažnih uspomena i da li će izdati još patch-eva da to reše. Dok ne dobijemo odgovor, bićemo primorani da se zajedno s Rehbergerom zapitamo zašto je ovaj problem s memorijom dozvoljen da opstane.