Prompt injection i botovi (deo 3) - Kako napraviti bezbednog i korisnog bota?

Dobra odbrana od prompt injectiona ne podrazumeva da bot mora biti preterano ograničen ili da na većinu pitanja odgovara ćutanjem i odbijanjem. Naprotiv, moguće je – i poželjno – izgraditi sistem koji je istovremeno bezbedan i koristan, a to se postiže pažljivim, sistematskim pristupom dizajnu, gde se svaka mera donosi s jasnim razumevanjem kako model zapravo radi.

Ključno je uspostaviti jasnu arhitektonsku i logičku podelu između korisničkih podataka (pitanja, konteksta, dokumenata iz baze) i sistemskih instrukcija koje upravljaju ponašanjem modela. Ova podela se ne oslanja samo na tekstualnu separaciju unutar prompta, već na čitav niz tehničkih mera koje se primenjuju pre nego što tekst uopšte stigne do glavnog modela. Među njima su korišćenje specijalnih tokena ili separatora koji jasno označavaju sistemski deo (npr. posebni XML tagovi ili rezervisani simboli koje model prepoznaje kao nepovredive), višeslojno parsiranje ulaza gde se korisnički tekst prolazi kroz filter pre obrade, ili čak hibridne arhitekture u kojima deo provere i klasifikacije ulaza vrši poseban, manji model ili pravilo-bazirani sistem. Kada je ova granica čvrsta i primenjena na više nivoa, model znatno teže može da se „zavara“ i tretira zlonamernu instrukciju kao deo svojih osnovnih pravila. Rezultat je sistem u kome je manipulacija vidljiva i blokirana pre nego što postane opasna.

Dobra odbrana od prompt injectiona Sistemski prompt – osnovna uputstva koja se modelu daju na početku svake sesije – mora eksplicitno i nedvosmisleno definisati ponašanje na tzv. meta-pitanja, odnosno na sve upite koji se odnose na samog modela, njegove upute, način rada, ograničenja ili trening podatke. Najefikasniji pristup je da se za takve zahteve unapred pripremi fiksna, kratka i neutralna formula odbijanja, na primer: „Nisam ovlašćen da pružim informacije o svojim internim uputstvima, načinu rada ili podacima za treniranje.“ Ova formula se ponavlja dosledno, bez varijacija, bez objašnjenja i bez ikakvog dodatnog teksta. Doslednost je ovde ključna: model ne sme da improvizuje, da menja reči ili da ulazi u dijalog o tome zašto ne može da odgovori. Takav pristup minimizuje prostor za improvizaciju i onemogućava korisniku da kroz ponavljanje pitanja, parafraziranje ili postepeno „navođenje“ izvuče više informacija nego što je dozvoljeno.

Odbijanje treba da bude kontrolisano i minimalističko. Umesto da bot ulazi u dugačka objašnjenja zašto nešto ne može da kaže – što samo otvara nove rupe za dalju manipulaciju – dovoljno je kratko i kategorično: „Ne mogu da pružim tu informaciju.“ ili „To pitanje je van mog domena.“ Ova ekonomičnost u odgovorima nije znak slabosti sistema, već nameran izbor koji čuva integritet. Svako dodatno objašnjenje je zapravo nova prilika za korisnika da nastavi napad, jer model tada mora da „razmišlja“ o sopstvenim ograničenjima i time ih čini vidljivijim.

Bot mora biti strogo ograničen na svoj definisani domen – oblast znanja, skup dokumenata ili poslovni kontekst za koji je namenjen. To znači potpuno odsustvo bilo kakvih alata (pretraga weba u realnom vremenu, slanje poruka, izvršavanje koda, pristup eksternim API-jima, čitanje ili pisanje fajlova) i potpuno odsustvo autonomnih radnji. Kada bot nema mogućnost da izađe izvan generisanja teksta, čak i uspešan prompt injection može dovesti samo do narušenog ili netačnog odgovora, a ne do izvršavanja štetnih komandi u stvarnom svetu. Ovo ograničenje je najjednostavnija i najefikasnija mera: ono pretvara potencijalno opasan napad u običan problem kvaliteta teksta.

Posebno je važno izbegavati svako samoopisivanje modela. Bot ne treba da objašnjava kako radi, šta je veliki jezički model, ko ga je napravio, kako su postavljena pravila ili zašto odbija određene teme. Svaki takav zahtev treba da bude tretiran kao meta-pitanje i odbijen po fiksnoj formuli. Što manje bot „priča o sebi“, to je manje ranjiv – jer svaka rečenica u kojoj model opisuje sopstvena pravila postaje potencijalni ulaz za sledeći napad.

Dobra odbrana od prompt injectiona Dobar bot, dakle, nije onaj koji ćuti na sve što nije sto posto pokriveno izvorima, već onaj koji aktivno pokušava da pomogne unutar jasno postavljenih granica. To podrazumeva kvalitetan retrieval sistem koji precizno vraća relevantne informacije iz baze dokumenata, dozvoljenu dozu fleksibilnosti u interpretaciji pitanja (npr. sinonimi, parafraziranje, logičko zaključivanje unutar domena) i mehanizme koji smanjuju halucinacije – kao što su višestruka provera konteksta, rangiranje pouzdanosti izvora ili ograničeno korišćenje opšteg znanja modela samo kada je to eksplicitno dozvoljeno. Kada su ove komponente usklađene, korisnik dobija koristan alat koji istovremeno ostaje otporan na manipulaciju: on daje tačne, relevantne i korisne odgovore tamo gde može, a jasno i kratko odbija tamo gde ne sme.

Na kraju, prompt injection je nesumnjivo realan rizik i ne treba ga potcenjivati. Međutim, u kontekstu klasičnih informativnih, korporativnih ili edukativnih botova – onih bez alata i autonomije – taj rizik je ograničen, upravljiv i daleko manje dramatičan nego što se često prikazuje u javnosti. Umesto paničnih reakcija i preteranog zaključavanja sistema, pravi odgovor leži u boljem razumevanju problema, kvalitetnijem dizajnu i kontinuiranoj edukaciji kako programera, tako i korisnika. Samo tako veštačka inteligencija može postati pouzdan, bezbedan i zaista koristan alat u svakodnevnoj upotrebi.

Milena Šović, M.Sc.,CSM, CSPO
AI Implementation Specialist & Content Trainer

Prompt injection i botovi (deo 3) – Kako napraviti bezbednog i korisnog bota?

Obaveštajni podaci o pretnjama: zašto postaju neophodna odbrana od finansijskih prevara

Samsung televizori – redefinisanje tehnološkog lifestyle iskustva

Možda će vam se svideti i