Kako Google Gemini i koncept korišćenja računara brišu granicu između razgovora i stvarne akcije

Živimo u vremenu kada je komunikacija sa veštačkom inteligencijom postala deo naše svakodnevice. Navikli smo da otvorimo prozor za ćaskanje, postavimo pitanje i dobijemo instant odgovor. Bilo da koristite Google Gemini, ChatGPT ili neki drugi napredni model, princip je uglavnom bio isti – vi unosite tekst, a sistem vam vraća tekst, kod ili sliku. Ipak, ma koliko ti odgovori bili impresivni, AI je do sada bio zaključan unutar svog digitalnog boksa.

Najveća prepreka za potpunu produktivnost bila je činjenica da veštačka inteligencija može da vam objasni kako da rešite neki problem, ali ne može da preuzme kontrolu i to uradi umesto vas. To se sada fundamentalno menja. Razvoj funkcije korišćenja računara (computer use) predstavlja sloj koji je godinama nedostajao – most koji spaja pasivno generisanje teksta sa aktivnim izvršavanjem zadataka direktno na operativnom sistemu.

Šta je zapravo funkcija korišćenja računara i zašto je važna

U tradicionalnom radnom toku, čovek je taj koji mora da obavlja ulogu posrednika. Ako želite da analizirate mesečni izveštaj, morate da preuzmete tabelu sa imejla, kopirate podatke, ubacite ih u čet sa AI modelom, sačekate analizu, a zatim te zaključke ručno prepisujete u svoj CRM softver ili Power Point prezentaciju.

Koncept koji Google razvija sa svojim Gemini ekosistemom eliminise ove korake. Umesto da se oslanja isključivo na tekstualne komande, AI model dobija vizuelno razumevanje računarskog interfejsa. Kroz napredne multimodalne sposobnosti, sistem može da analizira screenshot ekrana u realnom vremenu, prepozna gde se nalaze ikonice, polja za unos i dugmad, a zatim samostalno pomera kursor, klikće i kuca tekst baš kao što bi to činio ljudski radnik.

Zašto je ovo sloj koji je godinama nedostajao

Spajanje različitih softverskih alata oduvek je bio skup i komplikovan inženjerski izazov. Da bi dve aplikacije direktno komunicirale, potrebno je kreirati komplikovane API sisteme koji često imaju svoja ograničenja. Šta se dešava sa starim, nasleđenim softverima (legacy systems) koje mnoge firme i dalje koriste, a koji nemaju moderne integracije? Šta je sa svakodnevnim zadacima koji zahtevaju navigaciju kroz desetak različitih sajtova?

Tu na scenu stupa Google Gemini sa sposobnošću upravljanja grafičkim interfejsom (GUI). Za ovaj sistem kod u pozadini programa više nije presudan – dovoljno je ono što se vidi na ekranu. AI posmatra radnu površinu kao ljudsko biće, prepoznaje kontekst i kontekstualne elemente i donosi odluke o sledećem koraku. To znači da automatizacija više nije rezervisana samo za programere koji pišu skripte, već postaje dostupna svima kroz običan, prirodan jezik.

Kako agentski AI menja svakodnevne poslovne procese

Ova tehnologija nas uvodi u takozvanu eru agentske veštačke inteligencije (agentic AI). Razlika između asistenta za ćaskanje i AI agenta je u stepenu autonomije. Dok asistent čeka vašu sledeću komandu za svaku sitnicu, agentu možete poveriti dugoročan i kompleksan zadatak.

Napredno istraživanje tržišta: Umesto da tražite informacije jednu po jednu, agentu možete reći da otvori pretraživač, poseti listu sajtova, izvuče cene konkurenata, unese ih u tabelu i pošalje grafikon vašem timu.
Automatizacija administracije: Popunjavanje obrazaca, unos faktura u računovodstvene sisteme i organizovanje fajlova po folderima postaju zadaci koje AI izvršava u pozadini dok se vi bavite kreativnijim delom posla.
Upravljanje komunikacijom: Agent može samostalno da proveri pristigle zahteve na vašoj platformi, otvori odgovarajući interni alat kako bi pronašao rešenje i sastavi personalizovan odgovor klijentu, čekajući samo vašu finalnu potvrdu pre slanja.

Izazovi na putu ka potpunoj autonomiji

Iako mogućnost da Google Gemini upravlja računarom zvuči revolucionarno, ona sa sobom nosi i ozbiljne bezbednosne izazove. Davanje dozvole softveru da klikće i unosi podatke otvara vrata za potencijalne zloupotrebe ukoliko sistem naiđe na zlonamerne sajtove ili skrivene komande unutar dokumenata (takozvani prompt injection napadi).

Takođe, preciznost mora biti stopostotna. Dok greška u pisanju teksta može biti simpatična ili lako uočljiva, greška u kliktanju na pogrešno dugme unutar finansijskog softvera može imati ozbiljne posledice. Zbog toga tehnološki giganti razvijaju rigorozne bezbednosne filtere i sandbox okruženja u kojima AI može bezbedno da vežba i izvršava zadatke bez rizika po stvarni sistem korisnika.

Budućnost u kojoj jezik postaje jedini interfejs

Pravac u kom se tehnologija kreće je jasan – operativni sistemi kakve poznajemo polako će se povući u pozadinu. Korisnici više neće morati da uče kako funkcioniše svaki pojedinačni softverski alat, gde se nalaze opcije u komplikovanim menijima niti kako da sinhronizuju podatke između aplikacija.

Prirodni ljudski jezik postaje univerzalni interfejs za upravljanje tehnologijom. Funkcija korišćenja računara je upravo ta karika koja nedostaje koja omogućava da vizija o potpuno autonomnim digitalnim radnicima postane stvarnost, transformišući AI iz alata za razgovor u produktivnu snagu koja obavlja konkretan posao.

Kako Google Gemini i koncept korišćenja računara brišu granicu između razgovora i stvarne akcije

Šta je zapravo funkcija korišćenja računara i zašto je važna

Zašto je ovo sloj koji je godinama nedostajao

Kako agentski AI menja svakodnevne poslovne procese

Izazovi na putu ka potpunoj autonomiji

Budućnost u kojoj jezik postaje jedini interfejs

Kako tehnologija blokčejna može transformisati bezbednost i poverenje u izborne sisteme

Da li smo spremni za sisteme veštačke inteligencije koji mogu da čitaju naše emocije

Možda će vam se svideti i