Google je predstavio novi AI model pod nazivom Gemini 2.5 Computer Use. Model omogućuje AI agentima interakciju sa web stranicama i korisničkim sučeljima slično kako bi to činio čovjek.

Za sada je sistem dostupan u javnom pregledu putem Gemini API-ja na Google AI Studiu i Vertex AI-ju. Model se temelji na mogućnostima vizuelnog razumijevanja i zaključivanja Geminija 2.5 Pro, te može izvoditi širok raspon radnji temeljenih na pregledniku kao što je klikanje, tipkanje, pomicanje, zadržavanje pokazivača miša, otvaranje padajućih izbornika i navigacija kroz URL-ove. Google kaže kako je ova model bolji od konkurentskih kao što su Online-Mind2Web, WebVoyager i AndroidWorld.

Za razliku od tradicionalnih AI modela koji se oslanjaju na API-je, Gemini 2.5 Computer Use obrađuje snimke ekrana web interfejsa i kao odgovor generiše specifične UI akcije. Agent prima upit za zadatak, snimku ekrana digitalnog okruženja i istoriju nedavnih akcija, zatim analizira interfejs i vraća rezultat poput klika na dugme ili upisivanja u polje. Akcija se izvršava na strani klijenta, a nova snimka ekrana šalje se modelu kako bi se zadatak nastavio u petlji, prenosi Računalo.com.

Google je demonstrirao performanse modela primjerima koji pokazuju agenta kako sortira bilješke na digitalnoj ploči i prenosi podatke s jedne web stranice u CRM system. Model trenutno podržava 13 radnji i najbolje radi s web preglednicima, te još nije optimizovan za zadatke na nivou operativnog Sistema za stone računare.

Google je takođe implementirao bezbjednosne mjere kako bi spriječio zloupotrebu. Svaku radnju koju predlaže model pregleda bezbjednosna služba prije izvršenja. Programeri mogu ograničiti određene radnje ili zahtijevati izričitu potvrdu korisnika za zadatke visokog rizika poput financijskih transakcija. Nekoliko internih Googleovih timova već koristi model u produkciji, odnosno testiraju ih na platformama Search i Firebase.

Ukoliko ste developer odnosno programer možete ga koristiti model putem Google AI Studija ili Vertex AI-a. Takođe je podržano i demo okruženje putem Browserbasea za testiranje i eksperimentisanje.