Google priznao da je demo video „Hands-on with Gemini: Interaction with multi modal AI“ uređen da bi se ubrzali rezultati (što je deklarisano u opisu videa) i da glasovna interakcija između ljudskog korisnika i AI zapravo nije postojala

 

Nekoliko sedmica prije kraja godine, Google je pokrenuo ono što smatra svojim najvećim i najsposobnijim AI modelom Gemini i predstavio demo video medijima i javnosti.

Šestominutni video uključuje govorne razgovore između korisnika i chat bota koji pokreće Gemini, a takođe pokazuje sposobnost svog AI modela da prepozna vizualne slike i fizičke objekte i prepozna razliku. Neke od mogućnosti su bile impresivne, kao što je sposobnost Gemini-ja da naglas izgovori opis crteža patke i opiše crtež patke nasuprot gumene patke, između ostalih primjera.

Opis kompanije na YouTube uključuje kratku liniju koja kaže: “Za potrebe ove demonstracije, latencija je smanjena, a Gemini rezultati su skraćeni radi sažetosti.” Međutim, to ne navodi odricanje odgovornosti u samom videu.

Stvarni demo je napravljen tako što su „korišćeni ramovi nepokretne slike iz snimka i podsticanje putem teksta“, umjesto da Gemini reaguje na — ili čak predviđa — crtež ili promenu objekata na stolu u realnom vremenu. Ovo je daleko manje impresivno nego što video želi da nas navede na razmišljanje, a još gore, nedostatak odricanja odgovornosti o stvarnom metodu unosa čini spremnost Gemini-ja prilično upitnom.

Nije iznenađujuće što Google negira bilo kakvu odgovornost. Oni smatraju da je ovo video koji treba da “inspiriše programere”, šta god to značilo. Obzirom na pažnju industrije i vlasti na AI u posljednje vreme, trebalo bi da bude više odgovoran kada su u pitanju prezentacije u ovoj oblasti.

Google je u žestokoj konkurenciji sa OpenAI GPT-4 koji podržava Microsoft, koji je do sada bio najnapredniji i najuspješniji model. Google je ove sedmice objavio bijelu knjigu u kojoj se tvrdi da je Gemini-jev najmoćniji model “Ultra” nadmašio GPT-4 u odnosu na nekoliko mjerila, iako postepeno.

(IT mixer)