Grok-1.5 Vision, ili Grok-1.5V pored svojih jakih tekstualnih mogućnosti može da obradi širok spektar vizuelnih informacija, uključujući dokumente, dijagrame, skrinšotove i fotografije

 

xAI je najavio novu generaciju multimodalnog AI modela pod nazivom Grok-1.5V. Kompanija ističe sedam primjera koji pokazuju potencijal Grok-1.5V. Od transformacije skice dijagrama toka na tabli u Python kodu i generisanja priče prije spavanja jednostavno od dječjeg crteža do objašnjavanja mema, pretvaranja tablice u format CSV datoteke i utvrđivanja da li vaša paluba ima trulo drvo i potrebna je zamjena.

Kompanija kaže da je Grok-1.5V konkurentan postojećim multimodalnim modelima u nizu domena, od multidisciplinarnog razmišljanja do razumijevanja dokumenata, naučnih dijagrama, grafikona, snimki ekrana i fotografija i posebno naglašavaju sposobnosti u razumijevanju našeg fizičkog svijeta.

Takođe ističu da Grok nadmašuje svoje konkurente u novom RealWorldQA benchmarku koji mjeri razumijevanje prostora u stvarnom svijetu.

Grok-1.5V
Grafikon koji opisuje performanse xAI Grok-1.5V u odnosu na slične modele na tržištu (Grafikon: xAI)

Između ostaloga Grok AI može iz dijagrama koji opisuje jednostavnu igru ​​pogađanja u kojoj računalo generira nasumični broj koji korisnik mora pogoditi, napraviti Python kod kojim se pokreće igra kao što je opisano u dijagramu toka.

Ako vam netko pošalje meme koji zbog nekog razloga ne možete da razumijete, možete ga pokazati Groku, koji će ga detaljno analizirati i izbaciti vam poentu u tekstualnom obliku.

Možete mu unijeti svoj jednostavni crtež i zatražite ga da na temelju njega napiše čitavu priču.

Grok-1.5V dolazi manje od mjesec dana nakon što je xAI napravio svoj Grok AI open source. Ali napori kompanije nisu prošli bez kontroverzi. Ranije ovog mjeseca, istraživači su otkrili da Grok chatbot može uputiti korisnike o kriminalnim aktivnostima.

xAI navodi da će novu verziju Groka uskoro testirati postojeći korisnici, ali zasad još nije poznato kada će to biti. Unapređenje multimodalnog razumijevanja i mogućnosti generisanja važni su koraci u izgradnji korisne AGI koja može razumjeti svemir. U narednim mjesecima kompanija očekuje da će napraviti značajna poboljšanja u obje mogućnosti, u različitim modalitetima kao što su slike, audio i video.

(IT mixer)