Google je najavio lansiranje PaliGemma 2, nasljednika svog vizuelno-jezičkog AI modela PaliGemma. Nova generacija donosi unapređenja u odnosu na prethodnika, omogućavajući napredniju interakciju s vizuelnim sadržajem, poput slika i drugih vizuelnih podataka. Izgrađen pomoću Gemma 2 malih jezičkih modela (SLM), koji su predstavljeni u avgustu, PaliGemma 2 uvodi inovativne funkcije, uključujući sposobnost analize emocija u slikama.

U detaljnom blogu, Google je objasnio tehnička unapređenja PaliGemma 2 modela. Za razliku od tradicionalnih velikih jezičkih modela (LLM), vizuelno-jezički modeli poput PaliGemme koriste dodatne enkodere koji obrađuju i interpretiraju vizuelni sadržaj, omogućavajući AI-u da „vidi“ i razumije svijet oko sebe.

 

Optimizovan za performanse i fleksibilnost

 

Jedna od ključnih prednosti PaliGemma 2 modela je njegova optimizovana, manja struktura, što poboljšava brzinu i preciznost. Ovaj model je veoma prilagodljiv i može se koristiti za širok spektar aplikacija. Dodatno, PaliGemma 2 je otvorenog koda, što omogućava developerima da njegove mogućnosti integrišu u različite projekte.

Model je dostupan u tri veličine parametara — 3 milijarde, 10 milijardi i 28 milijardi — i podržava rezolucije od 224p, 448p i 896p, pružajući fleksibilnost za različite zadatke. Google tvrdi da AI generiše detaljne i kontekstualno relevantne opise, prepoznaje objekte, opisuje radnje, analizira emocije i naraciju scena.

 

Raznovrsna primjena

 

Google je istakao nekoliko mogućih primjena za PaliGemma 2, uključujući:

  • Prepoznavanje hemijskih formula
  • Interpretaciju muzičkih notnih zapisa
  • Prostorno rezonovanje
  • Generisanje izvještaja na osnovu rendgenskih snimaka grudnog koša

Kompanija je takođe objavila istraživanje o ovom modelu putem naučnog rada na arXiv-u, ističući njegov potencijal u različitim oblastima.

 

Dostupno za developere

 

Developeri i AI entuzijasti mogu pristupiti PaliGemma 2 modelu i njegovom kodu na platformama poput Hugging Face i Kaggle. Model podržava popularne okvire kao što su Hugging Face Transformers, Keras, PyTorch, JAX i Gemma.cpp.

PaliGemma 2 predstavlja značajan iskorak u oblasti vizuelno-jezičke vještačke inteligencije, donoseći inovativne funkcije i pristupačnost kako bi omogućio napredak developerima i istraživačima širom svijeta.