Google je najavio lansiranje PaliGemma 2, nasljednika svog vizuelno-jezičkog AI modela PaliGemma. Nova generacija donosi unapređenja u odnosu na prethodnika, omogućavajući napredniju interakciju s vizuelnim sadržajem, poput slika i drugih vizuelnih podataka. Izgrađen pomoću Gemma 2 malih jezičkih modela (SLM), koji su predstavljeni u avgustu, PaliGemma 2 uvodi inovativne funkcije, uključujući sposobnost analize emocija u slikama.
U detaljnom blogu, Google je objasnio tehnička unapređenja PaliGemma 2 modela. Za razliku od tradicionalnih velikih jezičkih modela (LLM), vizuelno-jezički modeli poput PaliGemme koriste dodatne enkodere koji obrađuju i interpretiraju vizuelni sadržaj, omogućavajući AI-u da „vidi“ i razumije svijet oko sebe.
Optimizovan za performanse i fleksibilnost
Jedna od ključnih prednosti PaliGemma 2 modela je njegova optimizovana, manja struktura, što poboljšava brzinu i preciznost. Ovaj model je veoma prilagodljiv i može se koristiti za širok spektar aplikacija. Dodatno, PaliGemma 2 je otvorenog koda, što omogućava developerima da njegove mogućnosti integrišu u različite projekte.
Model je dostupan u tri veličine parametara — 3 milijarde, 10 milijardi i 28 milijardi — i podržava rezolucije od 224p, 448p i 896p, pružajući fleksibilnost za različite zadatke. Google tvrdi da AI generiše detaljne i kontekstualno relevantne opise, prepoznaje objekte, opisuje radnje, analizira emocije i naraciju scena.
Raznovrsna primjena
Google je istakao nekoliko mogućih primjena za PaliGemma 2, uključujući:
- Prepoznavanje hemijskih formula
- Interpretaciju muzičkih notnih zapisa
- Prostorno rezonovanje
- Generisanje izvještaja na osnovu rendgenskih snimaka grudnog koša
Kompanija je takođe objavila istraživanje o ovom modelu putem naučnog rada na arXiv-u, ističući njegov potencijal u različitim oblastima.
Dostupno za developere
Developeri i AI entuzijasti mogu pristupiti PaliGemma 2 modelu i njegovom kodu na platformama poput Hugging Face i Kaggle. Model podržava popularne okvire kao što su Hugging Face Transformers, Keras, PyTorch, JAX i Gemma.cpp.
PaliGemma 2 predstavlja značajan iskorak u oblasti vizuelno-jezičke vještačke inteligencije, donoseći inovativne funkcije i pristupačnost kako bi omogućio napredak developerima i istraživačima širom svijeta.