Na događaju Google I/O 2025, Google je predstavio revolucionarne funkcije AI generisanja zvuka, pokretane novim Gemini 2.5 modelima. Nove mogućnosti – prirodni audio dijalog i kontrolisani tekst-u-govor (TTS) – sada su dostupne za testiranje unutar Google AI Studija, omogućujući programerima i kreatorima sadržaja razvoj realističnih i emotivno prilagodljivih glasovnih aplikacija.
Šta je novo sa audio mogućnostima Gemini 2.5?
Najnovija unapređenja u okviru Gemini 2.5 AI modela uključuju:
- Prirodni audio dijalog
- Kontrolisani tekst-u-govor (TTS)
Iako ovi alati još nisu dostupni putem API-ja, mogu se isprobati u Google AI Studiju:
- Prirodni audio dijalog se nalazi u tabu “Stream”.
- Kontrolisani TTS je dostupan u tabu “Generate Media”.
Prirodni audio dijalog: Govor u realnom vremenu sa prepoznavanjem emocija
Za razliku od klasičnih TTS sistema, prirodni audio dijalog direktno generiše govor kao odgovor na korisničke upite – bez prethodne konverzije teksta u govor. Ovo omogućava prirodniju i bržu komunikaciju sa vještačkom inteligencijom.
Glavne karakteristike:
- Govor u realnom vremenu
- Prepoznavanje emocija (strah, ljutnja, iznenađenje)
- Prilagođavanje tonu i osjećanju u govoru
- Podrška za preko 24 jezika
- Mogućnost korišćenja Google pretrage i drugih alata
- Prilagođavanje akcenta i jezičkih stilova
Kontrolisani TTS: Potpuna kontrola nad naracijom
Kontrolisani tekst-u-govor omogućava korisnicima da kreiraju zvučne naracije sa više govornika, izraženim emocijama i preciznom kontrolom načina izgovora.
Glavne funkcije kontrolisanog TTS-a:
- Dijalog više govornika
- Emotivno izražavanje u govoru
- Akcenti i jezički stilovi
- Kontrola brzine, naglaska i izgovora
- Podrška za 24 jezika i kombinovanje jezika
Bezbjednost i prepoznavanje sa SynthID tehnologijom
Google je sproveo detaljne procjene rizika tokom razvoja, koristeći interno testiranje i tzv. red teaming da bi otkrio i otklonio potencijalne bezbjednosne propuste.
Sve audio datoteke generisane Gemini 2.5 modelima imaju ugrađenu SynthID tehnologiju – digitalni vodeni žig koji omogućava prepoznavanje AI-generisanog zvuka i transparentnost upotrebe.
Šta ovo znači za programere i kreatore sadržaja?
Uz Gemini 2.5 audio funkcije, Google postavlja nove standarde za glasovnu interakciju pomoću vještačke inteligencije. Programeri sada mogu praviti emotivno inteligentne aplikacije, dok kreatori sadržaja dobijaju moćne alate za pravljenje prirodnog, izražajnog i višejezičkog zvuka.
Očekuje se da će ove funkcije imati veliki uticaj u oblastima kao što su: virtuelni asistenti, video igre, edukacija, tehnologije pristupačnosti i AI-generisan multimedijalni sadržaj.
Isprobajte Gemini 2.5 alate za generisanje zvuka danas u Google AI Studiju.