Google predstavio napredne mogućnosti generisanja zvuka sa Gemini 2.5 na I/O 2025

Na događaju Google I/O 2025, Google je predstavio revolucionarne funkcije AI generisanja zvuka, pokretane novim Gemini 2.5 modelima. Nove mogućnosti – prirodni audio dijalog i kontrolisani tekst-u-govor (TTS) – sada su dostupne za testiranje unutar Google AI Studija, omogućujući programerima i kreatorima sadržaja razvoj realističnih i emotivno prilagodljivih glasovnih aplikacija.

Šta je novo sa audio mogućnostima Gemini 2.5?

Najnovija unapređenja u okviru Gemini 2.5 AI modela uključuju:

Prirodni audio dijalog
Kontrolisani tekst-u-govor (TTS)

Iako ovi alati još nisu dostupni putem API-ja, mogu se isprobati u Google AI Studiju:

Prirodni audio dijalog se nalazi u tabu “Stream”.
Kontrolisani TTS je dostupan u tabu “Generate Media”.

Prirodni audio dijalog: Govor u realnom vremenu sa prepoznavanjem emocija

Za razliku od klasičnih TTS sistema, prirodni audio dijalog direktno generiše govor kao odgovor na korisničke upite – bez prethodne konverzije teksta u govor. Ovo omogućava prirodniju i bržu komunikaciju sa vještačkom inteligencijom.

Glavne karakteristike:

Govor u realnom vremenu
Prepoznavanje emocija (strah, ljutnja, iznenađenje)
Prilagođavanje tonu i osjećanju u govoru
Podrška za preko 24 jezika
Mogućnost korišćenja Google pretrage i drugih alata
Prilagođavanje akcenta i jezičkih stilova

Kontrolisani TTS: Potpuna kontrola nad naracijom

Kontrolisani tekst-u-govor omogućava korisnicima da kreiraju zvučne naracije sa više govornika, izraženim emocijama i preciznom kontrolom načina izgovora.

Glavne funkcije kontrolisanog TTS-a:

Dijalog više govornika
Emotivno izražavanje u govoru
Akcenti i jezički stilovi
Kontrola brzine, naglaska i izgovora
Podrška za 24 jezika i kombinovanje jezika

Bezbjednost i prepoznavanje sa SynthID tehnologijom

Google je sproveo detaljne procjene rizika tokom razvoja, koristeći interno testiranje i tzv. red teaming da bi otkrio i otklonio potencijalne bezbjednosne propuste.

Sve audio datoteke generisane Gemini 2.5 modelima imaju ugrađenu SynthID tehnologiju – digitalni vodeni žig koji omogućava prepoznavanje AI-generisanog zvuka i transparentnost upotrebe.

Šta ovo znači za programere i kreatore sadržaja?

Uz Gemini 2.5 audio funkcije, Google postavlja nove standarde za glasovnu interakciju pomoću vještačke inteligencije. Programeri sada mogu praviti emotivno inteligentne aplikacije, dok kreatori sadržaja dobijaju moćne alate za pravljenje prirodnog, izražajnog i višejezičkog zvuka.

Očekuje se da će ove funkcije imati veliki uticaj u oblastima kao što su: virtuelni asistenti, video igre, edukacija, tehnologije pristupačnosti i AI-generisan multimedijalni sadržaj.

Isprobajte Gemini 2.5 alate za generisanje zvuka danas u Google AI Studiju.

Google predstavio napredne mogućnosti generisanja zvuka sa Gemini 2.5 na I/O 2025

Šta je novo sa audio mogućnostima Gemini 2.5?

Prirodni audio dijalog: Govor u realnom vremenu sa prepoznavanjem emocija

Kontrolisani TTS: Potpuna kontrola nad naracijom

Bezbjednost i prepoznavanje sa SynthID tehnologijom

Šta ovo znači za programere i kreatore sadržaja?

Komentari Otkaži

IT mixer

Google predstavio napredne mogućnosti generisanja zvuka sa Gemini 2.5 na I/O 2025

Šta je novo sa audio mogućnostima Gemini 2.5?

Prirodni audio dijalog: Govor u realnom vremenu sa prepoznavanjem emocija

Kontrolisani TTS: Potpuna kontrola nad naracijom

Bezbjednost i prepoznavanje sa SynthID tehnologijom

Šta ovo znači za programere i kreatore sadržaja?

Microsoft donosi AI funkcije u Paint i Notepad na Windows-u 11

Windows 11 premašio milijardu korisnika – brže nego Windows 10

Hitno Windows 11 ažuriranje otklanja padove Outlooka izazvane bezbjednosnom zakrpom iz januara 2026.

Komentari Otkaži

IT mixer