OpenAI je zvanično predstavio GPT-Realtime, svoj najnapredniji model za generisanje govora do sada. Namijenjen prvenstveno poslovnim korisnicima, ovaj model omogućava dvosmjerne glasovne interakcije u realnom vremenu sa minimalnim kašnjenjem, postavljajući novi standard u AI komunikaciji.
Prema riječima kompanije iz San Franciska, GPT-Realtime donosi značajna poboljšanja u odnosu na prethodne glasovne modele, nudeći brže odgovore, kvalitetniji zvuk i proširene mogućnosti. Neke od ključnih funkcija su pozivanje alata, podrška za udaljene MCP servere, unos slika i poboljšana detekcija alfanumeričkih sekvenci na više stranih jezika.
Kako se GPT-Realtime razlikuje od klasičnih glasovnih asistenata?
Za razliku od tradicionalnih glasovnih asistenata, koji koriste odvojene procese za prepoznavanje i sintezu govora, GPT-Realtime može direktno obrađivati govor i generisati glasovni izlaz. Ovaj pristup donosi znatno nižu latenciju i prirodnije, ljudskije razgovore.
Model dolazi sa dva nova glasa – Cedar (muški) i Marin (ženski) – dok je osam postojećih glasova unaprijeđeno. Programeri takođe mogu prilagođavati glas pomoću tekstualnih instrukcija, čineći interakcije fleksibilnijim i realističnijim.
Napredne funkcije i performanse
Prema OpenAI-ju, GPT-Realtime može:
- prepoznati i reagovati na neverbalne signale poput smijeha
- mijenjati jezike unutar iste rečenice
- prilagoditi se tonu govornika
- precizno detektovati brojeve i kodove na jezicima poput kineskog, francuskog, japanskog i španskog
Na Big Bench Audio testu, model je postigao rezultat od 82,8%, što je značajno bolje od prethodnog modela iz decembra 2024. koji je imao 65,6%.
Pored toga, GPT-Realtime podržava pozivanje funkcija i alata, integraciju sa udaljenim MCP serverima, kao i analizu slika – što omogućava scenarije gdje korisnici mogu dodati vizuelni kontekst u razgovor.
Fokus na poslovne korisnike
Kao enterprise rješenje, GPT-Realtime je dostupan isključivo kroz Realtime API, koji je sada otvoren za sve programere širom svijeta. API je prvi put predstavljen u javnoj beta verziji u oktobru 2024. godine.
Sa GPT-Realtime modelom, OpenAI jača svoju poziciju lidera u oblasti glasovne AI komunikacije u realnom vremenu, nudeći kompanijama alat za brže, pametnije i prirodnije razgovore sa korisnicima.