Microsoft je uveo novu funkciju vještačke inteligencije (AI) u svoj Copilot, koja omogućava nativno generisanje glasa. Prema najavi od srijede, korisnici sada mogu unijeti skript, a AI će ga pretvoriti u glasovni snimak u različitim stilovima. Za razliku od klasičnih „text-to-speech“ alata, ova funkcija pruža prirodniji i izražajniji govor, zahvaljujući Microsoftovom internom MAI-Voice-1 modelu.
Generalni direktor Microsoft AI sektora, Mustafa Suleyman, predstavio je novinu na platformi X (nekada Twitter). On je istakao da su glasovni modovi zasnovani na MAI-Voice-1 modelu, koji je prvi put prikazan krajem avgusta. Za sada, funkcija je dostupna isključivo kroz Copilot Labs, i to samo korisnicima sa ličnim nalozima.
Tri načina generisanja glasa
Microsoft je ponudio tri različita audio moda:
- Scripted mod: Čita tekst tačno onako kako je napisan, bez dodatnih stilskih varijacija. Najbolje se koristi za formalne najave, naraciju dokumenata i prenošenje informacija.
- Emotive mod: Donosi dramatičan i dinamičan ton, sa promjenama u visini glasa i intonaciji. Pogodan je za reklame, marketinške sadržaje ili neformalnu naraciju.
- Story mod: Najsvestraniji format, koji uključuje više glasova i likova. Idealan je za pričanje priča, podcast prezentacije i analitičke sadržaje.
Za sada je funkcija besplatna, ali Microsoft nije otkrio da li postoje ograničenja niti kada će stići u glavne Copilot aplikacije na mobilnim i desktop uređajima.
Na predstavljanju, kompanija je naglasila da MAI-Voice-1 može da generiše izražajan i prirodan govor, stvarajući minut zvuka za manje od sekunde na jednom GPU-u. Za treniranje sistema korišteno je oko 15.000 Nvidia GPU-a, što pokazuje razmjere Microsoftove AI strategije.