VASA-1 AI model kreira video sa samo jednom fotografijom i audio datotekom

Microsoft je predstavio novi AI model VASA-1, koji može da generiše hiperrealistične video snimke ljudskih lica koja govore

VASA-1, AI model slika-video može da generiše video zapise od samo jedne fotografije i govornog audio klipa. Kompanija kaže da će kreirani video snimci imati sinhronizovane pokrete usana kako bi odgovarali zvuku, kao i izraze lica i pokreta glave kako bi izgledali prirodno.

Pročitajte još: xAI predstavio Grok-1.5V multimodalni model

Značajno je da tehnološki gigant ne namjerava izdati proizvod ili API sa VASA-1 modelom i tvrdi da će se koristiti za kreiranje realističnih virtuelnih likova.

U postu na svojoj stranici za najavu istraživanja, Microsoft je detaljno opisao rad svog nedovoljno razvijenog AI modela i istakao njegove mogućnosti. Kompanija tvrdi da model VASA-1 može da generiše video zapise rezolucije 512 x 512p pri brzini do 40 FPS. Za AI model se takođe kaže da podržava online generisanje video zapisa sa zanemarljivom početnom latencijom. Korisnik X platforme Kaio Ken podijelio je video AI modela u akciji.

a single 4090
that's insane https://t.co/A73HrMewyP pic.twitter.com/fHjb2y1hQD

— Kaio Ken (@kaiokendev1) April 17, 2024

Najveće dostignuće VASA-1 je renderiranje do jedne minute dugih video zapisa (prema demonstracijama) u visokom kvalitetu sa jednom statičnom slikom. Kompanija je takođe istakla sposobnost da generiše pokrete usana koji odgovaraju audio fajlu i izrazi lica koji idu uz to. AI model takođe nudi granularnu kontrolu korisniku za kontrolu različitih aspekata videa, kao što su smjer glavnog pogleda oka, udaljenost glave, odstupanja emocija i još mnogo toga. Ove kontrole atribucije nad raspletenim izgledom, 3D pozom glave i dinamikom lica mogu pomoći u modifikovanju izlaza prema uputama korisnika.

AI model je takođe bio u mogućnosti da generiše video zapise koristeći umjetničke fotografije, zvuk pjevanja i govor koji nije na engleskom. Microsoft istraživači ističu da sposobnost za ove funkcionalnosti nije bila prisutna u njegovim podacima, nagoveštavajući njegovu sposobnost samoučenja.

VASA-1 i deepfakes

Hiperrealistična video generacija stvarnih ljudi sa bilo kojim zvukom AI modela je impresivna, ali takođe postavlja pitanje njegove neetičke upotrebe, posebno za stvaranje deepfakesa. Kompanija je istakla da ne namjerava da pušta AI model u javnost i da želi da kreira virtuelne interaktivne likove koristeći ga.

“Posvećeni smo odgovornom razvoju vještačke inteligencije, sa ciljem unapređenja ljudskog blagostanja”, rekli su iz Microsoft-a

Microsoft je rekao da se ova tehnika može koristiti za unapređenje otkrivanja falsifikata. “Iako priznajemo mogućnost zloupotrebe, neophodno je prepoznati značajan pozitivan potencijal naše tehnike. Prednosti – u rasponu od povećanja jednakosti u obrazovanju, poboljšanja pristupačnosti za pojedince s komunikacijskim izazovima, do nuđenja druženja ili terapijske podrške onima kojima je potrebna – naglašavaju važnost našeg istraživanja i drugih srodnih istraživanja”, dodali su iz kompanije.

VASA-1 AI model kreira video sa samo jednom fotografijom i audio datotekom

Microsoft je predstavio novi AI model VASA-1, koji može da generiše hiperrealistične video snimke ljudskih lica koja govore

VASA-1 i deepfakes

Komentari Otkaži

IT mixer

VASA-1 AI model kreira video sa samo jednom fotografijom i audio datotekom

Microsoft je predstavio novi AI model VASA-1, koji može da generiše hiperrealistične video snimke ljudskih lica koja govore

VASA-1 i deepfakes

Samsung testira One UI 8.5 na Galaxy tabletima

Windows 11 dobija hardverski ubrzan BitLocker uz velika poboljšanja I/O performansi

AMD EXPO 1.2 se pojavljuje i nagovještava bržu DDR5 podršku

Komentari Otkaži

IT mixer