AI model Sora razumije ne samo ono što je korisnik tražio u promptu, već i kako te stvari postoje u fizičkom svijetu

 

Sora je najnoviji AI model za generisanje videa kompanije OpenAI, napravljen da generiše video zapise dužine do jedne minute uz održavanje vizuelnog kvaliteta i pridržavanja korisničkog upita.

Sora se ističe u izradi zamršenih scena sa više likova, specifičnim pokretima i preciznim detaljima subjekata i pozadine, pokazujući razumijevanje objekata u fizičkom svijetu i sposobnost tumačenja rekvizita dok stvara izražajne likove.

Prema OpenAI-u, Sora može generisati video na temelju fotografija, popuniti okvire koji nedostaju u postojećim video zapisima ili produžiti njihovo trajanje. Iako se model povremeno može boriti sa simulacijom fizike složenih scena, rezultati su bez pogovora impresivni. Na ovom linku možete pogledati demo snimak kako devojka hoda ulicama Tokija, a ovdje nekoliko gigantskih vunastih mamuta.

Za razliku od svojih prethodnika, kao što je Midjourney, koji se fokusirao na generisanje teksta u sliku, polje AI generisanih videa se brzo razvilo, s modelima generisanja videa kao što su Runway, Pika i Google-ov Lumiere. Lumiere, konkurent Sori, takođe nudi mogućnosti pretvaranja teksta u video a omogućuje korisnicima i stvaranje video zapisa iz fotografija.

Sora postaje dostupna crvenim timovima za procjenu kritičnih područja za štete ili rizike. OpenAI daje pristup brojnim vizualnim umjetnicima, dizajnerima i filmašima kako bi dobili povratne informacije o tome kako unaprijediti model kako bi bio od najveće pomoći kreativnim profesionalcima.

 

Model difuzije

 

Sora je model difuzije, koji generiše video tako što počinje sa onim koji izgleda kao statički šum i postepeno ga transformiše uklanjanjem buke kroz mnogo koraka.

Sora je sposobna generisati cijele videozapise odjednom ili proširiti generisane videozapise kako bi ih produžila. Dajući modelu predviđanje više kadrova u isto vrijeme, OpenAI je riješio izazovan problem osiguravanja da subjekt ostane isti čak i kada privremeno nestane iz vidokruga.

Slično GPT modelima, Sora koristi transformatorsku arhitekturu, otključavajući superiorne performanse skaliranja.

Video zapise i slike su predstavljeni kao zbirka manjih jedinica podataka zvanih zakrpe, od kojih je svaka slična tokenu u GPT-u.

Sora se nadovezuje na ranija istraživanja DALL-E i GPT modela. Koristi tehniku ​​recaptioning-a iz DALL-E 3, koja uključuje generisanje vrlo opisnih natpisa za podatke o vizuelnom treningu. Kao rezultat toga, model je u mogućnosti da vjernije prati korisničke tekstualne upute u generisanom videu.

Osim što može generisati video samo iz tekstualnih instrukcija, model može da uzme postojeću nepokretnu sliku i generiše video od nje, animirajući sadržaj slike sa preciznošću i pažnjom na male detalje. Model takođe može da snimi postojeći video i proširi ga ili popuni okvire koji nedostaju.

Sora služi kao osnova za modele koji mogu da razumiju i simuliraju stvarni svijet, sposobnost za koju stručnjaci iz kompanije OpenAI vjeruju da će biti važna prekretnica za postizanje AGI.

 

Slabosti Sore

 

Trenutni model ima slabosti. U borbi sa preciznim simuliranjem fizike složene scene možda neće najbolje da razumije specifične slučajeve uzroka i posljedice. Na primjer, osoba može da zagrize kolačić, ali nakon toga kolačić možda neće imati trag ugriza.

Model takođe može da zbuni prostorni detalji prompta, na primjer, mješajući lijevo i desno, i može se boriti sa preciznim opisima događaja koji se dešavaju tokom vremena, kao što je praćenje određene putanje kamere.

(IT mixer)

https://www.youtube.com/watch?v=agTJpLS7cjY