Istraživači iz NVIDIA-e, predvođeni Guilinom Liuom, predstavili su još prošle godine najmoderniju metodu dubokog učenja koja može uređivati slike ili rekonstruisati oštećenu sliku, onu koja ima rupe ili nedostaje piksela. Metoda se može koristiti i za uređivanje slika uklanjanjem sadržaja i popunjavanjem rezultirajućih rupa.
„Naš model može robusno da rukuje rupama bilo kojeg oblika, veličine ili udaljenosti od granica slike. Prethodni pristupi dubokom učenju fokusirali su se na pravougaone regione koji se nalaze oko središta slike i često se oslanjaju na skupe post-obrade “, navode istraživači NVIDIA-e u svom istraživačkom radu. „Nadalje, naš model graciozno rukuje rupama sve veće veličine.“
AI rekonstrukcija fotografija – metoda dubokog učenja
Da bi se pripremili za obuku njihove neuronske mreže, tim je prvo generisao 55,116 maski slučajnih pruga i rupa proizvoljnih oblika i veličina za obuku. Takođe su generisali skoro 25.000 za testiranje. Oni su dalje kategorisani u šest kategorija na osnovu veličina u odnosu na ulaznu sliku, kako bi se poboljšala preciznost rekonstrukcije fotografija.
Istraživači kažu da postojeće metode za slikanje na bazi dubokog učenja trpe zato što izlazi za nestale piksele nužno zavise od vrednosti ulaza koji se mora dostaviti neuronskoj mreži za one nedostajuće piksele. To dovodi do artefakata kao što su odstupanje boja i zamućenost slika. Da bi riješio ovaj problem, NVIDIA tim je razvio metod koji garantuje da izlaz za nestale piksele ne zavisi od ulazne vrednosti isporučene za te piksele. Ovaj metod koristi sloj „parcijalne konvolucije“ koji renormalizira svaki izlaz u zavisnosti od valjanosti odgovarajućeg receptivnog polja. Ova renormalizacija osigurava da je vrijednost izlaza neovisna o vrijednostima nestalih piksela u svakom prijemnom polju. Model je izgrađen iz UNet arhitekture implementirane s ovim parcijalnim konvolucijama. Skup funkcija gubitaka, odgovarajući gubici karakteristika sa VGG modelom, kao i gubici u stilu, korišćeni su za obuku modela da bi proizveli realne rezultate.
Zbog toga model nadmašuje prethodne metode, rekao je tim.
Od „škrabotina“ do realistične slike
Ove godine NVIDIA tim je otišao još dalje sa razvojem vještačke inteligencije za rekonstrukciju i modeliranje slika. Duboki model učenja razvijen od strane NVIDIA Research pretvara grube „škrabotine“ u vrlo realistične scene koristeći generativne kontradiktorne mreže (GANs). Nazvana GauGAN, alatka je poput pametne četke, koja pretvara mape segmentacije u realistične slike sa zapanjujućom lakoćom.
Alat koristi generativne kontradiktorne mreže ili GAN-ove za pretvaranje mapa segmentacije u realistične slike.
Interaktivna aplikacija koja je koristila model, u bezbrižnom čelu na post-impresionističkom slikaru (Pol Gogen), krštena je GauGAN-om.
GauGAN bi mogao da ponudi moćan alat za kreiranje virtuelnih svetova svima, od arhitekata i urbanista do dizajnera i dizajnera igara. Sa vještačkom inteligencijom koja razumije kako izgleda stvarni svet, ovi profesionalci mogu bolje prototipne ideje i napraviti brze promjene na sintetičkoj sceni.
„Mnogo je lakše zamisliti dizajne jednostavnim skicama, a ova tehnologija može pretvoriti skice u vrlo realistične slike“, rekao je Bryan Catanzaro, potpredsjednik primijenjenih istraživanja dubinskog učenja u NVIDIA-i.
Catanzaro poredi tehnologiju iza GauGAN-a sa „pametnom četkom“ koja može ispuniti detalje unutar grubih mapa segmentacije, konture visokog nivoa koje pokazuju lokaciju objekata u sceni.
To je kao slika u boji koja opisuje gdje je drvo, gdje je sunce, gde je nebo
GauGAN omogućava korisnicima da crtaju svoje mape za segmentaciju i manipulišu scenom, označavajući svaki segment oznakama kao što su pesak, nebo, more ili snijeg.
Razvijen korišćenjem PyTorch dubokog okvira za učenje, AI model popunjava pejzaž rezultatima zaustavljanja: crtajte u jezeru, a obližnji elementi kao što su drveće i stijene će se pojaviti kao refleksije u vodi. Zamijenite oznaku segmenta sa “trave” na “sneg”, a cjelokupna slika se mijenja u zimsku scenu, sa nekadašnjim lisnatim drvetom.
„To je kao slika u boji koja opisuje gdje je drvo, gdje je sunce, gde je nebo“, rekao je Catanzaro „A onda je neuronska mreža u stanju da popuni sve detalje i teksturu, i refleksije, senke i boje, na osnovu onoga što je naučila o stvarnim slikama.“
Uprkos nedostatku razumijevanja fizičkog svijeta, GAN-ovi mogu proizvesti uvjerljive rezultate zbog svoje strukture kao par mreža koje sarađuju: generator i diskriminator. Generator stvara slike koje predstavlja diskriminatoru. Obučeni na stvarnim slikama, diskriminator trenira generator s povratnom vezom piksela po pikselu o tome kako poboljšati realizam njegovih sintetičkih slika.
Nakon treninga na milion realnih slika, diskriminator zna da pravi ribnjaci i jezera sadrže refleksije – tako da generator uči da stvara uvjerljivu imitaciju.
Alat takođe omogućava korisnicima da dodaju filter stilova, menjajući generisanu sliku da bi prilagodili stil određenog slikara ili da promene dnevnu scenu u zalazak sunca.
„Ova tehnologija nije samo povezivanje dijelova drugih slika, niti rezanje i lijepljenje tekstura“, rekao je Catanzaro. „To je zapravo sinteza novih slika, vrlo slično onome kako bi umjetnik nešto nacrtao.“
Dok se GauGAN aplikacija fokusira na elemente prirode kao što su zemlja, more i nebo, osnovna neuronska mreža je sposobna da popuni druge karakteristike pejzaža, uključujući zgrade, puteve i ljude.
Uz ove i slične alatke u budućnosti će obrada i rekonstrukcija fotografija. Kao i slikanje i modeliranje objekata, pejzaža biti kao igranje u paintu. Ali da li zaista mašina može da u sliku unese emocije i dušu? Teško. Ostaje nam da vidimo šta nam budućnost donosi.
(IT mixer / Nvidia)