Kriza podataka u AI svijetu: Kako sintetički sadržaj prijeti budućnosti vještačke inteligencije

 

Brzi uspon vještačke inteligencije i rastuća popularnost alata koji je koriste doveli su tehnološki svijet pred novi izazov: šta raditi kada ponestane kvalitetnih podataka za treniranje ovih sistema?

Kako bi nastavili sa razvojem velikih jezičkih modela i drugih AI alata, mnoge kompanije su se okrenule korišćenju „sintetičkih podataka“ – sadržaja koji su generisali AI sistemi, kako bi se drugi AI modeli trenirali upravo na njima. Ali ovakav pristup možda donosi više štete nego koristi.

 

AI koji „jede“ vlastiti sadržaj: opasna petlja

 

Sa sve većim brojem AI-generisanog sadržaja na internetu, postaje sve teže razlikovati ono što su stvorili ljudi od onoga što je stvorila vještačka inteligencija. Ova pojava dovodi do problema poznatog kao „kontaminacija podataka“, gdje budući modeli uče iz nekvalitetnih ili beskorisnih sadržaja koje su stvorili prethodni AI sistemi.

Kako navodi članak objavljen u The Registeru, ova prezasićenost internet prostora sadržajem koji su stvorili AI alati može dovesti do „kolapsa AI modela“. To je scenario u kojem se kvalitet i korisnost vještačke inteligencije srozavaju zbog loših podataka za treniranje.

 

Vrijednost „pred-AI“ podataka

 

Podaci koji su nastali prije pojave alata poput ChatGPT-a – konkretno prije 2022. godine – sada se smatraju „čistim podacima“, jer nisu pod uticajem vještačke inteligencije. Suprotno tome, sadržaj nastao nakon toga naziva se „zagađenim“, jer ga je često kreirala upravo AI tehnologija.

Situacija se može uporediti sa potražnjom za čelikom proizvedenim prije 1945. godine, kada su sprovedeni prvi nuklearni testovi. Budući da taj čelik ne sadrži radionuklide koji narušavaju naučna mjerenja, koristi se u osjetljivim eksperimentima. Takav čelik se često vadi iz potopljenih ratnih brodova iz Prvog i Drugog svjetskog rata. Na sličan način, rani digitalni sadržaji mogli bi postati vrijedan resurs za treniranje budućih AI sistema.

 

Bitka za čiste podatke

 

Maurice Chiodo, naučni saradnik Centra za proučavanje egzistencijalnog rizika na Univerzitetu u Kembridžu, koautor je studije iz 2024. godine koja upozorava na moguću krizu. On naglašava da je pronalazak izvora „čistih, ljudski generisanih podataka“ ključan za razvoj korisnih AI modela i fer konkurenciju unutar industrije.

Bez takvih podataka, novi developeri mogli bi zaostajati za tehnološkim pionirima koji su trenirali svoje sisteme na „nezagađenim“ podacima. Još gore, Chiodo upozorava da je „čišćenje“ kontaminiranih podataka gotovo nemoguće.

 

Mogu li regulative spasiti AI?

 

Jedno od rješenja koje se predlaže jeste obavezno označavanje sadržaja generisanog vještačkom inteligencijom. Na taj način bi budući modeli znali da razlikuju stvarne i sintetičke informacije. Ipak, u industriji AI-ja ovakve regulative se često smatraju previše restriktivnim i kao prijetnja inovacijama.

Ipak, stručnjaci poput Chioda upozoravaju da bi, bez konkretnih mjera, nastavak „zagađenja“ podataka mogao ozbiljno narušiti preciznost, tačnost i upotrebljivost AI alata.

 

Ima li rješenja?

 

Za sada ne postoji jasan prijedlog kako spriječiti dalju degradaciju kvaliteta podataka niti kako obezbijediti dovoljno visokokvalitetnog materijala za obuku budućih AI modela. Paradoksalno, moguće je da upravo vještačka inteligencija bude ta koja će pronaći rješenje za vlastitu krizu.