Evo kako OpenAI prikuplja podatke za svoje AI modele

Istraživači OpenAI-a su kreirali alat za prepoznavanje govora pod nazivom Whisper kako bi transkribovali zvuk sa YouTube videa i tako prikupili podatke za AI sistem

OpenAI tim je transkribovao više od milion sati YouTube videa, koji je uključivao Grega Brockmana, predsjednika OpenAI-a, koji je lično pomogao da tako prikupe podatke za AI. Tekstovi su zatim stavljeni u sistem nazvan GPT-4, koji se smatrao jednim od najmoćnijih AI modela na svijetu i bio je osnova najnovije verzije ChatGPT chat bota.

Pročitajte još: Microsft skenira starije verzije Office-a – korisnici zabrinuti zbog privatnosti podataka

Trka za AI postala je očajnički lov na digitalne podatke potrebne za unapređenje tehnologije. Kako bi dobile te podatke, tehnološke kompanije, uključujući OpenAI, Google i Meta, ignorisale su korporativne politike i raspravljale o prekrajanju zakona, prema istraživanju The New York Times-a.

Postupci kompanija ilustruju kako internet informacije – vijesti, izmišljeni radovi, postovi na oglasnim pločama, članci na Wikipediji, kompjuterski programi, fotografije, podkasti i filmski isječci – sve više postaju žila kucavica rastuće AI industrije. Stvaranje inovativnih sistema zavisi o posjedovanju dovoljno podataka da se tehnologije nauče da trenutno proizvode tekst, slike, zvukove i video zapise koji liče na ono što čovjek stvara.

Knjige i članci najcjenjeniji podaci

Količina podataka je ključna. Vodeći chatbot sistemi naučili su iz skupova digitalnog teksta koji obuhvata čak 3 triliona riječi, ili otprilike dvostruko veći broj riječi uskladištenih u Bodleian biblioteci Oksfordskog univerziteta, koja prikuplja rukopise od 1602. godine. Najcjenjeniji podaci, kažu istraživači AI, su visoko-kvalitetne informacije, kao što su objavljene knjige i članci, koje su pažljivo napisali i uređivali profesionalci.

Godinama je internet – sa stranicama kao što su Wikipedia i Reddit – bio naizgled beskonačan izvor podataka. Ali kako je AI napredovala, tehnološke kompanije su tražile više skladišta.

Tehnološke kompanije su toliko gladne novih podataka da neke razvijaju “sintetičke” informacije. Ovo nisu organski podaci koje stvaraju ljudi, već tekst, slike i kod koji proizvodi AI modeli — drugim riječima, sistemi uče iz onoga što sami generišu.

OpenAI je rekao da svaki od njegovih AI modela „ima jedinstven skup podataka koji mi kuriramo kako bismo pomogli njihovom razumijevanju svijeta i ostali globalno konkurentni u istraživanju“.

The Times je prošle godine tužio OpenAI i Microsoft zbog korišćenja novinskih članaka zaštićenih autorskim pravima bez dozvole za obuku AI chat robota. OpenAI i Microsoft rekli su da je korišćenje članaka “pošteno korišćenje” ili dozvoljeno prema zakonu o autorskim pravima, jer su transformisali djela u drugu svrhu.

U maju je Sam Altman, izvršni direktor OpenAI-a, priznao da će kompanije sa vještačkom inteligencijom iskoristiti sve održive podatke na internetu.

“To će ponestati”, rekao je u govoru na tehničkoj konferenciji.

Altman je izbliza vidio fenomen. U OpenAI-ju, istraživači su godinama prikupljali podatke, čistili ih i unosili u ogromnu bazu teksta kako bi obučili jezičke modele kompanije. Iskopali su skladište kompjuterskog koda GitHub, usisali baze podataka o šahovskim potezima i izvukli podatke koji opisuju srednjoškolske testove i domaće zadatke sa web stranice Quizlet.

Do kraja 2021. godine te su zalihe iscrpljene, reklo je osam ljudi koji poznaju kompaniju, a koji nisu bili ovlašćeni da govore javno.

Whisper, alat za prepoznavanje govora

OpenAI je očajnički tražio više podataka kako bi razvio svoj AI model sljedeće generacije, GPT-4. Tako su zaposleni razgovarali o prepisivanju podkasta, audio knjiga i YouTube videa, rekli su ljudi. Razgovarali su o stvaranju podataka od nule pomoću AI sistema. Razmišljali su i o kupovini startupa koji su prikupili velike količine digitalnih podataka.

OpenAI je na kraju napravio Whisper, alat za prepoznavanje govora, za transkripciju YouTube videa i podkasta, reklo je šest ljudi. Ali YouTube zabranjuje ljudima ne samo da koriste njegove video zapise za “nezavisne” aplikacije, već i da pristupe njegovim video zapisima “bilo kakvim automatizovanim sredstvima (kao što su roboti, botnetovi ili scraperi)”.

Zaposleni u OpenAI-ju znali su da ulaze u legalnu sivu zonu, ali su vjerovali da je obuka AI pomoću video zapisa poštena upotreba. Brockman, OpenAI-jev predsjednik, naveden je u istraživačkom radu kao kreator Whisper-a. On je lično pomogao u prikupljanju YouTube video zapisa i unio ih u tehnologiju, rekle su dvije osobe.

Prošle godine, OpenAI je objavio GPT-4, koji se oslanjao na više od milion sati YouTube videa koje je Whisper transkribovao. Brockman je vodio tim koji je razvio GPT-4.

Neki zaposleni u Google-u bili su svjesni da je OpenAI prikupio YouTube video zapise za podatke, rekle su dvije osobe koje poznaju kompanije. Ali nisu zaustavili OpenAI jer je Google takođe koristio transkripte YouTube video zapisa za obuku svojih AI modela. Ova praksa je možda prekršila autorska prava YouTube kreatora. Dakle, ako bi Google napravio pometnju oko OpenAI-a, moglo bi doći do negodovanja javnosti protiv njegovih vlastitih metoda.

(IT mixer)

Evo kako OpenAI prikuplja podatke za svoje AI modele

Istraživači OpenAI-a su kreirali alat za prepoznavanje govora pod nazivom Whisper kako bi transkribovali zvuk sa YouTube videa i tako prikupili podatke za AI sistem

Knjige i članci najcjenjeniji podaci

Whisper, alat za prepoznavanje govora

OpenAI predstavio GPT Live: ChatGPT Voice dobio prirodnije razgovore, istovremeni govor i slušanje

Windows 11 File Explorer konačno dobija veliko unapređenje performansi i moderniji izgled

Samsung već testira One UI 9: Android 17 stiže ranije nego što se očekivalo

Komentari Otkaži

IT mixer