U smjelom istraživanju skrivenih uglova interneta, južnokorejski istraživači su razvili DarkBERT, AI model posebno dizajniran za navigaciju u mračnim oblastima dark web-a.
U svojoj potrazi za borbom protiv sajber kriminala, oblasti koja se brzo razvija i koja se u velikoj mjeri oslanja na obradu prirodnog jezika, ovi istraživači su razvili DarkBERT — AI model koji ima za cilj da osvijetli skrivene zamršenosti digitalnog podzemlja.
Ovaj jezički model, koji je kreiran u Južnoj Koreji, prošao je kroz dark web koristeći Tor mrežu. Vrativši sirove podatke koje je pronašao, stvorio je model koji bi mogao bolje razumjeti jezik koji se tamo koristi. Kada je završen proces, uporedili su ga sa postojećim modelima koje su istraživači kreirali ranije npr. RoBERTa i BERT.
U radu, koji bi trebalo da prođe recenziju, pod nazivom „DarkBERT: Jezički model za tamnu stranu interneta“, istraživački tim ističe svoj inovativni pristup. Oni žele da razumiju da li bi korišćenje dark web-a kao skupa podataka dalo bolji AI kontekst jezika koji se tamo koristi.
Upuštajući se u mračna područja World Wide Weba, istraživači su se upustili u zadivljujuće istraživanje najmračnijih uglova, gdje cvjetaju ilegalne i zlonamjerne aktivnosti.
DarkBERT posjeduje potencijal da otkrije web stranice koje se bave prodajom ransomware-a ili curenjem povjerljivih podataka – šta je ključni aspekt u borbi protiv neprestanog porasta sajber kriminala.
Štaviše, DarkBERT-ove mogućnosti se protežu na praćenje neprekidnog protoka ilegalnih web foruma i proaktivno prepoznavanje i ispitivanje nezakonite razmjene informacija.
Kako funkcioniše DarkBERT
Trenutno je DarkBERT još uvijek u izradi. Programeri trenutno rade na AI kako bi se dobro prilagodio jeziku koji bi se mogao koristiti na tamnoj strani weba-a. Istraživači treniraju model prolaskom kroz anonimni firewall Tor mreže.
Takođe je objavljeno da će prethodno obučeni model biti dobro filtriran i dedupliciran. Obrada podataka će biti ugrađena u model kako bi se identifikovale prijetnje ili zabrinutosti iz očekivanih osjetljivih informacija.
Efikasnost DarkBERT-a nadmašuje svoje prethodnike, uključujući i zapaženi model RoBERTa koji su uveli istraživači Facebook-a 2019. godine.
Dok se RoBERTa fokusirao na predviđanje skrivenih odsječaka teksta unutar neobilježenih jezičkih uzoraka, DarkBERT-ove ogromne mogućnosti obuhvataju razotkrivanje zamršenih niti dark web-a.
Reći da je engleski poslovni jezik dark web-a ne bi bilo sasvim tačno, ali to je dovoljno specifična izmišljotina da istraživači vjeruju da se određeni LLM morao obučavati na njemu.
Kao i kod drugih LLM, to ne znači da je DarkBERT završen. Njegovo dalje usavršavanje i „štimovanje“ može nastaviti da poboljšava rezultate. Kako će da se koristi i koja saznanja će se moći da prikupi ostaje da se vidi.
Očekuje se da će DarkBERT performanse biti bolje korišćenjem najnovijeg jezika u unaprijed obučenom modelu kako bi se omogućilo pretraživanje dodatnih podataka.
Preliminarna verzija studije koja još nije recenzirana, možete da pogledate ovdje.
(IT mixer)