Kineska kompanija za vještačku inteligenciju (AI), DeepSeek, predstavila je svoj najnoviji model, DeepSeek V3. Ovaj model otvorenog koda predstavlja veliki jezički model (LLM) sa impresivnih 671 milijardu parametara, što značajno nadmašuje Meta-in Llama 3.1 model, koji ima 405 milijardi parametara.
Uprkos svojoj veličini, DeepSeek V3 stavlja akcenat na efikasnost zahvaljujući arhitekturi sa mješavinom stručnjaka (MoE). Ovaj pristup omogućava aktivaciju samo onih parametara koji su relevantni za određeni zadatak, čime se povećava preciznost i smanjuju troškovi obrade. Važno je napomenuti da je model fokusiran isključivo na obradu teksta i nema multimodalne sposobnosti.
Karakteristike i arhitektura
DeepSeek V3 je dostupan na platformi Hugging Face, gdje je opisan kao efikasan i troškovno povoljan za korišćenje i treniranje. Ključne komponente arhitekture uključuju Multi-head Latent Attention (MLA) i vlasnički DeepSeekMoE okvir. Aktiviranjem samo relevantnih parametara za unos, model omogućava bržu obradu i veću preciznost u poređenju s tipičnim modelima ove veličine.
Model je unaprijed obučen na ogromnih 14,8 triliona tokena i koristi napredne tehnike poput nadgledanog fino podešavanja i učenja putem pojačanja kako bi generisao visokokvalitetne odgovore. Uprkos svojoj veličini, model je u potpunosti obučen za samo 2,788 miliona sati koristeći Nvidia H800 GPU. Kako bi spriječio pad performansi, model uključuje mehanizam za balansiranje opterećenja, funkciju koja je naslijeđena od njegovog prethodnika.
Performanse i mjerni testovi
Interna testiranja sugerišu da DeepSeek V3 nadmašuje Meta-in Llama 3.1 i Qwen 2.5 modele na nekoliko mjernih testova, uključujući Big-Bench High-Performance (BBH), Massive Multitask Language Understanding (MMLU), HumanEval i MATH. Međutim, ovi rezultati još nisu nezavisno potvrđeni.
Ističe se u prostoru otvorenog koda
Sa 671 milijardom parametara, DeepSeek V3 je jedan od najvećih LLM-ova otvorenog koda, premašen samo vlasničkim modelima poput Gemini 1.5 Pro, koji ima milijardu parametara. Prije ovog izdanja, najveći model otvorenog koda bio je Meta-in Llama 3.1.
Dostupnost i licenciranje
DeepSeek V3 je dostupan pod MIT licencom na platformi Hugging Face, što omogućava ličnu i komercijalnu upotrebu. Model se takođe može testirati putem DeepSeek-ove online platforme za čatovanje, a dostupan je i API za programere koji žele graditi aplikacije koristeći ovaj model.