DeepSeek predstavio masivni model vještačke inteligencije DeepSeek V3

Kineska kompanija za vještačku inteligenciju (AI), DeepSeek, predstavila je svoj najnoviji model, DeepSeek V3. Ovaj model otvorenog koda predstavlja veliki jezički model (LLM) sa impresivnih 671 milijardu parametara, što značajno nadmašuje Meta-in Llama 3.1 model, koji ima 405 milijardi parametara.

Uprkos svojoj veličini, DeepSeek V3 stavlja akcenat na efikasnost zahvaljujući arhitekturi sa mješavinom stručnjaka (MoE). Ovaj pristup omogućava aktivaciju samo onih parametara koji su relevantni za određeni zadatak, čime se povećava preciznost i smanjuju troškovi obrade. Važno je napomenuti da je model fokusiran isključivo na obradu teksta i nema multimodalne sposobnosti.

Karakteristike i arhitektura

DeepSeek V3 je dostupan na platformi Hugging Face, gdje je opisan kao efikasan i troškovno povoljan za korišćenje i treniranje. Ključne komponente arhitekture uključuju Multi-head Latent Attention (MLA) i vlasnički DeepSeekMoE okvir. Aktiviranjem samo relevantnih parametara za unos, model omogućava bržu obradu i veću preciznost u poređenju s tipičnim modelima ove veličine.

Model je unaprijed obučen na ogromnih 14,8 triliona tokena i koristi napredne tehnike poput nadgledanog fino podešavanja i učenja putem pojačanja kako bi generisao visokokvalitetne odgovore. Uprkos svojoj veličini, model je u potpunosti obučen za samo 2,788 miliona sati koristeći Nvidia H800 GPU. Kako bi spriječio pad performansi, model uključuje mehanizam za balansiranje opterećenja, funkciju koja je naslijeđena od njegovog prethodnika.

Performanse i mjerni testovi

Interna testiranja sugerišu da DeepSeek V3 nadmašuje Meta-in Llama 3.1 i Qwen 2.5 modele na nekoliko mjernih testova, uključujući Big-Bench High-Performance (BBH), Massive Multitask Language Understanding (MMLU), HumanEval i MATH. Međutim, ovi rezultati još nisu nezavisno potvrđeni.

Ističe se u prostoru otvorenog koda

Sa 671 milijardom parametara, DeepSeek V3 je jedan od najvećih LLM-ova otvorenog koda, premašen samo vlasničkim modelima poput Gemini 1.5 Pro, koji ima milijardu parametara. Prije ovog izdanja, najveći model otvorenog koda bio je Meta-in Llama 3.1.

Dostupnost i licenciranje

DeepSeek V3 je dostupan pod MIT licencom na platformi Hugging Face, što omogućava ličnu i komercijalnu upotrebu. Model se takođe može testirati putem DeepSeek-ove online platforme za čatovanje, a dostupan je i API za programere koji žele graditi aplikacije koristeći ovaj model.

DeepSeek predstavio masivni model vještačke inteligencije DeepSeek V3

Karakteristike i arhitektura

Performanse i mjerni testovi

Ističe se u prostoru otvorenog koda

Dostupnost i licenciranje

Komentari Otkaži

IT mixer

DeepSeek predstavio masivni model vještačke inteligencije DeepSeek V3

Karakteristike i arhitektura

Performanse i mjerni testovi

Ističe se u prostoru otvorenog koda

Dostupnost i licenciranje

Microsoft automatski instalira 365 Copilot AI aplikaciju od oktobra 2025.

Xbox aplikacija dobila veliko ažuriranje: Sve igre na jednom mjestu

Windows 11 Insider verzije dodaju ugrađeni test brzine interneta preko Binga

Komentari Otkaži

IT mixer