DeepSeek AI model odgođen zbog problema sa treniranjem na Huawei čipovima

Kineski AI startap DeepSeek odložio je lansiranje svog najnovijeg modela nakon što je naišao na poteškoće u treniranju na Huawei čipovima, što naglašava ograničenja kineskih napora da zamijeni američku tehnologiju.

Izvori upoznati s tim kažu da su vlasti podsticale DeepSeek da koristi Huawei Ascend procesor za svoj R2 model, umjesto Nvidia sistema, nakon objavljivanja R1 modela u januaru. Međutim, zbog stalnih tehničkih problema tokom treniranja, kompanija je bila primorana da koristi Nvidia čipove za treniranje, dok je Huawei čipove koristila za inferenciju.

Ovi izazovi bili su glavni razlog odlaganja lansiranja modela sa maja, što je DeepSeek učinilo ranjivijim u odnosu na konkurenciju. Treniranje podrazumijeva učenje modela na velikim skupovima podataka, dok inferencija označava fazu kada trenirani model generiše predikcije ili odgovore, poput odgovora chatbota.

Problemi DeepSeeka pokazuju jaz u performansama između kineskih i američkih AI čipova, ističući izazove s kojima se Kina suočava u nastojanju da postane tehnološki samostalna. Financial Times je nedavno izvijestio da kineske vlasti zahtijevaju od kompanija da opravdaju narudžbe Nvidia H20 čipova, podstičući ih da razmatraju alternative iz Huaweija i Cambricona. Stručnjaci iz industrije navode da kineski čipovi često zaostaju po stabilnosti, međučipnoj povezanosti i softverskoj podršci u poređenju s Nvidia proizvodima.

Huawei je navodno poslao inženjere u DeepSeekove kancelarije kako bi pomogli u razvoju R2, ali čak ni s njihovom prisutnošću, uspješno treniranje na Ascend čipu nije bilo moguće. DeepSeek i dalje radi s Huaweijem kako bi model bio kompatibilan za inferenciju.

Osnivač Liang Wenfeng izrazio je nezadovoljstvo internim napretkom R2 i inzistira na dodatnom vremenu za razvoj naprednijeg modela koji bi mogao zadržati vodeću poziciju kompanije u AI industriji. Lansiranje je dodatno odgođeno zbog dužeg od očekivanog označavanja podataka, iako kineski mediji sugerišu da bi model mogao biti objavljen u narednim sedmicama.

“Modeli su roba koja se lako može zamijeniti,” rekao je Ritwik Gupta, istraživač AI na Univerzitetu Kalifornija u Berkliju. Napomenuo je da se mnogi developeri okreću Alibaba Qwen3 modelu, koji koristi osnovne DeepSeekove algoritme treniranja, ali ih čini efikasnijim.

Gupta je također primijetio da Huawei prolazi kroz “dječije bolesti” u korištenju Ascend čipova za treniranje, ali očekuje da će se kompanija vremenom prilagoditi.

U međuvremenu, Nvidia, koja se nalazi u središtu geopolitičke borbe između Pekinga i Vašingtona, nedavno se dogovorila da dio prihoda iz Kine dijeli s američkom vladom kako bi nastavila prodaju H20 čipova u zemlji. Nvidia je naglasila važnost developera u izgradnji uspješnog AI ekosistema, upozoravajući da gubitak tržišta i talenata može naštetiti i ekonomiji i nacionalnoj sigurnosti SAD-a.

DeepSeek i Huawei nisu odgovorili na zahtjeve za komentar.

(Izvor: Arstechnica)