Microsoft predstavio NDv6 GB300: novu generaciju superračunarskih virtuelnih mašina
Microsoft Azure je predstavio novu seriju virtuelnih mašina NDv6 GB300, koju opisuje kao prvi superračunarski klaster u industriji zasnovan na Nvidia GB300 NVL72 sistemima. Ove mašine biće dostupne za najzahtjevnije AI inferencijske zadatke OpenAI-ja, a posebno su optimizovane za razložne modele, agentne AI sisteme i multimodalne generativne procese. Novi klaster nasljeđuje ND GB200 v6 VMs, predstavljene prije manje od godinu dana.
Klaster pokreće više od 4.600 Nvidia Blackwell Ultra GPU sistema
Prema objavi na Azure blogu, sistem je sastavljen od više od 4.600 Nvidia GB300 NVL72 jedinica, koje koriste Blackwell Ultra GPU-ove povezane InfiniBand mrežom. Microsoft navodi da će ovaj klaster omogućiti treniranje AI modela u nekoliko sedmica umjesto mjeseci, uz izuzetno visoku propusnost za inferencijske radne procese. Sistem može podržati modele sa stotinama triliona parametara – što ga svrstava u sam vrh globalne AI infrastrukture.
Izuzetno brza arhitektura sa 72 GPU-a i 36 CPU-a po racku
Svaki rack sadrži 18 virtuelnih mašina, sa ukupno 72 GPU-a i 36 Nvidia Grace CPU-a. GPU jedinice međusobno komuniciraju brzinom od 800 GB/s po jedinici, zahvaljujući Nvidia Quantum-X800 InfiniBand mreži.
U svakom racku čipovi su povezani ultra-brzim NVLink i NVSwitch vezama, što omogućava razmjenu podataka od 130 TB/s između 37 TB zajedničke memorije. Ova struktura omogućava sistemu da postigne čak 1.440 petaflopsa (PFLOPS) AI proračuna u sekundi pomoću FP4 Tensor Cores, čineći ga jednim od najbržih računarskih sistema na svijetu.
Povezanost bez zastoja i maksimalna skalabilnost
Da bi omogućio besprijekornu komunikaciju između rackova, Microsoft koristi “full fat-tree” mrežnu arhitekturu zasnovanu na InfiniBand tehnologiji, koja sprečava zagušenja i omogućava da svi GPU-ovi rade bez prekida.
Ovakav dizajn smanjuje vrijeme sinhronizacije i povećava efikasnost izračunavanja, omogućavajući brže treniranje ogromnih AI modela uz manju potrošnju resursa. Azure-ov softverski sloj koristi vlastite protokole, kolektivne biblioteke i in-network computing za maksimalnu pouzdanost i iskorištenost mreže.
Napredni sistemi hlađenja i održiv pristup
Microsoft je posebnu pažnju posvetio efikasnosti i održivosti, pa su sistemi hlađenja unaprijeđeni kombinacijom samostalnih izmjenjivača toplote i rashladnih postrojenja, čime se značajno smanjuje potrošnja vode.
Redizajnirani softverski ekosistem za budućnost AI-a
Na softverskom planu, Azure je potpuno redizajnirao slojeve za skladištenje, orkestraciju i raspoređivanje zadataka, kako bi iskoristio puni potencijal nove NDv6 GB300 arhitekture.
Kombinujući vrhunsku hardversku snagu, mrežnu optimizaciju i energetski efikasno hlađenje, Microsoft sa NDv6 GB300 serijom jasno pokazuje da cilja ka novoj eri superračunarskih AI sistema, spremnih za najkompleksnije projekte današnjice – od OpenAI-ja do budućih generativnih modela.