Grok-1 je jezički model Mixture of-Experts sa 314 milijardi parametara koji je od nule obučavao xAI

 

Veliki jezički model Grok-1 je postavljen na GitHub, a programeri ili kompanije mogu ga besplatno preuzeti i koristiti u svojim projektima pod licencom Apache 2.0. To znači da je njegova komercijalna upotreba dozvoljena, ali ne uključuje podatke koji se koriste za obuku modela ili vezu sa X.com za informacije u realnom vremenu.

Grok AI, koji je razvio xAI, najnoviji je učesnik u domenu konverzacijske AI, i donosi novi zaokret. Za razliku od svojih prethodnika, Grok AI ne samo da razumije i obrađuje jezik – on to čini s nijansama i humorom koji odražavaju ličnost svog kreatora. Ovaj chatbot je dizajniran da komunicira, angažuje i pomaže korisnicima u obavljanju mnoštva zadataka, od svakodnevnih do složenih.

Njegova verzija Grok-1 je model izgrađen na tehnologiji Mixture-of-Ekperts (MoE) sa 314 milijardi parametara, koji daleko premašuje OpenAI GPT-3.5 175 milijardi. To ga čini i najvećim modelom velikog jezika otvorenog koda koji je danas dostupan.

Važno je napomenuti da samo pokretanje GPT-3 zahtjeva 700 GB GPU VRAM-a. Obzirom da je Grok-1 skoro duplo veći od GPT-3, hardverski zahtjevi će nesumnjivo biti mnogo veći. Zato, ako kompanije žele da upravljaju ovim modelom vještačke inteligencije, moraće značajno da investiraju u AI hardver ili da se oslone na usluge u oblaku kao što je Microsoft Azure. U saopštenju se takođe navodi da su podaci o obuci modela dostigli prekretnicu prošlog oktobra i da nisu precizirani „za bilo koju specifičnu primjenu, kao što je dijalog“.

Međutim, postoje pitanja o sigurnosti modela. Umjerenost i mjere zaštite uvedene u okviru modela nisu dobro poznate, što izaziva strah od moguće zlonamjerne upotrebe sistema.

 

Detalji modela:
  • Osnovni model obučen na velikoj količini tekstualnih podataka, nije fino podešen za bilo koji određeni zadatak.
  • 314B parametar Mixture of-Experts model sa 25% pondera aktivnih na datom tokenu.
  • Obučen od nule od strane xAI-a koristeći prilagođeni skup za obuku na vrhu JAX-a i Rusta u oktobru 2023. godine
  • Model jefino podešen koristeći opsežne povratne informacije i od ljudi i od ranih Grok-0 modela.
  • Početni Grok-1 ima dužinu konteksta od 8.192 tokena i objavljen je u novembru 2023.

Grok-1 je namijenjen da se koristi kao motor iza Groka za zadatke obrade prirodnog jezika, uključujući odgovaranje na pitanja, pronalaženje informacija, kreativno pisanje i pomoć kod kodiranja. Grok-1 je ocjenjivan na nizu referentnih zadataka za rezonovanje i na kuriranim stranim ispitnim pitanjima iz matematike.

Iako se Grok-1 ističe u obradi informacija, ključno je da ljudi pregledaju rad Grok-1 kako bi se osigurala tačnost. Jezički model Grok-1 nema mogućnost samostalnog pretraživanja weba. Alati za pretraživanje i baze podataka poboljšavaju mogućnosti i činjeničnost modela kada se implementiraju u Grok. Model i dalje može da halucinira, uprkos pristupu vanjskim izvorima informacija.

(IT mixer)