Mixtral 7B i Mixtral 8x7B pripadaju familiji visoko efikasnih modela u poređenju sa modelima Llama 2

 

Mistral AI je upravo predstavio Mixtral 8x7B, visokokvalitetnu rijetku mješavinu stručnjaka (SMoE) sa otvorenim kodom. Licencirano pod Apache 2.0.

Mixtral nadmašuje Llama 2 70B na većini mjerila sa 6x bržim zaključivanjem. To je najjači model otvorenog koda sa dozvoljenom licencom i najbolji model u cjelini s obzirom na kompromise između cijene i performansi. Konkretno, odgovara ili nadmašuje GPT 3.5 na većini standardnih mjerila.

Mixtral ima sljedeće mogućnosti:

  • Graciozno rukuje kontekstom tokena od 32k.
  • Posjeduje engleski, francuski, italijanski, njemački i španski.
  • Pokazuje snažne performanse u generisanju koda.
  • Može se fino podesiti u model koji prati uputstva i postiže 8,3 na MT-Bench-u.

Mixtral je rijetka mreža stručnjaka. To je model samo za dekoder gdje blok za prenos podataka bira iz skupa od 8 različitih grupa parametara. Na svakom sloju, za svaki token, mreža rutera bira dvije od ovih grupa („stručnjaka“) da obrađuju tokene i aditivno kombinuju njihove izlaze.

Ova tehnika povećava broj parametara modela dok kontroliše troškove i kašnjenje, pošto model koristi samo djelić ukupnog skupa parametara po tokenu. Konkretno, Mixtral ima ukupno 46,7B parametara, ali koristi samo 12,9B parametara po tokenu. Stoga obrađuje ulaz i generiše izlaz istom brzinom i troškovima kao i model 12.9B.

Mixtral je unaprijed obučen za podatke preuzete sa otvorenog veba – obučava stručnjake i rutere u isto vrijeme.

Mistral AI je u septembru objavio veliki model otvorenog koda Mistral 7B. Prema svim referentnim testovima nadmašivao je Llamu 2 (13B) i Llamu 2 (34B) u zadacima zaključivanja, matematike i kodiranja. Istovremeno je razvojni tim Mistral AI osigurao fino podešeni model Mistral 7B – Instruct, koji je takođe nadmašio performanse Llama 2 (13B) chat modela u ljudskim i automatizovanim mjerilima.

Mistral 7B i Mixtral 8x7B pripadaju familiji visoko efikasnih modela u poređenju sa modelima Llama 2. U poređenju sa Llamom 2, Mixtral je istinitiji (73,9% naspram 50,2% na mjerilu TruthfulQA) i predstavlja manje pristranosti na mjerilu BBQ. Sve u svemu, Mixtral pokazuje pozitivnije osjećaje od Llame 2 na BOLD, sa sličnim varijacijama unutar svake dimenzije.

Uz Mixtral 8x7B izdaje se Mixtral 8x7B – Instruct. Ovaj je model optimizovan pomoću nadziranog finog podešavanja i izravne optimizacije preferencija (DPO) za pažljivo praćenje uputa. Na MT-Benchu ​​postiže rezultat od 8,30, što ga čini najboljim modelom otvorenog koda, sa performansama uporedivim s GPT3.5.

Mixtral 8x7B

Mixtral-u se može zatražiti da zabrani nekim izlazima izradu aplikacija koje zahtijevaju visoki nivo modeliranja. Odgovarajuće podešavanje preferencija takođe može da posluži u ovu svrhu. Imajte na umu da će bez takvog upita model samo slijediti sve upute.

Mixtral 8x7B je dostupan za krajnju tačku mistral-small u beta verziji. Registrujte se ovdje da biste dobili rani pristup svim generativnim i ugrađenim krajnjim tačkama.

(IT mixer)