Mixtral 7B i Mixtral 8x7B pripadaju familiji visoko efikasnih modela u poređenju sa modelima Llama 2
Mistral AI je upravo predstavio Mixtral 8x7B, visokokvalitetnu rijetku mješavinu stručnjaka (SMoE) sa otvorenim kodom. Licencirano pod Apache 2.0.
Mixtral nadmašuje Llama 2 70B na većini mjerila sa 6x bržim zaključivanjem. To je najjači model otvorenog koda sa dozvoljenom licencom i najbolji model u cjelini s obzirom na kompromise između cijene i performansi. Konkretno, odgovara ili nadmašuje GPT 3.5 na većini standardnih mjerila.
Mixtral ima sljedeće mogućnosti:
- Graciozno rukuje kontekstom tokena od 32k.
- Posjeduje engleski, francuski, italijanski, njemački i španski.
- Pokazuje snažne performanse u generisanju koda.
- Može se fino podesiti u model koji prati uputstva i postiže 8,3 na MT-Bench-u.
Mixtral je rijetka mreža stručnjaka. To je model samo za dekoder gdje blok za prenos podataka bira iz skupa od 8 različitih grupa parametara. Na svakom sloju, za svaki token, mreža rutera bira dvije od ovih grupa („stručnjaka“) da obrađuju tokene i aditivno kombinuju njihove izlaze.
Ova tehnika povećava broj parametara modela dok kontroliše troškove i kašnjenje, pošto model koristi samo djelić ukupnog skupa parametara po tokenu. Konkretno, Mixtral ima ukupno 46,7B parametara, ali koristi samo 12,9B parametara po tokenu. Stoga obrađuje ulaz i generiše izlaz istom brzinom i troškovima kao i model 12.9B.
Mixtral je unaprijed obučen za podatke preuzete sa otvorenog veba – obučava stručnjake i rutere u isto vrijeme.
Mistral AI je u septembru objavio veliki model otvorenog koda Mistral 7B. Prema svim referentnim testovima nadmašivao je Llamu 2 (13B) i Llamu 2 (34B) u zadacima zaključivanja, matematike i kodiranja. Istovremeno je razvojni tim Mistral AI osigurao fino podešeni model Mistral 7B – Instruct, koji je takođe nadmašio performanse Llama 2 (13B) chat modela u ljudskim i automatizovanim mjerilima.
Mistral 7B i Mixtral 8x7B pripadaju familiji visoko efikasnih modela u poređenju sa modelima Llama 2. U poređenju sa Llamom 2, Mixtral je istinitiji (73,9% naspram 50,2% na mjerilu TruthfulQA) i predstavlja manje pristranosti na mjerilu BBQ. Sve u svemu, Mixtral pokazuje pozitivnije osjećaje od Llame 2 na BOLD, sa sličnim varijacijama unutar svake dimenzije.
Uz Mixtral 8x7B izdaje se Mixtral 8x7B – Instruct. Ovaj je model optimizovan pomoću nadziranog finog podešavanja i izravne optimizacije preferencija (DPO) za pažljivo praćenje uputa. Na MT-Benchu postiže rezultat od 8,30, što ga čini najboljim modelom otvorenog koda, sa performansama uporedivim s GPT3.5.
Mixtral-u se može zatražiti da zabrani nekim izlazima izradu aplikacija koje zahtijevaju visoki nivo modeliranja. Odgovarajuće podešavanje preferencija takođe može da posluži u ovu svrhu. Imajte na umu da će bez takvog upita model samo slijediti sve upute.
Mixtral 8x7B je dostupan za krajnju tačku mistral-small u beta verziji. Registrujte se ovdje da biste dobili rani pristup svim generativnim i ugrađenim krajnjim tačkama.
(IT mixer)