paint-brush
Миктрал надмашује Лламу и ГПТ-3.5 у више мерилаод стране@textmodels
158 читања

Миктрал надмашује Лламу и ГПТ-3.5 у више мерила

од стране Writings, Papers and Blogs on Text Models4m2024/10/18
Read on Terminal Reader

Предуго; Читати

Миктрал 8к7Б надмашује Ллама 2 70Б и ГПТ-3.5 у бројним мерилима, укључујући здраворазумско резоновање, математику и генерисање кода. Са само 13Б активних параметара, Миктрал постиже упоредиве или супериорне перформансе док је ефикаснији од својих колега. Упркос мањем капацитету од 47Б параметара, Миктрал се истиче у метрикама као што је ММЛУ и показује снажне перформансе у низу задатака, што га чини робусним избором за апликације за моделирање језика.
featured image - Миктрал надмашује Лламу и ГПТ-3.5 у више мерила
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Табела веза

Апстракт и 1. Увод

2 Архитектонски детаљи и 2.1 Ретка мешавина стручњака

3 Ресултс

3.1 Вишејезични бенцхмаркс, 3.2 Перформансе на великом домету и 3.3 Бенцхмаркс

4 Инструкције Фино подешавање

5 Анализа рутирања

6 Закључак, захвалност и референце

3 Ресултс

Упоређујемо Миктрал са Ллама-ом и поново покрећемо сва мерила са нашим сопственим проценама ради фер поређења. Меримо учинак на широком спектру задатака који су категорисани на следећи начин:


• Цоммонсенсе Реасонинг (0-схот): Хелласваг [32], Виногранде [26], ПИКА [3], СИКА [27], ОпенбоокКА [22], АРЦ-Еаси, АРЦ-Цхалленге [8], ЦоммонсенсеКА [30]


• Ворлд Кновледге (5 снимака): НатуралКуестионс [20], ТривиаКА [19]


• Разумевање читања (0 снимака): БоолК [7], КуАЦ [5]


• Математика: ГСМ8К [9] (8 снимака) са мај@8 и МАТХ [17] (4 снимака) са мај@4


• Шифра: Хуманевал [4] (0-схот) и МБПП [1] (3-схот)


• Популарни збирни резултати: ММЛУ [16] (5 снимака), ББХ [29] (3 ударца) и АГИ Евал [34] (3-5 снимака, само питања на енглеском са више одговора)


Слика 2: Перформансе Миктрал и различитих Ллама модела на широком спектру мерила. Сви модели су поново процењени на свим метрикама помоћу нашег система евалуације ради тачног поређења. Миктрал надмашује или одговара Ллама 2 70Б на свим реперима. Конкретно, много је супериорнији у математици и генерисању кода.


Табела 2: Поређење Миктрал са Ллама. Миктрал надмашује или одговара перформансама Лламе 2 70Б на скоро свим популарним бенцхмарковима док користи 5к мање активних параметара током закључивања.


Слика 3: Резултати на ММЛУ, здравом разуму, светском знању и разумевању прочитаног, математици и коду за Мистрал (7Б/8к7Б) против Лламе 2 (7Б/13Б/70Б). Миктрал у великој мери надмашује Ллама 2 70Б на свим мерилима, осим у мерилима за разумевање читања док користи 5к ниже активне параметре. Такође је знатно супериорнији од Лламе 2 70Б у коду и математици.


Детаљни резултати за Миктрал, Мистрал 7Б и Ллама 2 7Б/13Б/70Б и Ллама 1 34Б[2] приказани су у табели 2. Слика 2 упоређује перформансе Миктрал са моделима Ллама у различитим категоријама. Миктрал надмашује Ллама 2 70Б у већини метрика. Конкретно, Миктрал показује супериорне перформансе у коду и математичким мерилима.


Величина и ефикасност. Упоређујемо наше перформансе са породицом Ллама 2, са циљем да разумемо ефикасност Миктрал модела у спектру трошкова и перформанси (погледајте слику 3). Као ретки модел Миктуреоф-Екпертс, Миктрал користи само 13Б активних параметара за сваки токен. Са 5к нижим активним параметрима, Миктрал је у стању да надмаши Лламу 2 70Б у већини категорија.


Имајте на уму да се ова анализа фокусира на број активних параметара (погледајте одељак 2.1), који је директно пропорционалан трошковима израчунавања закључивања, али не узима у обзир трошкове меморије и искоришћеност хардвера. Трошкови меморије за сервирање Миктрал-а су пропорционални његовом оскудном броју параметара, 47Б, који је и даље мањи од Лламе 2 70Б. Што се тиче коришћења уређаја, примећујемо да СМоЕс слој уводи додатне трошкове због механизма рутирања и због повећаног оптерећења меморије када се покреће више од једног стручњака по уређају. Они су погоднији за групна оптерећења где се може постићи добар степен аритметичког интензитета.


Поређење са Ллама 2 70Б и ГПТ-3.5. У табели 3 приказујемо перформансе Миктрал 8к7Б у поређењу са Ллама 2 70Б и ГПТ-3.5. Примећујемо да Миктрал делује слично или изнад два друга модела. На ММЛУ, Миктрал постиже боље перформансе, упркос значајно мањем капацитету (47Б токена у поређењу са 70Б). За МТ Бенцх извештавамо о перформансама најновијег доступног модела ГПТ-3.5-Турбо, гпт-3.5-турбо-1106.


Табела 3: Поређење Миктрал са Ллама 2 70Б и ГПТ-3.5. Миктрал надмашује или одговара перформансама Ллама 2 70Б и ГПТ-3.5 на већини метрика.


Разлике у евалуацији. У неким мерилима, постоје неке разлике између нашег протокола за евалуацију и оног који је објављен у Ллама 2 раду: 1) на МБПП, користимо ручно верификован подскуп 2) на ТривиаКА, не пружамо контексте Википедије.


Овај рад је доступан на аркив под лиценцом ЦЦ 4.0.


[2] Пошто Ллама 2 34Б није била отвореног кода, извештавамо о резултатима за Лламу 1 34Б.


Аутори:

(1) Алберт К. Јианг;

(2) Александар Саблајрол;

(3) Антоан Роук;

(4) Артур Менш;

(5) Бланш Савари;

(6) Крис Бамфорд;

(7) Девендра Синг Чаплот;

(8) Дијего де лас Касас;

(9) Ема Боу Хана;

(10) Флоријан Бресанд;

(11) Гианна Ленгиел;

(12) Гијом Бур;

(13) Гуиллауме Лампле;

(14) Лелио Ренард Лавауд;

(15) Луциле Саулниер;

(16) Марие-Анне Лацхаук;

(17) Пиерре Стоцк;

(18) Сандееп Субраманиан;

(19) Софија Јанг;

(20) Шимон Антониак;

(21) Тевен Ле Сцао;

(22) Теофил Жервет;

(23) Тибо Лаврил;

(24) Томас Ванг;

(25) Тимоте Лакроа;

(26) Вилијам Ел Сајед.


L O A D I N G
. . . comments & more!

About Author

Writings, Papers and Blogs on Text Models HackerNoon profile picture
Writings, Papers and Blogs on Text Models@textmodels
We publish the best academic papers on rule-based techniques, LLMs, & the generation of text that resembles human text.

ХАНГ ТАГС

ОВАЈ ЧЛАНАК ЈЕ ПРЕДСТАВЉЕН У...