2 Архитектонски детаљи и 2.1 Ретка мешавина стручњака
3.1 Вишејезични бенцхмаркс, 3.2 Перформансе на великом домету и 3.3 Бенцхмаркс
6 Закључак, захвалност и референце
Упоређујемо Миктрал са Ллама-ом и поново покрећемо сва мерила са нашим сопственим проценама ради фер поређења. Меримо учинак на широком спектру задатака који су категорисани на следећи начин:
• Цоммонсенсе Реасонинг (0-схот): Хелласваг [32], Виногранде [26], ПИКА [3], СИКА [27], ОпенбоокКА [22], АРЦ-Еаси, АРЦ-Цхалленге [8], ЦоммонсенсеКА [30]
• Ворлд Кновледге (5 снимака): НатуралКуестионс [20], ТривиаКА [19]
• Разумевање читања (0 снимака): БоолК [7], КуАЦ [5]
• Математика: ГСМ8К [9] (8 снимака) са мај@8 и МАТХ [17] (4 снимака) са мај@4
• Шифра: Хуманевал [4] (0-схот) и МБПП [1] (3-схот)
• Популарни збирни резултати: ММЛУ [16] (5 снимака), ББХ [29] (3 ударца) и АГИ Евал [34] (3-5 снимака, само питања на енглеском са више одговора)
Детаљни резултати за Миктрал, Мистрал 7Б и Ллама 2 7Б/13Б/70Б и Ллама 1 34Б[2] приказани су у табели 2. Слика 2 упоређује перформансе Миктрал са моделима Ллама у различитим категоријама. Миктрал надмашује Ллама 2 70Б у већини метрика. Конкретно, Миктрал показује супериорне перформансе у коду и математичким мерилима.
Величина и ефикасност. Упоређујемо наше перформансе са породицом Ллама 2, са циљем да разумемо ефикасност Миктрал модела у спектру трошкова и перформанси (погледајте слику 3). Као ретки модел Миктуреоф-Екпертс, Миктрал користи само 13Б активних параметара за сваки токен. Са 5к нижим активним параметрима, Миктрал је у стању да надмаши Лламу 2 70Б у већини категорија.
Имајте на уму да се ова анализа фокусира на број активних параметара (погледајте одељак 2.1), који је директно пропорционалан трошковима израчунавања закључивања, али не узима у обзир трошкове меморије и искоришћеност хардвера. Трошкови меморије за сервирање Миктрал-а су пропорционални његовом оскудном броју параметара, 47Б, који је и даље мањи од Лламе 2 70Б. Што се тиче коришћења уређаја, примећујемо да СМоЕс слој уводи додатне трошкове због механизма рутирања и због повећаног оптерећења меморије када се покреће више од једног стручњака по уређају. Они су погоднији за групна оптерећења где се може постићи добар степен аритметичког интензитета.
Поређење са Ллама 2 70Б и ГПТ-3.5. У табели 3 приказујемо перформансе Миктрал 8к7Б у поређењу са Ллама 2 70Б и ГПТ-3.5. Примећујемо да Миктрал делује слично или изнад два друга модела. На ММЛУ, Миктрал постиже боље перформансе, упркос значајно мањем капацитету (47Б токена у поређењу са 70Б). За МТ Бенцх извештавамо о перформансама најновијег доступног модела ГПТ-3.5-Турбо, гпт-3.5-турбо-1106.
Разлике у евалуацији. У неким мерилима, постоје неке разлике између нашег протокола за евалуацију и оног који је објављен у Ллама 2 раду: 1) на МБПП, користимо ручно верификован подскуп 2) на ТривиаКА, не пружамо контексте Википедије.
Овај рад је доступан на аркив под лиценцом ЦЦ 4.0.
[2] Пошто Ллама 2 34Б није била отвореног кода, извештавамо о резултатима за Лламу 1 34Б.
Аутори:
(1) Алберт К. Јианг;
(2) Александар Саблајрол;
(3) Антоан Роук;
(4) Артур Менш;
(5) Бланш Савари;
(6) Крис Бамфорд;
(7) Девендра Синг Чаплот;
(8) Дијего де лас Касас;
(9) Ема Боу Хана;
(10) Флоријан Бресанд;
(11) Гианна Ленгиел;
(12) Гијом Бур;
(13) Гуиллауме Лампле;
(14) Лелио Ренард Лавауд;
(15) Луциле Саулниер;
(16) Марие-Анне Лацхаук;
(17) Пиерре Стоцк;
(18) Сандееп Субраманиан;
(19) Софија Јанг;
(20) Шимон Антониак;
(21) Тевен Ле Сцао;
(22) Теофил Жервет;
(23) Тибо Лаврил;
(24) Томас Ванг;
(25) Тимоте Лакроа;
(26) Вилијам Ел Сајед.