ავტორები:
(1) Albert Q. Jiang;
(2) ალექსანდრე საბლეიროლესი;
(3) ანტუან რუ;
(4) არტურ მენში;
(5) ბლანშ სავარი;
(6) კრის ბემფორდი;
(7) დევენდრა სინგ ჩაპლოტი;
(8) დიეგო დე ლას კასასი;
(9) ემა ბუ ჰანა;
(10) ფლორიან ბრესანდი;
(11) ჯიანა ლენგიელი;
(12) გიომ ბურ;
(13) გიომ ლამპლი;
(14) ლელიო რენარ ლავო;
(15) Lucile Saulnier;
(16) მარი-ანა ლაშო;
(17) პიერ სტოკი;
(18) სანდიპ სუბრამიანი;
(19) სოფია იანგი;
(20) შიმონ ანტონიაკი;
(21) თვენ ლე სკაო;
(22) თეოფილ გერვეტი;
(23) ტიბო ლავრილი;
(24) თომას ვანგი;
(25) Timothée Lacroix;
(26) უილიამ ელ საიედი.
2 არქიტექტურული დეტალი და 2.1 ექსპერტთა იშვიათი ნაზავი
6 დასკვნა, მადლიერება და ცნობები
ჩვენ წარმოგიდგენთ Mixtral 8x7B, Sparse Mixture of Experts (SMoE) ენის მოდელს. Mixtral-ს აქვს იგივე არქიტექტურა, რაც Mistral 7B-ს, იმ განსხვავებით, რომ თითოეული ფენა შედგება 8 მიმავალი ბლოკისგან (ანუ ექსპერტებისგან). თითოეული ტოკენისთვის, თითოეულ ფენაზე, როუტერის ქსელი ირჩევს ორ ექსპერტს, რათა დაამუშავოს მიმდინარე მდგომარეობა და დააკავშიროს მათი შედეგები. მიუხედავად იმისა, რომ თითოეული ჟეტონი მხოლოდ ორ ექსპერტს ხედავს, შერჩეული ექსპერტები შეიძლება განსხვავდებოდეს თითოეულ დროში. შედეგად, თითოეულ ჟეტონს აქვს წვდომა 47B პარამეტრზე, მაგრამ დასკვნის დროს იყენებს მხოლოდ 13B აქტიურ პარამეტრს. Mixtral ვარჯიშობდა კონტექსტური ზომით 32 ათასი ჟეტონებით და ის აღემატება ან ემთხვევა Llama 2 70B-ს და GPT-3.5-ს ყველა შეფასებულ კრიტერიუმში. კერძოდ, Mixtral ბევრად აღემატება Llama 2 70B-ს მათემატიკაში, კოდის გენერირებასა და მრავალენოვან კრიტერიუმებში. ჩვენ ასევე გთავაზობთ მოდელს, რომელიც დახვეწილია ინსტრუქციების შესაბამისად, Mixtral 8x7B – Instruct, რომელიც აჭარბებს GPT-3.5 Turbo, Claude-2.1, Gemini Pro და Llama 2 70B – ჩეთის მოდელს ადამიანის კრიტერიუმებზე. როგორც ძირითადი, ასევე ინსტრუქციული მოდელები გამოშვებულია Apache 2.0 ლიცენზიით.
კოდი : https://github.com/mistralai/mistral-src
ვებგვერდი : https://mistral.ai/news/mixtral-of-experts/
ამ ნაშრომში, ჩვენ წარმოგიდგენთ Mixtral 8x7B, ექსპერტთა მოდელის იშვიათ ნარევს (SMoE) ღია წონებით, ლიცენზირებული Apache 2.0-ით. Mixtral აჯობებს Llama 2 70B-ს და GPT-3.5-ს უმეტეს კრიტერიუმებზე. ვინაიდან ის იყენებს მხოლოდ თავისი პარამეტრების ქვეჯგუფს ყველა ტოკენისთვის, Mixtral იძლევა უფრო სწრაფ დასკვნის სიჩქარეს დაბალ ზომებში და უფრო მაღალ გამტარუნარიანობას დიდი სურათების ზომებში.
Mixtral არის იშვიათი ნაზავი ექსპერტთა ქსელი. ეს არის მხოლოდ დეკოდერის მოდელი, სადაც მიმავალი ბლოკი არჩევს პარამეტრების 8 განსხვავებული ჯგუფიდან. ყველა ფენაზე, ყოველი ტოკენისთვის, როუტერის ქსელი ირჩევს ამ ჯგუფთაგან ორს ("ექსპერტებს"), რათა დაამუშაოს ტოკენი და დააკავშიროს მათი გამომავალი დამატებითი. ეს ტექნიკა ზრდის მოდელის პარამეტრების რაოდენობას, ხოლო აკონტროლებს ღირებულებას და შეყოვნებას, რადგან მოდელი იყენებს მხოლოდ პარამეტრების მთლიანი ნაკრების ნაწილს თითო ტოკენზე.
Mixtral წინასწარ არის გაწვრთნილი მრავალენოვანი მონაცემებით 32 ათასი ტოკენის კონტექსტური ზომის გამოყენებით. ის ან ემთხვევა ან აჭარბებს Llama 2 70B და GPT-3.5-ის შესრულებას რამდენიმე ნიშნულზე. კერძოდ,
Mixtral ავლენს უმაღლეს შესაძლებლობებს მათემატიკაში, კოდის გენერირებაში და ამოცანებს, რომლებიც საჭიროებენ მრავალენოვან გაგებას, რაც მნიშვნელოვნად აღემატება Llama 2 70B-ს ამ დომენებში. ექსპერიმენტებმა აჩვენა, რომ Mixtral-ს შეუძლია წარმატებით მოიძიოს ინფორმაცია თავისი კონტექსტური ფანჯრიდან 32 ათასი ჟეტონისგან, მიუხედავად თანმიმდევრობის სიგრძისა და ინფორმაციის ადგილმდებარეობისა თანმიმდევრობაში.
ჩვენ ასევე წარმოგიდგენთ Mixtral 8x7B – Instruct, ჩატის მოდელს, რომელიც კარგად არის მორგებული ინსტრუქციების შესაბამისად, ზედამხედველობის დახვეწის და პირდაპირი პრიორიტეტების ოპტიმიზაციის გამოყენებით [25]. მისი შესრულება მნიშვნელოვნად აღემატება GPT-3.5 Turbo, Claude-2.1, Gemini Pro და Llama 2 70B - ჩატის მოდელი ადამიანის შეფასების ეტალონებზე. Mixtral – Instruct ასევე აჩვენებს შემცირებულ მიკერძოებას და უფრო დაბალანსებულ სენტიმენტალურ პროფილს ისეთ ეტალონებში, როგორიცაა BBQ და BOLD.
ჩვენ გამოვუშვით Mixtral 8x7B და Mixtral 8x7B – ინსტრუქციები Apache 2.0 ლიცენზიით1, უფასო აკადემიური და კომერციული გამოყენებისთვის, რაც უზრუნველყოფს ფართო ხელმისაწვდომობას და პოტენციალს მრავალფეროვანი აპლიკაციებისთვის. იმისათვის, რომ საზოგადოებამ გაუშვას Mixtral სრულად ღია კოდის სტეკით, ჩვენ შევიტანეთ ცვლილებები vLLM პროექტში, რომელიც აერთიანებს Megablocks CUDA ბირთვებს ეფექტური დასკვნისთვის. Skypilot ასევე იძლევა vLLM საბოლოო წერტილების განთავსებას ღრუბელში არსებულ ნებისმიერ მაგალითზე.
ეს ნაშრომი ხელმისაწვდომია arxiv-ზე CC 4.0 ლიცენზიით.