Müəlliflər:
(1) Qian Yang, Zhejiang Universiteti, Bərabər töhfə. Bu iş Qian Yangın Alibaba Group-da təcrübə keçməsi zamanı aparılıb;
(2) Jin Xu, Alibaba Group, Bərabər töhfə;
(3) Wenrui Liu, Zhejiang Universiteti;
(4) Yunfei Chu, Alibaba Group;
(5) Xiaohuan Zhou, Alibaba Group;
(6) Yichong Leng, Alibaba Group;
(7) Yuanjun Lv, Alibaba Group;
(8) Zhou Zhao, Alibaba Group və Zhou Zhao-ya Müxbir ([email protected]);
(9) Yichong Leng, Zhejiang Universiteti
(10) Chang Zhou, Alibaba Group və Chang Zhou-ya Müxbir ([email protected]);
(11) Jingren Zhou, Alibaba Group.
3.4 Qiymətləndirmə Strategiyası
4 Təcrübələr
4.3 İnsanın Qiymətləndirilməsi və 4.4 Mövqe Qərəzinin Ablasiya Tədqiqi
Foundation Benchmark-ın Ətraflı Nəticələri
Bu yaxınlarda, təlimata uyğun gələn audio-dil modelləri insan-audio qarşılıqlı əlaqəsi üçün geniş diqqəti cəlb etmişdir. Bununla belə, audio-mərkəzli qarşılıqlı əlaqə imkanlarını qiymətləndirə bilən meyarların olmaması bu sahədə irəliləyişlərə mane oldu. Əvvəlki modellər, ilk növbədə, avtomatik nitqin tanınması (ASR) kimi müxtəlif fundamental vəzifələrin qiymətləndirilməsinə diqqət yetirir və səs ətrafında mərkəzləşdirilmiş açıq generativ imkanların qiymətləndirilməsinə malik deyildir. Beləliklə, Böyük Audio-Dil Modelləri (LALMs) domenində irəliləyişi izləmək və gələcək təkmilləşdirmə üçün təlimat vermək çətindir. Bu yazıda biz LALM-lərin müxtəlif növ audio siqnalları (insan nitqi, təbii səslər və musiqi daxil olmaqla) başa düşmək və bundan əlavə insanlarla qarşılıqlı əlaqədə olmaq qabiliyyətini qiymətləndirmək üçün hazırlanmış ilk etalon olan AIR-Bench (Audio Instruction Benchmark) təqdim edirik. mətn formatında. AIR-Bench iki ölçüsü əhatə edir: təməl və söhbət meyarları. Birincisi, LALM-lərin əsas tək tapşırıq qabiliyyətini yoxlamaq niyyətində olan təxminən 19k tək seçimli sualdan ibarət 19 tapşırıqdan ibarətdir. Sonuncu, mürəkkəb audioda modelin başa düşülməsini və təlimatlara əməl etmək qabiliyyətini birbaşa qiymətləndirən 2 min açıq sual-cavab məlumatını ehtiva edir. Hər iki meyar modeldən birbaşa hipotezlər yaratmağı tələb edir. Audionun meta-məlumatı əsasında yaradılmış fərziyyələrin xallarını qiymətləndirmək üçün GPT-4 kimi qabaqcıl dil modellərindən istifadə edən vahid çərçivə dizayn edirik. Eksperimental nəticələr GPT-4 əsaslı qiymətləndirmə ilə insan qiymətləndirməsi arasında yüksək səviyyəli uyğunluq nümayiş etdirir. Qiymətləndirmə nəticələri vasitəsilə mövcud LALM-lərin məhdudiyyətlərini aşkar etməklə, AIR-Bench gələcək tədqiqatların istiqamətləri haqqında məlumat verə bilər.
Süni ümumi intellektdəki son irəliləyişlər böyük dil modellərinin (LLMs) ortaya çıxması ilə əhəmiyyətli dərəcədə idarə edilmişdir (Brown et al., 2020; OpenAI, 2022, 2023; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al. al., 2023a,b; Bai və başqaları, 2023a). Bu modellər biliyi saxlamaqda, mürəkkəb mülahizələrlə məşğul olmaqda və insan niyyətlərindən sonra problemləri həll etməkdə gözəl qabiliyyətlər nümayiş etdirir. Böyük dil modellərində (LLMs) heyrətamiz irəliləyişdən irəli gələn böyük audio-dil modellərinin (LALMs) sahəsi inqilabi dəyişikliklərə məruz qalmışdır. Zəngin səs siqnallarını qavramaq və qavramaq və insan göstərişlərinə əməl edərək mətn cavablarını daha da yaratmaq üçün SALMONN (Tang et al., 2023a), BLSP (Wang et al., 2023a), Speech-LLaMA (Wu et al., 2023a) kimi bir çox iş təklif edilmişdir. al., 2023a) və Qwen-Audio (Chu et al., 2023), audio-mərkəzi dialoqlar üçün perspektivli imkanları nümayiş etdirir.
Bununla belə, əvvəlki LALM-lər (Tang və digərləri, 2023a; Wang və digərləri, 2023a; Wu və digərləri, 2023a; Chu et al., 2023; Huang və digərləri, 2023b; Shen və digərləri, 2023; Gong və başqaları. ., 2023; Wang et al., 2023b) əsasən xüsusi fundamental vəzifələrdə qiymətləndirmə üzərində cəmləşmişdir. Bu modellərin generativ təlimatlarını izləmək qabiliyyətini qiymətləndirmək üçün standart bir meyarın olmaması, onların danışıq bacarıqlarını nümayiş etdirmək üçün nümunələrin nümayişinə və ya söhbət modellərinin ictimai təcrübə üçün buraxılmasına etibar edilməsi ilə nəticələndi. Bu yanaşma müxtəlif tədqiqat işləri üzrə ədalətli və obyektiv müqayisələrin aparılması üçün əhəmiyyətli çətinliklər yaradır. Üstəlik, o, modellərin mövcud məhdudiyyətlərini ört-basdır edir, LALM-lərin domenində irəliləyişləri izləmək imkanına mane olur.
Audio domenlərdə qiymətləndirmə üçün tədqiqat səylərinin əksəriyyəti ASR üçün LibriSpeech (Panayotov və digərləri, 2015) və Common Voice benchmark (Ardila et al., 2019) kimi fərdi tapşırıqlara uyğunlaşdırılmış etalonların yaradılması üzərində cəmlənmişdir. Tapşırıqlara xas olanlardan əlavə, SUPERB (Yang və digərləri, 2021a) və HEAR (Turian və digərləri, 2021) kimi meyarlar müxtəlif tapşırıqlarda öz-özünə nəzarət edilən öyrənmə modellərinin çox yönlülüyünü yoxlamaq üçün nəzərdə tutulmuşdur. LALM-lərin təlimatlara əməl etmək qabiliyyətinin qiymətləndirilməsi ilə bağlı, bildiyimiz qədər Dynamic-SUPERB (Huang et al., 2023a) bu aspektə həsr olunmuş yeganə meyardır. Buna baxmayaraq, Dynamic-SUPERB yalnız insan nitqinin işlənməsinə diqqət yetirir və dialoqlar kimi açıq nəsillər yaratmaqda modellərin imkanlarının qiymətləndirilməsinə şamil edilmir.
Bu yazıda biz LALM-lərin müxtəlif audio siqnalları dərk etmək və aşağıdakı təlimatlarla qarşılıqlı əlaqədə olmaq qabiliyyətini qiymətləndirmək üçün nəzərdə tutulmuş yeni meyar olan AIR-Bench (Audio Instruction Benchmark) təqdim edirik. AIR-Bench üç əsas xüsusiyyətlə xarakterizə olunur: 1) Hərtərəfli audio siqnalların əhatə dairəsi. AIR-Bench LALM-lərin imkanlarının hərtərəfli qiymətləndirilməsini təmin etməklə, insan nitqi, təbii səslər və musiqi də daxil olmaqla audio siqnalların hərtərəfli əhatəsini təklif edir. 2) İerarxik Benchmark Strukturu. Benchmark təməl və söhbət etalonlarından ibarətdir. Əsas meyar 19,000-dən çox tək seçimli sualı olan 19 fərqli audio tapşırığından ibarətdir və hər bir sual yalnız müəyyən bir təməl qabiliyyətə yönəlmişdir. GPT-4 (OpenAI, 2023) xüsusi hazırlanmış göstərişlərdən istifadə edərək suallar və namizəd seçimlərini genişləndirir. Söhbət komponenti 2000-dən çox səsli açıq suallardan ibarətdir. Audionun mürəkkəbliyini artırmaq və real həyat vəziyyətlərində rast gəlinən mürəkkəb audio ilə daha yaxından oxşarlığa nail olmaq üçün biz səs səviyyəsinə nəzarət və müvəqqəti dislokasiyanı özündə birləşdirən yeni səs qarışdırma strategiyası təklif edirik. Xüsusilə, biz iki audio klipin qarışdırılması prosesində səsin ucalığını tənzimləyirik və müxtəlif temporal ofsetlər təqdim edirik. Nisbi yüksəklikdə və müvəqqəti yerləşmədə yaranan dəyişikliklər daha sonra əlavə meta-məlumat kimi qeydə alınır və audionun daha əhatəli mətn təsvirinə kömək edir. Məlumatın keyfiyyəti GPT-4 tərəfindən avtomatlaşdırılmış filtrasiya, sonra isə əl ilə yoxlama vasitəsilə qorunur. 3) Vahid, obyektiv və təkrarlana bilən qiymətləndirmə çərçivəsi. Praktiki ssenarilərlə daha dəqiq uyğunlaşmaq üçün hər iki etalon üzrə birbaşa hipotez ardıcıllığı yaratmaq üçün modellər tələb olunur. Sonra, diqqətlə qurulmuş göstərişlər vasitəsilə meta-məlumat verilmiş istinad cavablarını yaratmaq üçün GPT-4-dən istifadə edirik. Liu və digərlərinin ardınca verilən istinadlar və fərziyyələr. (2023b); Bai və başqaları. (2023b), biz GPT-4-dən (OpenAI, 2023) seçimin təməl etalon üçün düzgün olub-olmadığını və ya söhbət etalonunun fərziyyələrini qiymətləndiririk. Mövqe qərəzliyini aradan qaldırmaq üçün onların mövqelərini dəyişdirərək daha sonra ikinci hesablama həyata keçiririk. 9 LALM üzərində aparılan hərtərəfli təcrübələrə əsaslanaraq, biz müşahidə edirik ki, mövcud LALM-lər ya məhdud audio anlayışına və ya təlimata əməl etmə imkanlarına malikdir və bu sahədə təkmilləşdirmə üçün əhəmiyyətli yerlər buraxır.
Bizim töhfəmiz aşağıda ümumiləşdirilmişdir:
• AIR-Bench nitq, təbii səslər və musiqi kimi geniş spektrli audionu əhatə edən böyük audio-dil modelləri üçün ilk generativ qiymətləndirmə meyarıdır. AIR-Bench 19 audio tapşırığı və 19 mindən çox tək seçimli sualı olan təməl etalondan və hərtərəfli qiymətləndirmə üçün 2 mindən çox diqqətlə seçilmiş açıq tipli audio sualları olan söhbət etalonundan ibarət böyük və iyerarxik etalondur.
• Biz səsin mürəkkəbliyini artırmaq üçün yüksəkliyə nəzarət və müvəqqəti dislokasiya ilə yeni səs qarışdırma strategiyası təklif edirik.
• Generativ fərziyyələrin keyfiyyətini qiymətləndirmək üçün vahid, obyektiv və təkrarlana bilən qiymətləndirmə çərçivəsi hazırlanmışdır.
• Bençmarkinq məqsədilə 9 modeli hərtərəfli qiymətləndirdik. Qiymətləndirmə kodu, verilənlər bazası və açıq liderlər lövhəsi tezliklə ictimaiyyətə təqdim ediləcək.