Авторлары:
(1) Цянь Ян, Чжэцзян университеті, Тең үлес. Бұл жұмыс Цянь Янның Alibaba тобында тағылымдамадан өту кезінде жүргізілді;
(2) Джин Сю, Alibaba тобы, Тең үлес;
(3) Вэнруй Лю, Чжэцзян университеті;
(4) Юнфэй Чу, Alibaba тобы;
(5) Сяохуан Чжоу, Alibaba тобы;
(6) Yichong Leng, Alibaba Group;
(7) Yuanjun Lv, Alibaba Group;
(8) Чжоу Чжао, Alibaba тобы және Чжоу Чжаоға корреспондент ([email protected]);
(9) Йичонг Ленг, Чжэцзян университеті
(10) Чан Чжоу, Alibaba тобы және Чан Чжоуға корреспондент ([email protected]);
(11) Цзингрен Чжоу, Alibaba тобы.
4 Эксперимент
4.3 Адамды бағалау және 4.4 Позициялық ауытқуды абляциялық зерттеу
5 Қорытынды және пайдаланылған әдебиеттер
Foundation Benchmark егжей-тегжейлі нәтижелері
Жақында нұсқаулыққа сәйкес келетін аудио-тілдік модельдер адам мен дыбыстың өзара әрекеттесуіне кеңінен назар аударды. Дегенмен, аудио орталықтандырылған өзара әрекеттесу мүмкіндіктерін бағалауға қабілетті эталондардың болмауы осы саладағы жетістіктерге кедергі келтірді. Алдыңғы үлгілер, ең алдымен, автоматты түрде сөйлеуді тану (ASR) сияқты әртүрлі іргелі тапсырмаларды бағалауға бағытталған және дыбыстың айналасындағы ашық генеративті мүмкіндіктерді бағалауға ие емес. Осылайша, Үлкен дыбыстық тіл үлгілері (LALMs) доменіндегі прогресті бақылау және болашақта жақсарту үшін нұсқаулық беру қиын. Бұл мақалада біз LALM құрылғыларының дыбыс сигналдарының әртүрлі түрлерін (адамның сөйлеуін, табиғи дыбыстарды және музыканы қоса) түсіну және сонымен қатар адамдармен өзара әрекеттесу қабілетін бағалауға арналған бірінші эталонды AIR-Bench (Audio InstRuction Benchmark) енгіземіз. мәтіндік форматта. AIR-Bench екі өлшемді қамтиды: негіз және чат эталондары. Біріншісі LALM-тің негізгі бір тапсырманы орындау мүмкіндігін тексеруге арналған шамамен 19 мың бір таңдаулы сұрақтары бар 19 тапсырмадан тұрады. Соңғысы күрделі дыбыстағы модельді түсінуді және оның нұсқауларды орындау мүмкіндігін тікелей бағалайтын ашық сұрақ-жауап деректерінің 2 мың данасын қамтиды. Екі эталон да модельден гипотезаларды тікелей құруды талап етеді. Біз аудионың мета-ақпаратын ескере отырып жасалған гипотезалардың ұпайларын бағалау үшін GPT-4 сияқты жетілдірілген тіл үлгілерін пайдаланатын бірыңғай құрылымды әзірлейміз. Эксперименттік нәтижелер GPT-4 негізіндегі бағалау мен адам бағалауы арасындағы сәйкестіктің жоғары деңгейін көрсетеді. Бағалау нәтижелері арқылы бар LALM шектеулерін аша отырып, AIR-Bench болашақ зерттеулердің бағыты туралы түсінік бере алады.
Жасанды жалпы интеллекттегі соңғы жетістіктер үлкен тіл үлгілерінің (LLM) пайда болуымен айтарлықтай түрткі болды (Браун және т.б., 2020; OpenAI, 2022, 2023; Chowdhery және т.б., 2022; Анил және басқалар, 2023; Touvron және басқалар. т.б., 2023a,b; Бай және т.б., 2023a). Бұл модельдер білімді сақтауда, күрделі пайымдаулармен айналысуда және адам ниеттерінен кейінгі мәселелерді шешуде керемет қабілеттерді көрсетеді. Үлкен тілдік модельдердегі (LLMs) керемет прогреске негізделген үлкен аудио-тілдік модельдердің (LALMs) домені революциялық өзгерістерге ұшырады. Бай дыбыс сигналдарын қабылдау және түсіну және адам нұсқауларына сәйкес мәтіндік жауаптарды одан әрі генерациялау үшін SALMONN (Tang және басқалар, 2023a), BLSP (Wang және басқалар, 2023a), Speech-LLaMA (Wu et al., 2023a) сияқты көптеген жұмыстар ұсынылды. т.б., 2023a) және Qwen-Audio (Chu және т.б., 2023), аудио-орталық диалогтардың перспективалық мүмкіндіктерін көрсетеді.
Дегенмен, бұрынғы LALMs (Tang және басқалар, 2023a; Ван және басқалар, 2023a; Ву және басқалар, 2023a; Чу және басқалар, 2023; Хуанг және басқалар, 2023b; Шен және басқалар, 2023; Гонг және басқалар. ., 2023; Wang et al., 2023b) негізінен нақты іргелі тапсырмаларда бағалауға шоғырланған. Осы үлгілердің генеративті нұсқауларын келесі қабілеттерін бағалау үшін стандартталған эталонның болмауы олардың сөйлесу дағдыларын көрсету үшін мысалдарды көрсетуге немесе ашық эксперимент үшін чат үлгілерін шығаруға сүйенуге әкелді. Бұл тәсіл әртүрлі зерттеу жұмыстары бойынша әділ және объективті салыстырулар жүргізу үшін елеулі қиындықтар туғызады. Сонымен қатар, ол LALM доменіндегі жетістіктерді бақылау мүмкіндігіне кедергі келтіріп, модельдердің бар шектеулерін жасыруға бейім.
Аудио домендерде бағалау үшін зерттеу жұмыстарының көпшілігі ASR үшін LibriSpeech (Panayotov және т.б., 2015) және Common Voice эталоны (Ardila және т.б., 2019) сияқты жеке тапсырмаларға бейімделген эталондарды жасауға шоғырландырылды. Тапсырмаға қатысты көрсеткіштерден басқа, SUPERB (Yang және т.б., 2021a) және HEAR (Turian және т.б., 2021) сияқты өлшемдер тапсырмалардың кең ауқымында өзін-өзі басқаратын оқыту үлгілерінің әмбебаптығын тексеруге арналған. LALM-тің нұсқауларды орындау қабілетін бағалауға қатысты, біздің білуімізше, Dynamic-SUPERB (Huang және т.б., 2023a) осы аспектіге арналған жалғыз эталон болып табылады. Дегенмен, Dynamic-SUPERB тек адамның сөйлеуін өңдеуге назар аударады және диалогтар сияқты ашық буындарды шығарудағы үлгілердің мүмкіндіктерін бағалауға қолданылмайды.
Бұл мақалада біз LALM құрылғыларының әртүрлі дыбыстық сигналдарды түсіну және келесі нұсқауларды өзара әрекеттесу қабілетін бағалауға арналған жаңа эталонды AIR-Bench (Audio InstRuction Benchmark) ұсынамыз. AIR-Bench үш негізгі ерекшелігімен сипатталады: 1) Аудио сигналдарды толық қамту. AIR-Bench LALM мүмкіндіктерін жан-жақты бағалауды қамтамасыз ете отырып, адамның сөйлеуін, табиғи дыбыстарды және музыканы қоса алғанда, аудио сигналдарды жан-жақты қамтуды ұсынады. 2) Иерархиялық эталондық құрылым. Эталон негіз және чат эталондарынан тұрады. Негізгі эталон 19 000-нан астам бір таңдаулы сұрақтары бар 19 түрлі дыбыстық тапсырманы қамтиды, әрбір сұрақ тек белгілі бір негізді қабілетке бағытталған. GPT-4 (OpenAI, 2023) арнайы әзірленген кеңестерді пайдалана отырып, сұрақтар мен кандидат таңдауларын кеңейтеді. Чат құрамдас бөлігі 2000-нан астам дыбыстық нұсқау бар ашық сұрақтардан тұрады. Дыбыстың күрделілігін арттыру және шынайы өмірде кездесетін күрделі дыбысқа жақынырақ ұқсастыққа қол жеткізу үшін біз дыбыс деңгейін бақылауды және уақытша дислокацияны қамтитын жаңа дыбыс араластыру стратегиясын ұсынамыз. Атап айтқанда, біз екі аудиоклипті араластыру процесінде дыбыс қаттылығын реттейміз және әртүрлі уақытша ауытқуларды енгіземіз. Салыстырмалы дыбыс қаттылығы мен уақытша орналасудың нәтижесінде алынған өзгерістер қосымша мета-ақпарат ретінде жазылады, бұл дыбыстың толық мәтіндік көрінісіне ықпал етеді. Деректердің сапасы GPT-4 автоматтандырылған сүзгілеу арқылы қолмен расталады. 3) Бірыңғай, объективті және қайталанатын бағалау жүйесі. Модельдер практикалық сценарийлермен дәлірек сәйкестендіру үшін екі эталон бойынша тікелей гипотеза тізбегін жасау үшін қажет. Содан кейін мұқият құрастырылған кеңестер арқылы мета-ақпарат берілген анықтамалық жауаптарды жасау үшін GPT-4 қолданамыз. Лиу және т.б. (2023b); Бай және т.б. (2023b), біз GPT-4 (OpenAI, 2023) іргетас эталоны үшін таңдаудың дұрыстығын немесе чат эталоны үшін ұпай гипотезаларын бағалау үшін қолданамыз. Біз позицияның ауытқуын жою үшін олардың позицияларын ауыстыру арқылы екінші ұпайды орындаймыз. 9 LALM бойынша жан-жақты эксперименттерге сүйене отырып, біз қолданыстағы LALM-тердің дыбысты түсіну немесе нұсқауларды орындау мүмкіндіктері шектеулі екенін байқаймыз, бұл осы салада жақсартуға айтарлықтай орын қалдырады.
Біздің үлесіміз төменде жинақталған:
• AIR-Bench – сөйлеу, табиғи дыбыстар және музыка сияқты дыбыстың кең ауқымын қамтитын үлкен аудио-тілді модельдер үшін бірінші генеративті бағалау эталоны. AIR-Bench - бұл 19 дыбыстық тапсырма және 19 мыңнан астам бір таңдау сұрақтары бар іргетас эталонынан және жан-жақты бағалауға арналған 2 мыңнан астам мұқият таңдалған ашық аудио сұрақтары бар чат эталонынан тұратын үлкен және иерархиялық эталон.
• Біз дыбыстың күрделілігін арттыру үшін дыбыс деңгейін бақылау және уақытша дислокациясы бар жаңа дыбыс араластыру стратегиясын ұсынамыз.
• Генеративті гипотезалардың сапасын бағалау үшін бірыңғай, объективті және қайталанатын бағалау жүйесі әзірленді.
• Біз салыстыру мақсатында 9 үлгіні мұқият бағалау жүргіздік. Бағалау коды, деректер жиыны және ашық көшбасшылар тақтасы жақында жалпыға қолжетімді болады.