Авторлор:
(1) Цян Янг, Чжэцзян университети, бирдей салым. Бул иш Цян Яндын Alibaba Group компаниясында стажировкадан өтүү учурунда жүргүзүлгөн;
(2) Jin Xu, Alibaba Group, Тең салым;
(3) Вэнруй Лю, Чжэцзян университети;
(4) Юнфэй Чу, Alibaba Group;
(5) Xiaohuan Zhou, Alibaba Group;
(6) Yichong Leng, Alibaba Group;
(7) Yuanjun Lv, Alibaba Group;
(8) Чжоу Чжао, Alibaba Group жана Чжоу Чжаого корреспондент ([email protected]);
(9) Yichong Leng, Zhejiang университети
(10) Чан Чжоу, Alibaba Group жана Корреспондент Чан Чжоу ([email protected]);
(11) Jingren Zhou, Alibaba Group.
4 Эксперимент
4.3 Адамды баалоо жана 4.4 Позициондук тенденцияны абляциялык изилдөө
Фонддун эталонунун толук натыйжалары
Акыркы убакта инструкциядан кийинки аудио-тил моделдери адам-аудио өз ара аракеттенүүсүнө кеңири көңүл бурулууда. Бирок, аудио борборлоштурулган өз ара аракеттенүү мүмкүнчүлүктөрүн баалоого жөндөмдүү эталондордун жоктугу бул тармактагы ийгиликтерге тоскоол болду. Мурунку моделдер негизинен кепти автоматтык түрдө таануу (ASR) сыяктуу ар кандай фундаменталдык милдеттерди баалоого багытталган жана аудионун айланасында жайгашкан ачык генеративдик мүмкүнчүлүктөргө баа берилбейт. Ошентип, Large Audio-Language Models (LALMs) домениндеги прогресске көз салуу жана келечектеги жакшыртуу үчүн көрсөтмөлөрдү берүү кыйынга турат. Бул макалада биз AIR-Bench (Audio InstRuction Benchmark) менен тааныштырабыз, бул LALMлердин ар кандай аудио сигналдарды (анын ичинде адамдын сүйлөө, табигый үн жана музыка) түшүнүү жөндөмүн баалоо үчүн иштелип чыккан биринчи эталон, андан тышкары адамдар менен өз ара аракеттенүү тексттик форматта. AIR-Bench эки өлчөмдү камтыйт: негиз жана чат эталондору. Биринчи LALMs негизги бир тапшырма жөндөмдүүлүгүн текшерүүгө ниеттенген, болжол менен 19k бир тандоо суроолору менен 19 тапшырмадан турат. Акыркысы татаал аудиодогу моделдин түшүнүгүн жана анын нускамаларды аткаруу мүмкүнчүлүгүн түздөн-түз баалоочу, ачык суроо-жооп маалыматтарынын 2000 нускасын камтыйт. Эки көрсөткүч тең моделден гипотезаларды түз түзүүнү талап кылат. Биз аудионун мета-маалыматтарын эске алуу менен түзүлгөн гипотезалардын упайларын баалоо үчүн GPT-4 сыяктуу алдыңкы тил моделдерин колдонгон бирдиктүү негизди иштеп чыгабыз. Эксперименттик натыйжалар GPT-4 негизинде баалоо менен адамдык баалоо ортосундагы ырааттуулуктун жогорку деңгээлин көрсөтүп турат. Баалоо натыйжалары аркылуу учурдагы LALMдердин чектөөлөрүн ачып берүү менен, AIR-Bench келечектеги изилдөөлөрдүн багыттары жөнүндө түшүнүк бере алат.
Жасалма жалпы интеллекттеги акыркы жетишкендиктер чоң тил моделдеринин (LLMs) пайда болушу менен олуттуу шартталган (Браун ж.б., 2020; OpenAI, 2022, 2023; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al. башкалар, 2023a,b; Bai et al., 2023a). Бул моделдер билимди сактап калууда, татаал ой жүгүртүүгө катышууда жана адамдын ой-ниеттеринен кийин көйгөйлөрдү чечүүдө укмуштуудай жөндөмдүүлүктөргө ээ. Чоң тил моделдериндеги (LLMs) укмуштуудай прогресске түрткү болгон чоң аудио-тил моделдеринин (LALMs) домени революциялык өзгөрүүгө дуушар болду. Бай аудио сигналдарды кабыл алуу жана түшүнүү жана адамдын көрсөтмөлөрүнө ылайык тексттик жоопторду андан ары түзүү үчүн SALMONN (Tang et al., 2023a), BLSP (Wang et al., 2023a), Speech-LLaMA (Wu et al., 2023a) сыяктуу көптөгөн эмгектер сунушталган. al., 2023a) жана Qwen-Audio (Chu et al., 2023), аудио-борбордук диалогдор үчүн келечектүү мүмкүнчүлүктөрдү көрсөтөт.
Бирок, мурунку LALMs (Tang ж.б., 2023a; Wang ж.б., 2023a; Wu ж. ., 2023; Wang et al., 2023b) өзгөчө фундаменталдуу милдеттерди баалоого басым жасашкан. Бул моделдердин генеративдик инструкциялоо жөндөмүн баалоо үчүн стандартташтырылган эталондун жоктугу, алардын сүйлөшүү жөндөмүн көрсөтүү үчүн мисалдарды көрсөтүүгө же чат моделдерин ачык экспериментке чыгарууга таянууга алып келди. Бул ыкма ар кандай изилдөө аракеттери боюнча адилет жана объективдүү салыштырууларды жүргүзүү үчүн олуттуу кыйынчылыктарды жаратат. Мындан тышкары, ал LALM домениндеги жетишкендиктерди көзөмөлдөө мүмкүнчүлүгүнө тоскоолдук кылып, моделдердин болгон чектөөлөрүн жаап-жашырууга умтулат.
Аудио домендеринде баалоо үчүн, изилдөө аракеттеринин көпчүлүгү ASR үчүн LibriSpeech (Panayotov et al., 2015) жана Common Voice эталондору (Ardila et al., 2019) сыяктуу жеке тапшырмаларга ылайыкташтырылган эталондорду түзүүгө топтолгон. Өзгөчө тапшырмалардан тышкары, SUPERB (Yang et al., 2021a) жана HEAR (Turian et al., 2021) сыяктуу эталондор ар кандай тапшырмаларда өз алдынча башкарылган окутуу моделдеринин ар тараптуулугун текшерүү үчүн иштелип чыккан. LALMдердин нускамаларды аткаруу жөндөмдүүлүгүн баалоого карата, биздин билишибизче, Dynamic-SUPERB (Huang et al., 2023a) бул аспектке арналган жалгыз эталон болуп саналат. Ошого карабастан, Dynamic-SUPERB адамдын сүйлөө процессине гана көңүл бурат жана диалогдор сыяктуу ачык муундарды чыгарууда моделдердин мүмкүнчүлүктөрүн баалоого жайылтылбайт.
Бул макалада биз AIR-Bench (Audio InstRuction Benchmark), LALMдердин ар кандай аудио сигналдарды түшүнүү жана төмөнкү көрсөтмөлөрдү өз ара аракеттенүү жөндөмүн баалоого арналган жаңы эталонду сунуштайбыз. AIR-Bench үч негизги өзгөчөлүктөрү менен мүнөздөлөт: 1) Комплекстүү аудио сигналдарды камтуу. AIR-Bench аудио сигналдарды, анын ичинде адамдын сүйлөөсүн, табигый үндөрдү жана музыканы толук камтууну сунуштайт, бул LALMдердин мүмкүнчүлүктөрүн ар тараптуу баалоону камсыз кылат. 2) Иерархиялык эталондук структура. Эталон негиз жана чат эталондорунан турат. Фонддун эталондору 19,000ден ашык бир тандоо суроолору бар 19 өзүнчө аудио тапшырманы камтыйт, ар бир суроо белгилүү бир фундаменталдык жөндөмгө гана багытталган. GPT-4 (OpenAI, 2023) атайын иштелип чыккан сунуштарды колдонуу менен суроолорду жана талапкерлерди тандоону кеңейтет. Чат компоненти 2,000ден ашык аудио сунуштаган ачык суроолордон турат. Аудионун татаалдыгын жогорулатуу жана чыныгы жашоодо кездешкен татаал аудиого жакыныраак окшоштукка жетүү үчүн, биз үн катуулугун башкарууну жана убактылуу дислокацияны камтыган жаңы аудио аралаштыруу стратегиясын сунуштайбыз. Тактап айтканда, эки аудиоклипти аралаштыруу процессинде үндү тууралап, ар кандай убактылуу офсеттерди киргизебиз. Салыштырмалуу катуулуктун жана убактылуу жайгашуунун натыйжасында пайда болгон вариациялар кошумча мета-маалымат катары жазылып, аудионун кеңири тексттик көрсөтүлүшүнө өбөлгө түзөт. Маалыматтын сапаты GPT-4 тарабынан автоматташтырылган чыпкалоо, андан кийин кол менен текшерүү аркылуу колдоого алынат. 3) Баалоонун бирдиктүү, объективдүү жана кайталануучу негизи. Моделдер практикалык сценарийлер менен так дал келүү үчүн эки көрсөткүч боюнча түз гипотеза ырааттуулугун түзүү үчүн талап кылынат. Андан кийин, биз кылдаттык менен түзүлгөн сунуштар аркылуу мета-маалымат берилген маалымдама жоопторду түзүү үчүн GPT-4 колдонобуз. Берилген шилтемелер жана гипотезалар, Liu et al. (2023b); Бай жана башкалар. (2023b), биз GPT-4 (OpenAI, 2023) негизин тандоонун туура экендигин же чат эталону үчүн гипотезаларды баалоо үчүн колдонобуз. Биз андан ары позицияны алмаштыруу менен экинчи баллды аткарабыз. 9 LALM боюнча комплекстүү эксперименттердин негизинде, биз учурдагы LALMs же чектелген аудио түшүнүү же нускамаларды төмөнкү мүмкүнчүлүктөрү бар экенин байкап, бул тармакты жакшыртуу үчүн олуттуу орун калтырып.
Биздин салым төмөндө кыскача:
• AIR-Bench – кеп, табигый үндөр жана музыка сыяктуу аудионун кеңири массивдерин камтыган чоң аудио-тил моделдери үчүн биринчи генеративдик баалоо эталону. AIR-Bench - бул чоң жана иерархиялык эталон, ал 19 аудио тапшырмасы жана 19 миңден ашык бир тандоо суроолору бар фундаменталдык эталондон, ошондой эле ар тараптуу баалоо үчүн 2 миңден ашык кылдаттык менен тандалып алынган ачык аудио суроолору бар чат эталонунан турат.
• Биз аудионун татаалдыгын жогорулатуу үчүн катуулукту көзөмөлдөө жана убактылуу дислокация менен жаңы аудио аралаштыруу стратегиясын сунуштайбыз.
• Генеративдик гипотезалардын сапатын баалоо үчүн бирдиктүү, объективдүү жана кайталануучу баалоо системасы иштелип чыккан.
• Биз салыштыруу максатында 9 моделге кылдат баа бердик. Баалоо коду, берилиштер топтому жана ачык лидер тактасы жакында жалпыга жеткиликтүү болот.