paint-brush
Benchmarking Audio-Hizkuntza Eredu Handiak ulermen sortzailearen bidezarabera@benchmarking
Historia berria

Benchmarking Audio-Hizkuntza Eredu Handiak ulermen sortzailearen bidez

arabera Benchmarking5m2024/10/16
Read on Terminal Reader

Luzeegia; Irakurri

AIR-Bench erreferente berri bat da, LALM-ak audio-seinalearen ulermenean eta elkarrekintzan ebaluatzen dituen oinarrizko eta txat-erreferentziak erabiliz, etorkizuneko hobekuntzarako ikuspegiak eskainiz.
featured image - Benchmarking Audio-Hizkuntza Eredu Handiak ulermen sortzailearen bidez
Benchmarking HackerNoon profile picture
0-item

Egileak:

(1) Qian Yang, Zhejiang Unibertsitatea, Equal contribution. Lan hau Qian Yang-ek Alibaba Group-en egindako praktiketan egin zen;

(2) Jin Xu, Alibaba Group, Equal contribution;

(3) Wenrui Liu, Zhejiang Unibertsitatea;

(4) Yunfei Chu, Alibaba Taldea;

(5) Xiaohuan Zhou, Alibaba Taldea;

(6) Yichong Leng, Alibaba Taldea;

(7) Yuanjun Lv, Alibaba Taldea;

(8) Zhou Zhao, Alibaba Group eta Zhou Zhao-ri dagokiona ([email protected]);

(9) Yichong Leng, Zhejiang Unibertsitatea

(10) Chang Zhou, Alibaba Group eta Chang Zhou-ri dagokiona ([email protected]);

(11) Jingren Zhou, Alibaba Taldea.

Esteken taula

Laburpena eta 1. Sarrera

2 Lotutako lana

3 AIR-Bench eta 3.1 Ikuspegi orokorra

3.2 Fundazioaren Erreferentzia

3.3 Chat Benchmark

3.4 Ebaluazio-estrategia

4 Esperimentuak

4.1 Ereduak

4.2 Emaitza nagusiak

4.3 Giza ebaluazioa eta 4.4 Posizio-alborapenaren ablazioaren azterketa

5 Ondorioa eta Erreferentziak

Foundation Benchmark-en emaitza zehatza

Abstraktua

Duela gutxi, argibideak jarraitzeko audio-hizkuntza ereduek arreta handia jaso dute gizakiaren eta audioaren arteko elkarrekintzan. Hala ere, audio-zentroko interakzio gaitasunak ebaluatzeko gai diren erreferentziarik ez egoteak oztopo egin du arlo honetako aurrerapenak. Aurreko ereduak oinarrizko zeregin desberdinak ebaluatzera bideratzen dira batez ere, hala nola, ahots-hautemate automatikoa (ASR), eta audioaren inguruan zentratutako sorkuntza-gaitasun irekien ebaluazioa falta zaie. Beraz, zaila da Audio-Hizkuntza Eredu Handien (LALM) domeinuko progresioa jarraitzea eta etorkizuneko hobekuntzarako jarraibideak ematea. Artikulu honetan, AIR-Bench (Audio InstRuction Benchmark) aurkezten dugu, LALMek hainbat audio-seinale ulertzeko gaitasuna ebaluatzeko diseinatutako lehen erreferentzia (gizakiaren hizkera, soinu naturalak eta musika barne) eta, gainera, gizakiekin elkarreragiteko. testu formatuan. AIR-Bench-ek bi dimentsio hartzen ditu: oinarriak eta txat-erreferentziak. Lehenengoak aukera bakarreko 19 mila galdera dituzten 19 ataza ditu, LALMen zeregin bakarreko oinarrizko gaitasuna ikuskatzeko asmoz. Azken honek galdera-erantzunen datu irekien 2k instantzia ditu, audio konplexuan ereduaren ulermena eta argibideak jarraitzeko duen gaitasuna zuzenean ebaluatuz. Bi erreferenteek ereduak zuzenean hipotesiak sortzeko eskatzen du. Hizkuntza-eredu aurreratuak baliatzen dituen marko bateratu bat diseinatzen dugu, GPT-4 adibidez, audioaren metainformazioa kontuan hartuta sortutako hipotesien puntuazioak ebaluatzeko. Emaitz esperimentalek GPT-4 oinarritutako ebaluazioaren eta giza ebaluazioaren arteko koherentzia maila altua erakusten dute. Ebaluazio emaitzen bidez dauden LALMen mugak agerian utziz, AIR-Bench-ek etorkizuneko ikerketen nondik norakoei buruzko argibideak eman ditzake.

1 Sarrera

Adimen orokor artifizialaren azken aurrerapenak nabarmen eragin ditu hizkuntza-eredu handien (LLM) agerpenak (Brown et al., 2020; OpenAI, 2022, 2023; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023). al., 2023a,b Bai et al., 2023a). Eredu hauek gaitasun nabarmenak erakusten dituzte ezagutzak atxikitzeko, arrazoibide korapilatsuetan aritzeko eta giza asmoei jarraituz arazoak konpontzeko. Hizkuntza eredu handien (LLM) aurrerapen deigarriak bultzatuta, audio-hizkuntza eredu handien domeinuak eraldaketa iraultzailea izan du. Audio-seinale aberatsak hautemateko eta ulertzeko eta giza jarraibideei jarraituz testu-erantzunak gehiago sortzeko, lan asko proposatu dira, hala nola SALMONN (Tang et al., 2023a), BLSP (Wang et al., 2023a), Speech-LLaMA (Wu et al., 2023a), Speech-LLaMA (Wu et al., 2023a). al., 2023a) eta Qwen-Audio (Chu et al., 2023), audio-zentralaren elkarrizketarako gaitasun itxaropentsuak erakutsiz.


Hala ere, aurreko LALMak (Tang et al., 2023a; Wang et al., 2023a; Wu et al., 2023a; Chu et al., 2023; Huang et al., 2023b; Shen et al., 2023; Gong et al., 2023; ., 2023; Wang et al., 2023b) oinarrizko zeregin zehatzetan ebaluazioan zentratu dira nagusiki. Eredu hauen sorkuntza-irakaskuntzaren jarraipen-gaitasunak ebaluatzeko erreferentzia estandarizaturik ez egoteak, adibideen erakustaldian edo txat-ereduak jendaurrean esperimentaziorako kaleratzean konfiantza izan du haien elkarrizketa-trebetasunak erakusteko. Ikuspegi honek erronka garrantzitsuak ditu ikerketa-ahalegin ezberdinetan konparazio bidezko eta objektiboak egiteko. Gainera, ereduen mugak ezkutatu ohi ditu, LALMen domeinuko aurrerapenak kontrolatzeko gaitasuna eragozten du.


Audio-domeinuetan ebaluatzeko, ikerketa-esfortzu gehienak ASRrako LibriSpeech (Panayotov et al., 2015) eta Common Voice benchmark (Ardila et al., 2019) bezalako zeregin indibidualetara egokitutako erreferentziak sortzean zentratu dira. Ataza zehatzetatik haratago, SUPERB (Yang et al., 2021a) eta HEAR (Turian et al., 2021) bezalako erreferenteak diseinatu dira hainbat atazatan autokontrolatutako ikasketa ereduen aldakortasuna probatzeko. LALMek argibideak jarraitzeko duten gaitasunaren ebaluazioari dagokionez, dakigunez, Dynamic-SUPERB (Huang et al., 2023a) da alderdi honi eskainitako erreferente bakarra. Hala ere, Dynamic-SUPERB giza hizkeraren prozesamenduan bakarrik zentratzen da, eta ez da ereduen gaitasunen ebaluaziora hedatzen belaunaldi irekiak sortzeko, hala nola elkarrizketak.


Artikulu honetan, AIR-Bench (Audio InstRuction Benchmark) aurkezten dugu, LALMek hainbat audio-seinale ulertzeko eta argibideak jarraituz elkarreragintzeko duten gaitasuna ebaluatzeko diseinatutako erreferentzia berri bat. AIR-Bench-ek hiru ezaugarri nagusi ditu: 1) Audio-seinaleen estaldura integrala. AIR-Bench-ek audio-seinaleen estaldura osoa eskaintzen du, giza hizkera, soinu naturalak eta musika barne, LALMen gaitasunen ebaluazio integrala bermatuz. 2) Erreferentziazko Egitura Hierarkikoa. Erreferentzia oinarri eta txat erreferentziak osatzen dute. Oinarrizko erreferenteak 19 audio-zeregin bereizten ditu aukera bakarreko 19.000 galdera baino gehiagorekin, galdera bakoitza oinarrizko gaitasun zehatz batean soilik oinarritzen delarik. GPT-4 (OpenAI, 2023) galderak eta hautagaien aukerak zabaltzen ditu diseinatutako gonbit dedikatuak erabiliz. Txat osagaiak audio bidez eskatutako 2.000 galdera ireki baino gehiago ditu. Audioaren konplexutasuna areagotzeko eta bizitza errealeko egoeretan aurkitzen den audio korapilatsuaren antza handiagoa lortzeko, ozentasunaren kontrola eta denbora-dislokazioa barne hartzen dituen audio-nahasketa estrategia berri bat proposatzen dugu. Zehazki, ozentasuna doitzen dugu eta denborazko desplazamendu desberdinak sartzen ditugu bi audio-klipen nahasketa-prozesuan. Ozentasun erlatiboan eta denbora-kokapenean sortzen diren aldakuntzak meta-informazio gehigarri gisa erregistratzen dira, audioaren testu-irudikapen zabalagoa lortzen lagunduz. Datuen kalitatea GPT-4-ren iragazketa automatizatuaren bidez bermatzen da, eta ondoren eskuzko egiaztapena egiten da. 3) Ebaluazio-esparru bateratua, objektiboa eta errepikagarria. Ereduek hipotesi-sekuentziak zuzenean sortu behar dituzte bi erreferentzia-puntuetan, agertoki praktikoekin zehatzago lerrokatzeko. Ondoren, GPT-4 erabiltzen dugu metainformazioari emandako erreferentzia-erantzunak sortzeko arreta handiz eraikitako galderen bidez. Erreferentziak eta hipotesiak emanda, Liu et al. (2023b); Bai et al. (2023b), GPT-4 (OpenAI, 2023) erabiltzen dugu oinarri-erreferentziarako aukera zuzena den edo txat-erreferentziarako puntuazio hipotesiak epaitzeko. Gainera, bigarren puntuazioa egiten dugu euren posizioak aldatuz posizioaren alborapena ezabatzeko. 9 LALMen esperimentu integraletan oinarrituta, ikusten dugu lehendik dauden LALMek audio ulermen mugatua dutela edo instrukzioak jarraitzeko gaitasun mugatua dutela, eta eremu honetan hobekuntzarako tarte handia uzten dute.


Gure ekarpena jarraian laburbiltzen da:


• AIR-Bench audio-hizkuntza-eredu handien ebaluazio generatiboaren lehen erreferentea da, eta audio sorta zabala hartzen du, hala nola, hizkera, soinu naturalak eta musika. AIR-Bench erreferentzia handi eta hierarkiko bat da, 19 audio-zereginekin eta aukera bakarreko 19 mila galdera baino gehiago dituen oinarrizko erreferentziaz osatua, eta txat-erreferentzia batekin batera, ebaluazio integrala egiteko 2.000 audio-galdera zehatz-mehatz baino gehiago ditu.


• Audioaren nahasketa estrategia berri bat proposatzen dugu, ozentasun kontrolarekin eta denbora-dislokazioarekin audioaren konplexutasuna areagotzeko.


• Ebaluazio-esparru bateratu, objektiboa eta errepikagarria garatu da hipotesi sortzaileen kalitatea ebaluatzeko.


• Benchmarking egiteko 9 ereduren ebaluazio sakona egin dugu. Ebaluazio-kodea, datu-multzoak eta sailkapen-taula irekia jendaurrean jarriko dira laster.


Paper hau arxiv-en dago eskuragarri CC BY 4.0 DEED lizentziapean.