Uthorsazyjylar:
(1) Çian Yangang, Zhejiang uniwersiteti, Deň goşant. Bu iş, Çian Yangangyň Alibaba toparynda tejribe döwründe geçirildi;
(2) Jin Su, Alibaba topary, Deň goşant;
(3) Wenrui Liu, Zhejiang uniwersiteti;
(4) feunfei Çu, Alibaba topary;
(5) Siaohuan Zhou, Alibaba topary;
(6) Yichong Leng, Alibaba topary;
(7) anuanjun Lv, Alibaba topary;
(8) Zhou Zhao, Alibaba topary we Zhou Zhao-a laýyk gelýän ([email protected]);
(9) Yichong Leng, Zhejiang uniwersiteti
(10) Çang Zhou, Alibaba topary we Çan Zhou-a laýyk gelýän ([email protected]);
(11) Jingren Zhou, Alibaba topary.
4 Synag
4.3 Adamyň bahalandyrylmagy we 4.4 Positionerleşýän taraplaryň ablasiýa okuwy
Esasy görkezijiniň jikme-jik netijeleri
Recentlyaňy-ýakynda görkezme-ses sesli modeller adam-ses täsiri üçin giň ünsi çekdi. Şeýle-de bolsa, ses merkezi täsirleşme mümkinçiliklerine baha bermäge ukyply görkezijileriň ýoklugy bu ugurdaky ösüşlere päsgelçilik döredýär. Öňki modeller, ilkinji nobatda, Awtomatiki gepleýiş tanamak (ASR) ýaly dürli düýpli meselelere baha bermäge ünsi jemleýär we sesiň töwereginde jemlenen açyk döredijilik mümkinçiliklerine baha bermeýär. Şeýlelik bilen, Uly ses dili modelleri (LALM) domenindäki ösüşi yzarlamak we geljekde gowulaşmak üçin ýol görkezmek kyn. Bu ýazgyda, LALM-leriň dürli ses signallaryna (adam sözleri, tebigy sesler we aýdym-saz goşmak bilen) düşünmek ukybyna baha bermek üçin döredilen ilkinji görkeziji bolan AIR-Bench (Audio InstRuction Benchmark) bilen tanyşdyrýarys. tekst görnüşinde. “AIR-Bench” iki ölçegi öz içine alýar: esas we söhbet görkezijileri. Öňküsi, LALM-leriň esasy ýeke-täk ukyplylygyny barlamak niýeti bilen takmynan 19k ýeke-täk soragly 19 meseleden ybarat. Ikinjisinde, çylşyrymly sesdäki modeliň düşünişine we görkezmeleri ýerine ýetirmek ukybyna gönüden-göni baha berýän açyk sorag-jogap maglumatlarynyň 2k mysaly bar. Iki görkeziji hem gönüden-göni gipotezalary döretmegi talap edýär. Sesiň meta-maglumatyny göz öňünde tutup, döredilen gipotezalaryň ballaryna baha bermek üçin GPT-4 ýaly ösen dil modellerini ulanýan bitewi çarçuwany dizaýn edýäris. Synag netijeleri, GPT-4 esasly baha bermek bilen adam bahalandyrmagyň arasynda ýokary yzygiderliligi görkezýär. Bahalandyryş netijeleriniň üsti bilen bar bolan LALM-leriň çäklendirmelerini açmak bilen, AIR-Bench geljekki gözlegleriň ugry barada düşünje berip biler.
Emeli umumy intellektde soňky gazananlar iri dil modelleriniň (LLM) döremegine ep-esli derejede sebäp boldy (Brown et al., 2020; OpenAI, 2022, 2023; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023a, b; Baý we başg., 2023a); Bu modeller bilimleri saklamakda, çylşyrymly pikirlenmekde we adam niýetlerinden soň ýüze çykýan meseleleri çözmekde ajaýyp ukyplary görkezýär. Uly dil modellerinde (LLM) haýran galdyryjy ösüşe itergi beren iri sesli modelleriň (LALM) domeni öwrülişikli özgerişleri başdan geçirdi. Baý ses signallaryny duýmak we düşünmek we adam görkezmelerine laýyklykda tekst jogaplaryny döretmek üçin SALMONN (Tang et al., 2023a), BLSP (Wang et al., 2023a), Speech-LLaMA (Wu et) ýaly köp eser teklip edildi. al., 2023a) we Qwen-Audio (Çu we başg., 2023), ses-merkezi gepleşikler üçin geljegi uly mümkinçilikleri görkezýär.
Şeýle-de bolsa, öňki LALM-ler (Tang we başg., 2023a; Wang we başg., 2023a; Wu we başg., 2023a; Çu we başg., 2023; Huang we başgalar; 2023b; Şen we başgalar, 2023; Gong we başgalar) ., 2023; Wang we başg., 2023b) esasan belli meselelerde baha bermäge ünsi jemledi. Bu modelleriň döredijilikli görkezme ukyplaryna baha bermek üçin standart ölçegleriň ýoklugy, mysallary görkezmäge bil baglamaga ýa-da söhbetdeşlik başarnyklaryny görkezmek üçin köpçülikleýin synag üçin söhbetdeşlik modellerini goýbermäge sebäp boldy. Bu çemeleşme, dürli gözleg işlerinde adalatly we obýektiw deňeşdirmeler geçirmek üçin möhüm kynçylyklary döredýär. Mundan başga-da, LALM-leriň çägindäki ösüşlere gözegçilik etmek ukybyna päsgel berýän modelleriň bar bolan çäklendirmelerini gizleýär.
Ses ulgamlarynda baha bermek üçin gözleg işleriniň köpüsi, LibriSpeech (Panayotow we başg., 2015) we ASR üçin umumy ses görkezijisi (Ardila we başg., 2019) ýaly aýratyn meselelere laýyk gelýän görkezijileri döretmäge gönükdirildi. Mesele mahsus bolanlardan başga, SUPERB (etang we başg., 2021a) we HEAR (Turian we başg., 2021) ýaly görkezijiler dürli meselelerde öz-özüne gözegçilik edilýän okuw modelleriniň köp taraplylygyny barlamak üçin döredildi. LALM-laryň görkezmelere eýermek ukybyna baha bermek meselesinde, bilşimiz ýaly, Dynamic-SUPERB (Huang we başg., 2023a) bu meselä bagyşlanan ýeke-täk görkeziji. Şeýle-de bolsa, “Dynamic-SUPERB” diňe adamyň gürleýiş işlerine ünsi jemleýär we gepleşikler ýaly açyk nesilleri öndürmekde modelleriň mümkinçiliklerine baha bermeýär.
Bu ýazgyda, LALM-leriň dürli ses signallaryna düşünmek we aşakdaky görkezmeler bilen täsirleşmek ukybyna baha bermek üçin döredilen AIR-Bench (Audio InstRuction Benchmark) hödürleýäris. “AIR-Bench” üç esasy aýratynlyk bilen häsiýetlendirilýär: 1) Ses signallarynyň toplumlaýyn gurşawy. AIR-Bench, LALM-leriň mümkinçiliklerine hemmetaraplaýyn baha berilmegini üpjün edip, adam gepleşigini, tebigy sesleri we aýdym-sazlary öz içine alýan ses signallaryny giňişleýin öz içine alýar. 2) Iýerarhiki ölçeg gurluşy. Ölçeg esas we söhbet görkezijilerinden durýar. Esasy görkeziji 19,000-den gowrak ýeke-täk soragly 19 sany aýratyn ses meselesini öz içine alýar we her sorag diňe belli bir esas ukybyna gönükdirilýär. GPT-4 (OpenAI, 2023) ýörite taýýarlanan görkezmeleri ulanyp, soraglary we dalaşgär saýlawlaryny giňeldýär. Söhbet komponenti, 2000-den gowrak sesli açyk soraglardan ybarat. Sesiň çylşyrymlylygyny ýokarlandyrmak we hakyky durmuşda ýüze çykan çylşyrymly ses bilen has meňzeşligi gazanmak üçin, gaty ses gözegçiligini we wagtlaýyn üýtgemegi öz içine alýan täze ses garyş strategiýasyny teklip edýäris. Hususan-da, iki ses klipiniň garyşmagy wagtynda gatylygy sazlaýarys we dürli wagtlaýyn offsetleri girizýäris. Deňeşdirilen sesiň we wagtlaýyn ýerleşişiň üýtgemegi soňra goşmaça meta-maglumat hökmünde ýazga alynýar we sesiň has giňişleýin tekst şekillendirilmegine goşant goşýar. Maglumatlaryň hili GPT-4 tarapyndan awtomatiki süzgüç arkaly, soňra bolsa el bilen barlamak arkaly goldanylýar. 3) Bitewi, obýektiw we köpelip bilýän baha beriş çarçuwasy. Amaly ssenariýalar bilen has takyk gabat gelmek üçin modeller iki ölçeg boýunça göni gipoteza yzygiderliligini döretmek üçin zerurdyr. Soň bolsa, seresaplylyk bilen gurlan görkezmeler arkaly meta-maglumat berlen salgylanma jogaplaryny döretmek üçin GPT-4 ulanýarys. Liu we ş. (2023b); Baý we ş.m. . Mundan başga-da, pozisiýany üýtgetmek üçin pozisiýalaryny çalşyp, ikinji gol geçirýäris. 9 LALM-da geçirilen giňişleýin synaglaryň esasynda, bar bolan LALM-leriň ýa-da çäkli ses düşünişine ýa-da görkezme ýerine ýetiriş mümkinçiliklerine eýe bolup, bu ugurda gowulaşmak üçin möhüm ýer galdyrýandygyny görýäris.
Goşantymyz aşakda jemlenendir:
• “AIR-Bench”, ses, tebigy sesler we aýdym-saz ýaly köp sanly sesleri öz içine alýan iri sesli modeller üçin ilkinji döredijilik baha beriş görkezijisidir. “AIR-Bench” uly we iýerarhiki görkeziji bolup, 19 ses meselesi we 19k-dan gowrak ýeke-täk sorag bilen esaslandyryş görkezijisinden, hemmetaraplaýyn baha bermek üçin 2k-den gowrak çylşyrymly açyk sorag soraglary bilen söhbetdeşlik görkezijisi bilen birlikde.
• Sesiň çylşyrymlylygyny ýokarlandyrmak üçin gaty ses dolandyryşy we wagtlaýyn süýşmek bilen täze ses garyş strategiýasyny teklip edýäris.
• Gelip çykyş gipotezalarynyň hiline baha bermek üçin bitewi, obýektiw we köpelip boljak baha beriş çarçuwasy işlenip düzüldi.
• Bahalandyrmak maksady bilen 9 modele düýpli baha berdik. Bahalandyryş kody, maglumat bazalary we açyk lider tagtasy ýakyn wagtda köpçülige hödürlener.
Bu kagyz, CC BY 4.0 DEED ygtyýarnamasy boýunça arxiv-de elýeterlidir .