Autorski:
(1) Qian Yang, Uniwersytet Zhejiang, równy wkład. Praca ta została wykonana podczas stażu Qian Yang w Alibaba Group;
(2) Jin Xu, Alibaba Group, równy wkład;
(3) Wenrui Liu, Uniwersytet Zhejiang;
(4) Yunfei Chu, Grupa Alibaba;
(5) Xiaohuan Zhou, Grupa Alibaba;
(6) Yichong Leng, Grupa Alibaba;
(7) Yuanjun Lv, Grupa Alibaba;
(8) Zhou Zhao, Alibaba Group i osoba odpowiadająca Zhou Zhao ([email protected]);
(9) Yichong Leng, Uniwersytet Zhejiang
(10) Chang Zhou, Alibaba Group i osoba odpowiadająca Chang Zhou ([email protected]);
(11) Jingren Zhou, Grupa Alibaba.
3.2 Punkt odniesienia fundamentu
4 Eksperymenty
4.3 Ocena człowieka i 4.4 Badanie ablacji uprzedzeń pozycyjnych
Szczegółowe wyniki testu porównawczego fundamentów
Ostatnio modele audio-językowe oparte na instrukcjach zyskały szeroką uwagę w kontekście interakcji człowiek-dźwięk. Jednak brak punktów odniesienia zdolnych do oceny możliwości interakcji audiocentrycznej utrudnił postęp w tej dziedzinie. Poprzednie modele skupiały się głównie na ocenie różnych podstawowych zadań, takich jak automatyczne rozpoznawanie mowy (ASR), i brakowało im oceny otwartych możliwości generatywnych skupionych wokół dźwięku. Dlatego trudno jest śledzić postęp w domenie dużych modeli audio-językowych (LALM) i udzielać wskazówek dotyczących przyszłych ulepszeń. W tym artykule przedstawiamy AIR-Bench (Audio InstRuction Benchmark), pierwszy punkt odniesienia zaprojektowany w celu oceny zdolności LALM do rozumienia różnych typów sygnałów audio (w tym mowy ludzkiej, dźwięków naturalnych i muzyki), a ponadto do interakcji z ludźmi w formacie tekstowym. AIR-Bench obejmuje dwa wymiary: punkty odniesienia dotyczące fundamentów i czatów. Pierwszy z nich składa się z 19 zadań z około 19 tys. pytań jednokrotnego wyboru, mających na celu sprawdzenie podstawowych zdolności LALM do wykonywania pojedynczych zadań. Drugi zawiera 2 tys. wystąpień danych z pytaniami i odpowiedziami otwartymi, bezpośrednio oceniających zrozumienie modelu na złożonym dźwięku i jego zdolność do wykonywania instrukcji. Oba testy porównawcze wymagają, aby model generował hipotezy bezpośrednio. Projektujemy ujednolicone ramy, które wykorzystują zaawansowane modele językowe, takie jak GPT-4, w celu oceny wyników wygenerowanych hipotez na podstawie metainformacji audio. Wyniki eksperymentów wykazują wysoki poziom spójności między oceną opartą na GPT-4 a oceną ludzką. Ujawniając ograniczenia istniejących LALM za pomocą wyników oceny, AIR-Bench może zapewnić wgląd w kierunek przyszłych badań.
Ostatnie postępy w sztucznej inteligencji ogólnej zostały w znacznym stopniu spowodowane pojawieniem się dużych modeli językowych (LLM) (Brown i in., 2020; OpenAI, 2022, 2023; Chowdhery i in., 2022; Anil i in., 2023; Touvron i in., 2023a,b; Bai i in., 2023a). Modele te wykazują niezwykłe zdolności w zapamiętywaniu wiedzy, angażowaniu się w skomplikowane rozumowanie i rozwiązywaniu problemów zgodnie z ludzkimi intencjami. Motywowana uderzającym postępem w dużych modelach językowych (LLM), domena dużych modeli audio-językowych (LALM) przeszła rewolucyjną transformację. Aby postrzegać i rozumieć bogate sygnały audio, a także generować odpowiedzi tekstowe zgodnie z instrukcjami człowieka, zaproponowano wiele prac, takich jak SALMONN (Tang i in., 2023a), BLSP (Wang i in., 2023a), Speech-LLaMA (Wu i in., 2023a) i Qwen-Audio (Chu i in., 2023), prezentujących obiecujące możliwości w zakresie dialogów centralnie związanych z dźwiękiem.
Jednak poprzednie LALM (Tang i in., 2023a; Wang i in., 2023a; Wu i in., 2023a; Chu i in., 2023; Huang i in., 2023b; Shen i in., 2023; Gong i in., 2023; Wang i in., 2023b) koncentrowały się głównie na ocenie określonych podstawowych zadań. Brak znormalizowanego punktu odniesienia do oceny zdolności tych modeli do generatywnego nauczania skutkował poleganiem na prezentowaniu przykładów lub udostępnianiu modeli czatu do publicznych eksperymentów w celu zademonstrowania ich umiejętności konwersacyjnych. Takie podejście stwarza znaczne wyzwania dla przeprowadzania uczciwych i obiektywnych porównań w różnych przedsięwzięciach badawczych. Co więcej, ma tendencję do zaciemniania istniejących ograniczeń modeli, utrudniając możliwość monitorowania postępów w domenie LALM.
W przypadku oceny w domenach audio większość wysiłków badawczych koncentrowała się na tworzeniu benchmarków dostosowanych do poszczególnych zadań, takich jak LibriSpeech (Panayotov i in., 2015) i Common Voice benchmark (Ardila i in., 2019) dla ASR. Oprócz testów specyficznych dla zadań, benchmarki takie jak SUPERB (Yang i in., 2021a) i HEAR (Turian i in., 2021) zostały zaprojektowane w celu przetestowania wszechstronności modeli uczenia się pod nadzorem własnym w szerokiej gamie zadań. Jeśli chodzi o ocenę zdolności LALM do wykonywania instrukcji, według naszej wiedzy, Dynamic-SUPERB (Huang i in., 2023a) jest jedynym benchmarkiem poświęconym temu aspektowi. Niemniej jednak Dynamic-SUPERB koncentruje się wyłącznie na przetwarzaniu mowy ludzkiej i nie obejmuje oceny zdolności modeli do tworzenia generacji otwartych, takich jak dialogi.
W tym artykule przedstawiamy AIR-Bench (Audio InstRuction Benchmark), nowatorski test porównawczy zaprojektowany do oceny zdolności LALM do rozumienia różnych sygnałów audio i interakcji zgodnie z instrukcjami. AIR-Bench charakteryzuje się trzema głównymi cechami: 1) Kompleksowe pokrycie sygnałów audio. AIR-Bench oferuje kompleksowe pokrycie sygnałów audio, w tym mowy ludzkiej, dźwięków naturalnych i muzyki, zapewniając kompleksową ocenę możliwości LALM. 2) Hierarchiczna struktura testu porównawczego. Test porównawczy składa się z testów podstawowych i czatów. Test podstawowy obejmuje 19 odrębnych zadań audio z ponad 19 000 pytań jednokrotnego wyboru, przy czym każde pytanie koncentruje się tylko na określonej umiejętności podstawowej. GPT-4 (OpenAI, 2023) rozszerza pytania i wybory kandydatów za pomocą specjalnie zaprojektowanych podpowiedzi. Komponent czatu składa się z ponad 2000 pytań otwartych z podpowiedziami audio. Aby zwiększyć złożoność dźwięku i uzyskać bliższe podobieństwo do skomplikowanego dźwięku spotykanego w rzeczywistych sytuacjach, proponujemy nową strategię miksowania dźwięku, która obejmuje kontrolę głośności i przesunięcie czasowe. Konkretnie, dostosowujemy głośność i wprowadzamy różne przesunięcia czasowe podczas procesu miksowania dwóch klipów audio. Powstałe w ten sposób zmiany głośności względnej i lokalizacji czasowej są następnie rejestrowane jako dodatkowe metadane, przyczyniając się do bardziej kompleksowej reprezentacji tekstowej dźwięku. Jakość danych jest utrzymywana poprzez automatyczne filtrowanie przez GPT-4, a następnie ręczną weryfikację. 3) Zunifikowane, obiektywne i powtarzalne ramy oceny. Modele są wymagane do generowania sekwencji hipotez bezpośrednio w obu testach porównawczych, aby dokładniej dopasować je do praktycznych scenariuszy. Następnie wykorzystujemy GPT-4 do generowania odpowiedzi referencyjnych, podając metadane za pomocą starannie skonstruowanych podpowiedzi. Podano odniesienia i hipotezy, zgodnie z Liu i in. (2023b); Bai i in. (2023b), używamy GPT-4 (OpenAI, 2023), aby ocenić, czy wybór jest poprawny dla benchmarku fundamentowego lub hipotez punktowych dla benchmarku czatu. Następnie przeprowadzamy drugą punktację, zamieniając ich pozycje, aby wyeliminować stronniczość pozycji. Na podstawie kompleksowych eksperymentów na 9 LALM-ach obserwujemy, że istniejące LALM-y mają ograniczone rozumienie dźwięku lub możliwości śledzenia instrukcji, co pozostawia znaczne pole do poprawy w tej dziedzinie.
Poniżej podsumowujemy nasz wkład:
• AIR-Bench to pierwszy generatywny benchmark oceny dla dużych modeli audio-językowych, obejmujący szeroką gamę audio, takich jak mowa, dźwięki naturalne i muzyka. AIR-Bench to duży i hierarchiczny benchmark, składający się z benchmarku podstawowego z 19 zadaniami audio i ponad 19 tys. pytań jednokrotnego wyboru, a także benchmarku czatu z ponad 2 tys. starannie dobranych pytań audio z otwartymi zakończeniami do kompleksowej oceny.
• Proponujemy nowatorską strategię miksowania dźwięku z kontrolą głośności i przesunięciem czasowym w celu zwiększenia złożoności dźwięku.
• Opracowano ujednolicone, obiektywne i powtarzalne ramy oceny w celu oceny jakości hipotez generatywnych.
• Przeprowadziliśmy dokładną ocenę 9 modeli w celu przeprowadzenia benchmarkingu. Kod oceny, zestawy danych i otwarta tabela wyników zostaną wkrótce udostępnione publicznie.
Artykuł jest dostępny w serwisie arxiv na licencji CC BY 4.0 DEED.