Szerzői: (1) Clemencia Siro, Amszterdam Egyetem, Amszterdam, Hollandia; (2) Mohammad Aliannejadi, Amszterdam Egyetem, Amszterdam, Hollandia; (3) Maarten de Rijke, Amszterdam Egyetem, Amszterdam, Hollandia. Hivatkozások táblázata Absztrakt és 1 Bevezetés 2 Módszertan és 2.1 Kísérleti adatok és feladatok 2.2 Különféle párbeszéd-kontextusok automatikus generálása 2.3 Crowdsource-kísérletek 2.4 Kísérleti feltételek 2.5 Résztvevők 3 Eredmények és elemzés és 3.1 Adatstatisztika 3.2 RQ1: Változó mennyiségű párbeszéd-kontextus hatása 3.3 RQ2: Az automatikusan generált párbeszédkontextus hatása 4 Megbeszélés és következmények 5 Kapcsolódó munka 6 Következtetések, korlátok és etikai megfontolások 7 Köszönetnyilvánítás és hivatkozások A. Függelék Absztrakt A tömeges forrásból származó címkék döntő szerepet játszanak a feladatorientált párbeszédrendszerek (TDS-ek) értékelésében. A jó minőségű és következetes alapigazság-címkék beszerzése az annotátoroktól kihívást jelent. A TDS értékelésekor az annotátoroknak teljes mértékben meg kell érteniük a párbeszédet, mielőtt ítéletet mondanak. A korábbi tanulmányok azt sugallják, hogy a párbeszédes kontextusnak csak egy részét használják fel az annotáció folyamatában. Ennek a korlátozásnak a címke minőségére gyakorolt hatása azonban továbbra is feltáratlan. Ez a tanulmány a párbeszéd kontextusának az annotáció minőségére gyakorolt hatását vizsgálja, figyelembe véve a relevancia és hasznosság címkézésének csonka kontextusát. Javasoljuk továbbá a nagy nyelvi modellek (LLM) használatát a párbeszéd kontextusának összefoglalására, hogy gazdag és rövid leírást adjunk a párbeszéd kontextusáról, és tanulmányozzuk ennek hatását az annotátor teljesítményére. A kontextus csökkentése több pozitív értékelést eredményez. Ezzel szemben a teljes párbeszédkörnyezet biztosítása jobb minőségű relevanciaértékelést eredményez, de kétértelművé teszi a hasznossági értékeléseket. Az első felhasználói megnyilatkozás kontextusként való használata konzisztens értékelésekhez vezet, amelyek hasonlóak a teljes párbeszéd során kapott értékelésekhez, jelentősen csökkentve a megjegyzések elkészítését. Eredményeink azt mutatják, hogy a feladattervezés, különösen a párbeszéd-kontextus elérhetősége hogyan befolyásolja a közösségi forrásból származó értékelési címkék minőségét és konzisztenciáját.[1] 1 Bevezetés Az előre betanított nyelvi modellek és a nagy nyelvi modellek (LLM) közelmúltbeli fejlődésével a feladatorientált párbeszédrendszerek (TDS-ek) újradefiniálták az emberek információkeresési módját, természetesebb megközelítést kínálva a felhasználóknak az információforrásokhoz való kapcsolódáshoz (Budzianowski és Vulic', 2019; Wu et al., 2020). Ahogy a TDS-ek egyre inkább az információkeresési folyamatok szerves részévé válnak, kritikussá válik a kérdés, hogyan lehet pontosan és hatékonyan értékelni teljesítményüket. Az automatikus mérőszámok és az ember által generált címkék közötti rossz korreláció miatt (Deriu et al., 2021) a TDS-ek értékelése a felhasználói értékelések vagy a tömeges forrásból származó címkék, mint az alapigazság mérőszámai felé tolódott el (Li et al., 2019). Különféle crowdsourcing technikákat alkalmaztak az alapigazság címkéinek összegyűjtésére, mint például a szekvenciális címkézés (Sun et al., 2021), ahol az annotátorok végigmennek az egyes megnyilatkozásokon, és egyenként kommentálják azokat. Ez a megközelítés bizonyos kockázatokat rejt magában az annotálási folyamatban, például az annotátorok fáradtságát és nagy kognitív terhelését az extra hosszú párbeszédek során, ami megköveteli, hogy emlékezzenek és nyomon kövessék a párbeszéd állapotát, amikor megjegyzéseket fűznek a megnyilatkozásokhoz (Siro et al., 2022). Míg a párbeszéd kontextusának követése és megértése döntő fontosságú, és befolyásolhatja az annotátorok értékelését, a nagyon hosszú párbeszédek olvasása és megértése a teljesítmény romlásához vezethet. A probléma megoldása érdekében a kutatás egy másik iránya azt javasolja, hogy minden párbeszédben csak néhány megnyilatkozásból vegyenek véletlenszerűen mintát (Mehri és Eskenazi, 2020; Siro et al., 2022, 2023). Miközben a magas kognitív terhelést és a fáradtságot kezeljük, az annotátorok párbeszéd megértésének korlátozása nyilvánvaló kockázatokat rejt magában, például megbízhatatlan és elfogult címkéket (Schmitt és Ultes, 2015; Siro et al., 2022). Különösen a párbeszéd kontextusának mennyisége vezethet torzításhoz. Például az annotátorok, akiknek nincs gazdag kontextusa, akaratlanul is pozitív vagy negatív értékelések felé hajlanak, figyelmen kívül hagyva a válasz szélesebb körű minőségét. Így az annotátoroknak túl kevés kontextus felkínálása félrevezető ítéletekhez vezethet, ami pontatlan vagy következetlen címkékhez vezethet. Ezzel szemben, ha a jegyzőket túl sok információval árasztják el, túlterhelheti őket, ami a címkeminőség tekintetében alacsonyabb megtérüléshez vezethet. A korábbi munkák olyan tényezőket vizsgáltak, amelyek befolyásolják a tömeges forrásból származó értékelési címkék minőségét és konzisztenciáját, beleértve az annotátor jellemzőit, arXiv:2404.09980v1 [cs.CL] 2024. április 15. feladattervezést, kognitív terhelést és értékelési protokollokat (lásd pl. Parmar et al., 2023; San202am; San202am;1,2020t; al., 2020). Azonban egyetlen korábbi munka sem tanulmányozta a véletlenszerű mintavételezés és a mintavételezett megnyilatkozások számának hatását a kommentár minőségére. Ebben a tanulmányban ennek a kutatási hiányosságnak a kiküszöbölésére törekszünk annak megvizsgálásával, hogy a különböző mennyiségű kontextuális információ hogyan befolyásolja a TDS-ek tömeges forrásból származó címkéinek minőségét és konzisztenciáját, hozzájárulva az ilyen tervezési döntések hatásának megértéséhez. Kísérletezünk a crowdsourcing címkékkel két fő értékelési szempont, nevezetesen a relevancia és a hasznosság különböző feltételek mellett, ahol összehasonlítjuk a kommentárok minőségét különböző párbeszédkontextus-csonkítási stratégiák esetén. A körök szintjén jelentkező elégtelen kontextus kihívását kezelve heurisztikus módszerek és LLM-ek alkalmazását javasoljuk a felhasználó információigényének és párbeszédes összefoglalójának generálására. Az LLM-ek az annotációs asszisztens szerepét tölthetik be (Faggioli et al., 2023) azáltal, hogy összefoglalják a párbeszéd történetét, elősegítve a párbeszéd kontextusának hatékonyabb és eredményesebb megértését, mielőtt egy megnyilatkozást annotálnának. Ebből a célból a GPT-4-et használjuk a párbeszédkontextus összegzésére, és összehasonlítjuk az annotátorok teljesítményét különböző feltételek mellett, valamint különböző kontextusméretekben. Ezekkel a kísérletekkel két fő kérdésre adunk választ: (RQ1) Hogyan befolyásolja a párbeszéd kontextusának változtatása a TDS-ek tömeges értékelését? (RQ2) Javítható-e a közösségi forrásból származó címkék konzisztenciája automatikusan generált kiegészítő kontextussal? Eredményeink azt mutatják, hogy a korábbi párbeszédkontextus elérhetősége jelentősen befolyásolja az annotátorok értékelését, ami észrevehetően befolyásolja azok minőségét. Előzetes kontextus nélkül az annotátorok hajlamosak pozitívabb értékeléseket adni a rendszer válaszaihoz, valószínűleg azért, mert nem áll rendelkezésre elegendő bizonyíték a büntetéshez, ami pozitivitási torzítást vezet be. Ezzel szemben a párbeszéd teljes kontextusának bemutatása magasabb relevanciaértékelést eredményez. Ami a hasznosságot illeti, a párbeszéd teljes kontextusának bemutatása kétértelműséget okoz, és kissé csökkenti az annotátor egyetértését. Ez rávilágít az értékeléshez biztosított kontextuális információk kényes egyensúlyára. Az automatikusan generált párbeszédkontextus felvétele javítja az annotátor egyetértését a kontextus nélküli (C0) feltételben, miközben csökkenti a kommentárok idejét a teljes kontextus (C7) feltételhez képest, ideális egyensúlyt biztosítva az annotátor erőfeszítései és a teljesítmény között. Eredményeink kiterjednek más, feladatorientált társalgási feladatokra is, mint például a társalgási keresésre és a preferenciák kiváltására, amelyek a rendszerteljesítmény értékeléséhez mindketten a közösségi forrásból származó kísérletekre támaszkodnak. Ez a papír a CC BY 4.0 DEED licenc alatt . érhető el az arxiv oldalon [1] Az ezen a területen végzett kutatás elősegítése érdekében adatainkat nyilvánosan közzétesszük a https://github.com/Clemenciah/ Effects-of-Dialogue-Context címen.