Авторы:
(1) Цзяньхуэй Пан из Университета Макао, работа была выполнена, когда Цзяньхуэй Пан и Фанхуа Йе проходили стажировку в Tencent AI Lab ([email protected]);
(2) Фанхуа Йе, Университетский колледж Лондона, работа была выполнена, когда Цзяньхуэй Пан и Фанхуа Йе проходили стажировку в Tencent AI Lab ([email protected]);
(3) Дерек Ф. Вонг, Университет Макао;
(4) Лунюэ Ван, Tencent AI Lab, и автор-корреспондент.
3 большие языковые модели на основе якорей
3.2 Сети внутреннего внимания, основанные на якорях
4 Эксперименты и 4.1 Наша реализация
4.2 Данные и процедура обучения
7 Заключение, ограничения, этическое заявление и ссылки
Еще больше экспериментальных результатов
В нашем исследовании мы используем разнообразный набор бенчмарков с различной длиной текста для оценки наших результатов, включая OpenBookQA (OBQA) (Mihaylov et al., 2018), WinoGrande (WG) (Sakaguchi et al., 2021), ARC-easy (ARC-e) и ARCchallenge (ARC-c) (Clark et al., 2018), PIQA (Bisk et al., 2020), HellaSwag (HS) (Zellers et al., 2019), SCIQ (Welbl et al., 2017) и BoolQ (Clark et al., 2019). Эти бенчмарки обеспечивают комплексную оценку различных аспектов, включая рассуждение, понимание, понимание физического мира и прогнозирование будущих событий. Важно, что они охватывают тексты различной длины, что облегчает тщательную оценку производительности нашей модели в различных задачах и текстовых сложностях, от более коротких входных контекстов в OBQA до более длинных текстов в BoolQ. Чтобы измерить точность и эффективность наших моделей, мы оцениваем их по трем измерениям, используя три различных метрики для настроек нулевого и пятикратного выстрела. Для AnLLMAC в настройке пятикратного выстрела мы включаем токен привязки в конце каждой демонстрации.
• Точность (Acc). Эта традиционная метрика используется для оценки точности прогнозирования моделей. В соответствии с предыдущими исследованиями (Gao et al., 2023) мы выбираем варианты с наивысшей вероятностью в качестве прогнозов и вычисляем точность с использованием меток золотого стандарта.
• Сокращение кэшей ключей/значений (C⇓). В контексте оценки пяти выстрелов демонстрации могут кэшироваться в памяти GPU для последующего повторного использования. Тем не менее, расширенные демонстрации могут потребовать повышенного потребления памяти. Эта метрика предназначена для оценки эффективности памяти техники AnSAN.
• Коэффициент ускорения вывода (T⇑). Подобно Вану и др. (2023), используя кэшированные ключи/значения, мы представляем коэффициент ускорения вывода, который служит индикатором эффективности вывода метода AnSAN.
Обратите внимание, что сначала мы сообщаем результаты полного вывода внимания для всех моделей, а затем представляем результаты с применением метода AnSAN (+AnSAN), сжимающего информацию о последовательности в якорные токены.
Данная статья доступна на arxiv по лицензии CC BY 4.0 DEED.