paint-brush
Сравнительный анализ AnLLM: идеи от OpenBookQA до BoolQк@anchoring

Сравнительный анализ AnLLM: идеи от OpenBookQA до BoolQ

к Anchoring2m2024/10/10
Read on Terminal Reader

Слишком долго; Читать

В этом разделе мы оцениваем AnLLM, используя ряд бенчмарков, включая OpenBookQA и BoolQ, для оценки производительности модели в задачах рассуждения и понимания. Мы измеряем точность, эффективность памяти (сокращение кэшей ключей/значений) и ускорение вывода. Результаты показывают, насколько хорошо AnLLM работают в различных контекстах, используя метод AnSAN для повышения эффективности и результативности.
featured image - Сравнительный анализ AnLLM: идеи от OpenBookQA до BoolQ
Anchoring HackerNoon profile picture
0-item

Авторы:

(1) Цзяньхуэй Пан из Университета Макао, работа была выполнена, когда Цзяньхуэй Пан и Фанхуа Йе проходили стажировку в Tencent AI Lab ([email protected]);

(2) Фанхуа Йе, Университетский колледж Лондона, работа была выполнена, когда Цзяньхуэй Пан и Фанхуа Йе проходили стажировку в Tencent AI Lab ([email protected]);

(3) Дерек Ф. Вонг, Университет Макао;

(4) Лунюэ Ван, Tencent AI Lab, и автор-корреспондент.

Таблица ссылок

Аннотация и 1 Введение

2 Связанные работы

3 большие языковые модели на основе якорей

3.1 Предыстория

3.2 Сети внутреннего внимания, основанные на якорях

3.3 Вывод на основе якоря

4 Эксперименты и 4.1 Наша реализация

4.2 Данные и процедура обучения

4.3 Оценка

5 результатов

6 Анализ

7 Заключение, ограничения, этическое заявление и ссылки


Еще больше экспериментальных результатов

Настройки данных B

4.3 Оценка

В нашем исследовании мы используем разнообразный набор бенчмарков с различной длиной текста для оценки наших результатов, включая OpenBookQA (OBQA) (Mihaylov et al., 2018), WinoGrande (WG) (Sakaguchi et al., 2021), ARC-easy (ARC-e) и ARCchallenge (ARC-c) (Clark et al., 2018), PIQA (Bisk et al., 2020), HellaSwag (HS) (Zellers et al., 2019), SCIQ (Welbl et al., 2017) и BoolQ (Clark et al., 2019). Эти бенчмарки обеспечивают комплексную оценку различных аспектов, включая рассуждение, понимание, понимание физического мира и прогнозирование будущих событий. Важно, что они охватывают тексты различной длины, что облегчает тщательную оценку производительности нашей модели в различных задачах и текстовых сложностях, от более коротких входных контекстов в OBQA до более длинных текстов в BoolQ. Чтобы измерить точность и эффективность наших моделей, мы оцениваем их по трем измерениям, используя три различных метрики для настроек нулевого и пятикратного выстрела. Для AnLLMAC в настройке пятикратного выстрела мы включаем токен привязки в конце каждой демонстрации.


• Точность (Acc). Эта традиционная метрика используется для оценки точности прогнозирования моделей. В соответствии с предыдущими исследованиями (Gao et al., 2023) мы выбираем варианты с наивысшей вероятностью в качестве прогнозов и вычисляем точность с использованием меток золотого стандарта.


• Сокращение кэшей ключей/значений (C⇓). В контексте оценки пяти выстрелов демонстрации могут кэшироваться в памяти GPU для последующего повторного использования. Тем не менее, расширенные демонстрации могут потребовать повышенного потребления памяти. Эта метрика предназначена для оценки эффективности памяти техники AnSAN.


• Коэффициент ускорения вывода (T⇑). Подобно Вану и др. (2023), используя кэшированные ключи/значения, мы представляем коэффициент ускорения вывода, который служит индикатором эффективности вывода метода AnSAN.


Обратите внимание, что сначала мы сообщаем результаты полного вывода внимания для всех моделей, а затем представляем результаты с применением метода AnSAN (+AnSAN), сжимающего информацию о последовательности в якорные токены.


Данная статья доступна на arxiv по лицензии CC BY 4.0 DEED.