paint-brush
LLM을 위한 구문 오류가 없고 일반화 가능한 도구 사용: ToolDec은 구문 오류를 제거합니다.~에 의해@textmodels
248 판독값

LLM을 위한 구문 오류가 없고 일반화 가능한 도구 사용: ToolDec은 구문 오류를 제거합니다.

너무 오래; 읽다

연구원들은 오류를 줄이고 도구 사용을 개선하는 LLM용 유한 상태 기계 유도 디코딩인 TOOLDEC을 제안합니다.
featured image - LLM을 위한 구문 오류가 없고 일반화 가능한 도구 사용: ToolDec은 구문 오류를 제거합니다.
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

저자:

(1) Kexun Zhang, UC Santa Barbara 및 균등 기여;

(2) Hongqiao Chen, Northwood 고등학교 및 균등 기여;

(3) 카네기멜론대학교 레이 리(Lei Li);

(4) 윌리엄 양 왕(UC Santa Barbara).

링크 표

4. 실험 I: TOOLDEC은 구문 오류를 제거합니다.

이 섹션에서는 도구 호출을 생성하는 동안 TOOLDEC이 구문 오류를 제거할 수 있음을 보여줍니다. 우리는 TOOLDEC의 능력을 보여주기 위해 상황 내 학습과 미세 조정 패러다임을 대표하는 두 가지 최근 기준인 ToolLLM과 ToolkenGPT를 선택했습니다. 두 기준선에 대한 도구 사용 설정이 다르고 서로 적용할 수 없기 때문에 원본 논문의 벤치마크를 사용하여 두 기준선에 대해 별도로 TOOLDEC의 성능을 테스트합니다. 광범위한 실험을 통해 TOOLDEC이 구문 오류를 완전히 제거하여 정확성을 높이고 추론 시간을 단축할 수 있음을 보여줍니다.

4.1 기준선 및 벤치마크

ToolLLM(Qin et al., 2023). ToolLLM은 도구로 강화된 언어 모델에 대한 상황 내 학습 접근 방식입니다. 도구를 사용하기 위해 명령 조정 LLaMA-7B 모델(Touvron et al., 2023)을 활용합니다. 도구 종속 작업의 자연어 명령이 주어지면 API 검색기는 먼저 관련 기능의 작은 하위 집합을 검색합니다. 이러한 관련 기능에 대한 텍스트 설명과 스키마는 컨텍스트에서 사용할 수 있습니다. 그런 다음 ToolLLM은 함수를 사용하여 다단계 추론 프로세스를 거쳐 최종 답변을 생성합니다.


ToolLLM은 동일한 논문에서 제안된 데이터 세트 인 ToolEval 에서 평가됩니다. ToolEval에는 공개적으로 사용 가능한 대규모 REST API 세트(10,000개 이상)와 관련된 작업이 포함되어 있습니다. 우리는 ToolEval의 가장 어려운 하위 집합인 I2-Category 및 I3-Instruction을 사용하여 방법을 평가합니다. 여기에는 해결하기 위해 여러 범주(예: 지리적 위치, 날짜/시간 등)의 복잡하고 눈에 보이지 않는 도구가 필요한 작업이 포함되어 있습니다. 평균적으로 I2-Category 작업에는 6.76개의 도구가 필요하고 I3-Category 작업에는 8.24개의 도구가 필요합니다. ToolEval에는 두 가지 주요 지표가 있습니다. 합격률은 특정 추론 단계 내에서 모델이 답변에 도달하는 작업의 비율을 측정합니다. 승률은 더 나은 경로를 위해 사전 정의된 기준 세트에 따라 LLM이 제공하는 자동 평가기를 활용합니다. 기본 답변의 품질과 정확성을 ChatGPT에서 생성된 참조 답변과 비교합니다. Qinet al. (2023)은 자동 평가기가 인간 주석자와 75.8%의 높은 상관관계를 가지고 있음을 발견했습니다. 이 두 가지 측정항목 외에도 도구 관련 오류가 하나 이상 발생한 작업의 비율인 도구 오류율 도 측정합니다.


ToolkenGPT(Hao et al., 2023). ToolkenGPT는 도구 사용에 대한 미세 조정 접근 방식입니다. ToolkenGPT는 각 도구를 특수 토큰으로 나타내며 도구 사용을 위한 도구 토큰 내장만 최적화합니다. 추론 중에 ToolkenGPT는 해당 특수 토큰이 예측되면 도구를 호출합니다. 도구 호출 중에는 상황에 맞는 데모를 통해 학습하여 인수를 전달합니다. ToolkenGPT는 LLaMA-33B(Touvron et al., 2023)를 기본 모델로 사용합니다.


표 3: ToolEval의 결과. TOOLDEC 강화 ToolLLM은 모든 지표에서 기준 ToolLLM보다 성능이 뛰어났습니다. TOOLDEC은 모든 도구 오류를 제거했으며 ChatGPT를 약간 이길 수도 있었습니다.


4.2 기본 모델과 TOOLDEC 통합

도구LLM+TOOLDEC. Qin et al. (2023)에서는 ReAct(Yao et al., 2023)를 사용하여 ToolLLM의 도구 호출을 계획합니다. 이는 3.2절의 모드 전환의 두 번째 경우를 따른다. ToolLLM용 FSM에는 세 부분이 있습니다. 첫째, ReAct의 "생각, 행동, 행동 입력" 구문을 시행하는 FSM 형식입니다. "Action:"을 디코딩한 후 이 FSM은 함수 이름 FSM의 시작 상태로 전환되며, 이는 디코딩된 함수 이름이 항상 유효함을 보장합니다. 또한 JSON 기반 함수 인수 FSM을 구성했습니다. 우리는 LLM이 "통과"로 간주되기 위해 종료 작업을 호출해야 하기 전에 5단계를 추론하도록 허용했습니다.


툴켄GPT+TOOLDEC. ToolkenGPT는 도구를 호출하기 위해 특수 토큰을 사용하므로 TOOLDEC는 인수 구문을 보장하기 위해서만 적용됩니다. 이 실험에서 FSM은 모든 인수가 유효한 숫자이고 인수가 쉼표로 구분되어 있음을 보장합니다. 또한 함수에 전달된 실제 인수 수가 정확히 필요한 수임을 보장합니다. 우리는 TOOLDEC를 Hao 등의 기준선의 두 가지 변형과 비교했습니다. (2023), 역추적이 있는 것과 없는 것. Backtrace는 LLM이 실패한 도구 호출 대신 돌아가서 다음 가능한 토큰을 시도하도록 허용하여 도구 호출 실패를 방지하려고 합니다. TOOLDEC을 평가하기 위해 정확성 외에도 문제당 평균 추론 시간과 도구 오류율을 보고합니다.

4.3 실험 결과

TOOLDEC은 상황별 학습 도구 LLM을 향상시킵니다. 표 3은 ToolEval에 대한 TOOLDEC의 성능을 보여줍니다. TOOLDEC은 I2-카테고리에서 55%의 승률, I3-명령에서 60%의 승률을 달성했습니다. TOOLDEC은 원래 디코딩 알고리즘의 드롭인 대체 방식으로 세 가지 유형의 도구 관련 오류를 모두 제거하고 ChatGPT를 제치고 최고의 승률과 합격률을 달성했습니다.


기준선의 높은 도구 오류율은 명령을 미세 조정한 후에도 ToolLLM이 도구 문서에서 외부 도구를 정확하게 호출하는 능력이 여전히 부족함을 나타냅니다. 이러한 무능력은 I3-Instruction과 같이 사용 가능한 도구가 매우 다양할 때 더 많이 드러납니다. 또한 이러한 오류는 모델의 작업 완료 능력에 큰 영향을 미쳤습니다.


그림 4: 총 도구 호출 수에 대한 세 가지 도구 관련 오류 유형의 오류율. TOOLDEC은 세 가지 도구 관련 오류를 모두 0으로 줄였습니다.


그림 4의 두 가지 벤치마크에 대한 각 오류 유형의 오류율을 제시합니다. ToolLLM의 경우 존재하지 않는 도구를 호출하는 이름 오류는 도구 호출에서 가장 일반적인 구문 오류였습니다. TOOLDEC은 세 가지 오류를 모두 완전히 제거했습니다.



함수 이름 환각이 가장 널리 퍼진 도구 관련 오류이기 때문에 약간 더 나은 기준은 접미사를 통한 퍼지 일치로 이를 완화하는 것이었습니다. ToolLLM + 퍼지 매칭으로 퍼지 매칭이 있고 ToolLLM 없이 퍼지 매칭이 있는 기준선 결과를 제시합니다. 이 완화 조치는 합격률을 높였지만 승률에는 거의 영향을 미치지 않았습니다. 표 3에서 알 수 있듯이 모델이 원하는 도구를 정확하게 호출할 수 없을 때 잘못된 API가 선택되는 경우가 많았기 때문입니다. 전반적으로 ToolLLM에 대한 실험은 TOOLDEC이 상황 내 학습 LLM에 매우 효과적이라는 것을 보여줍니다. 다음 기준인 ToolkenGPT를 통해 TOOLDEC이 미세 조정된 도구 LLM에도 유용하다는 것을 보여줍니다.


TOOLDEC은 미세 조정 도구 LLM을 향상시킵니다. 표 4는 FuncQAmulti의 결과를 보여줍니다. ToolkenGPT는 특수 토큰 삽입을 미세 조정하여 존재하지 않는 도구 이름을 호출할 가능성을 제거하지만 여전히 다른 구문 오류가 발생할 수 있으며 이는 27.9%의 도구 오류율로 입증됩니다. 드롭인 교체 방식으로 TOOLDEC은 추론 속도가 훨씬 빨라지면서 ToolkenGPT의 정확성을 높였습니다. ToolkenGPT + 역추적은 TOOLDEC보다 약간 더 나은 정확도를 달성했지만 다른 도구를 시도하는 데 2배 더 많은 시간을 사용했습니다. TOOLDEC이 모든 도구 오류를 제거했기 때문에 재시도를 위한 역추적에 대한 실패한 도구 호출이 없었습니다. 결과는 도구 관련 오류의 관련성과 최신 상황 내 학습 및 미세 조정 도구 증강 LLM 모두에 대한 TOOLDEC의 적용 가능성을 강조합니다.


이 문서는 CC 4.0 DEED 라이선스에 따라 arxiv에서 볼 수 있습니다.