저자:
(1) Kexun Zhang, UC Santa Barbara 및 균등 기여;
(2) Hongqiao Chen, Northwood 고등학교 및 균등 기여;
(3) 카네기멜론대학교 레이 리(Lei Li);
(4) 윌리엄 양 왕(UC Santa Barbara).
실험 II에서는 추가 교육 데이터 및 도구 문서 없이 TOOLDEC이 보이지 않는 도구로 일반화하는 방법을 보여줍니다. 우리는 TOOLDEC를 두 가지 강력한 기준, 즉 대표적인 미세 조정 접근 방식인 ToolkenGPT(Hao et al., 2023)와 대표적인 상황 내 학습 접근 방식인 RestGPT(Song et al., 2023)와 비교합니다. 우리는 FuncQA(Hao et al., 2023), KAMEL(Kalo & Fichtel, 2022), RestBench(Song et al., 2023)의 세 가지 벤치마크에 대한 실험을 수행했습니다. 이러한 벤치마크에는 수학 추론, 지식 질문 답변, 실제 웹 서비스 등 매우 다양한 영역의 다양한 도구 세트가 필요합니다. 세 가지 영역 모두에서 우리의 결과는 TOOLDEC이 추가 데이터를 미세 조정하지 않고도 새로운 도구로 효율적으로 일반화할 수 있음을 보여줍니다.
ToolkenGPT는 모든 도구에 대한 특수 토큰을 학습하는 도구 사용에 대한 미세 조정 접근 방식입니다. 새로운 도구로 일반화하려면 ToolkenGPT에는 새로운 도구 사용과 관련된 추가 데이터와 추가 미세 조정이 필요합니다. 우리는 주어진 도구 세트에 대해 일단 미세 조정된 TOOLDEC가 보이지 않는 도구를 채택하기 위해 추가 데이터와 추가 미세 조정이 필요하지 않음을 보여줍니다. 우리는 "보이는 도구"로 표시된 동일한 도구 하위 집합에서 TOOLDEC과 기준선을 조정하여 비교한 다음 "보이지 않는 도구"에 대한 성능을 평가합니다.
공정한 비교를 보장하기 위해 ToolkenGPT의 계획 방법을 모방하여 "도구 사용 시기" 문제를 해결합니다. 특히 모든 도구를 나타내기 위해 단일 특수 토큰 <T>의 삽입을 미세 조정하여 추가 어휘의 크기를 1로 줄였습니다. <T>가 생성되면 도구 호출이 시작됩니다.
LLM에 도구 이름을 생성하라는 메시지가 표시됩니다. 이 도구 이름의 생성은 사용 가능한 모든 도구 목록에서 구성된 FSM에 의해 안내됩니다. 그런 다음 이 도구 이름은 컨텍스트에 다시 연결되어 인수 생성을 시작합니다. 부록 A.2에서는 이 프로세스의 예를 보여줍니다.
우리는 사용 가능한 모든 도구 중에서 "본 도구"의 작은 하위 집합을 선택하고 선택한 하위 집합의 도구 시연을 통해서만 임베딩을 조정했습니다. 동일한 하위 집합을 사용하여 기준선을 미세 조정했습니다. 그런 다음 TOOLDEC의 일반화 능력을 입증하기 위해 하위 집합에 보이지 않는 도구가 포함된 작업에 대한 방법과 기준선을 평가했습니다.
수학 함수에 대한 벤치마크. 우리는 FuncQA 다중 홉 질문을 사용하여 방법을 평가합니다. 순열, gcd, 거듭제곱과 같은 FuncQA의 도구는 인수를 특정 범위의 숫자로 엄격하게 제한하는 수학 함수입니다. 우리는 기준선을 조정하고 나머지 9개의 보이지 않는 도구에 대한 다양한 접근 방식을 평가하기 위해 보이는 하위 집합으로 13개 도구 중 4개를 선택합니다.
지식 그래프 관계에 대한 벤치마크. 더 큰 도구 세트에 대한 TOOLDEC의 일반화 가능성을 추가로 조사하기 위해 API의 특성(예: 하위 수)과 유사한 총 234개의 지식 관계를 포함하는 질문 답변 데이터세트인 KAMEL(Kalo & Fichtel, 2022)도 평가합니다. 더 많은 예는 부록 A.4에서 확인할 수 있습니다. KAMEL의 도구는 FuncQA의 도구보다 훨씬 더 많습니다. 또한 도구에 대한 인수 수가 1에서 3까지 다양하고 해당 유형에는 문자열, 위치, 날짜, 숫자 및 기타 임시 유형이 포함되므로 더욱 복잡하고 다양합니다. 우리는 234개의 도구 중 30개를 표시된 하위 집합으로 선택하고 각각 30, 60, 100 및 234개의 도구가 포함된 4개의 서로 다른 평가 세트를 평가합니다. Hao et al. (2023)에서는 프롬프트, 퓨샷, 제로샷을 추가 기준으로 사용합니다. (1) 도구가 제공되지 않았기 때문에 프롬프트는 LLM의 내부 지식에 의존합니다. (2) 퓨샷(Few-shot)은 퓨샷 예시를 통해 도구 사용을 보여줍니다. (3) 제로샷은 상황에 맞게 사용 가능한 모든 도구에 대한 설명을 제공합니다. KAMEL의 교육 및 평가 데이터 세트는 모든 도구에 대해 동일한 질문 템플릿을 공유하므로 실제 환경에서는 그렇지 않은 경우가 많기 때문에 TOOLDEC만 원래 연구에서 제안한 합성 데이터 세트에서 교육된 ToolkenGPT와 비교합니다. 우리는 도구 호출의 정확도를 측정항목으로 사용하며, 이는 올바른 지식 관계를 호출하는 응답의 비율에 따라 결정됩니다.
RestGPT(Song et al., 2023)는 상황 내 도구 문서에서 도구 사용을 학습하는 상황 내 학습 접근 방식입니다. TOOLDEC이 포함된 RestGPT가 문서가 포함된 RestGPT 기준선보다 상황 내 문서 없이 더 나은 정확성을 달성할 수 있음을 보여줌으로써 TOOLDEC 강화 RestGPT의 일반화 기능을 보여줍니다. TOOLDEC은 다음 토큰 배포에 대한 액세스가 필요하므로 Vicuna 기반(Zheng et al., 2023) RestGPT를 기준으로 사용합니다. 우리의 방법에서는 프롬프트에서 모든 도구 문서를 제거하고 추론을 위한 지침만 남깁니다.
실제 웹 서비스용 API 벤치마크. RestBench에서 평가합니다(Song et al., 2023). 영화 정보 웹사이트인 TMDB, 온라인 음악 플레이어인 Spotify 등 실제 시나리오의 작업으로 구성됩니다. 이러한 작업은 실제 사용자 지침에서 직접 나오며 해결하려면 RESTful API 형태의 여러 도구가 필요합니다. RESTful API는 HTTP 메소드를 사용하여 리소스를 조작하는 웹 서비스(Li et al., 2016)의 사실상 표준입니다. Ground Truth 솔루션은 도구 호출 체인의 형태로 인간에 의해 주석이 추가됩니다. 우리는 55개의 RESTful API로 구성된 TMDB에 대한 기준과 방법을 평가합니다. GET, POST 등의 HTTP 메소드는 도구 호출과 형식이 다르기 때문에 TOOLDEC의 도구 인수 형식입니다. 우리는 이 형식을 따르도록 이러한 API를 다시 작성했습니다. 정확도를 측정하기 위한 지표로 원 논문에서 제안한 정확한 경로율(CP%)을 사용합니다. 올바른 경로 비율은 사람이 주석을 추가한 올바른 도구 호출 경로를 포함하는 모델 출력의 비율입니다.
보이지 않는 수학 함수에 대한 일반화. 그림 5a에서는 FuncQA에 대한 결과를 제시합니다. ToolkenGPT와 TOOLDEC는 보이는 도구만 사용한 작업에서 비슷한 정확도를 달성했지만 ToolkenGPT는 보이지 않는 도구로 일반화하지 못해 성능이 크게 저하되었습니다. 반면, TOOLDEC은 보이지 않는 도구에서도 비슷한 정확도를 유지할 수 있었고 멀티 홉 문제에서는 8배 더 나은 정확도를 달성하여 일반화 가능성을 강조했습니다. 결과적으로 TOOLDEC은 전체 정확도에서 ToolkenGPT보다 훨씬 뛰어난 성능을 보였습니다.
보이지 않는 지식 그래프 기능의 일반화. 그림 5b에 KAMEL에 대한 결과를 제시합니다. 사용 가능한 도구의 수가 증가함에 따라 두 가지 ICL 방법은 컨텍스트 길이 제한(Hao et al., 2023)으로 어려움을 겪고 정확도가 크게 떨어졌습니다. 처음 30개 도구에 대해 미세 조정된 ToolkenGPT도 더 많은 도구로 일반화할 수 없었습니다. 프롬프트는 상황에 맞는 도구 문서에 의존하지 않았기 때문에 안정적이고 낮은 정확도를 유지했습니다. 반면, TOOLDEC은 보이지 않는 도구의 양이 204개에 도달해도 정확성을 유지할 수 있었습니다.
보이지 않는 웹 서비스에 대한 일반화. RestBench의 결과는 표 5에 보고되어 있습니다. TOOLDEC은 모델이 컨텍스트 내 문서 없이 웹 서비스 API를 사용할 수 있도록 지원하여 프롬프트 크기를 1974 토큰에서 880 토큰으로 줄였습니다. 그럼에도 불구하고 TOOLDEC은 올바른 경로 비율(CP%)로 표시되는 정확성 측면에서 여전히 기준선을 크게 능가하여 8포인트 상승했습니다. 이러한 결과는 TOOLDEC이 실제 웹 애플리케이션에서 상황 내 학습 도구 사용의 일반화 가능성을 향상시킬 수도 있음을 시사합니다.
세 가지 설정 모두의 결과는 TOOLDEC가 추가 훈련 데이터 없이 미세 조정 도구 LLM을 일반화하는 데 도움이 될 뿐만 아니라 상황 내 학습 도구 LLM이 상황 내 문서 없이 일반화하는 데도 도움이 된다는 것을 나타냅니다. TOOLDEC의 이러한 기능은 세 가지 다른 영역에서 입증되었습니다.
이 문서는 CC 4.0 DEED 라이선스에 따라 arxiv에서 볼 수 있습니다.