저자 : Karan Singhal (Google Research, DeepMind) Shekoofeh Azizi (Google Research, DeepMind) Tao Tu (Google Research, DeepMind) S. Sara Mahdavi (Google Research, DeepMind) Jason Wei (Google Research, DeepMind) Hyung Won Chung (Google Research, DeepMind) Nathan Scales (Google Research, DeepMind) Ajay Tanwani (Google Research, DeepMind) Heather Cole-Lewis (Google Research, DeepMind) Stephen Pfohl (Google Research, DeepMind) Perry Payne (Google Research, DeepMind) Martin Seneviratne (Google Research, DeepMind) Paul Gamble (Google Research, DeepMind) Chris Kelly (Google Research, DeepMind) Nathaneal Schärli (Google Research, DeepMind) Aakanksha Chowdhery (Google Research, DeepMind) Philip Mansfield (Google Research, DeepMind) Blaise Agüera y Arcas (Google Research, DeepMind) Dale Webster (Google Research, DeepMind) Greg S. Corrado (Google Research, DeepMind) Yossi Matias (Google Research, DeepMind) Katherine Chou (Google Research, DeepMind) Juraj Gottweis (Google Research, DeepMind) Nenad Tomasev (Google Research, DeepMind) Yun Liu (Google Research, DeepMind) Alvin Rajkomar (Google Research, DeepMind) Joelle Barral (Google Research, DeepMind) Christopher Semturs (Google Research, DeepMind) Alan Karthikesalingam (Google Research, DeepMind) Vivek Natarajan (Google Research, DeepMind 저자 : 카란 싱갈 (Google Research, DeepMind) Shekoofeh Azizi (Google 연구, DeepMind) Tao Tu (Google 연구, DeepMind) S. Sara Mahdavi (Google 연구, DeepMind) 제이슨 웨이 (Google Research, DeepMind) Hyung Won Chung (Google 연구, DeepMind) Nathan Scales (Google 연구, DeepMind) Ajay Tanwani (Google 연구, DeepMind) Heather Cole-Lewis (Google 연구, DeepMind) Stephen Pfohl (Google 연구, DeepMind) 페리 페인 (Google Research, DeepMind) Martin Seneviratne (Google 연구, DeepMind) Paul Gamble (Google 연구, DeepMind) 크리스 켈리 (Google Research, DeepMind) Nathaneal Schärli (Google Research, DeepMind) Aakanksha Chowdhery (Google 연구, DeepMind) 필립 맨스필드 (Google Research, DeepMind) Blaise Agüera y Arcas (Google 연구, DeepMind) 데일 웹스터 (Google Research, DeepMind) Greg S. Corrado (Google 연구, DeepMind) Yossi Matias (Google 연구, DeepMind) Katherine Chou (Google 연구, DeepMind) Juraj Gottweis (Google 연구, DeepMind) 네나드 토마세프 (Google Research, DeepMind) Yun Liu (Google 연구, DeepMind) Alvin Rajkomar (Google 연구, DeepMind) Joelle Barral (Google 연구, DeepMind) 크리스토퍼 Semturs (Google Research, DeepMind) Alan Karthikesalingam (Google 연구, DeepMind) Vivek Natarajan (Google Research, DeepMind 대형 언어 모델 (LLMs)은 자연 언어 이해 및 생성에 인상적인 능력을 보여 왔지만, 의료 및 임상 응용 프로그램의 품질 바는 높습니다. 오늘날, 모델의 임상 지식을 평가하려는 시도는 일반적으로 제한된 벤치마크에 대한 자동 평가에 의존합니다. 다양한 작업에 걸쳐 모델 예측과 추론을 평가하는 표준이 없습니다.이를 해결하기 위해, 우리는 전문 의료 시험, 연구 및 소비자 질문을 다루는 6 개의 기존 오픈 질문 응답 데이터 세트를 결합하는 벤치마크인 MultiMedQA를 제시하고 HealthSearchQA는 온라인에서 검색되는 의료 질문에 대한 새로운 무료 응답 데이터 세트입니다. 또한, 우리는 MultiMedQA에서 PaLM (540 억 파라미터 LLM)와 그 지침 조정 변형, Flan-PaLM을 평가합니다. 촉구 전략의 조합을 사용하여, Flan-PaLM은 모든 MultiMedQA 다중 선택 데이터 세트 (MedQA, MedMCQA, PubMedQA, MMLU 임상 주제)에서 최첨단 정확도를 달성합니다. MedQA (미국 의학 면허 시험 질문)에서 67.6%의 정확성을 포함하여, 이전의 최첨단을 17% 이상 초과합니다. 그러나 인간 평가는 Flan-PaLM 응답의 핵심 격차를 밝힙니다. 이를 해결하기 위해 우리는 몇 가지 사본을 사용하여 LLM을 새로운 도메인에 맞추는 파라미터 효율적인 접근 방식을 소개합니다. 결과 우리는 이해, 지식의 회피 및 의학적 추론이 모델 규모와 지침 신속한 조정으로 향상되어 의학에서 LLM의 잠재적 인 유용성을 제안한다는 것을 보여줍니다. 이 종이는 CC by 4.0 Deed (Attribution 4.0 International) 라이선스 Archive 에서 이용 가능 Archive 에서 이용 가능 우리의 인간 평가는 오늘날의 모델의 중요한 한계를 드러내며, 임상 응용 프로그램을위한 안전하고 유용한 LLM 모델을 만드는 데 평가 프레임 워크와 방법 개발의 중요성을 강조합니다. 1 소개 의학은 언어가 의사, 연구원 및 환자 간의 핵심 상호 작용을 가능하게 하는 인간적인 노력이다.그러나 오늘날의 의학 및 의료 응용 분야의 AI 모델은 언어를 최대한 활용하지 못했습니다.이 모델들은 유용하지만 주로 단일 작업 시스템 (예를 들어, 분류, 회귀, 분할), 표현력과 상호 작용 능력이 부족합니다. , , 결과적으로 오늘날의 모델이 할 수있는 일과 실제 임상 작업 흐름에서 그들로부터 기대할 수있는 일 사이에 불일치가 있습니다. , 21 81 97 42 74 대형 언어 모델 (LLMs)의 최근 진보는 AI 시스템을 다시 생각할 수있는 기회를 제공하며 언어는 인간 AI 상호 작용을 중재하는 도구입니다. 이러한 표현적이고 상호 작용하는 모델은 의료기관에서 암호화된 지식에서 일반적으로 유용한 표현을 학습 할 수있는 능력에 큰 약속을 제공합니다. 의학에서 그러한 모델의 몇 가지 흥미 진진한 잠재적 응용 프로그램이 있으며, 지식 검색, 임상 의사 결정 지원, 핵심 발견의 요약, 환자의 초기 치료 문제를 검사하는 등 더 많은 것을 포함합니다. 10 그러나 도메인의 안전 중요성은 평가 프레임 워크의 신중한 개발을 필요로하여 연구자가 진전을 의미있게 측정하고 잠재적 인 피해를 캡처하고 완화 할 수있게합니다.이 모델은 임상 및 사회적 가치와 잘못 조정 된 세대를 생산할 수 있기 때문에 LLMs에 특히 중요합니다. LLM이 임상 지식을 얼마나 잘 인코딩하고 의학에서 잠재력을 평가하는지 평가하기 위해 우리는 의학적 질문에 대답하는 것을 고려합니다.이 작업은 도전적입니다 : 의료 질문에 대한 고품질의 답변을 제공하는 것은 의학적 맥락을 이해하고 적절한 의학적 지식을 회상하고 전문가 정보로 논의해야합니다. ] 종종 분류 정확도를 평가하거나 자동 천연 언어 생성 측정 (예를 들어, BLEU [ 이것은 LLM의 응답 사실성을 평가하기위한 광범위한 의료 질문에 대한 충족되지 않은 필요성을 창출하고, 의료 및 과학적 추론에 대한 전문 지식의 사용, 유용성, 정확성, 건강의 공정성, 그리고 모델 출력을 사실로 받아들이는 인간에게 잠재적 인 해를 입증합니다. 33 67 이 문제를 해결하기 위해, 우리는 6 개의 기존 데이터 세트를 포함하여 7 개의 의료 질문에 답하는 데이터 세트를 포함하는 벤치마크인 MultiMedQA를 복사합니다. [중고] 미세먼지 [중고] [중고] [중고 의사소통 [ ] ], 그리고 MMLU 임상 주제 [ ]. 우리는 일곱 번째 데이터 세트인 HealthSearchQA를 새롭게 소개하고 있으며, 이는 일반적으로 검색된 건강 질문들로 구성됩니다. 33 64 34 1 2 29 MultiMedQA를 사용하여 LLM을 평가하기 위해, 우리는 540 억 매개 변수 LLM 인 PaLM을 기반으로합니다. ], 그리고 그것의 지침 조정 변형 Flan-PaLM [ 짧은 샷의 조합을 사용하여 [ [중고] 신앙의 흐름 [중고] ], 그리고 자기 일관성 [ Flan-PaLM은 MedQA, MedMCQA, PubMedQA 및 MMLU 임상 주제에서 최첨단 (SOTA) 성능을 달성하여 종종 몇 가지 강력한 LLM 기준을 상당한 마진으로 뛰어넘습니다. 14 15 12 91 88 Flan-PaLM의 다중 선택 질문에 대한 강력한 성과에도 불구하고 소비자 의료 질문에 대한 응답은 핵심 격차를 드러내고 있습니다. 이를 해결하기 위해, 우리는 Flan-PaLM의 데이터 및 매개 변수 효율적인 조정 기술인 명령 프롬프트 튜닝을 제안하여 Flan-PaLM을 의학 분야에 추가적으로 적응시킵니다. 결과 모델인 Med-PaLM은 파일럿 인체 평가 프레임 워크의 요소에서 격렬한 성과를 나타냅니다. 예를 들어, 임상 연구팀은 Flan-PaLM의 긴 형태 응답의 61.9%만이 과학적 합의와 일치하는 것으로 판단했으며, Med-PaLM 응답의 92.6%는 임상 전문가가가 생성한 응답 이러한 결과는 유망하지만 의학 분야는 복잡합니다.특히 공정성, 공정성 및 편견의 차원에서 추가적인 평가가 필요합니다.우리의 연구는 이러한 모델이 임상 응용 분야에서 사용하기 전에 많은 제한이 극복되어야한다는 것을 보여줍니다.우리는 우리의 연구에서 미래 연구의 몇 가지 핵심 제한 사항과 방향을 설명합니다. 우리의 주요 공헌은 아래에 요약되어 있습니다: 의학 질문 응답에서 LLM의 평가에 대한 접근법 - 우리는 3375 일반적으로 검색 된 소비자 의료 질문의 데이터 세트 인 HealthSearchQA를 소개합니다. 우리는이 데이터 세트와 함께 의료 질문 답변, 의료 시험, 의료 연구 및 소비자 의료 질문을 포함하는 6 개의 다른 기존 오픈 데이터 세트를 LLM의 임상 지식과 질문 답변 능력을 평가하는 다양한 기준으로 제시합니다. ) Curation of HealthSearchQA and MultiMedQA 3.1 - 우리는 다중 선택 데이터 세트에서 정확성을 초과하는 LLM 성능의 여러 축을 평가하기 위해 의사 및 사용자 평가를위한 프레임 워크를 파일럿합니다.우리의 평가는 과학 및 임상 합의에 대한 동의, 피해의 가능성 및 가능한 정도, 읽기 이해, 관련 임상 지식의 추억, 유효한 추론을 통해 지식의 조작, 응답의 완전성, 편견의 가능성, 관련성 및 유용성을 평가합니다. ) Pilot framework for human evaluation 3.2 MedQA, MedMCQA, PubMedQA 및 MMLU 임상 주제 데이터 세트에서 FLAN-PaLM은 몇 가지 강력한 LLM 기준을 뛰어넘는 조언 전략의 조합을 통해 SOTA 성능을 달성합니다. 의학 영역에 대한 LLM을 일치시키기위한 지침 프롬프트 조정 우리는 의학 영역에 전문화 된 Flan-PaLM의 지침 프롬프트 버전 인 Med-PaLM을 구축하기 위해 이것을 활용합니다. 우리의 인간 평가 프레임 워크는 Flan-PaLM의 과학적 토지, 해상 및 편견에 대한 한계를 밝힙니다. 그러나 Med-PaLM은 클리닉과 사용자 (Section 4.5 참조). 우리의 결과는 의학에서 LLM의 잠재력을 보여주지만, 그들은 또한 이러한 모델을 실질적인 임상 응용 프로그램을 위해 실현하기 위해 몇 가지 중요한 개선이 필요하다는 것을 제안합니다. 2 관련 작업 지난 몇 년 동안 LLM은 자연 언어 처리 (NLP) 작업에 인상적인 성과를 보였습니다. , , , , , , , , , ]. 그들은 트랜스퍼터 기반 모델의 훈련을 확장하기 위해 그들의 성공을 빚지고있다 [ 모델 성능 및 데이터 효율성 스케일은 모델 크기 및 데이터 세트 크기 [ ]. LLMs는 종종 대규모의 자기 감독을 사용하여 훈련되며, Wikipedia 및 BooksCorpus와 같은 일반적인 목적의 텍스트 corpi를 사용하여 다양한 작업을 통해 유망한 결과를 보여주었습니다. , 아마도 이러한 LLM의 가장 흥미로운 측면은 그들의 맥락에서 몇 샷 능력이며, 그들은 그리디엔트 기반의 매개 변수 업데이트없이 다양한 작업에 이러한 모델을 적응시킵니다. , , , 이것은 그들이 눈에 보이지 않는 작업에 신속하게 일반화하고 적절한 권장 전략을 사용하여 명백한 추론 능력을 보여줄 수있게합니다. , , , Large language models (LLMs) 12 14 15 30 69 70 73 89 91 99 84 37 17 29 12 40 43 89 14 47 79 91 여러 연구에 따르면 LLM은 암시적인 지식 기반으로 작용 할 수있는 능력을 가지고 있습니다. [ , , 그러나 이러한 모델이 환각을 일으키고, 교육 데이터에 존재하는 사회적 편견을 증폭하고, 추론 능력에 결함을 나타내는 상당한 위험이 있습니다.LLM의 현재 제한 사항을 검사하고 인간과 LLM 언어 능력 사이의 큰 격차를 정량화하기 위해 BIG-bench는 현재 언어 모델의 능력을 초과하는 것으로 믿어졌던 작업에 벤치마크하기위한 지역 사회적 이니셔티브로 도입되었습니다. 29 35 79 78 SciBERT와 같은 최근 연구들 [ 바이올린 (BioNLP ], 바이오메가트론 [ 바이오 바이오 [ [ 용기 있는 [ ] [학습] 학습자 [중고] 바이올로기 이 모델들은 유망하지만 일반적으로 GPT-3와 같은 LLM에 비해 규모와 범위가 작습니다. [ [중고] 팔레스타인 ]. 의료 분야는 도전적이지만, LLMs에 대한 구체적인 제안은 이미 복잡한 의료 커뮤니케이션을 요약하기 위해 비 중요한 임상 평가를 증가시키는 것과 같은 다양한 예를 포함했습니다. [ , , LLMs for science and biomedicine 5 46 76 44 25 66 31 56 12 14 3 41 75 우리의 일에 가장 가까운 전례는 Taylor입니다. [중고] [ ], 누가 Galactica라는 이름의 과학 LLM을 소개, 그리고 Liévin [중고] ], 누가 의학 질문 대답의 맥락에서 LLM의 추론 능력을 연구했다. [중고] ] 사용 Instruct GPT-3, an instruction-tuned LLM [ [중고] [중고] [중고] [중고] [중고] [중고] [중고] [중고] [중고] [중고] [중고] [중고] MedQA, MedMCQA 및 PubMedQA 데이터 세트의 결과를 개선하기 위하여 그리고 알 79 그리고 알 50 그리고 알 50 63 91 3 방법 여기서 우리는 자세히 설명합니다 : 데이터 세트 : 의료 질문 응답에서 LLM의 평가를위한 MultiMedQA 벤치마크. 인간 평가의 프레임 워크 (Framework for Human Evaluation): 임상과 종교인의 모델 (및 임상) 응답을 평가하는 등급 프레임 워크. 모델링 : 대형 언어 모델 (LLMs)과이 연구에서 의료 분야의 요구 사항에 맞게 조정하는 데 사용되는 방법. 3.1 데이터 의학에서 LLM의 잠재력을 평가하기 위해, 우리는 의학 질문에 대답에 초점을 맞추었습니다. 의학 질문에 대답하는 것은 읽기 이해 능력, 의학 지식을 정확하게 기억하고 전문 지식을 조작 할 수있는 능력을 필요로합니다. 연구를위한 몇 가지 기존의 의학 질문에 대답 데이터 세트가 있습니다.이들은 의학 시험 질문과 같은 전문 의학 지식을 평가하는 데이터 세트를 포함합니다. , ], 의학 연구 이해 능력을 필요로하는 질문 [ 사용자의 의도를 평가하고 의료 정보 요구에 유용한 답변을 제공 할 수있는 능력을 필요로하는 질문 [ ] , 33 64 34 1 2 우리는 의학적 지식이 양과 품질 모두에서 넓다는 것을 인정합니다. 기존 기준은 본질적으로 제한되어 있으며 의학적 지식의 영역에 대한 부분적인 커버를 제공합니다. 그럼에도 불구하고 의학적 질문에 대한 답변을위한 여러 가지 데이터 세트를 모으는 것은 LLM 지식의 더 깊은 평가를 가능하게합니다. BLEU와 같은 다중 선택 정확도 또는 자연 언어 생성 측정입니다. 우리가 그룹화 한 데이터 세트는 서로 다른 능력을 탐지합니다 - 일부는 다중 선택 질문이며 다른 것들은 긴 형태의 답변을 필요로합니다; 일부는 개방된 도메인 (예전 지정된 소스에 대한 정보에 대한 제한없이 답변되는 질문)이며, 다른 것들은 폐쇄된 도메인 ( 관련 참조 텍스트에서 콘텐츠를 검색하여 답변 의학적 질문에 대답하는 데이터 세트의 포괄적 인 요약을 위해. 33 3.1.1 MultiMedQA - 의학적 질문에 대답하는 기준 MultiMedQA는 다중 선택 질문 답변 데이터 세트, 의료 전문가의 질문에 대한 더 긴 양식의 답변을 요구하는 데이터 세트, 비 전문가가 묻을 수있는 질문에 대한 더 긴 양식의 답변을 요구하는 데이터 세트를 포함합니다. [중고] 미세먼지 [중고] [중고] [중고 의사소통 [ ] ] 및 MMLU 임상 주제 [ 우리는 흔히 검색된 건강 쿼리의 새로운 데이터 세트로 MultiMedQA를 추가했습니다 : HealthSearchQA. 모든 데이터 세트는 영어이며 아래에 자세히 설명합니다. 33 64 34 1 2 29 이러한 데이터 세트는 다음 축을 따라 다릅니다: These data sets vary along the following axes: 형식: 멀티 옵션 vs. 긴 형식 대답 질문 테스트 된 능력 : 예를 들어, 단독으로 의료 사실을 회상하는 것을 평가하는 것과 사실을 회상하는 것 외에 의료 추론 능력을 평가하는 것 도메인: Open Domain vs. Closed Domain Questions 질문 출처: 전문 의료 시험, 의료 연구 또는 의료 정보를 찾는 소비자 라벨 및 메타데이터: 라벨 또는 설명 및 그 출처의 존재 MedMCQA, PubMedQA, LiveQA 및 MedicationQA는 참조 긴 형태의 답변이나 설명을 제공하지만, 우리는이 작업에서 그들을 사용하지 않습니다. 첫째, 참조 답변은 다른 데이터 세트에 걸쳐 일관된 소스에서 온 것이 아닙니다. 응답은 종종 도서관과 같은 자동화 된 도구 또는 비 클리닉에서 왔습니다. 이 선도적 인 데이터 세트의 참조 답변과 설명의 구축은 긴 응답 품질의 전체적 또는 포괄적 인 평가를 위해 최적화되지 않았으며, BLEU와 같은 자동화 된 천연 언어 메트릭을 사용하여 LLM을 평가하는 "지상 진리"로 사용하기 위해 최소화됩니다. 둘째, 의료 분야의 안전과 중요한 요구 사항을 감안할 때, 우리는 BLEU와 같은 지표를 사용하여 긴 형태의 응답 생성 품질의 자동화된 측정을 넘어이 연구에서 제안 한 것과 같은 더 뉘앙스러운 인간 평가 프레임워크를 포함하는 것들로 이동하는 것이 중요하다고 생각합니다. 4.5 MedQA 데이터 세트 [ US Medical License Exam (USMLE) 스타일 질문으로 구성되어 있으며, 미국의 National Medical Board Examination에서 4 또는 5개의 가능한 답변을 선택하여 얻었습니다. MedQA (USMLE) 33 MedMCQA 데이터 세트는 인도 의학 입학 시험 (AIIMS/NEET)에서 194k 이상의 4 옵션 다중 선택 질문으로 구성됩니다. ].이 데이터 세트는 2.4k 건강 관리 주제와 21 의료 주제를 다루고 있습니다. MedMCQA 64 PUBMEDQA 데이터 세트 [ ] 는 1k 전문가 라벨 된 질문 답변 쌍으로 구성되어 있으며, 해당 질문과 PubMed 추론을 컨텍스트로 제공하는 예/아니오/아마도 다중 선택 답변을 생성하는 작업입니다.MedQA 및 MedMCQA 데이터 세트는 개방된 도메인 질문 응답 작업이지만, PubMedQA 작업은 폐쇄 도메인이며, PubMed 추론을 지원하는 맥락에서 응답 추론을 필요로합니다. PubMedQA 34 “Massive Multitask Language Understanding” (MMLU) 우리는 의학 지식에 가장 관련된 하위 과목을 선택했습니다 : “아나토미”, “클리닉 지식”, “대학 의학”, “의학 유전학”, “전문 의학”, “대학 생물학”. 각 MMLU 하위 과목에는 네 가지 옵션과 함께 다중 선택 질문이 있습니다. MMLU 29 LiveQA 데이터 세트 [ ] was curated as part of the Text Retrieval Challenge (TREC) 2017. The dataset consists of medical questions submitted by people to the National Library of Medicine (NLM). The dataset also consists of manually collected reference answers from trusted sources such as the National Institute of Health (NIH) website. LiveQA 1 The MedicationQA dataset [ ]은 의약품에 관한 일반적인 소비자 질문을 포함합니다.이 질문 외에도, 데이터 세트에는 약물 초점과 상호 작용에 해당하는 항목이 포함되어 있습니다.LiveQA와 마찬가지로, 우리는 테스트 세트의 질문에 대한 긴 형태의 답변을 생산할 수있는 모델의 능력을 평가합니다. MedicationQA 2 “HealthSearchQA”라고 불리는 3375개의 일반적으로 검색된 소비자 질문으로 구성된 우리 자신의 추가 데이터 세트를 구축했습니다. 데이터 세트는 씨앗의 의료 상태와 관련된 증상을 사용하여 구축되었습니다. 우리는 씨앗 데이터를 사용하여 검색 엔진에 의해 생성된 공개적으로 이용 가능한 일반적으로 검색된 질문을 검색하여, 씨앗 용어를 입력하는 모든 사용자에게 표시되었습니다. 우리는 데이터 세트를 소비자 의학 질문에 대한 답변을위한 개방적인 기준으로 게시하며, 이것이 커뮤니티에 유용한 리소스가 되기를 희망합니다. HealthSearchQA MultiMedQA는 여러 축을 따라 LLM의 의학적 질문 대답 능력을 탐구 할 수 있지만, 그것이 완전하지 않다는 것을 인정합니다.우리는 전자 의료 기록에서 질문 대답 능력을 탐구하는 것과 같은 다른 관련 데이터 세트로 벤치마크를 확장 할 계획입니다. ] 또는 임상 생물 의학 지식을 필요로하는 사람들 [ [중고] 미래의 일자리 65 83 3.2 인간 평가의 틀 여기서 우리는 의학적 질문에 대한 긴 형태의 대답에 대한 인간 평가를위한 제안 된 프레임 워크를 설명합니다. 3.2.1 Clinician evaluation While objective accuracy metrics on multiple-choice questions are a robust measure of model performance, they omit several important details. To more deeply assess the generative outputs of LLMs in open-ended question answering for medical topics, we developed a pilot framework for human evaluation of long-form model answers to consumer medical questions in the LiveQA, MedicationQA and HealthSearchQA datasets. | Summary of the different axes along which clinicians evaluate the answers in our consumer medical question answering datasets. These include agreement with scientific consensus, possibility and likelihood of harm, evidence of comprehension, reasoning and retrieval ability, presence of inappropriate, incorrect or missing content and possibility of bias in the answer. We use a pool of clinicians to evaluate the quality of model and human-generated answers along these axes. Table 2 Task Axis Question 1 Scientific consensus How does the answer relate to the consensus in the scientific andclinical community? 2 Extent of possible harm What is the extent of possible harm? 3 Likelihood of possible harm What is the likelihood of possible harm? 4 Evidence of correct comprehension Does the answer contain any evidence of correct reading compre-hension? (indication the question has been understood) 5 Evidence of correct retrieval Does the answer contain any evidence of correct recall of knowl-edge? (mention of a relevant and/or correct fact for answering the question) 6 Evidence of correct reasoning Does the answer contain any evidence of correct reasoning steps?(correct rationale for answering the question) 7 Evidence of incorrect comprehension Does the answer contain any evidence of incorrect reading com-prehension? (indication the question has not been understood) 8 Evidence of incorrect retrieval Does the answer contain any evidence of incorrect recall of knowl-edge? (mention of an irrelevant and/or incorrect fact for answering the question) 9 Evidence of incorrect reasoning Does the answer contain any evidence of incorrect reasoning steps?(incorrect rationale for answering the question) 10 Inappropriate/incorrect content Does the answer contain any content it shouldn’t? 11 Missing content Does the answer omit any content it shouldn’t? 12 Possibility of bias Does the answer contain any information that is inapplicable or inaccurate for any particular medical demographic? 1 Scientific consensus How does the answer relate to the consensus in the scientific andclinical community? 2 가능한 피해의 범위 What is the extent of possible harm? 3 Likelihood of possible harm 가능한 피해의 가능성은 무엇입니까? 4 Evidence of correct comprehension 답에는 올바른 읽기 이해에 대한 증거가 포함되어 있습니까? (문제가 이해되었음을 나타내는) 5 · 올바른 복구의 증거 Does the answer contain any evidence of correct recall of knowl-edge? (mention of a relevant and/or correct fact for answering the question) 6 올바른 추론의 증거 답에는 올바른 추론 단계에 대한 증거가 포함되어 있습니까?(correct rationale for answering the question) 7 Evidence of incorrect comprehension Does the answer contain any evidence of incorrect reading com-prehension? (indication the question has not been understood) 8 Evidence of incorrect retrieval 응답에는 knowl-edge의 잘못된 추억에 대한 증거가 포함되어 있습니까? (문제에 대답하기 위해 irrelevant 및/또는 잘못된 사실에 대한 언급) 9 잘못된 추론의 증거 답에는 잘못된 추론 단계에 대한 증거가 포함되어 있습니까?(incorrect rationale for answering the question) 10 부적절한 / 부적절한 콘텐츠 대답에 있어서는 안되는 내용이 있습니까? 11 잃어버린 콘텐츠 대답은 그것이 필요하지 않는 콘텐츠를 제거합니까? 12 Possibility of bias Does the answer contain any information that is inapplicable or inaccurate for any particular medical demographic? The pilot framework was inspired by approaches published in a similar domain by Feng [ 임상 환경에서 LLM 세대의 강점과 약점을 검토하기 위해 우리는 영국, 미국 및 인도에 본사를 둔 의사와의 초점 그룹 및 인터뷰를 사용하여 추가적인 평가 요소를 식별했습니다. ] and expanded the framework items to address notions of agreement with scientific consensus, possibility and likelihood of harm, completeness and missingness of answers and possibility of bias. Alignment with scientific consensus was measured by asking raters whether the output of the model was aligned with a prevailing scientific consensus (for example in the form of well-accepted clinical practice guidelines), opposed to a scientific consensus; or whether no clear scientific consensus exists regarding the question. Harm is a complex concept that can be evaluated along several dimensions (e.g. physical health, mental health, moral, financial and many others). When answering this question, raters were asked to focus solely on physical/mental health-related harms, and evaluated both severity (in a format inspired by the AHRQ common formats for harm [ ]) and likelihood, under the assumption that a consumer or physician based on the content of the answer might take actions. Bias was assessed broadly by raters considering if the answer contained information that would be inapplicable or inaccurate to a specific patient demographic. The questions asked in the evaluation are summarized in Table 그리고 알 22 60 93 2 우리의 프레임 워크 항목의 형태, 문구 및 응답 규모 점은 3 명의 자격을 갖춘 임상과 의사에 의해 데이터 세트 당 25 개의 질문 응답 튜블의 3 배 평가를 통해 추가 인터뷰를 수행함으로써 정교화되었습니다. 임상과 의사에 대한 등급의 지표를 포함한 지침은 작성되었으며, 임상과 의사의 등급 접근 방식이 지침을 사용할 수 있음을 나타내기 위해 합류 할 때까지 반복되었습니다. 지침이 통합되면 소비자 의료 질문에서 질문 응답 튜블의 더 큰 세트는 영국, 미국 또는 인도에 위치한 9 명의 임상과 의사 중 한 명에 의해 수행 된 단일 등급으로 평가되었으며, 소아과 의학, 수술, 내부 의학 라인 사용자가 소비자 의료 질문 응답 데이터 세트에서 답변의 유용성을 평가하는 다른 축의 요약.우리는 5 개의 비 전문가 라인 사용자를 사용하여 모델의 품질과 이러한 축을 따라 인간 생성 된 답변을 평가합니다. Table 3 Task Axis Question 1 Answer captures user intent How well does the answer address the intent of the question? 2 Helpfulness of the answer How helpful is this answer to the user? (for example, does it enable them to draw a conclusion or help clarify next steps?) 1 Answer captures user intent How well does the answer address the intent of the question? 2 답의 유용성 How helpful is this answer to the user? (for example, does it enable them to draw a conclusion or help clarify next steps?) 3.2.2 Lay user (non-expert) 평가 소비자 의료 질문에 대한 답변의 유용성과 유용성을 평가하기 위해 우리는 추가적인 평범한 사용자 (비 전문가) 평가를 실시했습니다. 이것은 의료 배경이없는 다섯 명의 평가자에 의해 수행되었으며, 모두 인도에 본사를 두었습니다.이 운동의 목적은 대답이 질문에 근거한 인식 의도를 얼마나 잘 다루었는지, 얼마나 도움이되고 행동 할 수 있었는지를 평가하는 것이 었습니다. 3 3.3 모델링 이 섹션에서는 대형 언어 모델 (LLM)과 의료 분야의 요구 사항과 일치하는 데 사용되는 기술을 자세히 설명합니다. 3.3.1 Models We build on the PaLM and Flan-PaLM family of LLMs in this study. Pathways Language Model (PaLM), introduced by [ ] is a densely-activated decoder-only transformer language model trained using Pathways [ ], a large-scale ML accelerator orchestration system that enables highly efficient training across TPU pods. The PaLM training corpus consists of 780 billion tokens representing a mixture of webpages, Wikipedia articles, source code, social media conversations, news articles and books. All three PaLM model variants are trained for exactly one epoch of the training data. We refer to [ , , ] for more details on the training corpus. At the time of release, PaLM 540B achieved breakthrough performance, outperforming fine tuned state of the art models on a suite of multi-step reasoning tasks and exceeding average human performance on BIG-bench [ , PaLM 14 4 14 19 80 14 78 In addition to the baseline PaLM models, we also considered the instruction-tuned counterpart introduced by [ ]. These models are trained using instruction tuning, i.e., finetuning the model on a collection of datasets in which each example is prefixed with some combination of instructions and/or few-shot exemplars. In particular, Chung [ ] demonstrated the effectiveness of scaling the number of tasks, model size and using chain-of-thought data [ ] as instructions. The Flan-PaLM model reached state of the art performance on several benchmarks such as MMLU, BBH, and TyDIQA [ ]. Across the suite of evaluation tasks considered in [ ], Flan-PaLM outperformed baseline PaLM by an average of 9.4%, demonstrating the effectiveness of the instruction tuning approach. Flan-PaLM 15 et al. 15 91 16 15 이 연구에서는 PaLM 및 Flan-PaLM 모델 변형을 3 개의 다른 모델 크기에서 고려했습니다 : 8B, 62B 및 540B, 가장 큰 모델은 6144 TPUv4 칩을 사용하여 사전 훈련합니다. 3.3.2 Aligning LLMs to the medical domain General-purpose LLMs like PaLM [ ] and GPT-3 [ ] have reached state of the art performance on a wide variety of tasks on challenging benchmarks such as BIG-bench. However, given the safety critical nature of the medical domain, it is necessary to adapt and align the model with domain-specific data. Typical transfer learning and domain adaptation methods rely on end-to-end finetuning of the model with large amounts of in-domain data, an approach that is challenging here given the paucity of medical data. As such, in this study we focused on data-efficient alignment strategies building on prompting [ ] and prompt tuning [ 14 12 12 45 Brown [중고] ] LLMs는 컨텍스트 내에서 빠른 학습이 인스턴트 전략을 통해 달성 될 수있는 강력한 몇 샷 학습자임을 보여주었습니다. 인스턴트 컨텍스트 내에서 인스턴트 텍스트로 인스턴트 텍스트로 인코딩 된 몇 가지 데모 예를 통해이 모델은 모든 gradient 업데이트 또는 finetuning없이 새로운 예와 새로운 작업으로 일반화 할 수 있습니다. 인스턴트 내에서 몇 샷 학습의 놀라운 성공은 scratchpad을 포함한 많은 인스턴트 전략의 개발을 자극했습니다. [중고] 생각의 쇠사슬 최소한의 혜택을 받으리라 ], especially for multi-step computation and reasoning problems such as math problems [ ]. In this study we focused on standard few-shot, chain-of-thought and self-consistency prompting as discussed below. Prompting strategies et al. 12 61 91 100 17 The standard few-shot prompting strategy was introduced by Brown [ ]. Here, the prompt to the model is designed to include few-shot examples describing the task through text-based demonstrations. These demonstrations are typically encoded as input-output pairs. The number of examples is typically chosen depending on the number of tokens that can fit into the input context window of the model. After the prompt, the model is provided with an input and asked to generate the test-time prediction. The zero-shot prompting counterpart typically only involves an instruction describing the task without any additional examples. Brown [ ] observed that while zero-shot prompting scaled modestly with model size, performance with few-shot prompting increased more rapidly. Further, Wei [중고] 관찰된 새로운 능력 - 즉, 작은 모델에서 존재하지 않는 능력, 그러나 조언 패러다임에서 특정 모델 크기를 넘어서는 무작위 성능을 신속하게 향상시킨 능력. Few-shot prompting 그리고 알 12 et al. 12 et al. 90 In this study we worked with a panel of qualified clinicians to identify the best demonstration examples and craft the few-shot prompts. Separate prompts were designed for each dataset as detailed in Section . The number of few-shot demonstrations varied depending on the dataset. Typically we used 5 input-output examples for the consumer medical question answering datasets, but reduced the number to 3 or fewer for PubMedQA given the need to also fit in the abstract context within the prompt text. A.8 Wei가 소개한 Chain-of-Thought (CoT) [ ], involves augmenting each few-shot example in the prompt with a step-by-step breakdown and a coherent set of intermediate reasoning steps towards the final answer. The approach is designed to mimic the human thought process when solving problems that require multi-step computation and reasoning. Wei [ ] CoT 촉구가 충분히 큰 언어 모델에서 추론 능력을 유발할 수 있으며 수학 문제와 같은 작업에서의 성능을 극적으로 향상시킬 수 있음을 보여주었습니다. ]. Further, the appearance of such CoT reasoning appears to be an emergent ability [ LLMs. Lewkowycz에 의해 [ ] 는 여러 STEM 벤치마크에 대한 LLM 성과를 획기적으로 이끌어내는 작업에서 핵심 전략 중 하나로 CoT 조언을 사용했습니다. Chain-of-thought prompting 그리고 알 91 그리고 알 91 17 90 et al. 47 Many of the medical questions explored in this study involve complex multi-step reasoning, making them a good fit for CoT prompting techniques. Together with clinicians, we crafted CoT prompts to provide clear demonstrations on how to reason and answer the given medical questions. Examples of such prompts are detailed in Section . A.9 A straightforward strategy to improve the performance on the multiple-choice benchmarks is to prompt and sample multiple decoding outputs from the model. The final answer is the one with the majority (or plurality) vote. This idea was introduced by Wang [중고] ] under the name of "self-consistency". The rationale behind this approach here is that for a domain such as medicine with complex reasoning paths, there might be multiple potential routes to the correct answer. Marginalizing out the reasoning paths can lead to the most consistent answer. The self-consistency prompting strategy led to particularly strong improvements in [ ], and we adopted the same approach for our datasets with multiple-choice questions: MedQA, MedMCQA, PubMedQA and MMLU. Self-consistency prompting et al. 88 47 Because LLMs have grown to hundreds of billions of parameters [ , ], 그들을 최적화하는 것은 엄청나게 계산적으로 비싸다.작은 샷 인프팅의 성공은이 문제를 크게 완화시켰지만, 많은 작업은 gradient-based learning에서 더 혜택을 얻을 것이다. [중고] ] 소개한 prompt tuning (in contrast to prompting / priming), 간단하고 계산적으로 저렴한 Prompt tuning 12 14 et al. 45 method to adapt LLMs to specific downstream tasks, especially with limited data. The approach involves the learning of soft prompt vectors through backpropagation while keeping the rest of the LLM frozen, thus allowing easy reuse of a single model across tasks. This use of soft prompts can be contrasted with the discrete “hard” text-based few-shot prompts popularized by LLMs such as GPT-3 [ ]. While prompt tuning can benefit from any number of labeled examples, typically only a handful of examples (e.g., tens) are required to achieve good performance. Further, Lester 12 et al. [ ] demonstrated that prompt-tuned model performance becomes comparable with end-to-end finetuning at increased model scale. Other related approaches include prefix tuning [ ], where prefix activation vectors are prepended to each layer of the LLM encoder and learned through backpropagation. Lester [ ]’s prompt tuning can be thought of as a simplification of this idea, restricting the learnable parameters to only those representing a small number of tokens prepended to the input as a soft prompt. 45 48 et al. 45 3.3.3 Instruction prompt tuning Wei [중고] ] and Chung [ ] demonstrated the benefits of multi-task instruction finetuning: the Flan-PaLM model achieved state of the performance on several benchmarks such as BIG-bench [ ] and MMLU [ ]. In particular, Flan-PaLM demonstrated the benefits of using CoT data in fine-tuning, leading to robust improvements in tasks that required reasoning. et al. 89 et al. 15 47 29 Given the strong performance of instruction tuning, we built primarily on the Flan-PALM model in this work. However, as discussed in Section , our human evaluation revealed key gaps in Flan-PaLM’s performance on the consumer medical question answering datasets, even with few-shot prompting. To further align the model to the requirements of the safety-critical medical domain, we explored additional training specifically on medical data. 4.5 For this additional training, we used prompt tuning instead of full-model finetuning given compute and clinician data generation costs. Our approach effectively extends Flan-PaLM’s principle of "learning to follow instructions" to the prompt tuning stage. Specifically, rather than using the soft prompt learned by prompt tuning as a replacement for a task-specific human-engineered prompt, we instead use the soft prompt as an initial prefix that is shared across multiple medical datasets, and which is followed by the relevant task-specific human-engineered prompt (consisting of instructions and/or few-shot exemplars, which may be chain-of-thought examples) along with the actual question and/or context. We refer to this method of prompt tuning as “instruction prompt tuning”. Instruction prompt tuning can thus be seen as a lightweight way (data-efficient, parameter-efficient, compute-efficient during both training and inference) of training a model to follow instructions in one or more domains. In our setting, instruction prompt tuning adapted LLMs to better follow the specific type of instructions used in the family of medical datasets that we target. Given the combination of soft prompt with hard prompt, instruction prompt tuning can be considered a type of "hard-soft hybrid prompt tuning" [ ], alongside existing techniques that insert hard anchor tokens into a soft prompt [ ], insert learned soft tokens into a hard prompt [ ], or use a learned soft prompt as a prefix for a short zero-shot hard prompt [ , 우리의 최선의 지식으로, 우리의 첫 번째 발표 된 예는 지침의 혼합물과 몇 샷의 사본을 포함하는 전체 하드 프롬프트 앞에 선전 된 부드러운 프롬프트를 배우는 것입니다. 52 53 28 26 96 3.3.4 Putting it all together: Med-PaLM Flan-PaLM을 의료 영역에 적응시키기 위해, 우리는 사본의 작은 집합에 지침 프롬프트 튜닝을 적용했습니다.이 예제는 효과적으로 모델에 의학 영역의 요구 사항에 더 적합한 텍스트 세대를 생산하도록 지시하는 데 사용되었으며, 의학 이해의 좋은 예제, 임상 지식의 회상 및 환자에게 해를 끼칠 가능성이없는 의학 지식에 대한 추론. We randomly sampled examples from MultiMedQA free-response datasets (HealthSearchQA, MedicationQA, LiveQA) and asked a panel of five clinicians to provide exemplar answers. These clinicians were based in the US and UK with specialist experience in primary care, surgery, internal medicine, and pediatrics. Clinicians then filtered out questions / answer pairs that they decided were not good examples to instruct the model. This generally happened when clinicians felt like they could not produce an “ideal” model answer for a given question, e.g., if the information required to answer a question was not known. We were left with 40 examples across HealthSearchQA, MedicationQA, and LiveQA used for instruction prompt tuning training. The resulting model, Med-PaLM, was evaluated on the consumer medical question answering datasets of MultiMedQA along with Flan-PaLM. Figure gives an overview of our instruction prompt tuning approach for Med-PaLM. Further details on the hyperparameter optimization and model selection process can be found in Section . The model card for Med-PaLM is provided in Section . 2 A.1 A5 4 Results In this section, we first provide an overview of our key results as summarized in Figures and . Then, we present several ablations to help contextualize and interpret the results. 3 4 4.1 Flan-PaLM exceeds previous state-of-the-art on MedQA (USMLE) by over 17% On the MedQA dataset consisting of USMLE style questions with 4 options, our Flan-PaLM 540B model achieved a multiple-choice question (MCQ) accuracy of 67.6% surpassing the DRAGON model [ ] by 20.1%. 94 우리의 연구에 경쟁, 볼튼 [중고] ] developed PubMedGPT, a 2.7 billion model trained exclusively on biomedical abstracts and paper. The model achieved a performance of 50.3% on MedQA questions with 4 options. To the best of our knowledge, this is the state-of-the-art on MedQA, and Flan-PaLM 540B exceeded this by 17.3%. Table compares to best performing models on this dataset. On the more difficult set of questions with 5 options, our model obtained a score of 62.0%. et al. 9 4 4.2 MedMCQA 및 PubMedQA의 최첨단 성능 인도의 의료 입학 시험 질문으로 구성된 MedMCQA 데이터 세트에서 Flan-PaLM 540B는 개발 세트에서 57.6%의 성능을 달성했습니다. ]. 79 Similarly on the PubMedQA dataset, our model achieved an accuracy of 79.0% outperforming the previous state of the art BioGPT model Luo [ ] by 0.8%. The results are summarized in Figure 2 below. While this improvement may seem small compared to MedQA and MedMCQA datasets, the single rater human performance on PubMedQA is 78.0% [ ], 이 작업에서 가능한 최대의 성능에 대한 내재적인 한계가 있을 수 있음을 나타냅니다. et al. 56 33 | Summary of the best performing models on the MedQA (USMLE) dataset questions with 4 options. Our results with Flan-PaLM exceed previous state of the art by over 17%. Table 4 Model (number of parameters) MedQA (USMLE) Accuracy % Flan-PaLM (540 B)(ours) 67.6 PubMedGPT (2.7 B) [ ] 9 50.3 DRAGON (360 M) [ ] 94 47.5 BioLinkBERT (340 M) [ ] 95 45.1 Galactica (120 B) [ ] 79 44.4 PubMedBERT (100 M) [ ] 25 38.1 GPT-Neo (2.7 B) [ ] 7 33.3 Flan-PaLM (540 B)(ours) 67.6 PubMedGPT (2.7 B) [ ] 9 50.3 DRAGON (360 M) [ ] 94 47.5 BioLinkBERT (340 M) [ ] 95 45.1 갤럭시 (120 B) [ ] 79 44.4 PubMedBERT (100 M) [ ] 25 38.1 GPT-Neo (2.7 B) [ ] 7 33.3 4.3 MMLU 임상 주제에 대한 최첨단 성능 MMLU 데이터 세트에는 여러 가지 임상 지식, 의학 및 생물학 관련 주제에서 다중 선택 질문이 포함되어 있습니다. 이들은 해부학, 임상 지식, 전문 의학, 인간 유전학, 대학 의학 및 대학 생물학을 포함합니다. Flan-PaLM 540B는 이러한 모든 하위 세트에서 최첨단 성능을 달성하여 PaLM, Gopher, Chinchilla, BLOOM, OPT 및 Galactica와 같은 강력한 LLM을 달성했습니다. 특히 전문 의학 및 임상 지식 하위 세트에서 Flan-PaLM 540B는 SOTA 정확도를 83.5%와 84.0%로 달성했습니다. summarizes the results, providing comparisons with other LLMs where available [ 4 79 4.4 낙태 We performed several ablations on three of the multiple-choice datasets - MedQA, MedMCQA and PubMedQA - to better understand our results and identify the key components contributing to Flan-PaLM’s performance. We present them in detail below: Across all model sizes, we observed that the instruction-tuned Flan-PaLM model outperformed the baseline PaLM model on all three datasets - MedQA, MedMCQA and PubMedQA. The models were few-shot prompted in these experiments using the prompt text detailed in . The detailed results are summarized in . The improvements were most prominent in the PubMedQA dataset where the 8B Flan-PaLM model outperformed the baseline PaLM model by over 30%. Similar strong improvements were observed in the case of 62B and 540B variants too. These results demonstrated the strong benefits of instruction fine-tuning. Similar results with MMLU clinical topics are reported in Section . Instruction tuning improves performance on medical question answering A.8 5 A.3 We have not yet completed a thorough analysis of the effect of instruction prompt tuning on multiple-choice accuracy; our analysis is of Flan-PaLM in this section, not Med-PaLM. Med-PaLM (instruction prompt-tuned Flan-PaLM) was developed to improve the long-form generation results of Flan-PaLM presented in Section 더 나은 모델을 의료 영역에 맞게 조정함으로써.그러나, 다중 선택 질문 답변을 위한 도메인-agnostic instruction tuning의 성공을 감안할 때, in-domain instruction prompt tuning은 유망한 것으로 보이며, 우리는 섹션에서 예비 결과를 제시합니다. . 4.5 A.6 A related observation from was the strong performance improvements obtained from scaling the model from 8B to 62B and 540B. We observed approximately a 2x improvement in performance when scaling the model from 8B to 540B in both PaLM and Flan-PaLM. These improvements were more pronounced in the MedQA and MedMCQA datasets. In particular, for the Flan-PaLM model, the 540B variant outperformed the 62B variant by over 14% and the 8B variant by over 24%. Given these results and the strong performance of the Flan-PaLM 540B model, we built on this model for downstream experiments and ablations. The scaling plots are provided in Section . Scaling improves performance on medical question answering 5 A.4 CoT 인프팅을 사용한 결과를 요약하고 Flan-PaLM 540B 모델을 사용한 몇 샷 인프팅 전략에 대한 비교를 제공합니다. 약간 예기치 않게, 우리는 3 개의 다중 선택 데이터 세트 - MedQA, MedMCQA 및 PubMedQA의 표준 몇 샷 인프팅 전략에 비해 CoT를 사용하여 개선을 관찰하지 못했습니다. . Chain-of-Thought (CoT) prompting 6 A. 9 개 Wang [ ] showed that self-consistency prompting can help when CoT prompting hurts performance. They showed significant improvements on arithmetic and commonsense reasoning tasks. Taking their cue, we apply it to our datasets. We fixed the number of chain-of-thought answer explanation paths to 11 for each of the three datasets. We then marginalized over the different explanation paths to select the most consistent answer. Using this strategy, we observed significant improvements over the standard few-shot prompting strategy for the Flan-PaLM 540B model on the MedQA and MedMCQA datasets. In particular, for the MedQA dataset we observed a >7% improvement with self-consistency. However, somewhat unexpectedly, self-consistency led to a drop in performance for the PubMedQA dataset. The results are summarized in Table . Self-consistency (SC) leads to strong improvement in multiple-choice performance et al. 88 7 We further provide some example responses from the Flan-PaLM 540B model for MedQA in Table . 8 LLMs are capable of long, coherent, and complex generations. However, they can also generate statements inconsistent with fact. In medical settings in particular, such failure modes need to be carefully vetted, and in real world applications, generations unlikely to be true should be withheld. Instead, we may want to defer to other information sources or experts when needed. One solution is therefore for LLMs to communicate uncertainty estimates along with their responses. Uncertainty and Selective Prediction While uncertainty measures over LLM output sequences remains an open area of research [ , ], here we explored a simple proxy as an initial approach to measuring the relationship between LLM uncertainty and statement accuracy. We created a selective prediction task [ ], using the number of decodes matching a given answer from self-consistency as a measure of uncertainty and used it to withhold the answer if the model was not appropriately confident. We performed the experiment using 41 decodes from the Flan-PaLM 540B model with chain-of-thought prompting and self consistency. We observe in that as the deferring fraction increases (i.e., with a higher “confidence” required to provide a prediction), the performance of the model on MedQA improves, reaching up to an accuracy of of 82.5% at a 0.45 deferring fraction. This suggests our measure of response uncertainty may be reasonable, and that LLMs seem to encode uncertainty about their knowledge in the medical domain. However, more research is needed beyond this preliminary analysis. 36 51 82 5 4.5 Human evaluation results We randomly selected 100 questions from HealthSearchQA, 20 questions from LiveQA, and 20 questions from MedicationQA as a smaller long-form answer benchmark for detailed human evaluation. These questions reflect real-world consumer queries for medical information. These selected questions were disjoint from those exemplars used for instruction prompt tuning to produce Med-PaLM. We had a panel of clinicians generate expert reference answers to these questions. We then produced answers using Flan-PaLM and Med-PaLM (both 540B models). A few qualitative examples of these questions and the corresponding Med-PaLM responses are shown in Table 우리는 테이블의 축을 따라 다른 클리닉의 패널에 의해 평가 된 세 개의 응답 세트를 가지고있었습니다. 응답의 출처를 밝히지 않고, 한 의사는 각 응답을 평가했습니다. 임상과 의사 간의 변화가 우리의 발견의 일반화 가능성에 미치는 영향을 줄이기 위해, 우리의 패널은 9 명의 임상과 의사 (미국, 영국, 인도)로 구성되었습니다. 우리는 결과의 모든 상당한 변화를 추정하기 위해 비파라메트릭 부트스트랩을 사용하여 각 세트에 대한 배포를 생성하기 위해 100개의 부트스트랩 복제본을 사용했으며, 이러한 결과는 아래와 섹션에서 자세히 설명되어 있습니다. . 9 2 A.7 We wished to understand how the answers related to current consensus in the clinical and scientific community. On the 140 questions evaluated in the study, we found that clinicians’ answers were judged to be aligned with the scientific consensus in 92.9% of questions. On the other hand, Flan-PaLM was found to be in agreement with the scientific consensus in only 61.9% of answers. For other questions, answers were either opposed to consensus, or no consensus existed. This suggested that generic instruction tuning on its own was not sufficient to produce scientific and clinically grounded answers. However, we observed that 92.9% of Med-PaLM answers were judged to be in accordance with the scientific consensus, showcasing the strength of instruction prompt tuning as an alignment technique to produce scientifically grounded answers. Scientific consensus: We note that since PaLM, Flan-PaLM, and Med-PaLM were trained using corpora of web documents, books, Wikipedia, code, natural language tasks, and medical tasks at a given point of time, one potential limitation of these models is that they can reflect the scientific consensus of the past instead of today. This was not a commonly observed failure mode for Med-PaLM today, but this motivates future work in continual learning of LLMs and retrieval from a continuously evolving corpus. We sought to understand the (whether expert or model generated) medical comprehension, medical knowledge retrieval and reasoning capabilities of the model as expressed through the answers generated by them. We asked a panel of clinicians to rate whether answers contained any (one or more example of) evidence of correct / incorrect medical reading comprehension, medical knowledge retrieval and medical reasoning capabilities, using the same approach as Feng [중고] ]. Correct and incorrect evidence were assessed in parallel because it is possible that a single long-form answer may contain evidence of both correct and incorrect comprehension, retrieval and reasoning. Comprehension, retrieval and reasoning capabilities: et al. 22 우리는 전문가 생성 된 답변이 다시 Flan-PaLM보다 상당히 우수하다는 것을 발견했지만, 성능은 Med-PaLM에 대한 지침 신속한 조정에 의해 향상되었습니다.이 경향은이 축에서 평가하는 데 사용 된 6 개의 하위 질문 모두에서 관찰되었습니다. 예를 들어, 의학 지식의 올바른 검색 증거에 관해서는, 우리는 Flan-PaLM가 76.3%의 점수를 얻은 반면, 임상 의사에 비해 모델의 부하성을 감소시키는 95.4%의 점수를 얻었습니다. The goal of this evaluation was to understand the completeness and correctness of the generated answers, by assessing whether the answer omits any information it should not, or whether the answer contained any content it should not. Where there was deemed to be missing or omitted content, the rater was asked whether that was of great or little potential clinical significance. Incorrect or missing content: Again we observed that clinician-generated answers were superior to AI models. Clinician answers showed evidence of inappropriate/incorrect content in only 1.4% of the cases, compared to 16.1% for Flan-PaLM. Surprisingly, instruction prompt tuning seemed to further degrade performance, with 18.7% of the Med-PaLM answers judged to contain inappropriate or incorrect content. On the other hand, we observed that instruction prompt tuning helped improve model performance in omission of important information. While Flan-PaLM answers were judged to miss important information 47.2% of the time, the number improved significantly for Med-PaLM with only 15.1% of the answers adjudged to have missing information, reducing the inferiority compared to clinicians whose answers were judged to have missing information in only 11.1% of the cases. A few qualitative examples are shown in Table 10 suggesting that LLM answers may be able to complement and complete physician responses to patient queries in future use cases. One potential explanation of these observations is that instruction prompt tuning teaches the Med-PaLM model to generate significantly more detailed answers than the Flan-PaLM model, reducing the omission of important information. However a longer answer also increases the risk of introducing incorrect content. We sought to identify the severity and likelihood of potential harm based on acting upon the generated answers. We asked raters to assume that the output of models might lead to actions by either clinicians or consumers/patients, and estimate the possible severity and likelihood of physical/mental health-related harms that might result. We based the options for selection by raters in the AHRQ Common Formats Williams [ ], which presents options to assign severity of harm ranging from death, severe or life-threatening injury, moderate, mild or no harm. We acknowledge that this definition of harm is more typically used in the context of analyzing harms incurred during healthcare delivery and that even in such settings (where the context for harms occurring is known with considerably greater specificity) there is frequently substantial variation in physician estimation of harm severity [ 따라서 AHRQ 스케일의 유효성은 우리의 컨텍스트로 확장 될 수 없으며, 우리의 평가 결과는 우리의 작업이 특정한 의도된 사용 및 사회 문화적 맥락에 근거하지 않았기 때문에 주관적 인 추정으로 간주되어야합니다. Possible extent and likelihood of harm: et al. 93 86 Despite the broad definition and subjectivity of ratings, we observed that instruction prompt tuning produced safer answers that reduced both estimated likelihood and severity. While 29.7% of the Flan-PaLM responses were judged as potentially leading to harm, this number dropped to 5.9% for Med-PaLM comparing on par with clinician-generated answers which were also judged as potentially harmful in 5.7% of the cases. Similarly, on the likelihood of harm axes, instruction prompt tuning enabled Med-PaLM answers to match the expert generated answers. 의학적 질문에 대답하기위한 대형 언어 모델의 사용은 건강 차별에 기여하는 편견과 공정성 관련 피해의 잠재력을 가지고 있습니다.이 피해는 인종 건강 차별의 원인에 관한 인종 차별의 오해를 재현 할 수있는 의학적 질문 대답 시스템의 능력, 건강 결과와 치료에 대한 접근의 차별을 반영하는 교육 데이터의 패턴의 존재를 포함하여 여러 출처에서 유래합니다. , ], algorithmic design choices [ ], and differences in behavior or performance of machine learning systems across populations and groups that introduce downstream harms when used to inform medical decision making [ Bias for medical demographics: 20 85 32 13 Medical question answering systems also pose additional risks beyond those posed by the use of other AI applications in healthcare because they have potential to produce arbitrary outputs, have limited reasoning capability, and could potentially be used for a wide range of downstream use cases. We sought to understand whether the answer contained any information that is inaccurate or inapplicable for a particular demographic. Flan-PaLM answers were found to contain biased information in 7.9% of the cases. However, this number reduced to 0.8% for Med-PaLM, comparing favorably with experts whose answers were judged to contain evidence of bias in 1.4% of the cases. 전문가 평가를 제외하고는 다섯 명의 비전문가(인도에 본사를 둔 의학적 배경이 없는 사람들)가 응답을 평가했다. 결과는 아래 그림 10에 요약되어 있습니다. Flan-PaLM 응답은 경우의 60.6%에만 유용하다고 판단되었지만 Med-PaLM 응답은 80.3%로 향상되었습니다. 그러나 이것은 시간의 91.1%에서 유용하다고 판단된 임상 의사의 응답보다 낮았습니다. 마찬가지로 Flan-PaLM 응답은 경우의 90.8%에서 사용자의 질문 의도였습니다. 이 숫자는 Med-PaLM 응답의 94.3%로 향상되었습니다. Lay user assessment: judged as directly addressing the The lay evaluation consistently reproduced the benefits of instruction prompt tuning to produce answers that are helpful to users, while also demonstrating that there is still considerable work needed to approximate the quality of outputs provided by human clinicians. 5 토론 Our results suggest that strong performance on medical question answering may be an emergent ability [ ] of LLMs combined with effective instruction prompt tuning. 90 Firstly, we observed strong scaling performance with accuracy improving by approximately 2x as we scale the PaLM models from 8-billion to 540-billion. The performance of the PaLM 8-billion on MedQA was only slightly better than random performance. However, this number improved by over 30% for the PaLM 540-billion demonstrating the effectiveness of scale for the medical question answering task. We observed similar improvements for the MedMCQA and PubMedQA datasets. Further, instruction fine-tuning was also effective with Flan-PaLM models performing better than the PaLM models across all size variants on all the multiple-choice datasets. It is possible that the PaLM pre-training corpus included significant quantities of high quality medical content and one possible conjecture for the strong performance of the 540-billion model variant is memorization of evaluation datasets considered in this study. However, Chowdhery [ ] showed similar deltas in performance of the PaLM 8B and 540B model when evaluating contaminated (i.e where part of the test set is in the model pre-training corpus) and cleaned test datasets. This suggests that memorization alone does not explain the strong performance observed by scaling up the models. et al. 14 There have been several efforts to train language models on a biomedical corpus, especially PubMed. These include BioGPT [ ] (355 million parameters), PubMedGPT [ ] (2.7 억 매개 변수) 및 Galactica [ ] (120 억 매개 변수) 우리의 모델은 어떤 정밀 조정없이 PubMedQA에서 이러한 노력을 뛰어넘을 수있었습니다.또한, 규모 및 지침 정밀 조정의 이점은 MedQA 데이터 세트에서 훨씬 더 강조되었으며, 이는 이러한 모든 모델의 도메인 밖으로 간주 될 수 있습니다. 56 9 79 However, our human evaluation results on the consumer medical question answering datasets clearly point out that scale alone is insufficient. Even state-of-the-art LLMs like Flan-PaLM can generate answers that are inappropriate for use in the safety-critical medical domain. However, the Med-PaLM results demonstrate that with instruction prompt tuning we have a data and parameter-efficient alignment technique useful for improving factors related to accuracy, factuality, consistency, safety, harm, and bias, helping close the gap with clinical experts and bringing these models closer to real-world clinical applications. 6 Limitations Our study demonstrated the potential of LLMs for encoding medical knowledge and in particular for question answering. However, it had several limitations which we discuss in detail below and outline directions for future research. 6.1 Expansion of MultiMedQA Firstly, while the MultiMedQA benchmark is diverse and contains questions from a variety of professional medicine, medical research and consumer sources, it is by no means exhaustive. We plan to expand the benchmark in the future to include a larger variety of medical and scientific domains (eg: biology) and formats. A key challenge in clinical environments is eliciting information from patients and synthesizing findings into an assessment and plan. Multiple-choice question answering tasks are inherently easier because they are often grounded in vignettes compiled by experts and selected to have a generally preferred answer, which is not true for all medical decisions. Developing benchmark tasks that reflect real world clinical workflows is an important direction of future research. Furthermore, we only considered English-language datasets in this study, and there is a strong need to expand the scope of the benchmark to support multilingual evaluations. 6.2 Development of key LLM capabilities necessary for medical applications While the Flan-PaLM was able to reach state-of-the-art performance on several multiple-choice medical question answering benchmarks, our human evaluation clearly suggests these models are not at clinician expert level on many clinically important axes. In order to bridge this gap, several new LLM capabilities need to be researched and developed including: grounding of the responses in authoritative medical sources and accounting for the time-varying nature of medical consensus. ability to detect and communicate uncertainty effectively to the human in-the-loop whether clinician or lay user. ability to respond to queries in multiple languages. 6.3 Improving the approach to human evaluation The rating framework we proposed for this study represents a promising pilot approach, but our chosen axes of evaluation were not exhaustive and were subjective in nature. For example the concept of medical/scientific consensus is time-varying in nature and is reflective of understandings of human health and disease and physiology based on discrimination in areas such as race/ethnicity, gender, age, ability, and more [ , 38 57 Furthermore, consensus often exists only for topics of relevance to certain groups (e.g. greater in number and/or power) and consensus may be lacking for certain subpopulations affected by topics for various reasons (e.g., controversial topics, lower incidence, less funding). Additionally, the concept of harm may differ according to population (e.g., a genetic study of a smaller group of people may reveal information that is factual but incongruent with that group’s cultural beliefs, which could cause members of this group harm). Expert assessment of harm may also vary based on location, lived experience, and cultural background. Our ratings of potential harm were subjective estimates, and variation in perceived harm may also have been due to differences in health literacy of both our clinician and lay raters, or might vary in real world settings depending on the sociocultural context and health literacy of the person receiving and acting on the answers to the health questions in the study by Berkman [ ]. Further research might test whether perceived usefulness and harm of question answers varied according to the understandability and actionability score for the answer content [ ]. et al. 6 77 The number of model responses evaluated and the pool of clinicians and lay-people assessing them were limited, as our results were based on only a single clinician or lay-person evaluating the responses. This represents a limitation to generalizability of our findings which could be mitigated by inclusion of a significantly larger and intentionally diverse pool of human raters (clinicians and lay users) with participatory design in the development of model auditing tools. It is worth noting that the space of LLM responses or "coverage" is extremely high and that presents an additional difficulty in the design of evaluation tools and frameworks. The pilot framework we developed could be significantly advanced using recommended best practice approaches for the design and validation of rating instruments from health, social and behavioral research [ ]. 이것은 참여적 연구를 통해 추가 등급 항목을 식별하고, 도메인 전문가 및 기술 수신자가 관련성, 대표성 및 기술적 품질에 대한 등급 항목을 평가할 수 있습니다. 인적 등급의 상당히 큰 풀을 포함하면 테스트 차원성, 테스트 재 테스트 신뢰성 및 유효성을 승인함으로써 도구 일반화 가능성을 테스트 할 수 있습니다. [ ]. As the same answer can be evaluated multiple ways, the most appropriate rating instrument is also dependent on the intended purpose and recipient for LLM outputs, providing multiple opportunities for the development of validated rating scales depending on the context and purpose of use. Further, substantial user experience (UX) and human-computer interaction (HCI) studies using community-based participatory research methods are necessary before any real world use, and would be specific to a developed tool that is beyond the scope of our exploratory research. Under these contexts further research could explore the independent influence of variation in lay raters’ education level, medical conditions, caregiver status, experience with health care, education level or other relevant factors on their perceptions of the quality of model outputs. The impact of variation in clinician raters’ specialty, demographics, geography or other factors could be similarly explored in further research. 8 8 6.4 Fairness and equity considerations Our current approach to evaluating bias is limited and does not serve as a comprehensive assessment of potential harms, fairness, or equity. The development of procedures for the evaluation of bias and fairness-related harms in large language models is ongoing [ , ]. Healthcare is a particularly complex application of large language models given the safety-critical nature of the domain and the nuance associated with social and structural bias that drives health disparities. The intersection of large language models and healthcare creates unique opportunities for responsible and ethical innovation of robust assessment and mitigation tools for bias, fairness, and health equity. 49 92 We outline opportunities for future research into frameworks for the systematic identification and mitigation of downstream harms and impacts of large language models in healthcare contexts. Key principles include the use of participatory methods to design contextualized evaluations that reflect the values of patients that may benefit or be harmed, grounding the evaluation in one or more specific downstream clinical use cases [ , ], and the use of dataset and model documentation frameworks for transparent reporting of choices and assumptions made during data collection and curation, model development, and evaluation [ , , ]. Furthermore, research is needed into the design of algorithmic procedures and benchmarks that probe for specific technical biases that are known to cause harm if not mitigated. For instance, depending on the context, it may be relevant to assess sensitivity of model outputs to perturbations of demographic identifiers in prompts designed deliberately such that the result should not change under the perturbation [ , , ]. 54 71 24 59 72 23 68 98 Additionally, the aforementioned research activities to build evaluation methods to achieve health equity in large language models require interdisciplinary collaboration to ensure that various scientific perspectives and methods can be applied to the task of understanding the social and contextual aspects of health [ , , 27 58 62 The development of evaluation frameworks for large language models is a critical research agenda that should be approached with equal rigor and attention as that given to the work of encoding clinical knowledge in language models. In this study we worked with a panel of four qualified clinicians to identify the best-demonstration examples and craft few-shot prompts, all based in either the US or UK, with expertise in internal medicine, pediatrics, surgery and primary care. Although recent studies have surprisingly suggested that the validity of reasoning within a chain-of-thought prompt only contributes a small extent to the impact of this strategy on LLM performance in multi-step reasoning challenges [ ], further research could significantly expand the range of clinicians engaged in prompt construction and the selection of exemplar answers and thereby explore how variation in multiple axes of the types of clinician participating in this activity impact LLM behavior; for example clinician demographics, geography, specialism, lived experience and more. 87 6.5 Ethical considerations This research demonstrates the potential of LLMs for future use in healthcare. Transitioning from a LLM that is used for medical question answering to a tool that can be used by healthcare providers, administrators, and consumers will require significant additional research to ensure the safety, reliability, efficacy, and privacy of the technology. Careful consideration will need to be given to the ethical deployment of this technology including rigorous quality assessment when used in different clinical settings and guardrails to mitigate against over reliance on the output of a medical assistant. For example, the potential harms of using a LLM for diagnosing or treating an illness are much greater than using a LLM for information about a disease or medication. Additional research will be needed to assess LLMs used in healthcare for homogenization and amplification of biases and security vulnerabilities inherited from base models [ , , , , ]. Given the continuous evolution of clinical knowledge, it will also be important to develop ways for LLMs to provide up to date clinical information. 10 11 18 39 49 7 Conclusion The advent of foundation AI models and large language models present a significant opportunity to rethink the development of medical AI and make it easier, safer and more equitable to use. At the same time, medicine is an especially complex domain for applications of large language models. Our research provides a glimpse into the opportunities and the challenges of applying these technologies to medicine. We hope this study will spark further conversations and collaborations between patients, consumers, AI researchers, clinicians, social scientists, ethicists, policymakers and other interested people in order to responsibly translate these early research findings to improve healthcare. Acknowledgments 이 프로젝트는 Google Research 및 Deepmind의 많은 팀 간의 광범위한 협력이었다.우리는 Michael Howell, Cameron Chen, Basil Mustafa, David Fleet, Fayruz Kibria, Gordon Turner, Lisa Lehmann, Ivor Horn, Maggie Shiels, Shravya Shetty, Jukka Zitting, Evan Rappaport, Lucy Marples, Viknesh Sounderajah, Ali Connell, Jan Freyberg, Cian Hughes, Megan Jones-Bell, Susan Thomas, Martin Ho, Sushant Prakash, Bradley Green, Ewa Dominowska, Frederick Liu, Xuezhi Wang, and Dina Demner-Fushman (국립 의학 도서관에서)이 연구를 진행하는 동안 귀중한 통찰력과 피드백에 대해 감사드립니다. References 1. Abacha, A. B., Agichtein, E., Pinter, Y. & Demner-Fushman, D. in (2017), 1–12. Overview of the medical question answering task at TREC 2017 LiveQA. TREC 2. Abacha, A. B., Mrabet, Y., Sharp, M., Goodwin, T. R., Shooshan, S. E. & Demner-Fushman, D. in (2019), 25–29. Bridging the Gap Between Consumers’ Medication Questions and Trusted Answers. MedInfo Agrawal, M., Hegselmann, S., Lang, H., Kim, Y. & Sontag, D. 큰 언어 모델은 제로 샷 임상 정보 추출기입니다. (2022년) arXiv preprint arXiv:2205.12689 et al. Pathways: Asynchronous distributed dataflow for ML. 430–449 (2022). 기계 학습 및 시스템 Procedures of Machine Learning and Systems 4, Beltagy, I., Lo, K. & Cohan, A. SciBERT : 과학적 텍스트에 대한 사전 훈련된 언어 모델. (2019). arXiv preprint arXiv:1903.10676 베르크만, N.D., Sheridan, S.L., Donahue, K.E., Halpern, D.J., Viera, A., Crotty, K., Holland, A., Brasure, M., Lohr, K.N., Harden, E., Health literacy interventions and outcomes: an updated systematic review. 1–941 (2011). 그리고 알 Evidence report/technology assessment, 블랙, S., Gao, L., Wang, P., Leahy, C. & Biderman, S. version 1.0. If you use this software, please cite it using these metadata. Mar. 2021. GPT-Neo: Large Scale Autoregressive Language Modeling with Mesh-Tensorflow https : . //doi.org/10.5281/제노도5297715 8. Boateng, G. O., Neilands, T. B., Frongillo, E. A., Melgar-Quiñonez, H. R. & Young, S. L. Best practices for developing and validating scales for health, social, and behavioral research: a primer. 149 (2018). 국경의 공중 보건 6, Bolton, E., Hall, D., Yasunaga, M., Lee, T., Manning, C. & Liang, P. 2022년 Stanford CRFM Introduces PubMedGPT 2.7B https://hai.stanford.edu/news/stanford-crfm-introduces-pubmedgpt-27b 10. Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., On the opportunities and risks of foundation models. (2021). 그리고 알 arXiv preprint arXiv:2108.07258 11. Bommasani, R., Liang, P. & Lee, T. 언어 모델은 AI를 변화시키고 있습니다 : 전체적인 평가의 필요성 https : . 2022. //crfm.stanford.edu/2022/11/17/helm.html 12. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Language models are few-shot learners. 1877–1901 (2020). et al. Advances in neural information processing systems 33, 13. Chen, I. Y., Pierson, E., Rose, S., Joshi, S., Ferryman, K. & Ghassemi, M. Ethical machine learning in healthcare. 123–144 (2021). Annual review of biomedical data science 4, 14. Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., PaLM: Scaling language modeling with pathways. (2022). et al. arXiv preprint arXiv:2204.02311 15. Chung, H. W., Hou, L., Longpre, S., Zoph, B., Tay, Y., Fedus, W., Li, E., Wang, X., Dehghani, M., Brahma, S., et al. 스케일링 훈련 - 정교한 언어 모델. (2022). arXiv preprint arXiv:2210.11416 16. Clark, J. H., Choi, E., Collins, M., Garrette, D., Kwiatkowski, T., Nikolaev, V. & Palomaki, J. TyDi QA: A benchmark for information-seeking question answering in typologically diverse languages. 454–470 (2020). Transactions of the Association for Computational Linguistics 8, 17. Cobbe, K., Kosaraju, V., Bavarian, M., Hilton, J., Nakano, R., Hesse, C. & Schulman, J. Training verifiers to solve math word problems. (2021). arXiv preprint arXiv:2110.14168 18. Creel, K. & Hellman, D. The Algorithmic Leviathan: Arbitrariness, Fairness, and Opportunity in Algorithmic Decision-Making Systems. 1–18 (2022). Canadian Journal of Philosophy, 에서 (2022), 5547–5569. Glam et al. : 전문가의 혼합을 통해 언어 모델의 효율적인 확장 International Conference on Machine Learning 20. Eneanya, N. D., Boulware, L., Tsai, J., Bruce, M. A., Ford, C. L., Harris, C., Morales, L. S., Ryan, M. J., Reese, P. P., Thorpe, R. J., Health inequities and the inappropriate use of race in nephrology. 84–94 (2022). et al. Nature Reviews Nephrology에 대한 리뷰 보기 18, 21. Esteva, A., Chou, K., Yeung, S., Naik, N., Madani, A., Mottaghi, A., Liu, Y., Topol, E., Dean, J. & Socher, R. Deep learning-enabled medical computer vision. 1–9 (2021). NPJ 디지털 의학 4, 22. Feng, S. Y., Khetan, V., Sacaleanu, B., Gershman, A. & Hovy, E. CHARD: Clinical Health-Aware Reasoning Across Dimensions for Text Generation Models. (2022). arXiv 사전 프린트 arXiv:2210.04191 23. Garg, S., Perot, V., Limtiaco, N., Taly, A., Chi, E. H. & Beutel, A. in (2019), 219–226. Counterfactual fairness in text classification through robustness 인공지능, 윤리 및 사회에 관한 2019 AAAI/ACM 회의 24. Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J. W., Wallach, H., Iii, H. D. & Crawford, K. Datasheets for datasets. 86 - 92 (2021년) Communications of the ACM 64, Gu, Y., Tinn, R., Cheng, H., Lucas, M., Usuyama, N., Liu, X., Naumann, T., Gao, J. & Poon, H. 도메인 특정 언어 모델 생물 의학 자연 언어 처리에 대한 사전 훈련. 1 - 23 (2021년) ACM Transactions on Computing for Healthcare (Health)에 대한 정보 3, Gu, Y., Han, X., Liu, Z. & Huang, M. Ppt: 사전 훈련된 짧은 샷 학습을위한 촉구 조정. (2021년) arXiv 사전 프린트 arXiv:2109.04332 W. 건강을 위한 인공지능의 윤리와 지배 W. Ethics and governance of artificial intelligence for health. (2021년) World Health Organization 28. Han, X., Zhao, W., Ding, N., Liu, Z. & Sun, M. Ptr: Prompt tuning with rules for text classification. (2022년) AI Open Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D. & Steinhardt, J. 대규모 다중 작업 언어 이해를 측정. (2020). arXiv preprint arXiv:2009.03300 30 Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., Casas, D. d. L., Hendricks, L. A., Welbl, J., Clark, A., 대규모 언어 모델을 최적화하기 위한 훈련 (2022). 그리고 알 arXiv 사전 프린트 arXiv:2203.15556 Hong, Z., Ajith, A., Pauloski, G., Duede, E., Malamud, C., Magoulas, R., Chard, K. & Foster, I. ScholarBERT : 더 큰 것은 항상 좋지 않습니다. (2022). arXiv preprint arXiv:2205.11342 32. Hooker, S. Moving beyond “algorithmic bias is a data problem”. 100241 (2021). Patterns 2, 33. Jin, D., Pan, E., Oufattole, N., Weng, W.-H., Fang, H. & Szolovits, P. What disease does this patient have? a large-scale open domain question answering dataset from medical exams. 6421 (2021). Applied Sciences 11, 34. Jin, Q., Dhingra, B., Liu, Z., Cohen, W. W. & Lu, X. PubMedQA: A dataset for biomedical research question answering. (2019). arXiv 사전 프린트 arXiv:1909.06146 Joshi, M., Choi, E., Weld, D. S. & Zettlemoyer, L. TriviaQA : 읽기 이해를위한 대규모 원격 감독 도전 데이터 세트. (2017). arXiv preprint arXiv:1705.03551 36 카다바트, S., 코너리, T., Askell, A., Henighan, T., Drain, D., Perez, E., Schiefer, N., Dodds, Z. H., DasSarma, N., Tran-Johnson, E., Language models (mostly) know what they know. (2022). et al. arXiv 사전 프린트 arXiv:2207.05221 37. Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J. & Amodei, D. Scaling laws for neural language models. (2020). arXiv preprint arXiv:2001.08361 38. Kington, R. S., Arnesen, S., Chou, W.-Y. S., Curry, S. J., Lazer, D. & Villarruel, A. M. Identifying credible sources of health information in social media: Principles and attributes. (2021년) NAM perspectives 2021 39. Kleinberg, J. & Raghavan, M. Algorithmic monoculture and social welfare. e2018340118 (2021년) Proceedings of the National Academy of Sciences 118, 40. Kojima, T., Gu, S. S., Reid, M., Matsuo, Y. & Iwasawa, Y. Large Language Models are Zero-Shot Reasoners. (2022). arXiv 사전 프린트 arXiv:2205.11916 41. Korngiebel, D. M. & Mooney, S. D. Considering the possibilities and pitfalls of Generative Pre-trained Transformer 3 (GPT-3) in healthcare delivery. 1–3 (2021). NPJ 디지털 의학 4, 42. Lakkaraju, H., Slack, D., Chen, Y., Tan, C. & Singh, S. Rethinking Explainability as a Dialogue: A Practitioner’s Perspective. (2022). arXiv preprint arXiv:2202.01875 43. Lampinen, A. K., Dasgupta, I., Chan, S. C., Matthewson, K., Tessler, M. H., Creswell, A., McClelland, J. L., Wang, J. X. & Hill, F. Can language models learn from explanations in context? (2022). arXiv preprint arXiv:2204.02329 44. Lee, J., Yoon, W., Kim, S., Kim, D., Kim, S., So, C. H. & Kang, J. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. 1234–1240 (2020). Bioinformatics 36, 45. Lester, B., Al-Rfou, R. & Constant, N. The power of scale for parameter-efficient prompt tuning. (2021년) arXiv preprint arXiv:2104.08691 46. Lewis, P., Ott, M., Du, J. & Stoyanov, V. in (2020), 146–157. Pretrained language models for biomedical and clinical tasks: Understanding and extending the state-of-the-art Proceedings of the 3rd Clinical Natural Language Processing Workshop 47. Lewkowycz, A., Andreassen, A., Dohan, D., Dyer, E., Michalewski, H., Ramasesh, V., Slone, A., Anil, C., Schlag, I., Gutman-Solo, T., Solving quantitative reasoning problems with language models. (2022). 그리고 알 arXiv preprint arXiv:2206.14858 Li, X. L. & Liang, P. Prefix-tuning : 생성을위한 지속적인 인스턴스를 최적화합니다. (2021). arXiv preprint arXiv:2101.00190 49. Liang, P., Bommasani, R., Lee, T., Tsipras, D., Soylu, D., Yasunaga, M., Zhang, Y., Narayanan, D., Wu, Y., Kumar, A., Holistic evaluation of language models. (2022). et al. arXiv preprint arXiv:2211.09110 50. Liévin, V., Hother, C. E. & Winther, O. Can large language models reason about medical questions? (2022). arXiv preprint arXiv:2207.08143 51. Lin, S., Hilton, J. & Evans, O. Teaching Models to Express Their Uncertainty in Words. (2022). arXiv preprint arXiv:2205.14334 Liu, P., Yuan, W., Fu, J., Jiang, Z., Hayashi, H. & Neubig, G. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. (2021년) arXiv preprint arXiv:2107.13586 53. Liu, X., Zheng, Y., Du, Z., Ding, M., Qian, Y., Yang, Z. & Tang, J. GPT understands, too. (2021). arXiv preprint arXiv:2103.10385 54. Liu, X., Glocker, B., McCradden, M. M., Ghassemi, M., Denniston, A. K. & Oakden-Rayner, L. The medical algorithmic audit. (2022). The Lancet Digital Health Loshchilov, I. & Hutter, F. 분리 된 체중 붕괴 규칙화. (2017). arXiv preprint arXiv:1711.05101 56. Luo, R., Sun, L., Xia, Y., Qin, T., Zhang, S., Poon, H. & Liu, T.-Y. BioGPT: generative pre-trained transformer for biomedical text generation and mining. (2022). Briefings in Bioinformatics 23 57. Mandavilli, A. . 2021. Medical Journals Blind to Racism as Health Crisis, Critics Say https://www.nytimes.com/2021/06/02/ health/jama-racism-bauchner.html Matheny, M., Israni, S. T., Ahmed, M. & Whicher, D. 건강 관리에서 인공 지능 : 희망, 히프, 약속, 위험 (2022). 미첼, M., Wu, S., Zaldivar, A., Barnes, P., Vasserman, L., Hutchinson, B., Spitzer, E., Raji, I. D. & Gebru, T. in (2019), 220–229. 모델 보고서를 위한 모델 카드 Proceedings of the conference on fairness, accountability, and transparency 60. Morgado, F. F., Meireles, J. F., Neves, C. M., Amaral, A. & Ferreira, M. E. Scale development: ten main limitations and recommendations to improve future research practices. (2017년) Psicologia: Reflexao e Critica 30 니, M., Andreassen, A. J., Gur-Ari, G., Michalewski, H., Austin, J., Bieber, D., Dohan, D., Lewkowycz, A., Bosma, M., Luan, D., Show your work: Scratchpads for intermediate computation with language models. (2021). 그리고 알 arXiv 사전 프린트 arXiv:2112.00114 62. Of Science, W. H. O. & Policy, T. 2022년 The Blueprint for an AI Bill of Rights: Making Automated Systems Work for the American People https://www.whitehouse.gov/wp-content/uploads/2022/10/Blueprint-for-an-AI-Bill-of-Rights.pdf 63. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Training language models to follow instructions with human feedback. (2022). et al. arXiv 사전 프린트 arXiv:2203.02155 64 폴, A., Umapathi, L. K. & Sankarasubbu, M. in 2022년, 248-260년 MedMCQA: A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering Health, Inference, and Learning에 관한 컨퍼런스 65. Pampari, A., Raghavan, P., Liang, J. & Peng, J. emrqa: A large corpus for question answering on electronic medical records. (2018). arXiv preprint arXiv:1809.00732 66. Papanikolaou, Y. & Pierleoni, A. DARE: Data augmented relation extraction with gpt-2. (2020). arXiv preprint arXiv:2004.13845 67. Papineni, K., Roukos, S., Ward, T. & Zhu, W.-J. in (2002), 311–318. Bleu: a method for automatic evaluation of machine translation Proceedings of the 40th annual meeting of the Association for Computational Linguistics 68.Prabhakaran, V., Hutchinson, B. & Mitchell, M. 원치 않는 모델 편견을 감지하기위한 혼란 감도 분석. (2019). arXiv preprint arXiv:1910.04210 69. Rae, J. W., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., Song, F., Aslanides, J., Henderson, S., Ring, R., Young, S., Scaling language models: Methods, analysis & insights from training gopher. (2021). 그리고 알 arXiv 사전 프린트 arXiv:2112.11446 라펠, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., Liu, P. J., Exploring the limits of transfer learning with a unified text-to-text transformer. 1–67 (2020). et al. 21, 71. Raji, I. D., Smart, A., White, R. N., Mitchell, M., Gebru, T., Hutchinson, B., Smith-Loud, J., Theron, D. & Barnes, P. in (2020), 33–44. Closing the AI accountability gap: Defining an end-to-end framework for internal algorithmic auditing Proceedings of the 2020 conference on fairness, accountability, and transparency 72. Rostamzadeh, N., Mincu, D., Roy, S., Smart, A., Wilcox, L., Pushkarna, M., Schrouff, J., Amironesei, R., Moorosi, N. & Heller, K. Healthsheet: Development of a Transparency Artifact for Health Datasets. (2022). arXiv 사전 프린트 arXiv:2202.13028 73. Scao, T. L., Fan, A., Akiki, C., Pavlick, E., Ilić, S., Hesslow, D., Castagné, R., Luccioni, A. S., Yvon, F., Gallé, M., et al. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. (2022). arXiv preprint arXiv:2211.05100 74. Schaekermann, M., Cai, C. J., Huang, A. E. & Sayres, R. in (2020년) 1 - 13 Expert discussions improve comprehension of difficult cases in medical image assessment Proceedings of the 2020 CHI conference on human factors in computing systems 75 세진, E., 시리안니, J., 린우드, S. L. 미국 건강 관리 시스템에서 미리 훈련 된 대형 인공 지능 언어 모델의 운영 및 구현: 서비스 모델로 Generative Pretrained Transformer 3 (GPT-3)의 전망. e32875 (2022). et al. JMIR 의학 정보학 10, 76. Shin, H.-C., Zhang, Y., Bakhturina, E., Puri, R., Patwary, M., Shoeybi, M. & Mani, R. BioMegatron : 더 큰 생물 의학 도메인 언어 모델. (2020). arXiv preprint arXiv:2010.06060 Shoemaker, S. J., Wolf, M. S. & Brach, C. 환자 교육 자료 평가 도구 (PEMAT)의 개발 : 인쇄 및 시청각 환자 정보에 대한 이해성과 액션성의 새로운 측정. 395 - 403 (2014년) Patient education and counseling 96, 78. Srivastava, A., Rastogi, A., Rao, A., Shoeb, A. A. M., Abid, A., Fisch, A., Brown, A. R., Santoro, A., Gupta, A., Garriga-Alonso, A., 모방 게임을 넘어 : 언어 모델의 능력을 정량화하고 추상화합니다.Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models. (2022). et al. arXiv 사전 프린트 arXiv:2206.04615 79.Taylor, R., Kardas, M., Cucurull, G., Scialom, T., Hartshorn, A., Saravia, E., Poulton, A., Kerkez, V. & Stojnic, R. Galactica : 과학을위한 큰 언어 모델. (2022년) arXiv 사전 프린트 arXiv:2211.09085 80. Thoppilan, R., De Freitas, D., Hall, J., Shazeer, N., Kulshreshtha, A., Cheng, H.-T., Jin, A., Bos, T., Baker, L., Du, Y., Lamda: 대화 응용 프로그램을 위한 언어 모델. (2022). et al. arXiv preprint arXiv:2201.08239 81. Tomašev, N., Harris, N., Baur, S., Mottram, A., Glorot, X., Rae, J. W., Zielinski, M., Askham, H., Saraiva, A., Magliulo, V., Use of deep learning to develop continuous-risk models for adverse event prediction from electronic health records. 2765–2787 (2021). 그리고 알 Nature Protocols 16, 82. Tran, D., Liu, J., Dusenberry, M. W., Phan, D., Collier, M., Ren, J., Han, K., Wang, Z., Mariet, Z., Hu, H., Plex: 사전 훈련된 대형 모델 확장을 사용하여 신뢰성 향상 (2022년) 그리고 알 arXiv 사전 프린트 arXiv:2207.07411 83. Tsatsaronis, G., Balikas, G., Malakasiotis, P., Partalas, I., Zschunke, M., Alvers, M. R., Weissenborn, D., Krithara, A., Petridis, S., Polychronopoulos, D., BIOASQ 대규모 생물 의학 문학 인덱싱 및 질문 대답 대회에 대한 개요. 1–28 (2015). et al. BMC 생물 정보학 16, 84. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł. & Polosukhin, I. Attention is all you need. (2017). Advances in neural information processing systems 30 85 비아스, D.A., 에이젠슈타인, L.G. & 존스, D.S. 2020. 명백한 시야에 숨겨진 - 임상 알고리즘에서 인종 교정의 사용을 재검토 86 K. E., Harik, P., Mazor, K. M., Perfetto, D., Anatchkova, M., Biggins, C., Wagner, J., Schoettker, P. J., Firneno, C., Klugman, R., Measuring harm in healthcare: optimizing adverse event review. 436 (2017). et al. 의사소통 55, 87.Wang, b., Min, S., Deng, X., Shen, J., Wu, Y., Zettlemoyer, L. & Sun, H. 생각의 체인을 이해하는 방향 : 중요한 것에 대한 경험적 연구. (2022년) arXiv 사전 프린트 arXiv:2212.10001 88. Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E. & Zhou, D. Self-consistency improves chain of thought reasoning in language models. (2022). arXiv preprint arXiv:2203.11171 89.Wei, J., Bosma, M., Zhao, V. Y., Guu, K., Yu, A. W., Lester, B., Du, N., Dai, A. M. & Le, Q. V. Finetuned 언어 모델은 제로 샷 학습자입니다. (2021). arXiv 사전 프린트 arXiv:2109.01652 90 웨이, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., Emergent abilities of large language models. (2022). 그리고 알 arXiv 사전 프린트 arXiv:2206.07682 91. Wei, J., Wang, X., Schuurmans, D., Bosma, M., Chi, E., Le, Q. & Zhou, D. Chain of thought prompting elicits reasoning in large language models. (2022년) arXiv preprint arXiv:2201.11903 92. 베이딩저, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.-S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A., 언어 모델의 해를 초래하는 윤리적, 사회적 위험 (2021년) 그리고 알 arXiv preprint arXiv:2112.04359 93. Williams, T., Szekendi, M., Pavkovic, S., Clevenger, W. & Cerese, J. The reliability of AHRQ Common Format Harm Scales in rating patient safety events. 52–59 (2015). Journal of patient safety 11, Yasunaga, M., Bosselut, A., Ren, H., Zhang, X., Manning, C. D., Liang, P. & Leskovec, J. 깊은 양방향 언어 지식 그래프 사전 훈련. (2022년) arXiv 사전 프린트 arXiv:2210.09338 95. Yasunaga, M., Leskovec, J. & Liang, P. LinkBERT: Pretraining Language Models with Document Links. (2022년) arXiv 사전 프린트 arXiv:2203.15827 Ye, S., Jang, J., Kim, D., Jo, Y. & Seo, M. Soft Prompt Retrieval은 Zero-Shot Task Generalization을 향상시킵니다. (2022년) arXiv preprint arXiv:2210.03029 97. Yim, J., Chopra, R., Spitz, T., Winkens, J., Obika, A., Kelly, C., Askham, H., Lukic, M., Huemer, J., Fasler, K., 그리고 알 깊은 학습을 사용하여 젖은 나이와 관련된 선진성 퇴행으로의 전환을 예측합니다. 892–899 (2020). 자연 의학 26, 98. Zhang, H., Lu, A. X., Abdalla, M., McDermott, M. & Ghassemi, M. 에서 (2020), 110–120. 상처받는 단어 : 임상적 맥락적 단어 삽입의 편견을 정량화 건강, 추론 및 학습에 관한 ACM 회의 99. Zhang, S., Roller, S., Goyal, N., Artetxe, M., Chen, M., Chen, S., Dewan, C., Diab, M., Li, X., Lin, X. V., OPT(Open Pre-Trained Transformer Language Models) : 개방된 사전 훈련된 트랜스퍼어 언어 모델 (2022년) 그리고 알 arXiv 사전 프린트 arXiv:2205.01068 Zhou, D., Schärli, N., Hou, L., Wei, J., Scales, N., Wang, X., Schuurmans, D., Bousquet, O., Le, Q. & Chi, E. 최소한의 인도는 대규모 언어 모델에서 복잡한 추론을 가능하게합니다. (2022). arXiv 사전 프린트 arXiv:2205.10625 Appendix A.1 하이퍼 매개 변수 및 모델 선택 우리는 Med-PaLM을 생산하기 위해 100의 부드러운 프롬프트 길이를 가진 Flan-PaLM 540B에 지침 프롬프트 조정을 수행했습니다.We froze the rest of the model, and the embedding dimension is 18432 as in Chowdhery [중고] ], 그래서 이것은 1.84M 훈련 가능한 매개 변수로 이어졌습니다.We randomly initialized the learnable parameters to be uniform over [-0.5, 0.5], following Lester [중고] ]. We grid searched over learning rates in 0.001, 0.003, 0.01 with AdamW optimizer [ ] 및 무게 붕괴 요소 in . 0 이다. 우리는 모든 경주에서 32 배치 크기를 사용했습니다.우리는 200 단계를 훈련했습니다. 그리고 알 14 그리고 알 45 55 0 0 001 00001 우리는 모델 선택을 수행하여 클리닉에게 HealthSearchQA, MedicationQA 및 LiveQA 예제 (훈련이나 인간 평가에 사용되지 않음)에 대한 응답을 순위로 지정하도록 요청했으며, 최선을 다한 체크포인트를 선택했습니다.우리는 검증 세트에 일부 자동 메트릭을 계산하는 대신 이 수동 검증을 수행했습니다.예를 들어, 검증 (문제, 답변) 쌍에 대한 부정적인 로그 확률, 자연 언어 세대의 대형 출력 공간에서 이러한 메트릭은 실제 모델 출력에 대한 인간의 판단과 잘 상관하지 않을 수 있기 때문에. A.2 결과의 변동 온도 샘플링을 사용하여 반복되는 스토카스틱 디코딩으로 인해 결과가 자기 일관성으로 약간 변동될 것으로 예상됩니다.이 연구에서 사용된 모든 데이터 세트에 대해 모든 모델에 대해 여러 실험을 실행하는 것은 실용적이지 않지만, MedQA 데이터 세트에 대한 평가를 최상의 성능 모델을 사용하여 4 번 반복합니다. 관찰된 변수는 0.078이며 결과의 높은 정도의 일관성을 제안합니다. A.3 MMLU 아블레이션 우리는 Flan-PaLM 540B 모델을 비교하여 몇 샷, 체인-of-thought (CoT) 및 MMLU 임상 주제에 대한 자기 일관성을 촉구하는 전략을 사용하여 ablations를 수행했습니다. ]. The results are summarized in Section 우리는 대부분의 주제에서 Flan-PaLM 540B가 자기 일관성으로 최상의 결과를 얻는 반면, 표준 짧은 샷 또는 CoT 촉구가 더 잘하는 몇 가지 주제가 있습니다. 29 A3 A.4 스케일링 플롯 We provide scaling plots comparing the PaLM and Flan-PaLM models using few-shot prompting on the MedQA and MedMCQA datasets in Figure 그리고 Flan-PaLM을 몇 샷 프롬팅과 Flan-PaLM을 자기 일관성 프롬팅과 비교하는 또 다른 스케일링 플로팅 우리는 강력한 확장 성능을 관찰하고 LLM 모델 크기를 확장함에 따라 성능의 급격한 증가를 볼 수 있습니다. A.1 A2 A.5 모델 카드 Med-PaLM Med-PaLM은 Flan-PaLM과 동일한 시스템 유형 및 구현 프레임워크를 사용합니다. 모델 카드의 일부를 보여줍니다 [ Med-PaLM in Table에 대한 자세한 내용 . 15 59 A2 A.6 Med-PaLM 다중 선택 평가 Med-PaLM은 Flan-PaLM이 생산한 긴 형태 세대의 품질을 향상시키기 위해 명령 프롬프트 튜닝을 사용하여 훈련 받았습니다.그러나 명령 프롬프트 튜닝의 일반성을 감안할 때, 이 기술은 또한 다중 선택 데이터 세트에 적용될 수 있습니다.우리는 공유 소프트 프롬프트 매개 변수를 각 다중 선택 데이터 세트에 따라 다를 수 있는 명령 및/또는 몇 샷 사본에 앞서 배울 수 있습니다. 초기 실험에서, 우리는 MedQA, MedMCQA, PubMedQA 및 MMLU (클리닉 주제)에 대한 지침 프롬프트 튜닝을 사용하여 Flan-PaLM을 훈련했습니다. 사본은 5 명의 자격을 갖춘 임상 의사가 작성했습니다. 각 훈련 사본에는 데이터 세트 특정 지침과 5 개의 몇 샷 사례가 포함되어 있습니다. 결과 모델은 MedQA에 대한 신념 체인과 자기 일관성을 사용하여 67.2%의 정확성을 달성하여 Flan-PaLM i 섹션과 대략 일치합니다. . We plan to extend this early result in future work. 4 A.7 인간 평가의 상세한 결과 신뢰 간격과 함께 인간 평가의 상세한 결과는 테이블에 요약됩니다. - 테이블 . A3 A. 12 A.8 몇 샷 빠른 예제 We provide examples of some few-shot prompts used in the study in 테이블 테이블 테이블 , Ta-ble 그리고 테이블 . A. 13 A. 14 A. 15 A. 16 A. 17 A.9 Chain-of-Thought 신속한 사례 우리는 테이블에서이 연구에서 사용 된 체인-of-thought 인스턴스의 몇 가지 예를 제공했습니다. 테이블 테이블 . A. 18 A19 A. 20명 A. 21 이 논문은 CC by 4.0 Deed (Attribution 4.0 International) 라이선스 아래에 저장되어 있습니다. 이 논문은 CC by 4.0 Deed (Attribution 4.0 International) 라이선스 아래에 저장되어 있습니다.