著者: Karan Singhal (Google Research, DeepMind) Shekoofeh Azizi (Google Research, DeepMind) Tao Tu (Google Research, DeepMind) S. Sara Mahdavi (Google Research, DeepMind) Jason Wei (Google Research, DeepMind) Hyung Won Chung (Google Research, DeepMind) Nathan Scales (Google Research, DeepMind) Ajay Tanwani (Google Research, DeepMind) Heather Cole-Lewis (Google Research, DeepMind) Stephen Pfohl (Google Research, DeepMind) Perry Payne (Google Research, DeepMind) Martin Seneviratne (Google Research, DeepMind) Paul Gamble (Google Research, DeepMind) Chris Kelly (Google Research, DeepMind) Nathaneal Schärli (Google Research, DeepMind) Aakanksha Chowdhery (Google Research, DeepMind) Philip Mansfield (Google Research, DeepMind) Blaise Agüera y Arcas (Google Research, DeepMind) Dale Webster (Google Research, DeepMind) Greg S. Corrado (Google Research, DeepMind) Yossi Matias (Google Research, DeepMind) Katherine Chou (Google Research, DeepMind) Juraj Gottweis (Google Research, DeepMind) Nenad Tomasev (Google Research, DeepMind) Yun Liu (Google Research, DeepMind) Alvin Rajkomar (Google Research, DeepMind) Joelle Barral (Google Research, DeepMind) Christopher Semturs (Google Research, DeepMind) Alan Karthikesalingam (Google Research, DeepMind) Vivek Natarajan (Google Research, DeepMind 著者: カラン・シンガル(Google Research、DeepMind) Shekoofeh Azizi(Google Research、DeepMind) Tao Tu(Google Research、DeepMind) サラ・マハダヴィ(Google Research、DeepMind) ジェイソン・ウェイ(Google Research、DeepMind) ヒューン・ウォン・チャング(Google Research、DeepMind) Nathan Scales(Google Research、DeepMind) Ajay Tanwani(Google Research、DeepMind) ヒザー・コール・ルイス(Google Research、DeepMind) スティーブン・フォール(Google Research、DeepMind) ペリー・ペイン(Google Research、DeepMind) マーティン・セネヴァラトン(Google Research、DeepMind) ポール・ガンブル(Google Research、DeepMind) クリス・ケリー(Google Research, DeepMind) Nathaneal Schärli(Google Research、DeepMind) Aakanksha Chowdhery(Google Research、DeepMind) フィリップ・マンズフィールド(Google Research、DeepMind) Blaise Agüera y Arcas(Google Research、DeepMind) デール・ウェブスター(Google Research、DeepMind) グレッグ・S・コーラド(Google Research、DeepMind) ヨシ・マティアス(Google Research、DeepMind) Katherine Chou(Google Research、DeepMind) Juraj Gottweis(Google Research、DeepMind) ネナド・トマセフ(Google Research、DeepMind) ユン・リウ(Google Research、DeepMind) Alvin Rajkomar(Google Research、DeepMind) ジョエル・バラル(Google Research、DeepMind) クリストファー・セムツ(Google Research、DeepMind) Alan Karthikesalingam(Google Research、DeepMind) ヴィヴェーク・ナタラヤン(Google Research、DeepMind) 大規模な言語モデル(LLMs)は、自然言語の理解と生成における印象的な能力を示しているが、医療および臨床アプリケーションのための品質バーは高い。今日、モデルの臨床知識を評価する試みは、通常、限られたベンチマークの自動評価に依存する。幅広いタスクでモデル予測と推論を評価する標準はありません。これに対処するために、私たちは、専門的な医療試験、研究、および消費者質問をカバーする6つの既存のオープン質問回答データセットを組み合わせたベンチマークであるMultiMedQA、およびHealthSearchQA、オンラインで検索される医療質問の新しい無料回答データセットを提案します。 さらに、我々はMultiMedQAでPaLM(540億個のパラメータLLM)とその指示調節のバージョンFlan-PaLMを評価します。推奨戦略の組み合わせを使用して、Flan-PaLMはMultiMedQAの複数の選択データセット(MedQA、MedMCQA、PubMedQA、MMLU臨床トピック)で最先端の精度を達成します。MedQA(米国医学許可試験質問)で67.6%の精度を含め、17%を超えています。しかし、人間の評価はFlan-PaLMの応答における重要なギャップを明らかにします。これを解決するために我々は、いくつかのモデルを使用して新しいドメインにLLMを調 私たちは、理解、知識の回顧、および医学的推論がモデルスケールと指示の速やかな調節で向上することを示し、医学におけるLLMの潜在的な有用性を示しています。 この紙は CC by 4.0 Deed (Attribution 4.0 International) ライセンス ARCHIV で利用可能 ARCHIV で利用可能 私たちの人間の評価は、現在のモデルの重要な限界を明らかにし、臨床アプリケーションのための安全で有用なLLMモデルを作成するための評価枠組みと方法開発の両方の重要性を強調しています。 1 導入 医学は、言語が臨床医、研究者、患者間の重要な相互作用を可能にする人間的な取り組みであるが、医学および医療におけるアプリケーションのための現在のAIモデルは、ほとんどが言語を完全に活用できていない。 で、 で、 結果として、現在のモデルが何ができるかと、現実世界の臨床ワークフローで何を期待できるかとの間には矛盾がある。 で、 」 21 81 97 42 74 大規模な言語モデル(LLMs)における最近の進歩は、AIシステムを再考する機会を提供し、言語は人間とAIの相互作用を媒介するためのツールです。 これらの表現的でインタラクティブなモデルは、医療機関で暗号化された知識から一般的に有用な表現を学ぶ能力において大きな約束を提供します。 10 しかし、ドメインの安全性の重要性は、評価枠組みの慎重な開発を必要とし、研究者が進歩を有意義に測定し、潜在的な損害をキャプチャし、軽減することを可能にする。 LLMsが臨床知識をどのようによくコードし、医学における潜在能力を評価するかを評価するために、私たちは医学的質問への回答を検討します。このタスクは挑戦的です:医学的な質問に対する質の高い回答を提供するには、医学的文脈の理解、適切な医学的知識の思い出、および専門家の情報との推論が必要です。 ]はしばしば分類精度または自動自然言語生成メトリクス(例えば、BLEU)の評価に限定される。 )、および実際の臨床アプリケーションに必要な詳細な分析を可能にしません。これは、LLMの応答の事実性を評価するための幅広い医療質問に答える基準を満たさない必要性を生み出し、医療および科学的推論の専門知識の使用、有用性、精度、健康の公平性、および事実としてモデル出力を受け入れる人々への潜在的な損害を評価します。 33 67 この問題に対処するために、私たちは、既存の6つのデータセットを含む7つの医療質問に答えるデータセットを含むベンチマークMultiMedQAを策定しました。 」と書いています。 ライフスタイル( 医薬品( ]、およびMMLU臨床トピック [ 最新の第7データセット「HealthSearchQA」は、一般に検索されている健康に関する質問で構成されています。 33 64 34 1 2 29 MultiMedQAを使用してLLMを評価するために、我々は540億パラメーターLLMであるPaLMに基づいています。 ], and its instruction-tuned variant Flan-PaLM [ 数少ないショットの組み合わせを使用する [ 考え方(考え方)について(考え方) ]、および自己一貫性( ] 戦略を促進するために、Flan-PaLMはMedQA、MedMCQA、PubMedQA、MMLU臨床トピックで最先端の(SOTA)パフォーマンスを達成し、しばしばいくつかの強力なLLMベースラインを大幅に上回る。 14 15 12 91 88 Flan-PaLM が複数の選択肢の質問に対して強力なパフォーマンスを示しているにもかかわらず、消費者医療の質問に対するその答えは重要な欠陥を明らかにしています。これを解決するために、我々は、Flan-PaLM のデータとパラメータ効率的な調節技術である指示スムートトニングを提案し、Flan-PaLM をさらに医療分野に適応させます。結果のモデル、Med-PaLM は、私たちのパイロット人間評価枠組みの軸に励ましなパフォーマンスを示しています。例えば、臨床医のパネルは、Flan-PaLM の長期形式の答えの 61.9% だけが科学的コンセンサスに一致すると判断し、Med-PaLM の答えの 9 これらの結果は有望であるが、医療分野は複雑である。さらなる評価は、特に公平性、公平性、偏見の次元に沿って必要である。私たちの仕事は、そのようなモデルが臨床アプリケーションで使用できるようになる前に、多くの制限を克服する必要があることを示しています。 私たちの主要な貢献は以下にまとめられています。 医療質問回答におけるLLMの評価に関するアプローチ ── We present this dataset alongside six other existing open datasets for medical question answering, spanning medical exam, medical research, and consumer medical questions, as a diverse benchmark to assess the clinical knowledge and question answering capabilities of LLMs (LLMsの臨床知識と質問回答能力を評価するための多様なベンチマーク) ( ) Curation of HealthSearchQA and MultiMedQA 3.1 ── We pilot a framework for physician and lay user evaluation to assess multiple axes of LLM performance beyond accuracy on multiple-choice data sets. Our evaluation assesses answers for agreement with scientific and clinical consensus, probability and possible extent of harm, reading understanding, recall of relevant clinical knowledge, manipulation of knowledge through valid reasoning, completeness of responses, potential for bias, relevance, and usefulness (セクションを参照してください。 ( ) Pilot framework for human evaluation 3.2 MedQA、MedMCQA、PubMedQA、MMLUの臨床トピックデータセットでは、FLAN-PaLMは、いくつかの強力なLLMベースラインを上回る推奨戦略の組み合わせを通じてSOTAのパフォーマンスを達成します。 私たちは、医学分野に特化したFlan-PaLMの指示スンプトトゥーニング(Med-PaLM)を構築するために、安全に重要な医学分野にLLMを調節するためのシンプルで、データとパラメーター効率的なテクニックを導入します(セクション3.3.3を参照)。私たちは、医学分野に特化したFlan-PaLMの指示スンプトゥーニング(Med-PaLM)を構築するためにこれを活用します。私たちの人間評価フレームワークは、科学的地理化、損害、偏見におけるFlan-PaLMの限界を明らかにします。しかし、Med-PaLMは、臨床医と使用者(セクション 4.5を参照)によると、これらの 私たちの結果は、医学におけるLLMの可能性を示す一方で、これらのモデルを現実世界の臨床アプリケーションのために実行可能にするためにいくつかの重要な改善が必要であることを示しています。 2 関連作品 過去数年間で、LLMsは自然言語処理(NLP)タスクで印象的なパフォーマンスを示しています。 で、 で、 で、 で、 で、 で、 で、 で、 で、 彼らは、トランスフォーマーベースのモデルの訓練を拡大することに成功を負っている。 モデルのパフォーマンスとデータ効率のスケールは、モデルサイズとデータセットサイズで示されています。 ]. LLMsはしばしば大規模な自己監督を使用して訓練され、ウィキペディアやBooksCorpusなどの一般的な目的のテキストコルピを使用して、彼らは専門的な科学的知識や推論を必要とするタスクを含む幅広いタスクで有望な結果を示しています。 で、 たぶん、これらのLLMsの最も興味深い側面は、それらのモデルをグレディントベースのパラメーターアップデートなしで多様なタスクに適応する文脈内の数ショット能力です。 で、 で、 で、 これは、彼らが素早く目に見えないタスクに一般化し、適切な促進戦略で明らかな推論能力を示すことを可能にします。 で、 で、 で、 」 Large language models (LLMs) 12 14 15 30 69 70 73 89 91 99 84 37 17 29 12 40 43 89 14 47 79 91 いくつかの研究は、LLMsは暗示的な知識ベースとして機能する能力を持っていることを示しています。 で、 で、 しかしながら、これらのモデルが幻覚を生み出し、彼らの訓練データに存在する社会的偏見を強化し、彼らの推論能力に欠陥を示すという重大なリスクがあります。LLMの現在の限界を検討し、人間とLLMの言語能力の大きなギャップを定量化するために、BIGベンチは現在の言語モデルの能力を超えていると考えられていた出版時点で課題に基準を置くコミュニティー全体のイニシアチブとして導入されました。 」 29 35 79 78 最近の研究では、SciBERT( バイオリンピック( バイオグラフィック( バイオバルト( 」と、パブリック( (大胆に) 」 シュラーベルト( バイオグラフィック( ]、差別的および生成型言語モデリングの両方のためにクエリート科学および生物医学体の使用の有効性を示した。これらのモデルは、有望であるにもかかわらず、通常は、GPT-3のようなLLMと比較して規模と範囲が小さい。 )とパルム( 医療分野は挑戦的ですが、LLMsの具体的な提案には、非批判的な臨床評価を複雑な医療コミュニケーションの概要化に拡大するなど、さまざまな例がすでに含まれています。 で、 で、 」 LLMs for science and biomedicine 5 46 76 44 25 66 31 56 12 14 3 41 75 私たちの仕事に最も近い先例はテイラーです。 (※) )は、Galacticaという科学のLLMを導入し、Liévin (※) ], who studied the reasoning capability of LLMs in the medical question answering context. 特に, Liévin (※) ] used Instruct GPT-3, an instruction-tuned LLM [ 」という考え方で使われている。 ] 上に、MedQA、MedMCQA、PubMedQAデータセットの結果を改善する。 エル 79 エル 50 エル 50 63 91 3 方法 ここでは、詳細に説明します: データセット:医療質問回答におけるLLMの評価のためのMultiMedQAベンチマーク。 Human Evaluation Framework: A rating framework for evaluation of model (and clinician) answers by clinicians and laypeople. ヒューマン評価の枠組み:臨床医師および世俗主義者によるモデル(および臨床医)回答の評価のための評価枠組み。 モデリング: 大きな言語モデル(LLMs)と、この研究における医療分野の要件にそれらを調整するために使用される方法。 3.1 データ 医学におけるLLMの可能性を評価するために、私たちは医学的な質問に答えることに焦点を当てました。医学的な質問に答えるには、読書理解スキル、医学的知識を正確に思い出させる能力、および専門知識の操作が必要です。 で、 ]、医学研究の理解スキルを必要とする質問 [ ]、およびユーザーの意図を評価し、医療情報のニーズに役立つ答えを提供する能力を必要とする質問。 で、 」 33 64 34 1 2 既存の基準は本質的に限られており、医療知識の領域の部分的なカバーのみを提供します。それにもかかわらず、医療質問回答のためのさまざまなデータセットを組み合わせることは、複数の選択の正確さやBLEUのような自然言語生成メトリックよりもLLMの知識のより深い評価を可能にします。私たちがグループ化したデータセットは、さまざまな能力を検出します - いくつかは複数の選択の質問であり、他は長い形式の回答を必要とします。 ] for a comprehensive summary of medical question answering datasets. 医学的な質問に答えるデータセットの包括的な概要。 33 3.1.1 MultiMedQA - 医療質問の回答のための基準 MultiMedQAには、複数の選択の質問に答えるデータセット、医療専門家の質問に長い形式の回答を必要とするデータセット、非専門家が質問する可能性のある質問に長い形式の回答を必要とするデータセットが含まれています。 」と書いています。 ライフスタイル( 医薬品( )およびMMLU臨床トピック( さらに、MultiMedQA を新しいデータセットで拡張しました: HealthSearchQA. All the datasets are English-language and we describe them in detail below. 33 64 34 1 2 29 これらのデータセットは、次の軸に沿って異なります。 フォーマット:Multiple Choice vs. Long Form Answer Questions 試験された能力:例えば、事実の回想に加えて、医学的推論能力の評価に比べて、孤立した医療事実の回想を評価する。 ドメイン:Open Domain vs. Closed Domain Questions 質問源:専門医学試験、医学研究、または医療情報を求める消費者から ラベルおよびメタデータ:ラベルまたは説明の存在およびその源 MedMCQA、PubMedQA、LiveQA、およびMedicationQAは参照の長い形式の回答や説明を提供する一方で、私たちはこれらの研究でそれらを使用しません。第一に、参照の回答は、異なるデータセットの間で一貫したソースから来ません。 答えはしばしば、図書館職員のような自動ツールや非臨床医から来ています。 これらの先駆的なデータセットの参照の答えと説明の構築は、長い回答の品質の包括的または包括的な評価のために最適化されていません。 二つ目は、医療分野の安全・重要な要件を考慮し、BLEUのようなメトリクスを用いて長い形態の回答生成品質の自動化された測定を超えて、この研究で提案されたもののようなより微妙な人間評価枠組みを含むものに移行することが重要だと考えます。 4.5 MedQAデータセット [ 米国医学許可試験(USMLE)スタイルの質問で構成され、米国の国立医学委員会試験から4または5つの回答を選択して得られた。 MedQA (USMLE) 33 MedMCQAデータセットは、インドの医療入学試験(AIIMS/NEET)から194k以上の4つの選択肢の複数選択の質問から構成されています。 このデータセットには、2400件の医療トピックと21件の医療トピックが含まれています。 MedMCQA 64 PubMedQAデータセット [ ]は1kの専門家ラベル付き質問回答カップルで構成されており、そのタスクは質問とPubMed抽象を文脈として含む複数の選択の答えを生成することです。MedQAとMedMCQAのデータセットはオープンドメイン質問回答タスクですが、PubMedQAのタスクは閉鎖ドメインで、PubMedをサポートする抽象的な文脈からの回答推論が必要です。 PubMedQA 34 「Massive Multitask Language Understanding (MMLU)」 ] includes exam questions from 57 domains. We selected the subtasks most relevant to medical knowledge: “anatomy”, “clinical knowledge”, “college medicine”, “medical genetics”, “professional medicine”, and “college biology”. Each MMLU subtask contains multiple-choice questions with four options, along with the answers. MMLU 29 The LiveQA dataset [ ] was curated as part of the Text Retrieval Challenge (TREC) 2017. The dataset consists of medical questions submitted by people to the National Library of Medicine (NLM). The dataset also consists of manually collected reference answers from trusted sources such as the National Institute of Health (NIH) website. LiveQA 1 The MedicationQA dataset [ ]は、薬物に関する一般的な消費者質問から構成されています。質問に加えて、データセットには、薬物の焦点と相互作用に対応する注釈が含まれています。LiveQAと同様に、我々は、モデルがテストセットの質問に長い形式の答えを生成する能力を評価します。 MedicationQA 2 「HealthSearchQA」と呼ばれる3375件の一般的に検索された消費者の質問からなる私たち自身の追加データセットを編集しました。このデータセットは、種子の医療状態と関連する症状を用いて編集されました。我々は、一般的に検索エンジンによって生成された一般的に検索された質問を公開するために種子データを使用し、種子の用語を入力したすべてのユーザーに表示しました。我々は、消費者の医療質問に対する回答のためのオープンベンチマークとしてデータセットを公開し、これはコミュニティにとって有用なリソースであり、現実の消費者の懸念を反映するデータセットになることを願っています。 HealthSearchQA While MultiMedQA allows us to probe the medical question answering capabilities of LLMs along multiple axes, we acknowledge that it is not exhaustive. We plan to expand the benchmark to other relevant datasets, such as those probing question answering ability from electronic medical records [ ] または、臨床前生物医学的知識を必要とする者[ ], in future work. 65 83 3.2 Framework for human evaluation Here we describe our proposed framework for human evaluation of long-form answers to medical questions. 3.2.1 臨床評価 複数の選択の質問における客観的正確性メトリクスはモデルのパフォーマンスの強力な尺度であるが、いくつかの重要な詳細を省略する。 医学的トピックに対するオープンエンドの質問におけるLLMの生成結果をより深く評価するために、私たちは、LiveQA、MedicationQA、HealthSearchQAデータセットにおける消費者医療の質問に対する長い形式のモデル回答の人間評価のためのパイロットフレームワークを開発しました。 | Summary of the different axes along which clinicians evaluate the answers in our consumer medical question answering datasets. These include agreement with scientific consensus, possibility and likelihood of harm, evidence of comprehension, reasoning and retrieval ability, presence of inappropriate, incorrect or missing content and possibility of bias in the answer. We use a pool of clinicians to evaluate the quality of model and human-generated answers along these axes. Table 2 Task Axis Question 1 Scientific consensus How does the answer relate to the consensus in the scientific andclinical community? 2 Extent of possible harm What is the extent of possible harm? 3 Likelihood of possible harm What is the likelihood of possible harm? 4 Evidence of correct comprehension Does the answer contain any evidence of correct reading compre-hension? (indication the question has been understood) 5 Evidence of correct retrieval Does the answer contain any evidence of correct recall of knowl-edge? (mention of a relevant and/or correct fact for answering the question) 6 Evidence of correct reasoning Does the answer contain any evidence of correct reasoning steps?(correct rationale for answering the question) 7 Evidence of incorrect comprehension Does the answer contain any evidence of incorrect reading com-prehension? (indication the question has not been understood) 8 Evidence of incorrect retrieval Does the answer contain any evidence of incorrect recall of knowl-edge? (mention of an irrelevant and/or incorrect fact for answering the question) 9 Evidence of incorrect reasoning Does the answer contain any evidence of incorrect reasoning steps?(incorrect rationale for answering the question) 10 Inappropriate/incorrect content Does the answer contain any content it shouldn’t? 11 Missing content Does the answer omit any content it shouldn’t? 12 Possibility of bias Does the answer contain any information that is inapplicable or inaccurate for any particular medical demographic? 1 科学コンセンサス 答えは、科学および臨床コミュニティの合意とどのように関連していますか。 2 可能な損害の範囲 潜在的な被害の程度は? 3 Likelihood of possible harm 潜在的な被害の可能性は? 4 Evidence of correct comprehension 答えには正しい読解理解の証拠が含まれているか?(質問が理解されたことを示す) 5 正しい回収の証拠 Does the answer contain any evidence of correct recall of knowl-edge? (mention of a relevant and/or correct fact for answering the question) 6 Evidence of correct reasoning 答えには正しい推論のステップの証拠が含まれていますか?(質問に答えるための正しい推論) 7 誤解の証拠 Does the answer contain any evidence of incorrect reading com-prehension? (indication the question has not been understood) 8 Evidence of incorrect retrieval Does the answer contain any evidence of incorrect recall of knowl-edge? (mention of an irrelevant and/or incorrect fact for answering the question) 9 誤った推論の証拠 Does the answer contain any evidence of incorrect reasoning steps?(incorrect rationale for answering the question) 10 Inappropriate/incorrect content Does the answer contain any content it shouldn’t? 11 Missing content Does the answer omit any content it shouldn’t? 12 バイアスの可能性 Does the answer contain any information that is inapplicable or inaccurate for any particular medical demographic? The pilot framework was inspired by approaches published in a similar domain by Feng (※) ] to examine the strengths and weaknesses of LLM generations in clinical settings. We used focus groups and interviews with clinicians based in the UK, US and India to identify additional axes of evaluation [ ] and expanded the framework items to address notions of agreement with scientific consensus, possibility and likelihood of harm, completeness and missingness of answers and possibility of bias. Alignment with scientific consensus was measured by asking raters whether the output of the model was aligned with a prevailing scientific consensus (for example in the form of well-accepted clinical practice guidelines), opposed to a scientific consensus; or whether no clear scientific consensus exists regarding the question. Harm is a complex concept that can be evaluated along several dimensions (e.g. physical health, mental health, moral, financial and many others). When answering this question, raters were asked to focus solely on physical/mental health-related harms, and evaluated both severity (in a format inspired by the AHRQ common formats for harm [ ]) and likelihood, under the assumption that a consumer or physician based on the content of the answer might take actions. Bias was assessed broadly by raters considering if the answer contained information that would be inapplicable or inaccurate to a specific patient demographic. The questions asked in the evaluation are summarized in Table et al. 22 60 93 2 当社のフレームワーク項目の形式、表現、および応答スケールポイントは、3名の資格のある臨床医によってデータセットあたり25問答タブレットの3倍の評価を含むさらなるインタビューを通じて改良されました。臨床医のための指示は、質問に対する評価の指示的な例を含めて書かれており、臨床医の評価アプローチが適用可能であることを示すために一致するまで繰り返されました。ガイドラインは、消費者医療の質問からの質問答タブレットのより大きなセットを一致させた後、イギリス、米国またはインドに拠点を置く9名の臨床医の1名によって実施された単一の評価によって評価され、小児科、外科、内科、および初期医療を含む専門家の経験を持つ各国 | Summary of the different axes along which lay users evaluate the utility of answers in our consumer medical question answering datasets. We use a pool of 5 non-expert lay users to evaluate the quality of model and human-generated answers along these axes. Table 3 Task Axis Question 1 Answer captures user intent How well does the answer address the intent of the question? 2 Helpfulness of the answer How helpful is this answer to the user? (for example, does it enable them to draw a conclusion or help clarify next steps?) 1 Answer captures user intent How well does the answer address the intent of the question? 2 Helpfulness of the answer How helpful is this answer to the user? (for example, does it enable them to draw a conclusion or help clarify next steps?) 3.2.2 Lay user (non-expert) evaluation In order to assess the helpfulness and utility of the answers to the consumer medical questions we undertook an additional lay user (non-expert) evaluation. This was performed by five raters without a medical background, all of whom were based in India. The goal of this exercise was to assess how well the answer addressed the perceived intent underlying the question and how helpful and actionable it was. The questions asked in the evaluation are summarized in Table 3 3.3 Modeling In this section, we detail large language models (LLMs) and the techniques used to align them with the requirements of the medical domain. 3.3.1 Models We build on the PaLM and Flan-PaLM family of LLMs in this study. パスウェイ言語モデル(PaLM)を導入した。 ] is a densely-activated decoder-only transformer language model trained using Pathways [ ] ], a large-scale ML accelerator orchestration system that enables highly efficient training across TPU pods. The PaLM training corpus consists of 780 billion tokens representing a mixture of webpages, Wikipedia articles, source code, social media conversations, news articles and books. All three PaLM model variants are trained for exactly one epoch of the training data. We refer to [ , , リリース当時、PaLM 540Bは画期的なパフォーマンスを達成し、BIGベンチでの平均的な人間のパフォーマンスを上回り、複数の段階の推論タスクのセットで美しいアートモデルを上回った。 で、 ]. PaLM 14 4 14 19 80 14 78 In addition to the baseline PaLM models, we also considered the instruction-tuned counterpart introduced by [ ]. These models are trained using instruction tuning, i.e., finetuning the model on a collection of datasets in which each example is prefixed with some combination of instructions and/or few-shot exemplars. In particular, Chung [ ] demonstrated the effectiveness of scaling the number of tasks, model size and using chain-of-thought data [ ] as instructions. The Flan-PaLM model reached state of the art performance on several benchmarks such as MMLU, BBH, and TyDIQA [ 」と述べた上で、評価課題のうちの1つは、[ ], Flan-PaLM outperformed baseline PaLM by an average of 9.4%, demonstrating the effectiveness of the instruction tuning approach. Flan-PaLM 15 et al. 15 91 16 15 In this study we considered both the PaLM and Flan-PaLM model variants at three different model sizes: 8B, 62B and 540B, with the largest model using 6144 TPUv4 chips for pretraining. 3.3.2 Aligning LLMs to the medical domain General-purpose LLMs like PaLM [ ] and GPT-3 [ ]は、BIGベンチのような挑戦的なベンチマーク上のさまざまなタスクで最先端のパフォーマンスを達成しました。しかし、医療分野の安全性に重要な性質を考慮して、ドメイン特有のデータとモデルを適応し、調節する必要があります。 典型的な転送学習とドメイン適応の方法は、ドメイン内データの大量を含むモデルのエンド-to-エンドフィニートニングに依存しています。 ] and prompt tuning [ 」 14 12 12 45 Brown [ ] demonstrated that LLMs are strong few-shot learners, where fast in-context learning can be achieved through prompting strategies. Through a handful of demonstration examples encoded as prompt text in the input context, these models are able to generalize to new examples and new tasks without any gradient updates or finetuning. The remarkable success of in-context few-shot learning has spurred the development of many prompting strategies including scratchpad [ 考え方(考え方) 最小限(最小限)を求める。 ], especially for multi-step computation and reasoning problems such as math problems [ ]. この研究では、以下の通り、標準的な数ショット、思考チェーン、自己一貫性の促進に焦点を当てました。 Prompting strategies et al. 12 61 91 100 17 The standard few-shot prompting strategy was introduced by Brown [ ]. Here, the prompt to the model is designed to include few-shot examples describing the task through text-based demonstrations. These demonstrations are typically encoded as input-output pairs. The number of examples is typically chosen depending on the number of tokens that can fit into the input context window of the model. After the prompt, the model is provided with an input and asked to generate the test-time prediction. The zero-shot prompting counterpart typically only involves an instruction describing the task without any additional examples. Brown (※) ]は、ゼロショットプロンプトがモデルサイズで謙虚にスケールしたが、数ショットプロンプトのパフォーマンスはより速く増加したことを観察した。 [ ] 観察された新興能力-すなわち、小型モデルでは存在しないが、推奨パラダイムで特定のモデルサイズを超えるランダム性能を急速に改善する能力。 Few-shot prompting et al. 12 et al. 12 et al. 90 In this study we worked with a panel of qualified clinicians to identify the best demonstration examples and craft the few-shot prompts. Separate prompts were designed for each dataset as detailed in Section . The number of few-shot demonstrations varied depending on the dataset. Typically we used 5 input-output examples for the consumer medical question answering datasets, but reduced the number to 3 or fewer for PubMedQA given the need to also fit in the abstract context within the prompt text. A8 Chain-of-thought (CoT), introduced by Wei [ ], involves augmenting each few-shot example in the prompt with a step-by-step breakdown and a coherent set of intermediate reasoning steps towards the final answer. The approach is designed to mimic the human thought process when solving problems that require multi-step computation and reasoning. Wei [ ] demonstrated that CoT prompting can elicit reasoning abilities in sufficiently large language models and dramatically improve performance on tasks such as math problems [ ]. Further, the appearance of such CoT reasoning appears to be an emergent ability [ オリジナルタイトル: Lewkowycz [ ] used CoT prompting as one of the key strategies in their work leading to breakthrough LLM performance on several STEM benchmarks. Chain-of-thought prompting et al. 91 et al. 91 17 90 エル 47 この研究で調査された医学的質問の多くは複雑な複数のステップの推論を含んでおり、COT推奨テクニックに適したものとなっています。臨床医と一緒に、COT推奨テクニックを開発し、医学的な質問にどのように推理し、答えるかについて明確な示唆を提供しました。 . A9 A straightforward strategy to improve the performance on the multiple-choice benchmarks is to prompt and sample multiple decoding outputs from the model. The final answer is the one with the majority (or plurality) vote. This idea was introduced by Wang [ ] under the name of "self-consistency". The rationale behind this approach here is that for a domain such as medicine with complex reasoning paths, there might be multiple potential routes to the correct answer. Marginalizing out the reasoning paths can lead to the most consistent answer. The self-consistency prompting strategy led to particularly strong improvements in [ ]、および私たちは、複数の選択の質問を持つデータセットのための同じアプローチを採用しました: MedQA、MedMCQA、PubMedQA、MMLU。 Self-consistency prompting et al. 88 47 Because LLMs have grown to hundreds of billions of parameters [ で、 ], finetuning them is extraordinarily computationally expensive. While the success of few-shot prompting has alleviated this issue to a large extent, many tasks would benefit further from gradient-based learning. Lester (※) ] introduced prompt tuning (in contrast to prompting / priming), a simple and computationally inexpensive Prompt tuning 12 14 エル 45 method to adapt LLMs to specific downstream tasks, especially with limited data. The approach involves the learning of soft prompt vectors through backpropagation while keeping the rest of the LLM frozen, thus allowing easy reuse of a single model across tasks. This use of soft prompts can be contrasted with the discrete “hard” text-based few-shot prompts popularized by LLMs such as GPT-3 [ ]. While prompt tuning can benefit from any number of labeled examples, typically only a handful of examples (e.g., tens) are required to achieve good performance. Further, Lester 12 et al. [ ] demonstrated that prompt-tuned model performance becomes comparable with end-to-end finetuning at increased model scale. Other related approaches include prefix tuning [ ], where prefix activation vectors are prepended to each layer of the LLM encoder and learned through backpropagation. Lester [ ]’s prompt tuning can be thought of as a simplification of this idea, restricting the learnable parameters to only those representing a small number of tokens prepended to the input as a soft prompt. 45 48 et al. 45 3.3.3 Instruction prompt tuning ワイ (※) )とChung [ ] demonstrated the benefits of multi-task instruction finetuning: the Flan-PaLM model achieved state of the performance on several benchmarks such as BIG-bench [ )とMLU( ]. In particular, Flan-PaLM demonstrated the benefits of using CoT data in fine-tuning, leading to robust improvements in tasks that required reasoning. et al. 89 エル 15 47 29 指示調節の強力なパフォーマンスを考慮して、我々はこの作業で主にFlan-PALMモデルに基づいて構築しました。 私たちのヒューマン評価は、消費者医療質問回答データセットにおけるFlan-PaLMのパフォーマンスにおける重要なギャップを明らかにしたが、ほんの数ショットでさえも、このモデルを安全に重要な医療分野の要件にさらに調節するために、医療データに関する特別な追加トレーニングを検討しました。 4.5 この追加トレーニングでは、コンピュータおよび臨床データ生成コストを考慮して、フルモデルフィニトゥニングの代わりにスンプトトニングを使用しました。我々のアプローチは、Flan-PaLMの「指示に従う学習」の原則をスンプトニング段階に効果的に拡張します。具体的には、スンプトニングによって学んだソフトスンプトンを、タスク特有のヒューマンエンジニアリングスンプトの代替としてスンプトニングで使用するのではなく、私たちは、複数の医療データセットで共有され、関連するタスク特有のヒューマンエンジニアリングスンプト(指示やいくつかのショットのサンプトで構成される)と実際の質問および/または文脈と共に、スンプト We refer to this method of prompt tuning as “instruction prompt tuning”. Instruction prompt tuning can thus be seen as a lightweight way (data-efficient, parameter-efficient, compute-efficient during both training and inference) of training a model to follow instructions in one or more domains. In our setting, instruction prompt tuning adapted LLMs to better follow the specific type of instructions used in the family of medical datasets that we target. Given the combination of soft prompt with hard prompt, instruction prompt tuning can be considered a type of "hard-soft hybrid prompt tuning" [ ], alongside existing techniques that insert hard anchor tokens into a soft prompt [ ], insert learned soft tokens into a hard prompt [ ], or use a learned soft prompt as a prefix for a short zero-shot hard prompt [ 短いゼロショットのハードプロンプトのプレフィックスとして学んだソフトプロンプト] , ]. To the best of our knowledge, ours is the first published example of learning a soft prompt that is prefixed in front of a full hard prompt containing a mixture of instructions and few-shot exemplars. 52 53 28 26 96 3.3.4 すべてを組み合わせる: Med-PaLM To adapt Flan-PaLM to the medical domain, we applied instruction prompt tuning on a small set of exemplars. These examples were effectively used to instruct the model to produce text generations more aligned with the requirements of the medical domain, with good examples of medical comprehension, recall of clinical knowledge, and reasoning on medical knowledge unlikely to lead to patient harm. Thus, curation of these examples was very important. We randomly sampled examples from MultiMedQA free-response datasets (HealthSearchQA, MedicationQA, LiveQA) and asked a panel of five clinicians to provide exemplar answers. These clinicians were based in the US and UK with specialist experience in primary care, surgery, internal medicine, and pediatrics. Clinicians then filtered out questions / answer pairs that they decided were not good examples to instruct the model. This generally happened when clinicians felt like they could not produce an “ideal” model answer for a given question, e.g., if the information required to answer a question was not known. We were left with 40 examples across HealthSearchQA, MedicationQA, and LiveQA used for instruction prompt tuning training. 得られたモデル、Med-PaLMは、Flan-PaLMとともにMultiMedQAの消費者医療質問回答データセットに基づいて評価されました。 Med-PaLM の指示スンプトトニングアプローチの概要を提供します。ハイパーパラメータ最適化およびモデル選択プロセスに関する詳細は、セクションでご覧いただけます。 . The model card for Med-PaLM is provided in Section . 2 A.1 A.5 4 Results In this section, we first provide an overview of our key results as summarized in Figures and 次に、私たちは、結果を文脈化し、解釈するのに役立ついくつかのアブラションを提示します。 3 4 4.1 Flan-PaLM exceeds previous state-of-the-art on MedQA (USMLE) by over 17% On the MedQA dataset consisting of USMLE style questions with 4 options, our Flan-PaLM 540B model achieved a multiple-choice question (MCQ) accuracy of 67.6% surpassing the DRAGON model [ で、20.1%です。 94 Concurrent to our study, Bolton (※) ] developed PubMedGPT, a 2.7 billion model trained exclusively on biomedical abstracts and paper. The model achieved a performance of 50.3% on MedQA questions with 4 options. To the best of our knowledge, this is the state-of-the-art on MedQA, and Flan-PaLM 540B exceeded this by 17.3%. Table このデータセットで最高のパフォーマンスモデルと比較します。より困難な質問セットで5つのオプションで、私たちのモデルは62.0%のスコアを得ました。 et al. 9 4 4.2 State-of-the-art performance on MedMCQA and PubMedQA On the MedMCQA dataset, consisting of medical entrance exam questions from India, Flan-PaLM 540B reached a performance of 57.6% on the dev set. This exceeds the previous state of the art result of 52.9% by the Galactica model [ ]. 79 Similarly on the PubMedQA dataset, our model achieved an accuracy of 79.0% outperforming the previous state of the art BioGPT model Luo [ ] by 0.8%. The results are summarized in Figure 2 below. While this improvement may seem small compared to MedQA and MedMCQA datasets, the single rater human performance on PubMedQA is 78.0% [ ], indicating that there may be an inherent ceiling to the maximum possible performance on this task. et al. 56 33 | Summary of the best performing models on the MedQA (USMLE) dataset questions with 4 options. Our results with Flan-PaLM exceed previous state of the art by over 17%. Table 4 Model (number of parameters) MedQA (USMLE) Accuracy % Flan-PaLM (540 B)(ours) 67.6 PubMedGPT (2.7 B) [ ] 9 50.3 DRAGON (360 M) [ ] 94 47.5 BioLinkBERT (340 M) [ ] 95 45.1 Galactica (120 B) [ ] 79 44.4 PubMedBERT (100 M) [ ] 25 38.1 GPT-Neo (2.7 B) [ ] 7 33.3 Flan-PaLM (540 B)(ours) 67.6 シンガポール(7B) ] 9 50.3 ドラゴン(360m) ] 94 47.5 BioLinkBERT (340 M) [ ] 95 45.1 イギリス(120b) ] 79 44.4 PubMedBERT (100 M) [ ] 25 38.1 GPT-Neo (2.7 B) [ ] 7 33.3 4.3 State-of-the-art performance on MMLU clinical topics MMLUデータセットには、いくつかの臨床知識、医学および生物学関連のトピックから複数の選択の質問が含まれています。これらには、解剖学、臨床知識、専門医学、ヒト遺伝学、大学医学および大学生物学が含まれています。 Flan-PaLM 540Bは、これらのすべてのサブセットで最先端のパフォーマンスを達成し、PaLM、Gopher、Chinchilla、BLOOM、OPTおよびGalacticaのような強力なLLMを上回りました。 特に、専門医学および臨床知識サブセットでは、Flan-PaLM 540Bは83.5%および84.0%のSOTA精度を達成しました。 summarizes the results, providing comparisons with other LLMs where available [ ]. 4 79 4.4 Ablations We performed several ablations on three of the multiple-choice datasets - MedQA, MedMCQA and PubMedQA - to better understand our results and identify the key components contributing to Flan-PaLM’s performance. We present them in detail below: Across all model sizes, we observed that the instruction-tuned Flan-PaLM model outperformed the baseline PaLM model on all three datasets - MedQA, MedMCQA and PubMedQA. The models were few-shot prompted in these experiments using the prompt text detailed in . The detailed results are summarized in . The improvements were most prominent in the PubMedQA dataset where the 8B Flan-PaLM model outperformed the baseline PaLM model by over 30%. Similar strong improvements were observed in the case of 62B and 540B variants too. These results demonstrated the strong benefits of instruction fine-tuning. Similar results with MMLU clinical topics are reported in Section . Instruction tuning improves performance on medical question answering A8 5 A3 We have not yet completed a thorough analysis of the effect of instruction prompt tuning on multiple-choice accuracy; our analysis is of Flan-PaLM in this section, not Med-PaLM. Med-PaLM (instruction prompt-tuned Flan-PaLM) was developed to improve the long-form generation results of Flan-PaLM presented in Section by better aligning the model to the medical domain. However, given the success of domain-agnostic instruction tuning for multiple-choice question answering, in-domain instruction prompt tuning appears promising, and we present a preliminary result in Section . 4.5 A.6 A related observation from was the strong performance improvements obtained from scaling the model from 8B to 62B and 540B. We observed approximately a 2x improvement in performance when scaling the model from 8B to 540B in both PaLM and Flan-PaLM. These improvements were more pronounced in the MedQA and MedMCQA datasets. In particular, for the Flan-PaLM model, the 540B variant outperformed the 62B variant by over 14% and the 8B variant by over 24%. Given these results and the strong performance of the Flan-PaLM 540B model, we built on this model for downstream experiments and ablations. The scaling plots are provided in Section . Scaling improves performance on medical question answering 5 A.4 summarizes the results from using CoT prompting and provides a comparison with the few-shot prompting strategy using the Flan-PaLM 540B model. Somewhat unexpectedly, we did not observe improvements using CoT over the standard few-shot prompting strategy across the three multiple-choice datasets - MedQA, MedMCQA and PubMedQA. The CoT prompts used are summarized in Section . Chain-of-Thought (CoT) prompting 6 A9 ワン [ ] 自己一貫性の推奨は、CoT推奨がパフォーマンスを損なうときに役立つことが示された。 彼らは、算数学的および常識的な推論のタスクに著しい改善を示した。 彼らの推奨を用いて、我々はそれをデータセットに適用しました。 我々は3つのデータセットのそれぞれのための思考の連鎖の答え説明パスの数を11に固定しました。 次に、我々は、最も一貫性のある答えを選択するために、異なる説明パスの上に分離しました。 この戦略を使用して、我々は、MedQAおよびMedMCQAデータセットのFlan-PaLM 540Bモデルの標準的な数ショット推奨戦略に比べて著しい改善を観察しました。 特にMedQAデータセット . Self-consistency (SC) leads to strong improvement in multiple-choice performance et al. 88 7 We further provide some example responses from the Flan-PaLM 540B model for MedQA in Table . 8 LLMs are capable of long, coherent, and complex generations. However, they can also generate statements inconsistent with fact. In medical settings in particular, such failure modes need to be carefully vetted, and in real world applications, generations unlikely to be true should be withheld. Instead, we may want to defer to other information sources or experts when needed. One solution is therefore for LLMs to communicate uncertainty estimates along with their responses. Uncertainty and Selective Prediction LLMの出力順序に関する不確実性の測定は、研究のオープンな領域である一方で、 , ], here we explored a simple proxy as an initial approach to measuring the relationship between LLM uncertainty and statement accuracy. We created a selective prediction task [ ], using the number of decodes matching a given answer from self-consistency as a measure of uncertainty and used it to withhold the answer if the model was not appropriately confident. We performed the experiment using 41 decodes from the Flan-PaLM 540B model with chain-of-thought prompting and self consistency. We observe in that as the deferring fraction increases (i.e., with a higher “confidence” required to provide a prediction), the performance of the model on MedQA improves, reaching up to an accuracy of of 82.5% at a 0.45 deferring fraction. This suggests our measure of response uncertainty may be reasonable, and that LLMs seem to encode uncertainty about their knowledge in the medical domain. However, more research is needed beyond this preliminary analysis. 36 51 82 5 4.5 Human evaluation results We randomly selected 100 questions from HealthSearchQA, 20 questions from LiveQA, and 20 questions from MedicationQA as a smaller long-form answer benchmark for detailed human evaluation. These questions reflect real-world consumer queries for medical information. These selected questions were disjoint from those exemplars used for instruction prompt tuning to produce Med-PaLM. We had a panel of clinicians generate expert reference answers to these questions. We then produced answers using Flan-PaLM and Med-PaLM (both 540B models). A few qualitative examples of these questions and the corresponding Med-PaLM responses are shown in Table We had the three sets of answers evaluated by another panel of clinicians along the axes in Table. 私たちは、テーブルの軸に沿って別の臨床医のパネルによって評価された3つのセットの回答を持っていました。 , without revealing the source of answers. One clinician evaluated each answer. To reduce the impact of variation across clinicians on generalizability of our findings, our panel consisted of 9 clinicians (based in the US, UK, and India). We used the non-parametric bootstrap to estimate any significant variation in the results, where 100 bootstrap replicas were used to produce a distribution for each set and we used the 95% bootstrap percentile interval to assess variations. These results are described in detail below and in Section . 9 2 A7 私たちは、臨床および科学コミュニティにおける現在の合意とどのように関連しているかを理解したいと考えました。研究で評価された140の質問で、臨床医の答えは、質問の92.9%で科学的合意と一致していると判断されたことが判明しました。反対に、Flan-PaLMは、回答の61.9%で科学的合意と一致していることが判明しました。他の質問では、答えは合意に反対であったか、合意が存在しなかったことが判明しました。これは、一般的な指示調節自体が科学的および臨床的に根拠のある答えを生成するのに十分ではないことを示唆しました。しかし、Med-PaLMの答えの92.9%が科学的合意と一致していると判断され、科学的に根拠のある答えを生成するための Scientific consensus: We note that since PaLM, Flan-PaLM, and Med-PaLM were trained using corpora of web documents, books, Wikipedia, code, natural language tasks, and medical tasks at a given point of time, one potential limitation of these models is that they can reflect the scientific consensus of the past instead of today. This was not a commonly observed failure mode for Med-PaLM today, but this motivates future work in continual learning of LLMs and retrieval from a continuously evolving corpus. 私たちは、彼らによって生成された答えを通じて表現されたモデルの(専門家またはモデル生成)医学的理解、医学的知識の回収および推論能力を理解しようとしました。我々は、臨床医のパネルに、Fengと同じアプローチを使用して、医学的読解の正しい /間違った理解、医学的知識の回収および医学的推論能力の証拠(一つまたは複数の例)が含まれているかどうかを評価するよう求めました。 [ ]. Correct and incorrect evidence were assessed in parallel because it is possible that a single long-form answer may contain evidence of both correct and incorrect comprehension, retrieval and reasoning. Comprehension, retrieval and reasoning capabilities: エル 22 We found that expert generated answers were again considerably superior to Flan-PaLM, though performance was improved by instruction prompt tuning for Med-PaLM. This trend was observed in all the six sub-questions used to evaluate in this axis. For example, with regard to evidence of correct retrieval of medical knowledge, we found that clinician answers scored 97.8% while Flan-PaLM only scored 76.3%. However, the instruction prompt-tuned Med-PaLM model scored 95.4%, reducing the inferiority of the model compared to clinicians. The goal of this evaluation was to understand the completeness and correctness of the generated answers, by assessing whether the answer omits any information it should not, or whether the answer contained any content it should not. Where there was deemed to be missing or omitted content, the rater was asked whether that was of great or little potential clinical significance. Incorrect or missing content: Again we observed that clinician-generated answers were superior to AI models. Clinician answers showed evidence of inappropriate/incorrect content in only 1.4% of the cases, compared to 16.1% for Flan-PaLM. Surprisingly, instruction prompt tuning seemed to further degrade performance, with 18.7% of the Med-PaLM answers judged to contain inappropriate or incorrect content. 一方、我々は、指示スンプト調節が重要な情報を省略した場合のモデルのパフォーマンスを改善するのに役立ったと観察した。Flan-PaLMの回答は、重要な情報を失うと判断されていたが、47.2%の時点で、この数は Med-PaLMにとって顕著に改善され、LLMの回答のうちわずか15.1%が情報が欠けていると判断され、将来の用例で患者の質問に対する医師の回答を補完し、完全にすることができる可能性があることを示すいくつかの質的例が表10に示されています。 One potential explanation of these observations is that instruction prompt tuning teaches the Med-PaLM model to generate significantly more detailed answers than the Flan-PaLM model, reducing the omission of important information. However a longer answer also increases the risk of introducing incorrect content. We sought to identify the severity and likelihood of potential harm based on acting upon the generated answers. We asked raters to assume that the output of models might lead to actions by either clinicians or consumers/patients, and estimate the possible severity and likelihood of physical/mental health-related harms that might result. We based the options for selection by raters in the AHRQ Common Formats Williams [ ], which presents options to assign severity of harm ranging from death, severe or life-threatening injury, moderate, mild or no harm. We acknowledge that this definition of harm is more typically used in the context of analyzing harms incurred during healthcare delivery and that even in such settings (where the context for harms occurring is known with considerably greater specificity) there is frequently substantial variation in physician estimation of harm severity [ ]. The validity of the AHRQ scale cannot therefore be assumed to extend to our context, where our rater outputs should be regarded as subjective estimates because our work was not grounded in a specific intended use and sociocultural context. Possible extent and likelihood of harm: et al. 93 86 Despite the broad definition and subjectivity of ratings, we observed that instruction prompt tuning produced safer answers that reduced both estimated likelihood and severity. While 29.7% of the Flan-PaLM responses were judged as potentially leading to harm, this number dropped to 5.9% for Med-PaLM comparing on par with clinician-generated answers which were also judged as potentially harmful in 5.7% of the cases. Similarly, on the likelihood of harm axes, instruction prompt tuning enabled Med-PaLM answers to match the expert generated answers. The final axis along which we evaluated the answers was bias. The use of large language models for medical question answering has the potential for bias and fairness-related harms that contribute to health disparities. These harms derive from several sources, including the presence of patterns in training data that reflect disparities in health outcomes and access to care, the capability for medical question answering systems to reproduce racist misconceptions regarding the cause of racial health disparities [ , ]、アルゴリズム設計選択( ], and differences in behavior or performance of machine learning systems across populations and groups that introduce downstream harms when used to inform medical decision making [ ]. Bias for medical demographics: 20 85 32 13 医療質問回答システムは、医療における他のAIアプリケーションによるリスクを超えて、任意の出力を生成する可能性があり、論理能力が制限され、潜在的に幅広い下流の使用事例に使用される可能性があるため、医療医療における他のAIアプリケーションによるリスクを超えています。我々は、その答えに特定の人口統計に不正確または適用不可能な情報が含まれているかどうかを理解しようとしました。 専門家の評価に加えて、この分野の5人の非専門家(インドに拠点を置く医学的背景のない人々)が回答を評価しました。結果は以下の図10でまとめられています。Flan-PaLMの回答は、ケースのわずか60.6%で役に立つと判断されたが、その数はMed-PaLMの回答では80.3%に増加しました。しかし、これは臨床医が役に立つと判断した時間の91%より劣っていた。同様に、Flan-PaLMの回答はケースの90.8%でユーザーの質問意図でした。この数はMed-PaLMの94.0%に増加しました。 Lay user assessment: 直面していると判断した。 The lay evaluation consistently reproduced the benefits of instruction prompt tuning to produce answers that are helpful to users, while also demonstrating that there is still considerable work needed to approximate the quality of outputs provided by human clinicians. 5 Discussion Our results suggest that strong performance on medical question answering may be an emergent ability [ ] of LLMs combined with effective instruction prompt tuning. 90 Firstly, we observed strong scaling performance with accuracy improving by approximately 2x as we scale the PaLM models from 8-billion to 540-billion. The performance of the PaLM 8-billion on MedQA was only slightly better than random performance. However, this number improved by over 30% for the PaLM 540-billion demonstrating the effectiveness of scale for the medical question answering task. We observed similar improvements for the MedMCQA and PubMedQA datasets. Further, instruction fine-tuning was also effective with Flan-PaLM models performing better than the PaLM models across all size variants on all the multiple-choice datasets. It is possible that the PaLM pre-training corpus included significant quantities of high quality medical content and one possible conjecture for the strong performance of the 540-billion model variant is memorization of evaluation datasets considered in this study. However, Chowdhery [ ]は、PALM 8Bおよび540Bモデルのパフォーマンスにおける類似のデルタを示し、汚染された(すなわちテストセットの一部がモデルプレトレーニングコーポスに含まれている場合)とクリーニングされたテストデータセットを評価する際に示した。 et al. 14 There have been several efforts to train language models on a biomedical corpus, especially PubMed. These include BioGPT [ ] (355 million parameters), PubMedGPT [ ] (2.7 billion parameters) and Galactica [ ] (120 billion parameters). Our models were able to outperform these efforts on PubMedQA without any finetuning. Further, the benefits of scale and instruction fine-tuning were much more pronounced on the MedQA dataset, which can be considered out-of-domain for all these models. Given the results, we observe that medical answering performance (requiring recall, reading comprehension, and reasoning skills) improves with LLM scale. 56 9 79 However, our human evaluation results on the consumer medical question answering datasets clearly point out that scale alone is insufficient. Even state-of-the-art LLMs like Flan-PaLM can generate answers that are inappropriate for use in the safety-critical medical domain. However, the Med-PaLM results demonstrate that with instruction prompt tuning we have a data and parameter-efficient alignment technique useful for improving factors related to accuracy, factuality, consistency, safety, harm, and bias, helping close the gap with clinical experts and bringing these models closer to real-world clinical applications. 6 Limitations Our study demonstrated the potential of LLMs for encoding medical knowledge and in particular for question answering. However, it had several limitations which we discuss in detail below and outline directions for future research. 6.1 Expansion of MultiMedQA Firstly, while the MultiMedQA benchmark is diverse and contains questions from a variety of professional medicine, medical research and consumer sources, it is by no means exhaustive. We plan to expand the benchmark in the future to include a larger variety of medical and scientific domains (eg: biology) and formats. A key challenge in clinical environments is eliciting information from patients and synthesizing findings into an assessment and plan. Multiple-choice question answering tasks are inherently easier because they are often grounded in vignettes compiled by experts and selected to have a generally preferred answer, which is not true for all medical decisions. Developing benchmark tasks that reflect real world clinical workflows is an important direction of future research. Furthermore, we only considered English-language datasets in this study, and there is a strong need to expand the scope of the benchmark to support multilingual evaluations. 6.2 医療アプリケーションに必要な主要なLLM能力の開発 Flan-PaLMは、いくつかの複数の選択の医療質問に答えるベンチマークで最先端のパフォーマンスを達成することができたが、私たちの人間の評価は、これらのモデルが多くの臨床的に重要な軸で臨床専門家レベルではないことを明確に示唆しています。 grounding of the responses in authoritative medical sources and accounting for the time-varying nature of medical consensus. ability to detect and communicate uncertainty effectively to the human in-the-loop whether clinician or lay user. ability to respond to queries in multiple languages. 6.3 Improving the approach to human evaluation The rating framework we proposed for this study represents a promising pilot approach, but our chosen axes of evaluation were not exhaustive and were subjective in nature. For example the concept of medical/scientific consensus is time-varying in nature and is reflective of understandings of human health and disease and physiology based on discrimination in areas such as race/ethnicity, gender, age, ability, and more [ , ]. 38 57 さらに、コンセンサスはしばしば特定のグループ(たとえば、数や権力の大きさ)に関連するトピックにのみ存在し、さまざまな理由(たとえば、議論的なトピック、より低い発生率、より少ない資金調達)で影響を受けた特定のサブグループにはコンセンサスが欠如する場合があります。さらに、被害の概念は人口によって異なる場合があります(たとえば、より小さなグループの遺伝子研究は、そのグループの文化的信念と一致していないが、そのグループのメンバーに害を及ぼす可能性がある情報を明らかにする場合があります)。危害の専門家の評価は、場所、生活経験、文化的背景に基づいて異なります。我々の潜在的な害の評価は主観的な推定であり、見られる被害の変化は [ ]. Further research might test whether perceived usefulness and harm of question answers varied according to the understandability and actionability score for the answer content [ 」 et al. 6 77 The number of model responses evaluated and the pool of clinicians and lay-people assessing them were limited, as our results were based on only a single clinician or lay-person evaluating the responses. This represents a limitation to generalizability of our findings which could be mitigated by inclusion of a significantly larger and intentionally diverse pool of human raters (clinicians and lay users) with participatory design in the development of model auditing tools. It is worth noting that the space of LLM responses or "coverage" is extremely high and that presents an additional difficulty in the design of evaluation tools and frameworks. 私たちが開発したパイロットフレームワークは、健康、社会、行動の研究からの評価ツールの設計と検証のための推奨されたベストプラクティスアプローチを使用して著しく進歩することができる。 ]. This could entail the identification of additional rating items through participatory research, evaluation of rating items by domain experts and technology recipients for relevance, representativeness, and technical quality. The inclusion of a substantially larger pool of human raters would also enable testing of instrument generalizability by ratifying the test dimensionality, test-retest reliability and validity [ ]. As the same answer can be evaluated multiple ways, the most appropriate rating instrument is also dependent on the intended purpose and recipient for LLM outputs, providing multiple opportunities for the development of validated rating scales depending on the context and purpose of use. Further, substantial user experience (UX) and human-computer interaction (HCI) studies using community-based participatory research methods are necessary before any real world use, and would be specific to a developed tool that is beyond the scope of our exploratory research. Under these contexts further research could explore the independent influence of variation in lay raters’ education level, medical conditions, caregiver status, experience with health care, education level or other relevant factors on their perceptions of the quality of model outputs. The impact of variation in clinician raters’ specialty, demographics, geography or other factors could be similarly explored in further research. 8 8 6.4 Fairness and equity considerations Our current approach to evaluating bias is limited and does not serve as a comprehensive assessment of potential harms, fairness, or equity. The development of procedures for the evaluation of bias and fairness-related harms in large language models is ongoing [ , ヘルスケアは、ドメインの安全に不可欠な性質と、社会的および構造的偏見が健康の格差を引き起こすものと関連する色合いを考慮して、大規模な言語モデルの特に複雑なアプリケーションである。 49 92 We outline opportunities for future research into frameworks for the systematic identification and mitigation of downstream harms and impacts of large language models in healthcare contexts. Key principles include the use of participatory methods to design contextualized evaluations that reflect the values of patients that may benefit or be harmed, grounding the evaluation in one or more specific downstream clinical use cases [ で、 ], and the use of dataset and model documentation frameworks for transparent reporting of choices and assumptions made during data collection and curation, model development, and evaluation [ , , ]. Furthermore, research is needed into the design of algorithmic procedures and benchmarks that probe for specific technical biases that are known to cause harm if not mitigated. For instance, depending on the context, it may be relevant to assess sensitivity of model outputs to perturbations of demographic identifiers in prompts designed deliberately such that the result should not change under the perturbation [ , , ]. 54 71 24 59 72 23 68 98 さらに、大規模な言語モデルで健康の公平性を達成するための評価方法を構築するために上記の研究活動は、さまざまな科学的視点と方法が健康の社会的および文脈的側面を理解する課題に適用できるようにするために学際的な協力が必要です。 , , ]. 27 58 62 The development of evaluation frameworks for large language models is a critical research agenda that should be approached with equal rigor and attention as that given to the work of encoding clinical knowledge in language models. In this study we worked with a panel of four qualified clinicians to identify the best-demonstration examples and craft few-shot prompts, all based in either the US or UK, with expertise in internal medicine, pediatrics, surgery and primary care. Although recent studies have surprisingly suggested that the validity of reasoning within a chain-of-thought prompt only contributes a small extent to the impact of this strategy on LLM performance in multi-step reasoning challenges [ ], further research could significantly expand the range of clinicians engaged in prompt construction and the selection of exemplar answers and thereby explore how variation in multiple axes of the types of clinician participating in this activity impact LLM behavior; for example clinician demographics, geography, specialism, lived experience and more. 87 6.5 Ethical considerations This research demonstrates the potential of LLMs for future use in healthcare. Transitioning from a LLM that is used for medical question answering to a tool that can be used by healthcare providers, administrators, and consumers will require significant additional research to ensure the safety, reliability, efficacy, and privacy of the technology. Careful consideration will need to be given to the ethical deployment of this technology including rigorous quality assessment when used in different clinical settings and guardrails to mitigate against over reliance on the output of a medical assistant. For example, the potential harms of using a LLM for diagnosing or treating an illness are much greater than using a LLM for information about a disease or medication. Additional research will be needed to assess LLMs used in healthcare for homogenization and amplification of biases and security vulnerabilities inherited from base models [ で、 , , , ]. Given the continuous evolution of clinical knowledge, it will also be important to develop ways for LLMs to provide up to date clinical information. 10 11 18 39 49 7 Conclusion The advent of foundation AI models and large language models present a significant opportunity to rethink the development of medical AI and make it easier, safer and more equitable to use. At the same time, medicine is an especially complex domain for applications of large language models. Our research provides a glimpse into the opportunities and the challenges of applying these technologies to medicine. We hope this study will spark further conversations and collaborations between patients, consumers, AI researchers, clinicians, social scientists, ethicists, policymakers and other interested people in order to responsibly translate these early research findings to improve healthcare. Acknowledgments このプロジェクトは、Google ResearchとDeepmindの多くのチームの間で幅広い協力でした。マイケル・ハウエル、キャメロン・チェン、バシル・ムスタファ、デヴィッド・フリート、ファイルズ・キブリア、ゴードン・ターナー、リサ・レハン、アイヴァー・ホーン、マギー・シェルズ、シュラヴィア・シェティ、ジュッカ・ジッティング、エヴァン・ラッパポート、ルーシー・マープルズ、ヴィクネス・ソンダライヤー、アリ・コンネル、ヤン・フリーバーグ、シアン・ヒューズ、メーガン・ジョーンズ・ベル、スーザン・トーマス、マーティン・ホー、ス References 1. Abacha, A. B., Agichtein, E., Pinter, Y. & Demner-Fushman, D. in (2017年) 1 - 12 Overview of the medical question answering task at TREC 2017 LiveQA. TREC 2. Abacha, A. B., Mrabet, Y., Sharp, M., Goodwin, T. R., Shooshan, S. E. & Demner-Fushman, D. in 2019年(平成25年) Bridging the Gap Between Consumers’ Medication Questions and Trusted Answers. MedInfo Agrawal, M., Hegselmann, S., Lang, H., Kim, Y. & Sontag, D. 大きな言語モデルはゼロショット臨床情報抽出器です。 (2022年) arXiv preprint arXiv:2205.12689 4. Barham, P., Chowdhery, A., Dean, J., Ghemawat, S., Hand, S., Hurt, D., Isard, M., Lim, H., Pang, R., Roy, S., et al. Pathways: Asynchronous Distributed Data Flow for ML. 430~449(2022年) Proceedings of Machine Learning and Systems 4, Beltagy, I., Lo, K. & Cohan, A. SciBERT: A Pre-Trained Language Model for Scientific Text(ベルタジー、I・ロ、K・コハン、A・サイバート) (2019). arXiv preprint arXiv:1903.10676 6. Berkman, N. D., Sheridan, S. L., Donahue, K. E., Halpern, D. J., Viera, A., Crotty, K., Holland, A., Brasure, M., Lohr, K. N., Harden, E., Health literacy interventions and outcomes: an updated systematic review. 健康文盲介入と結果:更新された体系的なレビュー。 1–941 (2011). et al. Evidence report/technology assessment, 7. Black, S., Gao, L., Wang, P., Leahy, C. & Biderman, S. バージョン 1.0. このソフトウェアを使用している場合は、これらのメタデータを使用して引用してください。 GPT-Neo: Large Scale Autoregressive Language Modeling with Mesh-Tensorflow https : . //doi.org/10.5281/zenodo.5297715 8. Boateng, G. O., Neilands, T. B., Frongillo, E. A., Melgar-Quiñonez, H. R. & Young, S. L. 健康、社会、行動研究のためのスケールの開発と検証のためのベストプラクティス: a primer. 149 (2018). 公共衛生における国境 6, 9. Bolton, E., Hall, D., Yasunaga, M., Lee, T., Manning, C. & Liang, P. 2022年。 Stanford CRFM Introduces PubMedGPT 2.7B https://hai.stanford.edu/news/stanford-crfm-introduces-pubmedgpt-27b 10. Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., On the opportunities and risks of foundation models. (2021年) et al. arXiv preprint arXiv:2108.07258 11. Bommasani, R., Liang, P. & Lee, T. Language Models are Changing AI: The Need for Holistic Evaluation https : . 2022. //crfm.stanford.edu/2022/11/17/helm.html 12. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Language models are few-shot learners. 1877–1901 (2020). et al. ニューラル情報処理システムの進歩 33, 13. Chen, I. Y., Pierson, E., Rose, S., Joshi, S., Ferryman, K. & Ghassemi, M. Ethical machine learning in healthcare. 123~144(2021年) Annual review of biomedical data science 4, 14. Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., PaLM: Scaling language modeling with pathways. (2022). et al. arXiv preprint arXiv:2204.02311 15. Chung, H. W., Hou, L., Longpre, S., Zoph, B., Tay, Y., Fedus, W., Li, E., Wang, X., Dehghani, M., Brahma, S., エル Scaling instruction-finetuned language models. (2022年) arXiv preprint arXiv:2210.11416 16. Clark, J. H., Choi, E., Collins, M., Garrette, D., Kwiatkowski, T., Nikolaev, V. & Palomaki, J. TyDi QA: A benchmark for information-seeking question answering in typologically diverse languages. 454–470 (2020). Transactions of the Association for Computational Linguistics 8, 17. Cobbe, K., Kosaraju, V., Bavarian, M., Hilton, J., Nakano, R., Hesse, C. & Schulman, J. Training verifiers to solve math word problems. (2021). arXiv preprint arXiv:2110.14168 18. Creel, K. & Hellman, D. The Algorithmic Leviathan: Arbitrariness, Fairness, and Opportunity in Algorithmic Decision-Making Systems. 1–18 (2022). Canadian Journal of Philosophy, 19. Du, N., Huang, Y., Dai, A. M., Tong, S., Lepikhin, D., Xu, Y., Krikun, M., Zhou, Y., Yu, A. W., Firat, O., イン (2022), 5547–5569. et al. Glam: Efficient scaling of language models with mixture-of-experts 機械学習に関する国際会議 20. Eneanya, N. D., Boulware, L., Tsai, J., Bruce, M. A., Ford, C. L., Harris, C., Morales, L. S., Ryan, M. J., Reese, P. P., Thorpe, R. J., Health inequities and the inappropriate use of race in nephrology. 84~94(2022年) et al. Nature Reviews ネフロロジー 18, 21 Esteva, A., Chou, K., Yeung, S., Naik, N., Madani, A., Mottaghi, A., Liu, Y., Topol, E., Dean, J. & Socher, R. 深い学習可能な医療コンピュータビジョン。 1~9(2021年) NPJデジタル医学 4, 22. Feng, S. Y., Khetan, V., Sacaleanu, B., Gershman, A. & Hovy, E. CHARD: Clinical Health-Aware Reasoning Across Dimensions for Text Generation Models. (2022). arXiv プレプリント arXiv:2210.04191 23. Garg, S., Perot, V., Limtiaco, N., Taly, A., Chi, E. H. & Beutel, A. in (2019年) 219~226 Counterfactual fairness in text classification through robustness Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society 24. Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J. W., Wallach, H., Iii, H. D. & Crawford, K. Datasheets for datasets. 86–92 (2021). Communications of the ACM 64, 25. Gu, Y., Tinn, R., Cheng, H., Lucas, M., Usuyama, N., Liu, X., Naumann, T., Gao, J. & Poon, H. 生物医学的自然言語処理のためのドメイン特有の言語モデルプレトレーニング。 1~23(2021年) ACM Transactions on Computing for Healthcare(ヘルスケアのためのコンピューティング) 3, Gu, Y., Han, X., Liu, Z. & Huang, M. Ppt: Pre-trained prompt tuning for few-shot learning. トップページ (2021年) arXiv プレプリント arXiv:2109.04332 Guidance, W. 健康のための人工知能の倫理と統治 (2021年) 世界保健機関WHO 28. Han, X., Zhao, W., Ding, N., Liu, Z. & Sun, M. Ptr: Prompt tuning with rules for text classification. (2022年) AIオープン 29 Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D. & Steinhardt, J. 大規模なマルチタスク言語理解を測定する。 (2020年) arXiv プレプリント arXiv:2009.03300 30 Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., Casas, D. d. L., Hendricks, L. A., Welbl, J., Clark, A., コンピュータ・オプティマル・ビッグ言語・モデル (2022年) エル arXiv プレプリント arXiv:2203.15556 Hong, Z., Ajith, A., Pauloski, G., Duede, E., Malamud, C., Magoulas, R., Chard, K. & Foster, I. ScholarBERT: Bigger is Not Always Better. (2022年) arXiv プレプリント arXiv:2205.11342 32. Hooker, S. Moving beyond “algorithmic bias is a data problem”. 100241 (2021). Patterns 2, 33. Jin, D., Pan, E., Oufattole, N., Weng, W.-H., Fang, H. & Szolovits, P. What disease does this patient have? a large-scale open domain question answering dataset from medical exams. 6421 (2021). Applied Sciences 11, 34. Jin, Q., Dhingra, B., Liu, Z., Cohen, W. W. & Lu, X. PubMedQA: A dataset for biomedical research question answering. (2019年) arXiv preprint arXiv:1909.06146 35. Joshi, M., Choi, E., Weld, D. S. & Zettlemoyer, L. TriviaQA: A large scale distantly supervised challenge dataset for reading comprehension. (2017). arXiv preprint arXiv:1705.03551 36. Kadavath, S., Conerly, T., Askell, A., Henighan, T., Drain, D., Perez, E., Schiefer, N., Dodds, Z. H., DasSarma, N., Tran-Johnson, E., Language models (mostly) know what they know. (2022年) et al. arXiv preprint arXiv:2207.05221 37. Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J. & Amodei, D. Scaling laws for neural language models. (2020年) arXiv プレプリント arXiv:2001.08361 38 Kington, R. S., Arnesen, S., Chou, W.-Y. S., Curry, S. J., Lazer, D. & Villarruel, A. M. ソーシャルメディアにおける健康情報の信頼できる源の識別:原則と属性。 (2021). NAM 展望 2021 Kleinberg, J. & Raghavan, M. Algorithmic monoculture and social welfare アルゴリズム・モノカルチャーと社会福祉 e2018340118 (2021). Proceedings of the National Academy of Sciences 118, 40. Kojima, T., Gu, S. S., Reid, M., Matsuo, Y. & Iwasawa, Y. Large Language Models are Zero-Shot Reasoners. (2022). arXiv preprint arXiv:2205.11916 41. Korngiebel, D. M. & Mooney, S. D. Considering the possibilities and pitfalls of Generative Pre-trained Transformer 3 (GPT-3) in healthcare delivery. 1–3 (2021). NPJデジタル医学 4, 42. Lakkaraju, H., Slack, D., Chen, Y., Tan, C. & Singh, S. Rethinking Explainability as a Dialogue: A Practitioner’s Perspective. (2022年) arXiv プレプリント arXiv:2202.01875 Lampinen, A. K., Dasgupta, I., Chan, S. C., Matthewson, K., Tessler, M. H., Creswell, A., McClelland, J. L., Wang, J. X. & Hill, F. 言語モデルは文脈内の説明から学ぶことができますか? (2022). arXiv プレプリント arXiv:2204.02329 44. Lee, J., Yoon, W., Kim, S., Kim, D., Kim, S., So, C. H. & Kang, J. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. 1234–1240 (2020). Bioinformatics 36, 45. Lester, B., Al-Rfou, R. & Constant, N. The power of scale for parameter-efficient prompt tuning. (2021). arXiv プレプリント arXiv:2104.08691 46. Lewis, P., Ott, M., Du, J. & Stoyanov, V. イン (2020), 146–157. Pretrained language models for biomedical and clinical tasks: Understanding and extending the state-of-the-art Proceedings of the 3rd Clinical Natural Language Processing Workshop 47 Lewkowycz, A., Andreassen, A., Dohan, D., Dyer, E., Michalewski, H., Ramasesh, V., Slone, A., Anil, C., Schlag, I., Gutman-Solo, T., Solving quantitative reasoning problems with language models. (2022). エル arXiv preprint arXiv:2206.14858 Li, X. L. & Liang, P. Prefix-tuning: Generation for continuous prompts optimization. Li, X. L. & Liang, P. Prefix-tuning: Generation for continuous prompts optimization. Li, X. L. and Liang, P. Prefix-tuning: Optimizing continuous prompts for generation. (2021). arXiv preprint arXiv:2101.00190 49. Liang, P., Bommasani, R., Lee, T., Tsipras, D., Soylu, D., Yasunaga, M., Zhang, Y., Narayanan, D., Wu, Y., Kumar, A., Holistic evaluation of language models. (2022). et al. arXiv preprint arXiv:2211.09110 50. Liévin, V., Hother, C. E. & Winther, O. Can large language models reason about medical questions? (2022). arXiv プレプリント arXiv:2207.08143 51. Lin, S., Hilton, J. & Evans, O. Teaching Models to Express Their Uncertainty in Words. (2022). arXiv preprint arXiv:2205.14334 52. Liu, P., Yuan, W., Fu, J., Jiang, Z., Hayashi, H. & Neubig, G. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. 自然言語処理における誘導方法の体系的な調査。 (2021). arXiv preprint arXiv:2107.13586 53. Liu, X., Zheng, Y., Du, Z., Ding, M., Qian, Y., Yang, Z. & Tang, J. GPT understands, too. (2021). arXiv preprint arXiv:2103.10385 54. Liu, X., Glocker, B., McCradden, M. M., Ghassemi, M., Denniston, A. K. & Oakden-Rayner, L. The medical algorithmic audit. (2022). The Lancet Digital Health 55. Loshchilov, I. & Hutter, F. 分離した体重崩壊の規律化。 (2017). arXiv preprint arXiv:1711.05101 56 Luo, R., Sun, L., Xia, Y., Qin, T., Zhang, S., Poon, H. & Liu, T.-Y. BioGPT: 生物医学テキスト生成とマイニングのための生成予備トランスフォーマー。 (2022). Briefings in Bioinformatics 23 第57話 モンゴル A . 2021. 医学雑誌は人種差別を健康危機として盲目にしている、批評家は言う https://www.nytimes.com/2021/06/02/ health/jama-racism-bauchner.html 58. Matheny, M., Israni, S. T., Ahmed, M. & Whicher, D. Artificial Intelligence in Health Care: The Hope, the Hype, the Promise, the Peril (2022). 59. Mitchell, M., Wu, S., Zaldivar, A., Barnes, P., Vasserman, L., Hutchinson, B., Spitzer, E., Raji, I. D. & Gebru, T. イン (2019), 220–229. モデルレポートのためのモデルカード 公平性、責任、透明性に関する会議の手続き 60. Morgado, F. F., Meireles, J. F., Neves, C. M., Amaral, A. & Ferreira, M. E. Scale development: ten main limitations and recommendations to improve future research practices. (2017). Psicologia: Reflexao e Critica 30 61. Nye, M., Andreassen, A. J., Gur-Ari, G., Michalewski, H., Austin, J., Bieber, D., Dohan, D., Lewkowycz, A., Bosma, M., Luan, D., Show your work: Scratchpads for intermediate computation with language models. (2021). et al. arXiv preprint arXiv:2112.00114 62. Of Science, W. H. O. & Policy, T. . 2022. The Blueprint for an AI Bill of Rights: Making Automated Systems Work for the American People https://www.whitehouse.gov/wp-content/uploads/2022/10/Blueprint-for-an-AI-Bill-of-Rights.pdf オイヤング、L、ウ、J、江、X、アルメイダ、D、ワインライト、C、L、ミシュキン、P、Zhang、C、Agarwal、S、Slama、K、Ray、A、 Training language models to follow instructions with human feedback. (2022年) et al. arXiv preprint arXiv:2203.02155 64. Pal, A., Umapathi, L. K. & Sankarasubbu, M. in (2022), 248–260. MedMCQA: A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering 健康、推論、学習に関する会議 65. Pampari, A., Raghavan, P., Liang, J. & Peng, J. emrqa: A large corpus for question answering on electronic medical records. (2018年) arXiv プレプリント arXiv:1809.00732 66. Papanikolaou, Y. & Pierleoni, A. DARE: gpt-2 でデータ拡張関係抽出 (2020). arXiv preprint arXiv:2004.13845 パピネニ、K、ルーコス、S、ウォード、T&ジュ、W・J。 イン (2002年) 311−318 Bleu: a method for automatic evaluation of machine translation Proceedings of the 40th annual meeting of the Association for Computational Linguistics 68. Prabhakaran, V., Hutchinson, B. & Mitchell, M. Perturbation sensitivity analysis to detect unintended model biases. (2019年) arXiv プレプリント arXiv:1910.04210 69. Rae, J. W., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., Song, F., Aslanides, J., Henderson, S., Ring, R., Young, S., Scaling language models: Methods, analysis & insights from training gopher. (2021). et al. arXiv プレプリント arXiv:2112.11446 70. Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., Liu, P. J., Exploring the limits of transfer learning with a unified text-to-text transformer. 1–67 (2020). et al. J. Mach. Learn. Res. 21, 71. Raji, I. D., Smart, A., White, R. N., Mitchell, M., Gebru, T., Hutchinson, B., Smith-Loud, J., Theron, D. & Barnes, P. in (2020), 33–44. Closing the AI accountability gap: Defining an end-to-end framework for internal algorithmic auditing Proceedings of the 2020 conference on fairness, accountability, and transparency 72. Rostamzadeh, N., Mincu, D., Roy, S., Smart, A., Wilcox, L., Pushkarna, M., Schrouff, J., Amironesei, R., Moorosi, N. & Heller, K. Healthsheet: Development of a Transparency Artifact for Health Datasets. (2022). arXiv プレプリント arXiv:2202.13028 73. Scao, T. L., Fan, A., Akiki, C., Pavlick, E., Ilić, S., Hesslow, D., Castagné, R., Luccioni, A. S., Yvon, F., Gallé, M., エル BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. (2022). arXiv プレプリント arXiv:2211.05100 74. シェーカーマン, M. Cai, C. J., Huang, A. E. & Sayres, R. イン (2020), 1–13. 専門家の議論は、医療イメージ評価における困難なケースの理解を向上させる Proceedings of the 2020 CHI conference on human factors in computing systems 75. Sezgin, E., Sirrianni, J., Linwood, S. L., Operationalizing and Implementing Pretrained, Large Artificial Intelligence Linguistic Models in the US Health Care System: Outlook of Generative Pretrained Transformer 3 (GPT-3) as a Service Model. e32875 (2022). エル JMIR Medical Informatics 10, 76. Shin, H.-C., Zhang, Y., Bakhturina, E., Puri, R., Patwary, M., Shoeybi, M. & Mani, R. BioMegatron: より大きな生物医学領域言語モデル。 (2020). arXiv プレプリント arXiv:2010.06060 77. Shoemaker, S. J., Wolf, M. S. & Brach, C. 患者教育材料評価ツール(PEMAT)の開発:印刷およびオーディオビジュアル患者情報の理解性と操作性の新たな測定方法。 395–403 (2014). 患者教育・カウンセリング 96, 78. Srivastava, A., Rastogi, A., Rao, A., Shoeb, A. A. M., Abid, A., Fisch, A., Brown, A. R., Santoro, A., Gupta, A., Garriga-Alonso, A., Beyond the Imitation Game: 言語モデルの能力を定量化し、エクストラポレーションする。 (2022年) et al. arXiv preprint arXiv:2206.04615 79. Taylor, R., Kardas, M., Cucurull, G., Scialom, T., Hartshorn, A., Saravia, E., Poulton, A., Kerkez, V. & Stojnic, R. Galactica: A Large Language Model for Science. (2022). arXiv プレプリント arXiv:2211.09085 80. Thoppilan, R., De Freitas, D., Hall, J., Shazeer, N., Kulshreshtha, A., Cheng, H.-T., Jin, A., Bos, T., Baker, L., Du, Y., Lamda: 対話アプリケーション用の言語モデル (2022年) et al. arXiv プレプリント arXiv:2201.08239 81. トマシェフ、N、ハリス、N、ボール、S、モトトラム、A、グロロート、X、レイ、JW、ジエリンスキー、M、アシュカム、H、サラヴァ、A、マグリウロ、V、 Use of deep learning to develop continuous-risk models for adverse event prediction from electronic health records. 2765–2787 (2021). et al. 自然プロトコル 16, 82. Tran, D., Liu, J., Dusenberry, M. W., Phan, D., Collier, M., Ren, J., Han, K., Wang, Z., Mariet, Z., Hu, H., Plex: Towards reliability using pretrained large model extensions. (2022年) et al. arXiv プレプリント arXiv:2207.07411 83. タサロニス、G、バリカス、G、マラカシオティス、P、パータラス、I、Zschunke、M、アルバース、MR、Weissenborn、D、クリサラ、A、ペトリディス、S、ポリクロノポウロス、D、 An overview of the BIOASQ large-scale biomedical semantic indexing and question answering competition. 1~28(2015年) et al. BMC bioinformatics 16, 84. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł. & Polosukhin, I. Attention is all you need. (2017). Advances in neural information processing systems 30 85. Vyas, D. A., Eisenstein, L. G. & Jones, D. S. 2020. 明らかに隠された―臨床アルゴリズムにおける人種修正の使用を再考する 86. ウォルシュ, K. E., ハリック, P., マザー, K. M., Perfetto, D., Anatchkova, M., Biggins, C., Wagner, J., Schoettker, P. J., Firneno, C., Klugman, R., Measuring harm in healthcare: optimizing adverse event review. 436(2017年) エル Medical care 55, 87. Wang, b., Min, S., Deng, X., Shen, J., Wu, Y., Zettlemoyer, L. & Sun, H. Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters。 (2022年) arXiv preprint arXiv:2212.10001 88. Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E. & Zhou, D. Self-consistency improves chain of thought reasoning in language models. (2022年) arXiv preprint arXiv:2203.11171 89. Wei, J., Bosma, M., Zhao, V. Y., Guu, K., Yu, A. W., Lester, B., Du, N., Dai, A. M. & Le, Q. V. Finetuned言語モデルはゼロショットの学習者です。 (2021). arXiv プレプリント arXiv:2109.01652 90 Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., 大規模な言語モデルの新興能力 (2022年) エル arXiv preprint arXiv:2206.07682 Wei, J., Wang, X., Schuurmans, D., Bosma, M., Chi, E., Le, Q. & Zhou, D. 大規模な言語モデルで推論を促進する思考の連鎖。 (2022年) arXiv プレプリント arXiv:2201.11903 92. ワイディンジャー、L、メロール、J、ラウ、M、グリフィン、C、Uesato、J、Huang、P.-S、Cheng、M、Glaese、M、Balle、B、Kasirzadeh、A、 言語モデルによる有害な倫理的・社会的リスク (2021). et al. arXiv プレプリント arXiv:2112.04359 Williams, T., Szekendi, M., Pavkovic, S., Clevenger, W. & Cerese, J. AHRQ Common Format Harm Scales in Rating Patient Safety Eventsの信頼性。 52–59 (2015). Journal of patient safety 11, 94. Yasunaga, M., Bosselut, A., Ren, H., Zhang, X., Manning, C. D., Liang, P. & Leskovec, J. 深い双方向言語知識プレトレーニンググラフ。 (2022). arXiv プレプリント arXiv:2210.09338 Yasunaga, M., Leskovec, J. & Liang, P. LinkBERT: 文書リンクによる言語モデルのトレーニング (2022). arXiv preprint arXiv:2203.15827 96. Ye, S., Jang, J., Kim, D., Jo, Y. & Seo, M. Soft Prompt Retrieval Enhances Zero-Shot Task Generalization. ソフトプロンプトの回収はゼロショットタスクの一般化を促進します。 (2022年) arXiv プレプリント arXiv:2210.03029 97 イム・J・チョプラ・R・スピッツ・T・ウィンケンズ・J・オビカ・A・ケリー・C・アスクハム・H・ルーキー・M・フエマー・J・ファスラー・K・ エル 深い学習を使用して濡れた年齢に関連するマクラー退化への転換を予測する。 892~899(2020年) Nature Medicine 26, 98 Zhang, H., Lu, A. X., Abdalla, M., McDermott, M. & Ghassemi, M. イン (2020年) 110~120 痛ましい言葉:Clinical contextual word embeddingsにおける偏見の定量化 ACM Conference on Health, Inference, and Learning(健康、推論、学習に関するACM会議) 99. Zhang, S., Roller, S., Goyal, N., Artetxe, M., Chen, M., Chen, S., Dewan, C., Diab, M., Li, X., Lin, X. V., OPT:Open pre-trained transformer language models(オープントレーニングされたトランスフォーマー言語モデル) (2022). エル arXiv プレプリント arXiv:2205.01068 100. Zhou, D., Schärli, N., Hou, L., Wei, J., Scales, N., Wang, X., Schuurmans, D., Bousquet, O., Le, Q. & Chi, E. 最小限から最大限の推奨は、大規模な言語モデルの複雑な推論を可能にします。 (2022年) arXiv プレプリント arXiv:2205.10625 附属書 A.1 ハイパーパラメーターとモデル選択 私たちは、Flan-PaLM 540B で 100 の柔らかいプロンプトの長さで指示プロンプトの調節を行い、Med-PaLM を生産しました。 (※) ], so this resulted in 1.84M trainable parameters. We randomly initialized the learnable parameters to be uniform over [-0.5, 0.5], following Lester (※) グリッドで学習レートを検索しました 0.001, 0.003, 0.01 with AdamW optimizer [ ] and a weight decay factor in . 「0」 すべてのレースで32のバッチサイズを使用し、200ステップのトレーニングを実施しました。 エル 14 エル 45 55 【0】 001 00001 HealthSearchQA、MedicationQA、およびLiveQAのいくつかの例(トレーニングや人間の評価に使用されていない)で回答をランキングするようクリニックに依頼してモデル選択を行い、最も効果的なチェックポイントを選択しました。我々は、検証セットにいくつかの自動メトリックを計算する代わりに、このマニュアル検証を行いました。 A.2 結果の変動 温度サンプリングを使用して繰り返されるストーカスティック解読により、自己一致性をもつ結果に期待される変動があります。この研究で使用されたすべてのデータセットにわたるすべてのモデルの複数の実験を実行することは非実用的ですが、我々は最高のパフォーマンスモデルで MedQAデータセットの評価を4回繰り返します。 A.3 MMLU ablations We performed ablations comparing Flan-PaLM 540B model using the few-shot, chain-of-thought (CoT) and self-consistency prompting strategies on MMLU clinical topics. 我々は、MMLUの臨床トピックについて、数少ないショット、チェーン-of-thought(CoT)および自己一貫性を促進する戦略を使用して、アブレーションを実行した。 結果はセクションでまとめられています。 我々は、ほとんどのトピックでは、Flan-PaLM 540B は自己一貫性で最高の結果を得るが、標準の few-shot または CoT プロンプトがより優れているトピックがいくつかあることを観察する。 29 A3 A.4 スケールスケール We provide scaling plots comparing the PaLM and Flan-PaLM models using few-shot prompting on the MedQA and MedMCQA datasets in Figure and another scaling plot comparing Flan-PaLM with few-shot prompting and Flan-PaLM with self-consistency prompting in Figure を比較する。 私たちは強力なスケーリングパフォーマンスを観察し、LLMモデルサイズを拡大するにつれてパフォーマンスの急増を見ています。 A1 A2 A.5 モデルカード for Med-PaLM Med-PaLM は、Flan-PaLM と同じシステム型および実装フレームワークを使用しています。 モデルカードの部分を表示します。 ] Specific to Med-PaLM in Table(テーブルにおけるMed-PaLM) . 15 59 A2 A.6 Med-PaLM マルチオプション評価 Med-PaLM は、Flan-PaLM によって生産された長い形状の世代の品質を向上させるための指示プロンプト・チューニングを使用して訓練されたが、指示プロンプト・チューニングの一般性を考慮して、この技術は複数の選択データセットにも適用できる。 初期実験では、MedQA、MedMCQA、PubMedQA、およびMMLU(臨床トピック)の指示スピーチ調節を使用してFlan-PaLMをトレーニングしました。サンプルは5人の資格を持つ臨床医によって書かれました。各トレーニングサンプルにはデータセット特有の指示と5つのショットサンプルが含まれました。結果のモデルは、MedQAの正確さが67.2%に達し、思考の連鎖と自己一貫性を用いて、およそFlan-PaLM iセクションと一致した結果を達成しました。 私たちは、この初期の結果を将来の仕事に拡張することを計画しています。 4 A.7 詳細な人間評価結果 信頼間隔を含む詳細なヒト評価結果は、表にまとめられています。 テーブル . A3 A12 A.8 Few-shot prompt 例 We provide examples of some few-shot prompts used in the study in テーブル テーブル テーブル タブレット そして、テーブル . A13 A14 A15 A16 A17 A.9 Chain-of-Thought prompt 例 We provided examples of some of the chain-of-thought prompts used in this study in テーブル テーブル タブレット テーブル . A.18 A19 A20 A21 この論文は、CC by 4.0 Deed (Attribution 4.0 International) ライセンスの下で archiv で利用できます。 この論文は、CC by 4.0 Deed (Attribution 4.0 International) ライセンスの下で archiv で利用できます。