Forfattere af: Karan Singhal (Google Research, DeepMind) Shekoofeh Azizi (Google Research, DeepMind) Tao Tu (Google Research, DeepMind) S. Sara Mahdavi (Google Research, DeepMind) Jason Wei (Google Research, DeepMind) Hyung Won Chung (Google Research, DeepMind) Nathan Scales (Google Research, DeepMind) Ajay Tanwani (Google Research, DeepMind) Heather Cole-Lewis (Google Research, DeepMind) Stephen Pfohl (Google Research, DeepMind) Perry Payne (Google Research, DeepMind) Martin Seneviratne (Google Research, DeepMind) Paul Gamble (Google Research, DeepMind) Chris Kelly (Google Research, DeepMind) Nathaneal Schärli (Google Research, DeepMind) Aakanksha Chowdhery (Google Research, DeepMind) Philip Mansfield (Google Research, DeepMind) Blaise Agüera y Arcas (Google Research, DeepMind) Dale Webster (Google Research, DeepMind) Greg S. Corrado (Google Research, DeepMind) Yossi Matias (Google Research, DeepMind) Katherine Chou (Google Research, DeepMind) Juraj Gottweis (Google Research, DeepMind) Nenad Tomasev (Google Research, DeepMind) Yun Liu (Google Research, DeepMind) Alvin Rajkomar (Google Research, DeepMind) Joelle Barral (Google Research, DeepMind) Christopher Semturs (Google Research, DeepMind) Alan Karthikesalingam (Google Research, DeepMind) Vivek Natarajan (Google Research, DeepMind Forfattere af: Karan Singhal (Google Research og DeepMind) Shekoofeh Azizi (Google Research og DeepMind) Tao Tu (Google Research og DeepMind) Sara Mahdavi (Google Research og DeepMind) Jason Wei (Google Research og DeepMind) Hyung Won Chung (Google Research og DeepMind) Nathan Scales (Google Research og DeepMind) Ajay Tanwani (Google Research og DeepMind) Heather Cole-Lewis (Google Research og DeepMind) Stephen Pfohl (Google Research og DeepMind) Perry Payne (Google Research og DeepMind) Martin Seneviratne (Google Research og DeepMind) Paul Gamble (Google Research og DeepMind) Chris Kelly (Google Research og DeepMind) Nathaneal Schärli (Google Research og DeepMind) Aakanksha Chowdhery (Google Research og DeepMind) Philip Mansfield (Google Research og DeepMind) Blaise Agüera y Arcas (Google Research, DeepMind) Dale Webster (Google Research og DeepMind) Greg S. Corrado (Google Research og DeepMind) Yossi Matias (Google Research og DeepMind) Katherine Chou (Google Research og DeepMind) Juraj Gottweis (Google Research og DeepMind) Nenad Tomasev (Google Research og DeepMind) Yun Liu (Google Research og DeepMind) Alvin Rajkomar (Google Research og DeepMind) Joelle Barral (Google Research og DeepMind) Christopher Semturs (Google Research og DeepMind) Alan Karthikesalingam (Google Research og DeepMind) Vivek Natarajan (Google Research og DeepMind) Store sprogmodeller (LLM'er) har vist imponerende evner i naturlige sprogforståelse og -generering, men kvalitetssiden for medicinske og kliniske applikationer er høj. I dag er forsøg på at vurdere modellernes kliniske viden typisk baseret på automatiserede evalueringer på begrænsede benchmarks. Der er ingen standard til at vurdere modelforudsigelser og begrundelse på tværs af en bred vifte af opgaver. For at imødegå dette præsenterer vi MultiMedQA, en benchmark, der kombinerer seks eksisterende åbne spørgsmålssvarssæt, der spænder over professionelle medicinske eksamener, forskning og forbrugerforespørgsler; og HealthSearchQA, en ny gratis datasæt af medicinske spørgsmål, der søges online. Derudover evaluerer vi PaLM (en 540 milliarder parameter LLM) og dens instruktionsjusterede variant, Flan-PaLM, på MultiMedQA. Ved hjælp af en kombination af tilskyndelsesstrategier opnår Flan-PaLM state-of-the-art nøjagtighed på hvert MultiMedQA multi-choice datasæt (MedQA, MedMCQA, PubMedQA, MMLU kliniske emner), herunder 67,6% nøjagtighed på MedQA (US Medical License Exam Questions), der overgår tidligere state-of-the-art med over 17%. Imidlertid afslører menneskelig evaluering nøglehuller i Flan-PaLM-responser. For at løse dette introducerer vi instruktion prompt tuning, en parameter-effektiv tilgang Vi viser, at forståelse, tilbagekaldelse af viden og medicinsk begrundelse forbedres med model skala og instruktion prompt tuning, hvilket tyder på den potentielle nytte af LLMs i medicin Dette papir er Under CC by 4.0 Deed (Attribution 4.0 International) licens. available on arxiv Tilgængelig i arkivet Vores menneskelige evalueringer afslører vigtige begrænsninger af nutidens modeller, hvilket forstærker betydningen af både evalueringsrammer og metodeudvikling i at skabe sikre, nyttige LLM-modeller til kliniske applikationer. 1 Introduktion Medicin er en human indsats, hvor sprog muliggør nøgleinteraktioner for og mellem læger, forskere og patienter. Men nutidens AI-modeller til applikationer i medicin og sundhedspleje har stort set undladt at udnytte sproget fuldt ud. , der , der Som et resultat er der en uoverensstemmelse mellem, hvad nutidens modeller kan gøre, og hvad der kan forventes af dem i virkelige kliniske arbejdsprocesser. , der Det er 21 81 97 42 74 De seneste fremskridt inden for store sprogmodeller (LLM'er) giver mulighed for at genoverveje AI-systemer med sprog som værktøj til at formidle menneske-AI-interaktion. Disse udtryksfulde og interaktive modeller tilbyder stort løfte i deres evne til at lære generelt nyttige repræsentationer fra den viden, der er kodet i medicinsk korpora, på skala. 10 Men domænets sikkerhedskritiske karakter kræver omhyggelig udvikling af evalueringsrammer, der gør det muligt for forskere at måle fremskridt meningsfuldt og indfange og mindske potentielle skader. Dette er især vigtigt for LLM'er, da disse modeller kan producere generationer, der ikke er i overensstemmelse med kliniske og samfundsmæssige værdier. For at vurdere, hvor godt LLM'er koder klinisk viden og vurderer deres potentiale i medicin, overvejer vi medicinsk spørgsmålssvar. Denne opgave er udfordrende: At give højkvalitets svar på medicinske spørgsmål kræver forståelse af medicinsk kontekst, tilbagekaldelse af passende medicinsk viden og begrundelse med ekspertinformation. ] er ofte begrænset til at vurdere klassificering nøjagtighed eller automatiseret naturlig sprog generation metrikker (f.eks, BLEU [ Dette skaber et uopfyldt behov for et bredt medicinsk spørgsmål besvarende benchmark for at vurdere LLM's respons faktualitet, brug af ekspertviden i medicinsk og videnskabelig begrundelse, hjælpsomhed, præcision, sundhedsmæssig retfærdighed og potentiel skade på mennesker, der accepterer modelprodukter som fakta. 33 67 For at løse dette, kurerer vi MultiMedQA, et benchmark bestående af syv medicinske spørgsmål besvarende datasæt, herunder seks eksisterende datasæt: MedQA [ ], MedMCQA [ ], PubMedQa [ Det er livskvalitet [ ] Medicinsk udstyr [ ], og MMLU kliniske emner [ Vi introducerer for nylig det syvende datasæt, HealthSearchQA, som består af almindeligt søgte sundhedsspørgsmål. 33 64 34 1 2 29 For at vurdere LLMs ved hjælp af MultiMedQA bygger vi på PaLM, en 540 milliarder parameter LLM [ ], og dens instruktionsjusterede variant Flan-PaLM [ ]. Brug af en kombination af få-shot [ ], kæde af tænkning (CoT) [ ] og selvkonsistens [ Flan-PaLM opnår state-of-the-art (SOTA) ydeevne på MedQA, MedMCQA, PubMedQA og MMLU kliniske emner, ofte overstiger flere stærke LLM baseline med en betydelig margin. 14 15 12 91 88 På trods af Flan-PaLM’s stærke præstation på spørgsmål med flere valgmuligheder afslører dets svar på forbrugermedicinske spørgsmål nøglehuller. For at løse dette foreslår vi instruktionsprøvejustering, en data- og parametereffektiv tilpasningsteknik, for yderligere at tilpasse Flan-PaLM til det medicinske område. Den resulterende model, Med-PaLM, fungerer opmuntrende på akserne i vores pilotramme for menneskelig evaluering. For eksempel vurderede et panel af klinikere, at kun 61,9 % af Flan-PaLM’s langtidsformede svar var i overensstemmelse med videnskabelig konsensus, sammenlignet med 92,6 % for Med-PaLM’s svar, sammenlignet med kliniske svar (92,9 %). Mens disse resultater er lovende, er det medicinske område komplekst. Yderligere evalueringer er nødvendige, især i dimensionerne fairness, fairness og bias.Vores arbejde viser, at mange begrænsninger skal overvindes, før sådanne modeller bliver levedygtige til brug i kliniske applikationer. Vores vigtigste bidrag er opsummeret nedenfor: Tilgange til evaluering af LLM'er i medicinsk spørgsmål besvarelse - af Vi præsenterer dette datasæt sammen med seks andre eksisterende åbne datasæt til medicinsk spørgsmål besvarelse, spænder medicinsk eksamen, medicinsk forskning, og forbruger medicinske spørgsmål, som en forskelligartet benchmark for at vurdere den kliniske viden og spørgsmål besvarelse evner af LLMs (se afsnit ) af Curation of HealthSearchQA and MultiMedQA 3.1 - af Vi pilot en ramme for læge- og brugeranalyse for at vurdere flere akser af LLM-præstation ud over nøjagtighed på datasæt med flere valgmuligheder. Vores evaluering vurderer svar for overensstemmelse med videnskabelig og klinisk konsensus, sandsynlighed og mulig omfang af skade, læsning forståelse, tilbagekaldelse af relevant klinisk viden, manipulation af viden via gyldig begrundelse, fuldstændighed af svar, potentiale for bias, relevans og hjælpsomhed (se afsnit ) af Pilot framework for human evaluation 3.2 På MedQA, MedMCQA, PubMedQA og MMLU kliniske emner datasæt, FLAN-PaLM opnår SOTA ydeevne via en kombination af tilskyndende strategier, overgår flere stærke LLM baseline. Instruction prompt tuning til at tilpasse LLM'er til det medicinske domæne Vi introducerer instruktion prompt tuning, en simpel, data- og parameter-effektiv teknik til at tilpasse LLM'er til det sikkerhedskritiske medicinske domæne (se afsnit 3.3.3). Vi udnytter dette til at opbygge Med-PaLM, en instruktion prompt-tuned version af Flan-PaLM specialiseret i det medicinske domæne. Vores menneskelige evalueringsramme afslører begrænsninger af Flan-PaLM i videnskabelig jordning, skade og bias. Nøglebegrænsninger af LLM'er afsløret gennem vores menneskelige evaluering Mens vores resultater demonstrerer potentialet for LLM'er i medicin, foreslår de også flere kritiske forbedringer er nødvendige for at gøre disse modeller levedygtige for virkelige kliniske applikationer. 2 Relateret arbejde I løbet af de sidste par år har LLM'er vist imponerende præstationer på naturlige sprogbehandling (NLP) opgaver [ , der , der , der , der , der , der , der , der , der De skylder deres succes til at opskalere uddannelsen af transformatorbaserede modeller [ ].Det er blevet vist, at model ydeevne og data-effektivitet skalaer med model størrelse og datasæt størrelse [ ]. LLM'er er ofte uddannet ved hjælp af selvovervågning i stor skala, ved hjælp af generelle tekst corpi såsom Wikipedia og BooksCorpus. De har vist lovende resultater på tværs af en bred vifte af opgaver, herunder opgaver, der kræver specialiseret videnskabelig viden og ræsonnement [ , der ]. Måske det mest interessante aspekt af disse LLM'er er deres kontekstuelle færdigheder, der tilpasser disse modeller til forskellige opgaver uden gradientbaserede parameteropdateringer [ , der , der , der Dette giver dem mulighed for hurtigt at generalisere til usynlige opgaver og endda udvise tilsyneladende begrundelsesevner med passende tilskyndelsesstrategier [ , der , der , der Det er Large language models (LLMs) 12 14 15 30 69 70 73 89 91 99 84 37 17 29 12 40 43 89 14 47 79 91 Flere undersøgelser har vist, at LLM'er har evnen til at fungere som implicitte videnbaser [ , der , der ]. Der er imidlertid en betydelig risiko for, at disse modeller producerer hallucinationer, forstærker sociale fordomme til stede i deres træningsdata og viser mangler i deres begrundelsesevner. For at undersøge de nuværende begrænsninger af LLM'er og for at kvantificere den store kløft mellem menneskelige og LLM-sprogskapaciteter blev BIG-bench introduceret som et fællesskabsomfattende initiativ til at benchmark på opgaver, der på tidspunktet for offentliggørelsen ansås for at være ud over mulighederne for nuværende sprogmodeller [ Det er 29 35 79 78 Nylige undersøgelser, såsom SciBERT [ ] , BioNLP [ ], BioMegatron [ ) af Biobert [ ], PubMedBERT [ og tør [ ] ], ScholarBERT [ ] og BioGPT [ ], har vist effektiviteten af at bruge kureret videnskabelig og biomedicinsk corpora til både diskriminerende og generativ sprogmodellering. Disse modeller, selvom lovende, er typisk små i skala og omfang sammenlignet med LLMs som GPT-3 [ [ ] og Palme [ Mens det medicinske område er udfordrende, har specifikke forslag til LLM'er allerede inkluderet eksempler så varierede som at øge ikke-kritiske kliniske vurderinger til opsummering af komplekse medicinske kommunikationer [ , der , der Det er LLMs for science and biomedicine 5 46 76 44 25 66 31 56 12 14 3 41 75 De nærmeste præcedenter til vores arbejde er Taylor [ er ], som introducerede en LLM for videnskab kaldet Galactica, og Liévin [ er ], som studerede LLMs begrundelsesevne i den medicinske spørgsmålssvarende kontekst. [ er ] brugt Instruct GPT-3, en instruktion-tilpasset LLM [ [ ] og anvendt kæde-of-thought fremkalde [ ] på toppen for at forbedre resultaterne på MedQA, MedMCQA og PubMedQA datasæt. og Al. 79 og Al. 50 og Al. 50 63 91 3 Metoder Her beskriver vi i detaljer: Datasæt: MultiMedQA benchmark for vurdering af LLMs i medicinsk spørgsmålssvar. Ramme for menneskelig evaluering: en ratingramme til evaluering af kliniske (og kliniske) svar fra klinikere og lekfolk. Modellering: Store sprogmodeller (LLM'er) og de metoder, der anvendes til at tilpasse dem til kravene i det medicinske område i denne undersøgelse. 3.1 Datasæt For at vurdere potentialet for LLM'er i medicin fokuserede vi på at besvare medicinske spørgsmål. At besvare medicinske spørgsmål kræver læseforståelsesfærdigheder, evnen til nøjagtigt at huske medicinsk viden og manipulation af ekspertviden. Der er flere eksisterende medicinske spørgsmål svarende datasæt til forskning. Disse omfatter datasæt, der vurderer professionel medicinsk viden såsom medicinske eksamensspørgsmål [ , der ], spørgsmål, der kræver medicinsk forskning forståelse færdigheder [ ], og spørgsmål, der kræver evnen til at vurdere brugerens hensigt og give nyttige svar på deres medicinske informationsbehov [ , der Det er 33 64 34 1 2 Vi anerkender, at medicinsk viden er omfattende i både kvantitet og kvalitet. Eksisterende benchmarks er iboende begrænsede og kun giver delvis dækning af området for medicinsk viden. Men at samle en række forskellige datasæt til medicinsk spørgsmål besvarelse muliggør en dybere evaluering af LLM viden end multi-choice nøjagtighed eller naturlige sproggenerering metrikker som BLEU. De datasæt, vi grupperede sammen, undersøge forskellige evner - nogle er multi-choice spørgsmål, mens andre kræver lange form svar; nogle er åbne domæner (hvor spørgsmål besvares uden at begrænse tilgængelige oplysninger til en foruddefineret kilde) mens andre er lukket domæne (hvor spørgsmål besvares ved at hente indhold fra associeret referencetekst) og kommer fra forskellige kilder. ] for en omfattende sammenfatning af medicinske spørgsmål besvarelse datasæt. 33 3.1.1 MultiMedQA - et benchmark for svar på medicinske spørgsmål MultiMedQA omfatter datasæt, der besvarer spørgsmål med flere valgmuligheder, datasæt, der kræver længerevarende svar på spørgsmål fra medicinske fagfolk, og datasæt, der kræver længerevarende svar på spørgsmål, der kan stilles af ikke-fagfolk. ], MedMCQA [ ], PubMedQa [ Det er livskvalitet [ ] Medicinsk udstyr [ ] og MMLU kliniske emner [ Vi har yderligere udvidet MultiMedQA med et nyt datasæt af kurerede almindeligt søgte sundhedsforespørgsler: HealthSearchQA. Alle datasæt er på engelsk, og vi beskriver dem i detaljer nedenfor. 33 64 34 1 2 29 Disse datasæt varierer langs følgende akser: Formater: Multiple-choice vs. langform svar spørgsmål Evner testet: f.eks. vurdering af tilbagekaldelse af medicinske fakta i isolation vs. vurdering af medicinske begrundelsesevner ud over tilbagekaldelse af fakta Domæne: åben domæne vs. lukket domæne Spørgsmålskilde: fra professionelle medicinske eksamener, medicinsk forskning eller forbrugere, der søger medicinsk information Etiketter og metadata: tilstedeværelse af etiketter eller forklaringer og deres kilder Mens MedMCQA, PubMedQA, LiveQA og MedicationQA giver reference langforms svar eller forklaringer, bruger vi dem ikke i dette arbejde. For det første kommer reference svarene ikke fra ensartede kilder på tværs af de forskellige datasæt. Svarene kommer ofte fra automatiserede værktøjer eller ikke-klinikere som bibliotekarer. Konstruktionen af reference svar og forklaringer i disse banebrydende datasæt var ikke optimeret til holistiske eller omfattende vurderinger af langsvarskvalitet, hvilket gør dem suboptimale til brug som en "jordisk sandhed", mod hvilken man kan vurdere LLM'er ved hjælp af automatiserede sprogmetoder som BLEU. For at lette dette, som diskuteret i afsnittet For det andet, i betragtning af de sikkerhedskritiske krav i det medicinske område, mener vi, at det er vigtigt at gå ud over automatiserede målinger af langforms svargenereringskvalitet ved hjælp af målinger som BLEU til dem, der involverer mere nuancerede menneskelige evalueringsrammer som den, der foreslås i denne undersøgelse. 4.5 Datasæt MedQA [ ] består af US Medical License Exam (USMLE) stil spørgsmål, som blev opnået med et valg af 4 eller 5 mulige svar fra National Medical Board Examination i USA. MedQA (USMLE) 33 MedMCQA datasæt består af mere end 194k 4-option multi-choice spørgsmål fra indiske medicinske indgang eksamener (AIIMS/NEET) [ ].Dette datasæt dækker 2.4k sundhedspleje emner og 21 medicinske emner. MedMCQA 64 Datasæt af PubMedQA [ ] består af 1k ekspertmærkede spørgsmålssvarspar, hvor opgaven er at producere et ja/nej/måske multi-choice svar givet et spørgsmål sammen med et PubMed abstrakt som kontekst. PubMedQA 34 Måling af massiv multitask sprogforståelse (MMLU) Vi har valgt de underopgaver, der er mest relevante for medicinsk viden: "anatomi", "klinisk viden", "kollegium medicin", "medicinsk genetik", "professionel medicin" og "kollegium biologi". MMLU 29 Datasæt af LiveQA [ ] was curated as part of the Text Retrieval Challenge (TREC) 2017. The dataset consists of medical questions submitted by people to the National Library of Medicine (NLM). The dataset also consists of manually collected reference answers from trusted sources such as the National Institute of Health (NIH) website. LiveQA 1 The MedicationQA dataset [ ] består af almindeligt stillede forbrugerspørgsmål om lægemidler. Ud over spørgsmålet indeholder datasættet annotationer, der svarer til lægemiddelfokus og interaktioner. Ligesom LiveQA evaluerer vi modellernes evne til at producere lange form svar på spørgsmålene i testsættet. MedicationQA 2 Vi kurerede vores eget ekstra datasæt bestående af 3375 almindeligt søgte forbrugerspørgsmål, benævnt "HealthSearchQA". Datasættet blev kureret ved hjælp af frø medicinske tilstande og deres tilhørende symptomer. Vi brugte frø data til at hente offentligt tilgængelige almindeligt søgte spørgsmål genereret af en søgemaskine, som blev vist til alle brugere, der indtastede frø termer. Vi offentliggør datasættet som et åbent benchmark for forbruger medicinske spørgsmål besvarelse og håber dette vil være en nyttig ressource for samfundet, som et datasæt, der afspejler den virkelige verden forbruger bekymringer. HealthSearchQA While MultiMedQA allows us to probe the medical question answering capabilities of LLMs along multiple axes, we acknowledge that it is not exhaustive. We plan to expand the benchmark to other relevant datasets, such as those probing question answering ability from electronic medical records [ ] or those requiring pre-clinical biomedical knowledge [ ], in future work. 65 83 3.2 Rammer for menneskelig evaluering Here we describe our proposed framework for human evaluation of long-form answers to medical questions. 3.2.1 Clinician evaluation Mens objektive nøjagtighedsmålinger på multiple-choice-spørgsmål er et robust mål for modelpræstationer, udelader de flere vigtige detaljer.For mere dybtgående at vurdere de generative outputs af LLM'er i åbne spørgsmål svarende på medicinske emner, har vi udviklet en pilotramme for menneskelig evaluering af long-form model svar på forbrugermedicinske spørgsmål i LiveQA, MedicationQA og HealthSearchQA datasæt. Dette omfatter aftale med videnskabelig konsensus, mulighed for og sandsynlighed for skade, bevis for forståelse, begrundelse og indhentningsevne, tilstedeværelse af upassende, ukorrekt eller manglende indhold og mulighed for bias i svaret. Table 2 Task Axis Question 1 Scientific consensus How does the answer relate to the consensus in the scientific andclinical community? 2 Extent of possible harm What is the extent of possible harm? 3 Likelihood of possible harm What is the likelihood of possible harm? 4 Evidence of correct comprehension Does the answer contain any evidence of correct reading compre-hension? (indication the question has been understood) 5 Evidence of correct retrieval Does the answer contain any evidence of correct recall of knowl-edge? (mention of a relevant and/or correct fact for answering the question) 6 Evidence of correct reasoning Does the answer contain any evidence of correct reasoning steps?(correct rationale for answering the question) 7 Evidence of incorrect comprehension Does the answer contain any evidence of incorrect reading com-prehension? (indication the question has not been understood) 8 Evidence of incorrect retrieval Does the answer contain any evidence of incorrect recall of knowl-edge? (mention of an irrelevant and/or incorrect fact for answering the question) 9 Evidence of incorrect reasoning Does the answer contain any evidence of incorrect reasoning steps?(incorrect rationale for answering the question) 10 Inappropriate/incorrect content Does the answer contain any content it shouldn’t? 11 Missing content Does the answer omit any content it shouldn’t? 12 Possibility of bias Does the answer contain any information that is inapplicable or inaccurate for any particular medical demographic? 1 Videnskabelig konsensus Hvordan er svaret relateret til konsensus i det videnskabelige og kliniske samfund? 2 Extent of possible harm What is the extent of possible harm? 3 Sandsynligheden for mulig skade What is the likelihood of possible harm? 4 Evidence of correct comprehension Does the answer contain any evidence of correct reading compre-hension? (indication the question has been understood) 5 Bevis for korrekt tilbagetagelse Does the answer contain any evidence of correct recall of knowl-edge? (mention of a relevant and/or correct fact for answering the question) 6 Bevis for korrekt ræsonnement Does the answer contain any evidence of correct reasoning steps?(correct rationale for answering the question) 7 Evidence of incorrect comprehension Does the answer contain any evidence of incorrect reading com-prehension? (indication the question has not been understood) 8 Evidence of incorrect retrieval Does the answer contain any evidence of incorrect recall of knowl-edge? (mention of an irrelevant and/or incorrect fact for answering the question) 9 Evidence of incorrect reasoning Indeholder svaret bevis for forkerte begrundelsesforanstaltninger? (forkerte begrundelser for at besvare spørgsmålet) 10 Inappropriate/incorrect content Does the answer contain any content it shouldn’t? 11 Manglende indhold Udelader svaret noget indhold, det ikke bør? 12 Mulighed for bias Indeholder svaret oplysninger, der er upassende eller unøjagtige for en bestemt medicinsk demografi? The pilot framework was inspired by approaches published in a similar domain by Feng [ ] to examine the strengths and weaknesses of LLM generations in clinical settings. We used focus groups and interviews with clinicians based in the UK, US and India to identify additional axes of evaluation [ ] and expanded the framework items to address notions of agreement with scientific consensus, possibility and likelihood of harm, completeness and missingness of answers and possibility of bias. Alignment with scientific consensus was measured by asking raters whether the output of the model was aligned with a prevailing scientific consensus (for example in the form of well-accepted clinical practice guidelines), opposed to a scientific consensus; or whether no clear scientific consensus exists regarding the question. Harm is a complex concept that can be evaluated along several dimensions (e.g. physical health, mental health, moral, financial and many others). When answering this question, raters were asked to focus solely on physical/mental health-related harms, and evaluated both severity (in a format inspired by the AHRQ common formats for harm [ ]) and likelihood, under the assumption that a consumer or physician based on the content of the answer might take actions. Bias was assessed broadly by raters considering if the answer contained information that would be inapplicable or inaccurate to a specific patient demographic. The questions asked in the evaluation are summarized in Table et al. 22 60 93 2 Our framework items’ form, wording and response-scale points were refined by undertaking further interviews with triplicate assessments of 25 question-answer tuples per dataset by three qualified clinicians. Instructions for the clinicians were written including indicative examples of ratings for questions, and iterated until the clinicians’ rating approaches converged to indicate the instructions were usable. Once the guidelines had converged a larger set of question-answer tuples from the consumer medical questions datasets were evaluated by single-ratings performed by one of nine clinicians based in the UK, USA or India and qualified for practice in their respective countries, with specialist experience including pediatrics, surgery, internal medicine and primary care. Sammendrag af de forskellige akser, hvorpå brugerne evaluerer anvendeligheden af svar i vores forbrugermedicinske spørgsmålssvardatasæt.Vi bruger et pool af 5 ikke-ekspert brugere til at evaluere kvaliteten af modellen og menneskeskabte svar langs disse akser. Table 3 Task Axis Question 1 Answer captures user intent How well does the answer address the intent of the question? 2 Helpfulness of the answer How helpful is this answer to the user? (for example, does it enable them to draw a conclusion or help clarify next steps?) 1 Answer captures user intent Hvor godt svarer svaret på spørgsmålets hensigt? 2 Nyttigheden af svaret Hvor nyttigt er dette svar for brugeren? (for eksempel, gør det det muligt for dem at drage en konklusion eller hjælpe med at afklare de næste trin?) 3.2.2 Lay user (non-expert) evaluation For at vurdere hjælpsomheden og nytteværdien af svarene på de forbrugermedicinske spørgsmål foretog vi en yderligere brugeranalyse (ikke-ekspert). Dette blev udført af fem bedømmere uden medicinsk baggrund, som alle var baseret i Indien. Formålet med denne øvelse var at vurdere, hvor godt svaret adresserede den opfattede hensigt, der ligger til grund for spørgsmålet, og hvor nyttigt og handlingsbart det var. 3 3.3 Modeling In this section, we detail large language models (LLMs) and the techniques used to align them with the requirements of the medical domain. 3.3.1 Models We build on the PaLM and Flan-PaLM family of LLMs in this study. Pathways Language Model (PaLM), introduced by [ ] er en tæt aktiveret dekoder-kun transformer sprogmodel trænet ved hjælp af Pathways [ ], et stort ML accelerator orkestreringssystem, der muliggør meget effektiv træning på tværs af TPU pods. Den PaLM træning corpus består af 780 milliarder tokens repræsenterer en blanding af websider, Wikipedia artikler, kildekode, sociale medier samtaler, nyheder artikler og bøger. , , ] for more details on the training corpus. At the time of release, PaLM 540B achieved breakthrough performance, outperforming fine tuned state of the art models on a suite of multi-step reasoning tasks and exceeding average human performance on BIG-bench [ , der Det er PaLM 14 4 14 19 80 14 78 In addition to the baseline PaLM models, we also considered the instruction-tuned counterpart introduced by [ ]. Disse modeller trænes ved hjælp af instruktionstuning, dvs. finetuning modellen på en samling af datasæt, hvor hvert eksempel er præfixeret med en kombination af instruktioner og/eller få-shot eksemplarer. [ ] demonstrerede effektiviteten af at skalere antallet af opgaver, modelstørrelse og ved hjælp af tankekæden data [ ] as instructions. The Flan-PaLM model reached state of the art performance on several benchmarks such as MMLU, BBH, and TyDIQA [ På tværs af de evalueringsopgaver, der er overvejet i [ ], Flan-PaLM outperformed baseline PaLM by an average of 9.4%, demonstrating the effectiveness of the instruction tuning approach. Flan-PaLM 15 og Al. 15 91 16 15 In this study we considered both the PaLM and Flan-PaLM model variants at three different model sizes: 8B, 62B and 540B, with the largest model using 6144 TPUv4 chips for pretraining. 3.3.2 Aligning LLMs to the medical domain General-purpose LLMs like PaLM [ ] and GPT-3 [ ] have reached state of the art performance on a wide variety of tasks on challenging benchmarks such as BIG-bench. However, given the safety critical nature of the medical domain, it is necessary to adapt and align the model with domain-specific data. Typical transfer learning and domain adaptation methods rely on end-to-end finetuning of the model with large amounts of in-domain data, an approach that is challenging here given the paucity of medical data. As such, in this study we focused on data-efficient alignment strategies building on prompting [ ] and prompt tuning [ Det er 14 12 12 45 Brown [ ] demonstrated that LLMs are strong few-shot learners, where fast in-context learning can be achieved through prompting strategies. Through a handful of demonstration examples encoded as prompt text in the input context, these models are able to generalize to new examples and new tasks without any gradient updates or finetuning. The remarkable success of in-context few-shot learning has spurred the development of many prompting strategies including scratchpad [ ], chain-of-thought [ ], and least-to-most prompting [ ], især for multi-trins beregning og ræsonnement problemer såsom matematiske problemer [ ]. In this study we focused on standard few-shot, chain-of-thought and self-consistency prompting as discussed below. Prompting strategies et al. 12 61 91 100 17 The standard few-shot prompting strategy was introduced by Brown [ er ]. Her er opfordringen til modellen designet til at indeholde få-shot eksempler, der beskriver opgaven gennem tekstbaserede demonstrationer. Disse demonstrationer er typisk kodet som input-output-par. Antallet af eksempler er typisk valgt afhængigt af antallet af tokens, der kan passe ind i input-kontekstvinduet i modellen. Efter opfordringen leveres modellen med en input og anmodes om at generere testtidsprognosen. [ er ] observed that while zero-shot prompting scaled modestly with model size, performance with few-shot prompting increased more rapidly. Further, Wei [ ] observed emergent abilities– that is, abilities which are non-existent in small models but rapidly improve above random performance beyond a certain model size in the prompting paradigm. Few-shot prompting et al. 12 et al. 12 og Al. 90 In this study we worked with a panel of qualified clinicians to identify the best demonstration examples and craft the few-shot prompts. Separate prompts were designed for each dataset as detailed in Section . The number of few-shot demonstrations varied depending on the dataset. Typically we used 5 input-output examples for the consumer medical question answering datasets, but reduced the number to 3 or fewer for PubMedQA given the need to also fit in the abstract context within the prompt text. A.8 Chain-of-thought (CoT), introduced by Wei [ ], indebærer at øge hvert få-shot eksempel i prompt med en trin-for-trin nedbrydning og et sammenhængende sæt af mellemliggende ræsonnement skridt mod det endelige svar. [ ] viste, at CoT prompting kan fremkalde begrundelsesevner i tilstrækkeligt store sprogmodeller og dramatisk forbedre ydeevnen på opgaver som matematiske problemer [ ]. Further, the appearance of such CoT reasoning appears to be an emergent ability [ ] of LLMs. Lewkowycz [ er ] brugte CoT prompting som en af de centrale strategier i deres arbejde, der førte til gennembrud LLM ydeevne på flere STEM benchmarks. Chain-of-thought prompting og Al. 91 et al. 91 17 90 et al. 47 Many of the medical questions explored in this study involve complex multi-step reasoning, making them a good fit for CoT prompting techniques. Together with clinicians, we crafted CoT prompts to provide clear demonstrations on how to reason and answer the given medical questions. Examples of such prompts are detailed in Section . A.9 A straightforward strategy to improve the performance on the multiple-choice benchmarks is to prompt and sample multiple decoding outputs from the model. The final answer is the one with the majority (or plurality) vote. This idea was introduced by Wang [ ] under navnet "selvkonsistens". Rationale bag denne tilgang her er, at for et domæne som medicin med komplekse ræsonnement veje, kan der være flere potentielle ruter til det rigtige svar. Marginalisere de ræsonnement veje kan føre til det mest konsistente svar. ], og vi vedtog den samme tilgang til vores datasæt med multi-choice spørgsmål: MedQA, MedMCQA, PubMedQA og MMLU. Self-consistency prompting og Al. 88 47 Because LLMs have grown to hundreds of billions of parameters [ , ], finetuning them is extraordinarily computationally expensive. While the success of few-shot prompting has alleviated this issue to a large extent, many tasks would benefit further from gradient-based learning. Lester [ er ] indført prompt tuning (i modsætning til prompting / priming), en enkel og beregningsmæssigt billig Prompt tuning 12 14 og Al. 45 method to adapt LLMs to specific downstream tasks, especially with limited data. The approach involves the learning of soft prompt vectors through backpropagation while keeping the rest of the LLM frozen, thus allowing easy reuse of a single model across tasks. This use of soft prompts can be contrasted with the discrete “hard” text-based few-shot prompts popularized by LLMs such as GPT-3 [ ]. Mens hurtig tuning kan drage fordel af et hvilket som helst antal mærkede eksempler, kræves der typisk kun en håndfuld eksempler (f.eks. 12 et al. [ ] demonstrated that prompt-tuned model performance becomes comparable with end-to-end finetuning at increased model scale. Other related approaches include prefix tuning [ ], where prefix activation vectors are prepended to each layer of the LLM encoder and learned through backpropagation. Lester [ er ]’s prompt tuning can be thought of as a simplification of this idea, restricting the learnable parameters to only those representing a small number of tokens prepended to the input as a soft prompt. 45 48 og Al. 45 3.3.3 Instruction prompt tuning Wei [ ] and Chung [ er ] demonstrerede fordelene ved multi-task instruktion finetuning: Flan-PaLM-modellen opnået state of the performance på flere benchmarks såsom BIG-bench [ ] and MMLU [ ]. In particular, Flan-PaLM demonstrated the benefits of using CoT data in fine-tuning, leading to robust improvements in tasks that required reasoning. et al. 89 og Al. 15 47 29 Given the strong performance of instruction tuning, we built primarily on the Flan-PALM model in this work. However, as discussed in Section , our human evaluation revealed key gaps in Flan-PaLM’s performance on the consumer medical question answering datasets, even with few-shot prompting. To further align the model to the requirements of the safety-critical medical domain, we explored additional training specifically on medical data. 4.5 For this additional training, we used prompt tuning instead of full-model finetuning given compute and clinician data generation costs. Our approach effectively extends Flan-PaLM’s principle of "learning to follow instructions" to the prompt tuning stage. Specifically, rather than using the soft prompt learned by prompt tuning as a replacement for a task-specific human-engineered prompt, we instead use the soft prompt as an initial prefix that is shared across multiple medical datasets, and which is followed by the relevant task-specific human-engineered prompt (consisting of instructions and/or few-shot exemplars, which may be chain-of-thought examples) along with the actual question and/or context. We refer to this method of prompt tuning as “instruction prompt tuning”. Instruction prompt tuning can thus be seen as a lightweight way (data-efficient, parameter-efficient, compute-efficient during both training and inference) of training a model to follow instructions in one or more domains. In our setting, instruction prompt tuning adapted LLMs to better follow the specific type of instructions used in the family of medical datasets that we target. I betragtning af kombinationen af soft prompt med hard prompt, kan instruktion prompt tuning betragtes som en type "hard-soft hybrid prompt tuning" [ ], alongside existing techniques that insert hard anchor tokens into a soft prompt [ ], indsæt lærte bløde tokens i en hård prompt [ ], or use a learned soft prompt as a prefix for a short zero-shot hard prompt [ , ]. To the best of our knowledge, ours is the first published example of learning a soft prompt that is prefixed in front of a full hard prompt containing a mixture of instructions and few-shot exemplars. 52 53 28 26 96 3.3.4 Putting it all together: Med-PaLM For at tilpasse Flan-PaLM til det medicinske område, anvendte vi instruktion prompt tuning på et lille sæt eksemplarer. Disse eksempler blev effektivt brugt til at instruere modellen til at producere tekstgenerationer mere i overensstemmelse med kravene i det medicinske område, med gode eksempler på medicinsk forståelse, tilbagekaldelse af klinisk viden og begrundelse på medicinsk viden usandsynligt at føre til skade på patienten. Vi randomiserede eksempler fra MultiMedQA's frie responsdatasæt (HealthSearchQA, MedicationQA, LiveQA) og bad et panel på fem klinikere om at give eksemplariske svar. Disse klinikere var baseret i USA og Storbritannien med specialiseret erfaring inden for primærpleje, kirurgi, intern medicin og pædiatri. Klinikere filtrerede derefter ud spørgsmål / svarpar, som de besluttede ikke var gode eksempler til at instruere modellen. Dette skete generelt, når klinikere følte, at de ikke kunne producere en "ideel" model svar på et givet spørgsmål, f.eks. hvis de oplysninger, der kræves for at besvare et spørgsmål, ikke var kendt. Vi blev efterladt med 40 eksempler på tværs af HealthSearchQA, MedicationQA og LiveQA, der The resulting model, Med-PaLM, was evaluated on the consumer medical question answering datasets of MultiMedQA along with Flan-PaLM. Figure gives an overview of our instruction prompt tuning approach for Med-PaLM. Further details on the hyperparameter optimization and model selection process can be found in Section . The model card for Med-PaLM is provided in Section . 2 A.1 A5 af 4 Results I dette afsnit giver vi først et overblik over vores vigtigste resultater som opsummeret i figurer. og . Then, we present several ablations to help contextualize and interpret the results. 3 4 4.1 Flan-PaLM exceeds previous state-of-the-art on MedQA (USMLE) by over 17% On the MedQA dataset consisting of USMLE style questions with 4 options, our Flan-PaLM 540B model achieved a multiple-choice question (MCQ) accuracy of 67.6% surpassing the DRAGON model [ Det svarer til 20,1 %. 94 Concurrent to our study, Bolton [ ] developed PubMedGPT, a 2.7 billion model trained exclusively on biomedical abstracts and paper. The model achieved a performance of 50.3% on MedQA questions with 4 options. To the best of our knowledge, this is the state-of-the-art on MedQA, and Flan-PaLM 540B exceeded this by 17.3%. Table compares to best performing models on this dataset. On the more difficult set of questions with 5 options, our model obtained a score of 62.0%. et al. 9 4 4.2 Moderne ydeevne på MedMCQA og PubMedQA On the MedMCQA dataset, consisting of medical entrance exam questions from India, Flan-PaLM 540B reached a performance of 57.6% on the dev set. This exceeds the previous state of the art result of 52.9% by the Galactica model [ Det er 79 På samme måde på PubMedQA-datasættet opnåede vores model en nøjagtighed på 79,0%, der overgår den tidligere state of the art BioGPT-model Luo. [ ] by 0.8%. The results are summarized in Figure 2 below. While this improvement may seem small compared to MedQA and MedMCQA datasets, the single rater human performance on PubMedQA is 78.0% [ ], indicating that there may be an inherent ceiling to the maximum possible performance on this task. et al. 56 33 | Summary of the best performing models on the MedQA (USMLE) dataset questions with 4 options. Our results with Flan-PaLM exceed previous state of the art by over 17%. Table 4 Model (number of parameters) MedQA (USMLE) Accuracy % Flan-PaLM (540 B)(ours) 67.6 PubMedGPT (2.7 B) [ ] 9 50.3 DRAGON (360 M) [ ] 94 47.5 BioLinkBERT (340 M) [ ] 95 45.1 Galactica (120 B) [ ] 79 44.4 PubMedBERT (100 M) [ ] 25 38.1 GPT-Neo (2.7 B) [ ] 7 33.3 Flan-PaLM (540 B)(ours) 67.6 PubMedGPT (2.7 B) [ ] 9 50.3 Dronning (360 m) [ ] 94 47.5 BioLinkBERT (340 M) [ ] 95 45.1 Galactica (120 B) [ ] 79 44.4 Bæredygtighed (100 m) ] 25 38.1 GPT-Neo (2.7 B) [ ] 7 33.3 4.3 State-of-the-art performance on MMLU clinical topics The MMLU dataset contains multiple-choice questions from several clinical knowledge, medicine and biology related topics. These include anatomy, clinical knowledge, professional medicine, human genetics, college medicine and college biology. Flan-PaLM 540B achieved state of the art performance on all these subsets, outperforming strong LLMs like PaLM, Gopher, Chinchilla, BLOOM, OPT and Galactica. In particular, on the professional medicine and clinical knowledge subset, Flan-PaLM 540B achieved a SOTA accuracy of 83.5% and 84.0%. Figure summarizes the results, providing comparisons with other LLMs where available [ ]. 4 79 4.4 Ablationer Vi udførte flere ablationer på tre af de datasæt med flere valgmuligheder - MedQA, MedMCQA og PubMedQA - for bedre at forstå vores resultater og identificere de centrale komponenter, der bidrager til Flan-PaLM's ydeevne. Across all model sizes, we observed that the instruction-tuned Flan-PaLM model outperformed the baseline PaLM model on all three datasets - MedQA, MedMCQA and PubMedQA. The models were few-shot prompted in these experiments using the prompt text detailed in . The detailed results are summarized in Forbedringerne var mest fremtrædende i PubMedQA-datasættet, hvor 8B Flan-PaLM-modellen overgik baseline PaLM-modellen med over 30%. Lignende stærke forbedringer blev observeret i tilfælde af 62B og 540B-varianter også. . Instruction tuning improves performance on medical question answering A.8 5 A.3 Vi har endnu ikke afsluttet en grundig analyse af effekten af instruktion prompt tuning på multi-choice nøjagtighed; vores analyse er af Flan-PaLM i dette afsnit, ikke Med-PaLM. Med-PaLM (instruktion prompt-tuned Flan-PaLM) blev udviklet til at forbedre den lange form generering resultater af Flan-PaLM præsenteret i afsnit by better aligning the model to the medical domain. However, given the success of domain-agnostic instruction tuning for multiple-choice question answering, in-domain instruction prompt tuning appears promising, and we present a preliminary result in Section . 4.5 A6 af A related observation from was the strong performance improvements obtained from scaling the model from 8B to 62B and 540B. We observed approximately a 2x improvement in performance when scaling the model from 8B to 540B in both PaLM and Flan-PaLM. These improvements were more pronounced in the MedQA and MedMCQA datasets. In particular, for the Flan-PaLM model, the 540B variant outperformed the 62B variant by over 14% and the 8B variant by over 24%. Given these results and the strong performance of the Flan-PaLM 540B model, we built on this model for downstream experiments and ablations. The scaling plots are provided in Section . Scaling improves performance on medical question answering 5 A.4 summarizes the results from using CoT prompting and provides a comparison with the few-shot prompting strategy using the Flan-PaLM 540B model. Somewhat unexpectedly, we did not observe improvements using CoT over the standard few-shot prompting strategy across the three multiple-choice datasets - MedQA, MedMCQA and PubMedQA. The CoT prompts used are summarized in Section . Chain-of-Thought (CoT) prompting 6 A.9 Wang [ ] showed that self-consistency prompting can help when CoT prompting hurts performance. They showed significant improvements on arithmetic and commonsense reasoning tasks. Taking their cue, we apply it to our datasets. We fixed the number of chain-of-thought answer explanation paths to 11 for each of the three datasets. We then marginalized over the different explanation paths to select the most consistent answer. Using this strategy, we observed significant improvements over the standard few-shot prompting strategy for the Flan-PaLM 540B model on the MedQA and MedMCQA datasets. In particular, for the MedQA dataset we observed a >7% improvement with self-consistency. However, somewhat unexpectedly, self-consistency led to a drop in performance for the PubMedQA dataset. The results are summarized in Table . Self-consistency (SC) leads to strong improvement in multiple-choice performance et al. 88 7 We further provide some example responses from the Flan-PaLM 540B model for MedQA in Table . 8 LLMs are capable of long, coherent, and complex generations. However, they can also generate statements inconsistent with fact. In medical settings in particular, such failure modes need to be carefully vetted, and in real world applications, generations unlikely to be true should be withheld. Instead, we may want to defer to other information sources or experts when needed. One solution is therefore for LLMs to communicate uncertainty estimates along with their responses. Uncertainty and Selective Prediction Mens usikkerhed målinger over LLM output sekvenser forbliver et åbent område for forskning [ , ], her udforskede vi en simpel proxy som en indledende tilgang til måling af forholdet mellem LLM usikkerhed og udtalelse nøjagtighed. ], using the number of decodes matching a given answer from self-consistency as a measure of uncertainty and used it to withhold the answer if the model was not appropriately confident. We performed the experiment using 41 decodes from the Flan-PaLM 540B model with chain-of-thought prompting and self consistency. We observe in that as the deferring fraction increases (i.e., with a higher “confidence” required to provide a prediction), the performance of the model on MedQA improves, reaching up to an accuracy of of 82.5% at a 0.45 deferring fraction. This suggests our measure of response uncertainty may be reasonable, and that LLMs seem to encode uncertainty about their knowledge in the medical domain. However, more research is needed beyond this preliminary analysis. 36 51 82 5 4.5 Resultater af menneskelig evaluering Vi valgte tilfældigt 100 spørgsmål fra HealthSearchQA, 20 spørgsmål fra LiveQA og 20 spørgsmål fra MedicationQA som en mindre langformats svar benchmark for detaljeret menneskelig evaluering. Disse spørgsmål afspejler virkelige forbrugerforespørgsler for medicinsk information. We had a panel of clinicians generate expert reference answers to these questions. We then produced answers using Flan-PaLM and Med-PaLM (both 540B models). A few qualitative examples of these questions and the corresponding Med-PaLM responses are shown in Table Vi havde de tre sæt svar evalueret af et andet panel af klinikere langs akserne i tabel , without revealing the source of answers. One clinician evaluated each answer. To reduce the impact of variation across clinicians on generalizability of our findings, our panel consisted of 9 clinicians (based in the US, UK, and India). We used the non-parametric bootstrap to estimate any significant variation in the results, where 100 bootstrap replicas were used to produce a distribution for each set and we used the 95% bootstrap percentile interval to assess variations. These results are described in detail below and in Section . 9 2 A.7 Vi ønskede at forstå, hvordan svarene var relateret til den nuværende konsensus i det kliniske og videnskabelige samfund. På de 140 spørgsmål, der blev evalueret i undersøgelsen, fandt vi, at kliniske svar blev bedømt for at være i overensstemmelse med den videnskabelige konsensus i 92,9% af spørgsmålene. På den anden side blev Flan-PaLM fundet at være i overensstemmelse med den videnskabelige konsensus i kun 61,9% af svarene. For andre spørgsmål var svarene enten imod konsensus eller ingen konsensus eksisterede. Dette antydede, at generisk instruktionsjustering alene ikke var tilstrækkelig til at producere videnskabeligt og klinisk baserede svar. Vi bemærkede dog, at 92,9% af Med-PaLM svar blev bedømt for Scientific consensus: Vi bemærker, at da PaLM, Flan-PaLM og Med-PaLM blev uddannet ved hjælp af corpora af webdokumenter, bøger, Wikipedia, kode, naturlige sprogopgaver og medicinske opgaver på et givet tidspunkt, er en potentiel begrænsning af disse modeller, at de kan afspejle den videnskabelige konsensus fra fortiden i stedet for i dag. We sought to understand the (whether expert or model generated) medical comprehension, medical knowledge retrieval and reasoning capabilities of the model as expressed through the answers generated by them. We asked a panel of clinicians to rate whether answers contained any (one or more example of) evidence of correct / incorrect medical reading comprehension, medical knowledge retrieval and medical reasoning capabilities, using the same approach as Feng [ Korrekte og forkerte beviser blev vurderet parallelt, fordi det er muligt, at et enkelt svar i lang form kan indeholde beviser for både korrekt og forkert forståelse, indhentning og begrundelse. Comprehension, retrieval and reasoning capabilities: et al. 22 Vi fandt, at eksperter genererede svar igen var betydeligt bedre end Flan-PaLM, selv om præstationen blev forbedret ved instruktion prompt tuning for Med-PaLM. Denne tendens blev observeret i alle de seks sub-spørgsmål, der blev brugt til at evaluere i denne akse. For eksempel, med hensyn til bevis for korrekt indhentning af medicinsk viden, fandt vi, at kliniske svar scoret 97,8%, mens Flan-PaLM kun scoret 76,3%. Formålet med denne evaluering var at forstå fuldstændigheden og rigtigheden af de genererede svar ved at vurdere, om svaret udelader oplysninger, som det ikke bør, eller om svaret indeholdt indhold, som det ikke bør. Incorrect or missing content: Igen observerede vi, at kliniske genererede svar var bedre end AI-modeller. kliniske svar viste tegn på upassende / ukorrekt indhold i kun 1,4% af tilfældene, sammenlignet med 16,1% for Flan-PaLM. Overraskende syntes instruksionsfremmende tuning at forringe ydeevnen yderligere, med 18,7% af Med-PaLM-svarene vurderet til at indeholde upassende eller ukorrekt indhold. On the other hand, we observed that instruction prompt tuning helped improve model performance in omission of important information. While Flan-PaLM answers were judged to miss important information 47.2% of the time, the number improved significantly for Med-PaLM with only 15.1% of the answers adjudged to have missing information, reducing the inferiority compared to clinicians whose answers were judged to have missing information in only 11.1% of the cases. A few qualitative examples are shown in Table 10 suggesting that LLM answers may be able to complement and complete physician responses to patient queries in future use cases. One potential explanation of these observations is that instruction prompt tuning teaches the Med-PaLM model to generate significantly more detailed answers than the Flan-PaLM model, reducing the omission of important information. However a longer answer also increases the risk of introducing incorrect content. Vi søgte at identificere sværhedsgraden og sandsynligheden for potentiel skade baseret på at handle på de genererede svar. Vi bad ratere om at antage, at output af modeller kunne føre til handlinger af enten klinikere eller forbrugere/patienter, og estimere den mulige sværhedsgraden og sandsynligheden for fysisk/mental sundhedsrelaterede skader, der kunne resultere i. Vi baserede mulighederne for valg af ratere i AHRQ Common Formats Williams [ ], which presents options to assign severity of harm ranging from death, severe or life-threatening injury, moderate, mild or no harm. We acknowledge that this definition of harm is more typically used in the context of analyzing harms incurred during healthcare delivery and that even in such settings (where the context for harms occurring is known with considerably greater specificity) there is frequently substantial variation in physician estimation of harm severity [ ]. The validity of the AHRQ scale cannot therefore be assumed to extend to our context, where our rater outputs should be regarded as subjective estimates because our work was not grounded in a specific intended use and sociocultural context. Possible extent and likelihood of harm: et al. 93 86 På trods af den brede definition og subjektivitet af vurderingerne observerede vi, at instruktionsprøvetuning producerede sikrere svar, der reducerede både den anslåede sandsynlighed og sværhedsgraden.Mens 29,7 % af Flan-PaLM-responserne blev bedømt som potentielt skadelige, faldt dette tal til 5,9 % for Med-PaLM sammenlignet med kliniske genererede svar, som også blev bedømt som potentielt skadelige i 5,7 % af tilfældene. Similarly, on the likelihood of harm axes, instruction prompt tuning enabled Med-PaLM answers to match the expert generated answers. The final axis along which we evaluated the answers was bias. The use of large language models for medical question answering has the potential for bias and fairness-related harms that contribute to health disparities. These harms derive from several sources, including the presence of patterns in training data that reflect disparities in health outcomes and access to care, the capability for medical question answering systems to reproduce racist misconceptions regarding the cause of racial health disparities [ , der ], algorithmic design choices [ ], and differences in behavior or performance of machine learning systems across populations and groups that introduce downstream harms when used to inform medical decision making [ Det er Bias for medical demographics: 20 85 32 13 Medical question answering systems also pose additional risks beyond those posed by the use of other AI applications in healthcare because they have potential to produce arbitrary outputs, have limited reasoning capability, and could potentially be used for a wide range of downstream use cases. We sought to understand whether the answer contained any information that is inaccurate or inapplicable for a particular demographic. Flan-PaLM answers were found to contain biased information in 7.9% of the cases. However, this number reduced to 0.8% for Med-PaLM, comparing favorably with experts whose answers were judged to contain evidence of bias in 1.4% of the cases. Beyond expert evaluation, we also had a panel of five non-experts in the domain (laypeople without a medical background, based in India) assess the answers. The results are summarized in Fig 10 below. While Flan-PaLM answers were judged to be helpful in only 60.6% of the cases, the number improved to 80.3% for Med-PaLM answers. However, this remained inferior to clinician answers which were judged to be helpful 91.1% of the time. Similarly, Flan-PaLM answers were user’s question intent in 90.8% of cases. This number improved to 94.0% for Med-PaLM, which was inferior to clinician-generated answers at 95.9%. Lay user assessment: judged as directly addressing the The lay evaluation consistently reproduced the benefits of instruction prompt tuning to produce answers that are helpful to users, while also demonstrating that there is still considerable work needed to approximate the quality of outputs provided by human clinicians. 5 Discussion Our results suggest that strong performance on medical question answering may be an emergent ability [ ] of LLMs combined with effective instruction prompt tuning. 90 For det første observerede vi en stærk skaleringseffekt med en nøjagtighedsforbedring på ca. 2x, da vi skalerede PaLM-modellerne fra 8 milliarder til 540 milliarder. De 8 milliarder PaLM'er på MedQA var kun lidt bedre end tilfældig ydeevne. Men dette tal forbedrede sig med over 30% for de 540 milliarder PaLM'er, hvilket viste effektiviteten af skalering for den medicinske spørgeskemaopgave. Vi observerede lignende forbedringer for MedMCQA- og PubMedQA-datasætene. Desuden var instruktionsfinjustering også effektiv med Flan-PaLM-modeller, der udførte bedre end PaLM-modellerne på tværs af alle størrelsesvarianter på alle datasæt med flere valgmuligheder. Det er muligt, at PaLM pre-training corpus omfattede betydelige mængder af medicinsk indhold af høj kvalitet, og en mulig antagelse for den stærke ydeevne af den 540 milliarder model variant er memorering af evalueringsdatasæt betragtes i denne undersøgelse. [ ] showed similar deltas in performance of the PaLM 8B and 540B model when evaluating contaminated (i.e where part of the test set is in the model pre-training corpus) and cleaned test datasets. This suggests that memorization alone does not explain the strong performance observed by scaling up the models. et al. 14 Der har været flere bestræbelser på at træne sprogmodeller på et biomedicinsk corpus, især PubMed. Disse omfatter BioGPT [ ] (355 million parameters), PubMedGPT [ ] (2.7 billion parameters) and Galactica [ ] (120 billion parameters). Our models were able to outperform these efforts on PubMedQA without any finetuning. Further, the benefits of scale and instruction fine-tuning were much more pronounced on the MedQA dataset, which can be considered out-of-domain for all these models. Given the results, we observe that medical answering performance (requiring recall, reading comprehension, and reasoning skills) improves with LLM scale. 56 9 79 However, our human evaluation results on the consumer medical question answering datasets clearly point out that scale alone is insufficient. Even state-of-the-art LLMs like Flan-PaLM can generate answers that are inappropriate for use in the safety-critical medical domain. However, the Med-PaLM results demonstrate that with instruction prompt tuning we have a data and parameter-efficient alignment technique useful for improving factors related to accuracy, factuality, consistency, safety, harm, and bias, helping close the gap with clinical experts and bringing these models closer to real-world clinical applications. 6 Limitations Our study demonstrated the potential of LLMs for encoding medical knowledge and in particular for question answering. However, it had several limitations which we discuss in detail below and outline directions for future research. 6.1 Udvidelse af MultiMedQA For det første, mens MultiMedQA benchmark er forskelligartet og indeholder spørgsmål fra en række professionelle medicin, medicinsk forskning og forbruger kilder, er det på ingen måde udtømmende. A key challenge in clinical environments is eliciting information from patients and synthesizing findings into an assessment and plan. Multiple-choice question answering tasks are inherently easier because they are often grounded in vignettes compiled by experts and selected to have a generally preferred answer, which is not true for all medical decisions. Developing benchmark tasks that reflect real world clinical workflows is an important direction of future research. Furthermore, we only considered English-language datasets in this study, and there is a strong need to expand the scope of the benchmark to support multilingual evaluations. 6.2 Development of key LLM capabilities necessary for medical applications Mens Flan-PaLM var i stand til at opnå state-of-the-art ydeevne på flere multi-choice medicinske spørgsmål svarende benchmarks, vores menneskelige evaluering klart tyder på, at disse modeller ikke er på klinisk ekspertniveau på mange klinisk vigtige akser. Grundlægge svarene i autoriserede medicinske kilder og tage hensyn til den tidsvarierende karakter af medicinsk konsensus. ability to detect and communicate uncertainty effectively to the human in-the-loop whether clinician or lay user. ability to respond to queries in multiple languages. 6.3 Forbedring af tilgangen til menneskelig vurdering Den ratingramme, vi foreslog for denne undersøgelse, repræsenterer en lovende pilotmetode, men vores valgte evalueringsakser var ikke udtømmende og var subjektive i naturen. For eksempel er begrebet medicinsk/videnskabelig konsensus tidskrævende i naturen og afspejler forståelser af menneskers sundhed og sygdom og fysiologi baseret på forskelsbehandling inden for områder som race/etnicitet, køn, alder, evne og meget mere. , ]. 38 57 Endvidere kan konsensus ofte kun eksistere for emner, der er relevante for visse grupper (f.eks. større i antal og/eller magt), og konsensus kan mangle for visse subpopulationer, der påvirkes af emner af forskellige grunde (f.eks. kontroversielle emner, lavere forekomst, mindre finansiering). Desuden kan begrebet skade variere afhængigt af befolkningen (f.eks. kan en genetisk undersøgelse af en mindre gruppe mennesker afsløre oplysninger, der er faktiske, men ikke i overensstemmelse med den pågældende gruppes kulturelle overbevisninger, hvilket kan forårsage skade for medlemmer af denne gruppe). Ekspertvurdering af skade kan også variere baseret på placering, levet erfaring og kulturel baggrund. Vores vurderinger af potentiel skade var subjektive skøn, og [ ]. Further research might test whether perceived usefulness and harm of question answers varied according to the understandability and actionability score for the answer content [ ]. et al. 6 77 The number of model responses evaluated and the pool of clinicians and lay-people assessing them were limited, as our results were based on only a single clinician or lay-person evaluating the responses. This represents a limitation to generalizability of our findings which could be mitigated by inclusion of a significantly larger and intentionally diverse pool of human raters (clinicians and lay users) with participatory design in the development of model auditing tools. It is worth noting that the space of LLM responses or "coverage" is extremely high and that presents an additional difficulty in the design of evaluation tools and frameworks. Den pilotramme, vi har udviklet, kan forbedres betydeligt ved hjælp af anbefalede bedste praksis tilgange til design og validering af vurderingsinstrumenter fra sundhed, social og adfærdsmæssig forskning. ]. This could entail the identification of additional rating items through participatory research, evaluation of rating items by domain experts and technology recipients for relevance, representativeness, and technical quality. The inclusion of a substantially larger pool of human raters would also enable testing of instrument generalizability by ratifying the test dimensionality, test-retest reliability and validity [ ]. As the same answer can be evaluated multiple ways, the most appropriate rating instrument is also dependent on the intended purpose and recipient for LLM outputs, providing multiple opportunities for the development of validated rating scales depending on the context and purpose of use. Further, substantial user experience (UX) and human-computer interaction (HCI) studies using community-based participatory research methods are necessary before any real world use, and would be specific to a developed tool that is beyond the scope of our exploratory research. Under these contexts further research could explore the independent influence of variation in lay raters’ education level, medical conditions, caregiver status, experience with health care, education level or other relevant factors on their perceptions of the quality of model outputs. The impact of variation in clinician raters’ specialty, demographics, geography or other factors could be similarly explored in further research. 8 8 6.4 Retfærdighed og retfærdighed overvejelser Our current approach to evaluating bias is limited and does not serve as a comprehensive assessment of potential harms, fairness, or equity. The development of procedures for the evaluation of bias and fairness-related harms in large language models is ongoing [ , ]. Healthcare is a particularly complex application of large language models given the safety-critical nature of the domain and the nuance associated with social and structural bias that drives health disparities. The intersection of large language models and healthcare creates unique opportunities for responsible and ethical innovation of robust assessment and mitigation tools for bias, fairness, and health equity. 49 92 We outline opportunities for future research into frameworks for the systematic identification and mitigation of downstream harms and impacts of large language models in healthcare contexts. Key principles include the use of participatory methods to design contextualized evaluations that reflect the values of patients that may benefit or be harmed, grounding the evaluation in one or more specific downstream clinical use cases [ , ], and the use of dataset and model documentation frameworks for transparent reporting of choices and assumptions made during data collection and curation, model development, and evaluation [ , , der ]. Furthermore, research is needed into the design of algorithmic procedures and benchmarks that probe for specific technical biases that are known to cause harm if not mitigated. For instance, depending on the context, it may be relevant to assess sensitivity of model outputs to perturbations of demographic identifiers in prompts designed deliberately such that the result should not change under the perturbation [ , , Det er 54 71 24 59 72 23 68 98 Desuden kræver de ovennævnte forskningsaktiviteter for at opbygge evalueringsmetoder for at opnå sundhedsmæssig ligestilling i store sprogmodeller tværfagligt samarbejde for at sikre, at forskellige videnskabelige perspektiver og metoder kan anvendes til opgaven med at forstå de sociale og kontekstuelle aspekter af sundhed. , , ]. 27 58 62 Udviklingen af evalueringsrammer for store sprogmodeller er en kritisk forskningsdagsorden, som bør nærmes med samme rigor og opmærksomhed som det, der gives til arbejdet med kodning af klinisk viden i sprogmodeller. In this study we worked with a panel of four qualified clinicians to identify the best-demonstration examples and craft few-shot prompts, all based in either the US or UK, with expertise in internal medicine, pediatrics, surgery and primary care. Although recent studies have surprisingly suggested that the validity of reasoning within a chain-of-thought prompt only contributes a small extent to the impact of this strategy on LLM performance in multi-step reasoning challenges [ ], yderligere forskning kunne væsentligt udvide rækkevidden af klinikere, der beskæftiger sig med hurtig konstruktion og udvælgelsen af eksemplariske svar og dermed udforske, hvordan variation i flere akser af de typer af klinikere, der deltager i denne aktivitet påvirker LLM adfærd; for eksempel kliniker demografi, geografi, specialitet, levede erfaring og mere. 87 6.5 Ethical considerations This research demonstrates the potential of LLMs for future use in healthcare. Transitioning from a LLM that is used for medical question answering to a tool that can be used by healthcare providers, administrators, and consumers will require significant additional research to ensure the safety, reliability, efficacy, and privacy of the technology. Careful consideration will need to be given to the ethical deployment of this technology including rigorous quality assessment when used in different clinical settings and guardrails to mitigate against over reliance on the output of a medical assistant. For example, the potential harms of using a LLM for diagnosing or treating an illness are much greater than using a LLM for information about a disease or medication. Additional research will be needed to assess LLMs used in healthcare for homogenization and amplification of biases and security vulnerabilities inherited from base models [ , , , , I betragtning af den fortsatte udvikling af klinisk viden vil det også være vigtigt at udvikle måder, hvorpå LLM'er kan levere opdaterede kliniske oplysninger. 10 11 18 39 49 7 Conclusion Fremkomsten af fundamentale AI-modeller og store sprogmodeller præsenterer en betydelig mulighed for at genoverveje udviklingen af medicinsk AI og gøre det lettere, sikrere og mere retfærdigt at bruge. Our research provides a glimpse into the opportunities and the challenges of applying these technologies to medicine. We hope this study will spark further conversations and collaborations between patients, consumers, AI researchers, clinicians, social scientists, ethicists, policymakers and other interested people in order to responsibly translate these early research findings to improve healthcare. Acknowledgments This project was an extensive collaboration between many teams at Google Research and Deepmind. We thank Michael Howell, Cameron Chen, Basil Mustafa, David Fleet, Fayruz Kibria, Gordon Turner, Lisa Lehmann, Ivor Horn, Maggie Shiels, Shravya Shetty, Jukka Zitting, Evan Rappaport, Lucy Marples, Viknesh Sounderajah, Ali Connell, Jan Freyberg, Cian Hughes, Megan Jones-Bell, Susan Thomas, Martin Ho, Sushant Prakash, Bradley Green, Ewa Dominowska, Frederick Liu, Xuezhi Wang, and Dina Demner-Fushman (from the National Library of Medicine) for their valuable insights and feedback during our research. We are also grateful to Karen DeSalvo, Zoubin Ghahramani, James Manyika, and Jeff Dean for their support during the course of this project. Referencerne 1. Abacha, A. B., Agichtein, E., Pinter, Y. & Demner-Fushman, D. i (2017), 1–12. Overview of the medical question answering task at TREC 2017 LiveQA. TREC 2. Abacha, A. B., Mrabet, Y., Sharp, M., Goodwin, T. R., Shooshan, S. E. & Demner-Fushman, D. in (2019), 25 til 29. At bringe kløften mellem forbrugernes medicinspørgsmål og pålidelige svar. MedInfo 3. Agrawal, M., Hegselmann, S., Lang, H., Kim, Y. & Sontag, D. Large Language Models are Zero-Shot Clinical Information Extractors. (2022). arXiv preprint arXiv:2205.12689 Barham, P., Chowdhery, A., Dean, J., Ghemawat, S., Hand, S., Hurt, D., Isard, M., Lim, H., Pang, R., Roy, S., et al. Pathways: Asynchronous distributed dataflow for ML. 430–449 (2022). Proceedings of Machine Learning and Systems 4, 5. Beltagy, I., Lo, K. & Cohan, A. SciBERT: A pretrained language model for scientific text. (2019). arXiv forprint arXiv:1903.10676 6. Berkman, N. D., Sheridan, S. L., Donahue, K. E., Halpern, D. J., Viera, A., Crotty, K., Holland, A., Brasure, M., Lohr, K. N., Harden, E., Health literacy interventions and outcomes: an updated systematic review. 1–941 (2011). et al. Evidence report/technology assessment, 7. Black, S., Gao, L., Wang, P., Leahy, C. & Biderman, S. version 1.0. Hvis du bruger denne software, bedes du citere den ved hjælp af disse metadata. GPT-Neo: Storskala autoregressiv sprogmodellering med Mesh-Tensorflow https : . //doi.org/10.5281/zenodo.5297715 Boateng, G. O., Neilands, T. B., Frongillo, E. A., Melgar-Quiñonez, H. R. & Young, S. L. Bedste praksis for udvikling og validering af skalaer til sundhed, social og adfærdsmæssig forskning: en primer. 149 (2018). Frontiers in public health 6, 9. Bolton, E., Hall, D., Yasunaga, M., Lee, T., Manning, C. & Liang, P. . 2022. Stanford CRFM Introduces PubMedGPT 2.7B https://hai.stanford.edu/news/stanford-crfm-introduces-pubmedgpt-27b 10. Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., Om mulighederne og risiciene ved fundamentmodeller. (2021). og Al. arXiv preprint arXiv:2108.07258 11. Bommasani, R., Liang, P. & Lee, T. Sprogmodeller ændrer AI: Behovet for holistisk evaluering https : . 2022. //crfm.stanford.edu/2022/11/17/helm.html 12. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Language models are few-shot learners. 1877–1901 (2020). et al. Advances in neural information processing systems 33, 13. Chen, I. Y., Pierson, E., Rose, S., Joshi, S., Ferryman, K. & Ghassemi, M. Ethical machine learning in healthcare. 123–144 (2021). Annual review of biomedical data science 4, 14. Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., PaLM: Skalering af sprogmodellering med veje. af 2022). et al. arXiv forprint arXiv:2204.02311 Chung, H. W., Hou, L., Longpre, S., Zoph, B., Tay, Y., Fedus, W., Li, E., Wang, X., Dehghani, M., Brahma, S., et al. Skala instruktion-finetuned sprogmodeller. (2022). arXiv preprint arXiv:2210.11416 16. Clark, J. H., Choi, E., Collins, M., Garrette, D., Kwiatkowski, T., Nikolaev, V. & Palomaki, J. TyDi QA: A benchmark for information-seeking question answering in typologically diverse languages. 454–470 (2020). Transactions of the Association for Computational Linguistics 8, 17. Cobbe, K., Kosaraju, V., Bavarian, M., Hilton, J., Nakano, R., Hesse, C. & Schulman, J. Training verifiers to solve math word problems. (2021). arXiv preprint arXiv:2110.14168 18. Creel, K. & Hellman, D. The Algorithmic Leviathan: Arbitrariness, Fairness, and Opportunity in Algorithmic Decision-Making Systems. 1 til 18 (2022) Canadian Journal of Philosophy, 19 Du, N., Huang, Y., Dai, A. M., Tong, S., Lepikhin, D., Xu, Y., Krikun, M., Zhou, Y., Yu, A. W., Firat, O., in (2022), 5547–5569. et al. Glam: Efficient scaling of language models with mixture-of-experts Internationale konference om maskinlæring 20. Eneanya, N. D., Boulware, L., Tsai, J., Bruce, M. A., Ford, C. L., Harris, C., Morales, L. S., Ryan, M. J., Reese, P. P., Thorpe, R. J., Health inequities and the inappropriate use of race in nephrology. 84–94 (2022). et al. Nature Reviews Nephrology 18, Esteva, A., Chou, K., Yeung, S., Naik, N., Madani, A., Mottaghi, A., Liu, Y., Topol, E., Dean, J. & Socher, R. Dyb læring-aktiveret medicinsk computer vision. 1–9 (2021). NPJ digital medicine 4, 22. Feng, S. Y., Khetan, V., Sacaleanu, B., Gershman, A. & Hovy, E. CHARD: Clinical Health-Aware Reasoning Across Dimensions for Text Generation Models. (2022). arXiv forprint arXiv:2210.04191 23. Garg, S., Perot, V., Limtiaco, N., Taly, A., Chi, E. H. og Beutel, A. in (2019), 219 til 226. Counterfactual fairness in text classification through robustness Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society 24. Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J. W., Wallach, H., Iii, H. D. & Crawford, K. Datasheets for datasets. 86–92 (2021). Communications of the ACM 64, Gu, Y., Tinn, R., Cheng, H., Lucas, M., Usuyama, N., Liu, X., Naumann, T., Gao, J. & Poon, H. Domain-specifik sprogmodel forberedelse til biomedicinsk naturlig sprogbehandling. 1 til 23 (2021). ACM Transactions on Computing for Healthcare (HEALTH) 3, 26. Gu, Y., Han, X., Liu, Z. & Huang, M. Ppt: Pre-trained prompt tuning for few-shot learning. (2021). arXiv preprint arXiv:2109.04332 Vejledning, W. Etik og styring af kunstig intelligens for sundhed. (2021). Verdenssundhedsorganisationen Han, X., Zhao, W., Ding, N., Liu, Z. & Sun, M. Ptr: Prompt tuning med regler for tekstklassificering. af 2022). Han åbner Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D. & Steinhardt, J. Måling af massiv multitask sprogforståelse. Det er (2020) arXiv forudskrivning arXiv:2009.03300 Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., Casas, D. d. L., Hendricks, L. A., Welbl, J., Clark, A., Optimering af store sprogmodeller. af 2022). og Al. arXiv preprint arXiv:2203.15556 31. Hong, Z., Ajith, A., Pauloski, G., Duede, E., Malamud, C., Magoulas, R., Chard, K. & Foster, I. ScholarBERT: Bigger is Not Always Better. af 2022). arXiv forprint arXiv:2205.11342 Hooker, S. Flytning ud over "algoritmisk bias er et data problem". 100241 (2021). Patterns 2, Jin, D., Pan, E., Oufattole, N., Weng, W.-H., Fang, H. & Szolovits, P. Hvilken sygdom har denne patient? et stort åbent domæne spørgsmål besvarer datasæt fra medicinske undersøgelser. Det er 6421 (2021). Applied Sciences 11, 34. Jin, Q., Dhingra, B., Liu, Z., Cohen, W. W. & Lu, X. PubMedQA: A dataset for biomedical research question answering. (2019). arXiv forprint arXiv:1909.06146 Joshi, M., Choi, E., Weld, D. S. & Zettlemoyer, L. TriviaQA: En stor skala fjernt overvåget udfordring datasæt for læsning forståelse. (2017 år) arXiv forprint arXiv:1705.03551 Kadavath, S., Conerly, T., Askell, A., Henighan, T., Drain, D., Perez, E., Schiefer, N., Dodds, Z. H., DasSarma, N., Tran-Johnson, E., Language models (mostly) know what they know. (2022). et al. arXiv preprint arXiv:2207.05221 Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J. & Amodei, D. Skaling love for neurale sprog modeller. Det er (2020) arXiv preprint arXiv:2001.08361 38. Kington, R. S., Arnesen, S., Chou, W.-Y. S., Curry, S. J., Lazer, D. & Villarruel, A. M. Identifying credible sources of health information in social media: Principles and attributes. af 2021). NAM perspectives 2021 Kleinberg, J. og Raghavan, M. Algoritmisk monokultur og social velfærd. e2018340118 (2021). Procedurer fra National Academy of Sciences 118, Kojima, T., Gu, S. S., Reid, M., Matsuo, Y. & Iwasawa, Y. Store sprogmodeller er nul-skud argumenter. (2022). arXiv forprint arXiv:2205.11916 Korngiebel, D. M. & Mooney, S. D. Overvejer mulighederne og fælderne i Generative Pre-Trained Transformer 3 (GPT-3) i sundhedspleje levering. 1 til 3 (2021). NPJ Digital Medicine 4, Lakkaraju, H., Slack, D., Chen, Y., Tan, C. & Singh, S. Gennemtænkning af forklaring som en dialog: En praktikers perspektiv. (2022). arXiv forprint arXiv:2202.01875 Lampinen, A. K., Dasgupta, I., Chan, S. C., Matthewson, K., Tessler, M. H., Creswell, A., McClelland, J. L., Wang, J. X. & Hill, F. Kan sprogmodeller lære af forklaringer i sammenhæng? af 2022). arXiv preprint arXiv:2204.02329 44. Lee, J., Yoon, W., Kim, S., Kim, D., Kim, S., So, C. H. & Kang, J. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. 1234–1240 (2020). Bioinformatics 36, 45. Lester, B., Al-Rfou, R. & Constant, N. The power of scale for parameter-efficient prompt tuning. (2021). arXiv preprint arXiv:2104.08691 46. Lewis, P., Ott, M., Du, J. & Stoyanov, V. in (2020), 146–157. Pretrained language models for biomedical and clinical tasks: Understanding and extending the state-of-the-art Proceedings of the 3rd Clinical Natural Language Processing Workshop 47. Lewkowycz, A., Andreassen, A., Dohan, D., Dyer, E., Michalewski, H., Ramasesh, V., Slone, A., Anil, C., Schlag, I., Gutman-Solo, T., Solving quantitative reasoning problems with language models. (2022). og Al. arXiv preprint arXiv:2206.14858 48. Li, X. L. & Liang, P. Prefix-tuning: Optimizing continuous prompts for generation. (2021). arXiv preprint arXiv:2101.00190 Liang, P., Bommasani, R., Lee, T., Tsipras, D., Soylu, D., Yasunaga, M., Zhang, Y., Narayanan, D., Wu, Y., Kumar, A., Holistic evaluation of language models. (2022). og Al. arXiv preprint arXiv:2211.09110 Liévin, V., Hother, C. E. & Winther, O. Kan store sprogmodeller begrunde medicinske spørgsmål? af 2022). arXiv forprint arXiv:2207.08143 51. Lin, S., Hilton, J. & Evans, O. Teaching Models to Express Their Uncertainty in Words. (2022). arXiv forprint arXiv:2205.14334 52. Liu, P., Yuan, W., Fu, J., Jiang, Z., Hayashi, H. & Neubig, G. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. (2021). arXiv preprint arXiv:2107.13586 53. Liu, X., Zheng, Y., Du, Z., Ding, M., Qian, Y., Yang, Z. & Tang, J. GPT understands, too. (2021). arXiv preprint arXiv:2103.10385 54. Liu, X., Glocker, B., McCradden, M. M., Ghassemi, M., Denniston, A. K. & Oakden-Rayner, L. Den medicinske algoritmiske revision. (2022). The Lancet Digital Health 55. Loshchilov, I. & Hutter, F. Decoupled weight decay regularization. (2017). arXiv preprint arXiv:1711.05101 56. Luo, R., Sun, L., Xia, Y., Qin, T., Zhang, S., Poon, H. & Liu, T.-Y. BioGPT: generative pre-trained transformer for biomedical text generation and mining. (2022). Briefings i bioinformatik 23 57 Mandavilli, A. . 2021. Medical Journals Blind to Racism as Health Crisis, Critics Say https://www.nytimes.com/2021/06/02/ health/jama-racism-bauchner.html 58. Matheny, M., Israni, S. T., Ahmed, M. & Whicher, D. Artificial Intelligence in Health Care: The Hope, the Hype, the Promise, the Peril (2022). 59. Mitchell, M., Wu, S., Zaldivar, A., Barnes, P., Vasserman, L., Hutchinson, B., Spitzer, E., Raji, I. D. & Gebru, T. in (2019), 220–229. Modelkort til modelrapportering Proceedings of the conference on fairness, accountability, and transparency 60. Morgado, F. F., Meireles, J. F., Neves, C. M., Amaral, A. & Ferreira, M. E. Scale development: ten main limitations and recommendations to improve future research practices. (2017). Psicologia: Reflexao e Critica 30 61. Nye, M., Andreassen, A. J., Gur-Ari, G., Michalewski, H., Austin, J., Bieber, D., Dohan, D., Lewkowycz, A., Bosma, M., Luan, D., Show your work: Scratchpads for intermediate computation with language models. af 2021). og Al. arXiv preprint arXiv:2112.00114 62. Of Science, W. H. O. & Policy, T. I 2022. The Blueprint for an AI Bill of Rights: Making Automated Systems Work for the American People https://www.whitehouse.gov/wp-content/uploads/2022/10/Blueprint-for-an-AI-Bill-of-Rights.pdf Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Training language models to follow instructions with human feedback. (2022). og Al. arXiv preprint arXiv:2203.02155 64. Pal, A., Umapathi, L. K. & Sankarasubbu, M. in (2022), 248–260. MedMCQA: A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering Conference on Health, Inference, and Learning 65. Pampari, A., Raghavan, P., Liang, J. & Peng, J. emrqa: A large corpus for question answering on electronic medical records. (2018). arXiv preprint arXiv:1809.00732 Papanikolaou, Y. & Pierleoni, A. DARE: Data augmented relation extraction med gpt-2. (2020). arXiv forprint arXiv:2004.13845 67. Papineni, K., Roukos, S., Ward, T. & Zhu, W.-J. in (2002), 311–318. Bleu: a method for automatic evaluation of machine translation Procedurer fra det 40. årlige møde i Foreningen for Computational Lingvistik 68. Prabhakaran, V., Hutchinson, B. & Mitchell, M. Perturbation sensitivity analysis to detect unintended model biases. (2019). arXiv forprint arXiv:1910.04210 69. Rae, J. W., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., Song, F., Aslanides, J., Henderson, S., Ring, R., Young, S., Scaling language models: Methods, analysis & insights from training gopher. (2021). et al. arXiv preprint arXiv:2112.11446 70. Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., Liu, P. J., Exploring the limits of transfer learning with a unified text-to-text transformer. 1 til 67 (2020). et al. J. Mach. Learn. Res. 21, Raji, I. D., Smart, A., White, R. N., Mitchell, M., Gebru, T., Hutchinson, B., Smith-Loud, J., Theron, D. & Barnes, P. in (2020), 33–44. Closing the AI accountability gap: Defining an end-to-end framework for internal algorithmic auditing Proceedings of the 2020 conference on fairness, accountability, and transparency Rostamzadeh, N., Mincu, D., Roy, S., Smart, A., Wilcox, L., Pushkarna, M., Schrouff, J., Amironesei, R., Moorosi, N. & Heller, K. Healthsheet: Udvikling af et gennemsigtighedsartifakt for sundhedsdatasæt. (2022). arXiv preprint arXiv:2202.13028 73. Scao, T. L., Fan, A., Akiki, C., Pavlick, E., Ilić, S., Hesslow, D., Castagné, R., Luccioni, A. S., Yvon, F., Gallé, M., et al. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. af 2022). arXiv preprint arXiv:2211.05100 74. Schaekermann, M., Cai, C. J., Huang, A. E. og Sayres, R. in (2020), 1–13. Ekspertdiskussioner forbedrer forståelsen af vanskelige tilfælde i medicinsk billedvurdering Proceedings of the 2020 CHI conference on human factors in computing systems 75. Sezgin, E., Sirrianni, J., Linwood, S. L., Operationalisering og implementering af forudtrænede, store sproglige modeller for kunstig intelligens i det amerikanske sundhedssystem: udsigten til generativ forudtrænet transformer 3 (GPT-3) som en servicemodel. E32875 af 2022 et al. JMIR Medicinsk Informatik 10, 76. Shin, H.-C., Zhang, Y., Bakhturina, E., Puri, R., Patwary, M., Shoeybi, M. & Mani, R. BioMegatron: Larger biomedical domain language model. (2020). arXiv preprint arXiv:2010.06060 Shoemaker, S. J., Wolf, M. S. & Brach, C. Udvikling af værktøjet Patient Education Materials Assessment (PEMAT): et nyt mål for forståelighed og handlingsbarhed for trykte og audiovisuelle patientoplysninger. 395–403 (2014). Patientuddannelse og rådgivning 96, Srivastava, A., Rastogi, A., Rao, A., Shoeb, A. A. M., Abid, A., Fisch, A., Brown, A. R., Santoro, A., Gupta, A., Garriga-Alonso, A., Beyond the Imitation Game: Kvantificering og ekstrapolering af sprogmodellernes evner. af 2022). og Al. arXiv preprint arXiv:2206.04615 79. Taylor, R., Kardas, M., Cucurull, G., Scialom, T., Hartshorn, A., Saravia, E., Poulton, A., Kerkez, V. & Stojnic, R. Galactica: A Large Language Model for Science. af 2022). arXiv forprint arXiv:2211.09085 80. Thoppilan, R., De Freitas, D., Hall, J., Shazeer, N., Kulshreshtha, A., Cheng, H.-T., Jin, A., Bos, T., Baker, L., Du, Y., Lamda: Sprogmodeller til dialogapplikationer. af 2022). et al. arXiv preprint arXiv:2201.08239 Tomašev, N., Harris, N., Baur, S., Mottram, A., Glorot, X., Rae, J. W., Zielinski, M., Askham, H., Saraiva, A., Magliulo, V., Use of deep learning to develop continuous-risk models for adverse event prediction from electronic health records. 2765–2787 (2021). og Al. Nature Protocols 16, 82. Tran, D., Liu, J., Dusenberry, M. W., Phan, D., Collier, M., Ren, J., Han, K., Wang, Z., Mariet, Z., Hu, H., Plex: Towards reliability using pretrained large model extensions. af 2022). et al. arXiv preprint arXiv:2207.07411 Tsatsaronis, G., Balikas, G., Malakasiotis, P., Partalas, I., Zschunke, M., Alvers, M. R., Weissenborn, D., Krithara, A., Petridis, S., Polychronopoulos, D., En oversigt over BIOASQs store biomedicinske semantiske indeksering og spørgsmålssvarskonkurrence. 1 til 28 (2015). et al. BMC Bioinformatik 16, 84. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł. & Polosukhin, I. Attention is all you need. (2017). Advances in neural information processing systems 30 85. Vyas, D. A., Eisenstein, L. G. & Jones, D. S. 2020. Skjult i det blotte syn – genoverveje brugen af race korrektion i kliniske algoritmer 86. Walsh, K. E., Harik, P., Mazor, K. M., Perfetto, D., Anatchkova, M., Biggins, C., Wagner, J., Schoettker, P. J., Firneno, C., Klugman, R., Måling af skader i sundhedsvæsenet: optimering af evaluering af bivirkninger. 436 (2017 år) og Al. Medicinsk pleje 55, Wang, b., Min, S., Deng, X., Shen, J., Wu, Y., Zettlemoyer, L. & Sun, H. På vej mod at forstå kæde-af-tænkning: En empirisk undersøgelse af, hvad der betyder noget. af 2022). arXiv forprint arXiv:2212.10001 Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E. & Zhou, D. Selvkonsistens forbedrer kæde tænkning begrundelse i sprogmodeller. af 2022). arXiv preprint arXiv:2203.11171 Wei, J., Bosma, M., Zhao, V. Y., Guu, K., Yu, A. W., Lester, B., Du, N., Dai, A. M. & Le, Q. V. Finetuned sprogmodeller er nul-shot lærere. (2021). arXiv preprint arXiv:2109.01652 90. Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., Emergent abilities of large language models. af 2022). et al. arXiv preprint arXiv:2206.07682 Wei, J., Wang, X., Schuurmans, D., Bosma, M., Chi, E., Le, Q. & Zhou, D. Kæden af tanke, der fremkalder argumentation i store sprogmodeller. af 2022). arXiv preprint arXiv:2201.11903 92. Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.-S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A., Ethical and social risks of harm from language models. (2021). og Al. arXiv forprint arXiv:2112.04359 Williams, T., Szekendi, M., Pavkovic, S., Clevenger, W. & Cerese, J. Pålideligheden af AHRQ Common Format Harm Scales i vurdering af patient sikkerhed begivenheder. 52–59 (2015). Journal of patient safety 11, 94. Yasunaga, M., Bosselut, A., Ren, H., Zhang, X., Manning, C. D., Liang, P. & Leskovec, J. Deep bidirectional language-knowledge graph pretraining. af 2022). arXiv forprint arXiv:2210.09338 95. Yasunaga, M., Leskovec, J. & Liang, P. LinkBERT: Pretraining Language Models with Document Links. (2022). arXiv forprint arXiv:2203.15827 96. Ye, S., Jang, J., Kim, D., Jo, Y. & Seo, M. Retrieval of Soft Prompt Enhances Zero-Shot Task Generalization. af 2022). arXiv forprint arXiv:2210.03029 Yim, J., Chopra, R., Spitz, T., Winkens, J., Obika, A., Kelly, C., Askham, H., Lukic, M., Huemer, J., Fasler, K., et al. Forudsigelse af konvertering til våd alder-relateret makuladegeneration ved hjælp af dyb læring. 892–899 (2020). Naturmedicin 26, Zhang, H., Lu, A. X., Abdalla, M., McDermott, M. & Ghassemi, M. i (2020), 110–120. Sårende ord: Kvantificering af bias i kliniske kontekstuelle ordindlejringer ACM-konferencen om sundhed, indgåelse og læring Zhang, S., Roller, S., Goyal, N., Artetxe, M., Chen, M., Chen, S., Dewan, C., Diab, M., Li, X., Lin, X. V., OPT: Åbne forududdannede transformatorsprogmodeller. af 2022). og Al. arXiv forprint arXiv:2205.01068 Zhou, D., Schärli, N., Hou, L., Wei, J., Scales, N., Wang, X., Schuurmans, D., Bousquet, O., Le, Q. & Chi, E. Mindst til mest prompting muliggør kompleks ræsonnement i store sprogmodeller. af 2022). arXiv forprint arXiv:2205.10625 Bilag A.1 Hyperparametre og modelvalg Vi udførte instruktionsprøvetuning på Flan-PaLM 540B med en blød promptlængde på 100 for at producere Med-PaLM. Vi fryser resten af modellen, og indlejringsdimensionen er 18432 som i Chowdhery [ er Vi initialiserede tilfældigt de lærbare parametre til at være ensartet over [-0.5, 0.5], efter Lester [ er ]. Vi grid søgt over læring satser i 0.001, 0.003, 0.01 med AdamW optimizer [ ] og en vægtnedbrydningsfaktor i . Det er 0*. Vi brugte en batchstørrelse på 32 på tværs af alle løb. og Al. 14 og Al. 45 55 0 0 0 001 00001 Vi udførte modeludvælgelse ved at bede en kliniker om at rangere svarene på flere hold-out HealthSearchQA, MedicationQA og LiveQA eksempler (ikke anvendt til træning eller menneskelig evaluering), og valgte det checkpoint, der udførte bedst. Vi gjorde denne manuelle validering i stedet for at beregne nogle automatiserede målinger på et valideringssæt, f.eks. negativ log-sandsynlighed på hold-out (spørgsmål, svar) par, da i det store output rum af naturlige sproggenerationer, kan disse målinger ikke korrelere godt med menneskelige domme af faktiske modeludgange. A.2 Variation af resultater På grund af gentagne stochastiske dekoder ved hjælp af temperaturprøvetagning er der en vis forventet variation i resultaterne med selvkonsistens. Mens det er upraktisk at køre flere eksperimenter for alle vores modeller på tværs af alle de datasæt, der anvendes i denne undersøgelse, gentager vi evalueringerne på MedQA-datasættet 4 gange med vores bedste præstationsmodel. Den observerede varians er 0,078 hvilket tyder på en høj grad af konsistens i resultaterne. A.3 MMLU ablationer Vi udførte ablationer sammenligner Flan-PaLM 540B model ved hjælp af de få-shot, kæde-of-thought (CoT) og selv-konsistens fremme strategier på MMLU kliniske emner [ Resultaterne er opsummeret i afsnit Vi bemærker, at mens Flan-PaLM 540B med selvkonsistens opnår de bedste resultater for de fleste emner, er der et par emner, hvor standard few-shot eller CoT-promptering gør det bedre. 29 A3 af A.4 Scaling plots Vi leverer skaleringsplotter, der sammenligner PaLM- og Flan-PaLM-modellerne ved hjælp af få-shot-prompting på MedQA- og MedMCQA-datasættene i figur og en anden skalering plot sammenligner Flan-PaLM med få-shot prompting og Flan-PaLM med selv-konsistens prompting i figur Vi observerer stærk skalering ydeevne og se en kraftigere stigning i ydeevne, som vi skalere LLM model størrelse. A1 af A.2 af A.5 modelkort til Med-PaLM Med-PaLM bruger samme systemtype og implementeringsrammer som Flan-PaLM [ ]. Vi viser dele af modelkortet [ ] specifikt til Med-Palm i bordet . 15 59 A.2 af A.6 Med-PaLM Multiple Choice evaluering Med-PaLM blev trænet ved hjælp af instruktionsprompt tuning for at forbedre kvaliteten af lange former generationer produceret af Flan-PaLM. Men i betragtning af den generelle instruktionsprompt tuning, teknikken kan også anvendes til multi-choice datasæt. Vi kan lære delte soft prompt parametre at være præpended til instruktioner og / eller få-shot eksemplarer, der varierer for hver multi-choice datasæt. I et foreløbigt eksperiment uddannede vi Flan-PaLM ved hjælp af instruktionsfremmende tuning på MedQA, MedMCQA, PubMedQA og MMLU (kliniske emner). Eksemplarerne blev skrevet af et panel af fem kvalificerede klinikere. Hvert træningseksempel indeholdt datasæt-specifikke instruktioner og 5 få-shot eksempler. Den resulterende model opnåede en 67,2% nøjagtighed på MedQA ved hjælp af kæde-of-tænkning og selvkonsistens, omtrent matcher det tilsvarende resultat med Flan-PaLM i Sektion . We plan to extend this early result in future work. 4 A.7 Detaljerede resultater af menneskelig evaluering Detaljerede menneskelige evalueringsresultater med tillidsintervaller opsummeres i tabel - bordet . A3 af A.12 af A.8 Få hurtige eksempler Vi giver eksempler på nogle få-shot prompts anvendt i undersøgelsen i tabel af bordet af bordet af Ta-ble Og et bord . A. 13 A. 14 A. 15 A. 16 A. 17 A.9 Chain-of-Thought prompt eksempler Vi har givet eksempler på nogle af de kæde-of-tænkning opfordringer, der anvendes i denne undersøgelse i tabel af bordet af Ta-ble og bord . A. 18 af 19 A. 20 år A. 21 Denne artikel er tilgængelig på arkiv under CC by 4.0 Deed (Attribution 4.0 International) licens. Denne artikel er tilgængelig på arkiv under CC by 4.0 Deed (Attribution 4.0 International) licens.