De auteurs: Karan Singhal (Google Research, DeepMind) Shekoofeh Azizi (Google Research, DeepMind) Tao Tu (Google Research, DeepMind) S. Sara Mahdavi (Google Research, DeepMind) Jason Wei (Google Research, DeepMind) Hyung Won Chung (Google Research, DeepMind) Nathan Scales (Google Research, DeepMind) Ajay Tanwani (Google Research, DeepMind) Heather Cole-Lewis (Google Research, DeepMind) Stephen Pfohl (Google Research, DeepMind) Perry Payne (Google Research, DeepMind) Martin Seneviratne (Google Research, DeepMind) Paul Gamble (Google Research, DeepMind) Chris Kelly (Google Research, DeepMind) Nathaneal Schärli (Google Research, DeepMind) Aakanksha Chowdhery (Google Research, DeepMind) Philip Mansfield (Google Research, DeepMind) Blaise Agüera y Arcas (Google Research, DeepMind) Dale Webster (Google Research, DeepMind) Greg S. Corrado (Google Research, DeepMind) Yossi Matias (Google Research, DeepMind) Katherine Chou (Google Research, DeepMind) Juraj Gottweis (Google Research, DeepMind) Nenad Tomasev (Google Research, DeepMind) Yun Liu (Google Research, DeepMind) Alvin Rajkomar (Google Research, DeepMind) Joelle Barral (Google Research, DeepMind) Christopher Semturs (Google Research, DeepMind) Alan Karthikesalingam (Google Research, DeepMind) Vivek Natarajan (Google Research, DeepMind De auteurs: Karan Singhal (Google Research en DeepMind) Shekoofeh Azizi (Google Research en DeepMind) Tao Tu (Google Research en DeepMind) Sara Mahdavi (Google Research en DeepMind) Jason Wei (Google Research en DeepMind) Hyung Won Chung (Google Research en DeepMind) Nathan Scales (Google Research en DeepMind) Ajay Tanwani (Google Research en DeepMind) Heather Cole-Lewis (Google Research en DeepMind) Stephen Pfohl (Google Research en DeepMind) Perry Payne (Google Research en DeepMind) Martin Seneviratne (Google Research en DeepMind) Paul Gamble (Google Research en DeepMind) Chris Kelly (Google Research en DeepMind) Nathaneal Schärli (Google Research, DeepMind) Aakanksha Chowdhery (Google Research en DeepMind) Philip Mansfield (Google Research en DeepMind) Blaise Agüera y Arcas (Google Research, DeepMind) Dale Webster (Google Research en DeepMind) Greg S. Corrado (Google Research en DeepMind) Yossi Matias (Google Research en DeepMind) Katherine Chou (Google Research en DeepMind) Juraj Gottweis (Google Research en DeepMind) Nenad Tomasev (Google Research en DeepMind) Yun Liu (Google Research en DeepMind) Alvin Rajkomar (Google Research en DeepMind) Joelle Barral (Google Research en DeepMind) Christopher Semturs (Google Research en DeepMind) Alan Karthikesalingam (Google Research en DeepMind) Vivek Natarajan (Google Research en DeepMind) Grote taalmodellen (LLM's) hebben indrukwekkende mogelijkheden getoond in het begrijpen en genereren van natuurlijke talen, maar de kwaliteitssnelheid voor medische en klinische toepassingen is hoog. Tegenwoordig zijn pogingen om de klinische kennis van modellen te beoordelen meestal gebaseerd op geautomatiseerde evaluaties op beperkte benchmarks. Er is geen standaard om modelvoorspellingen en redenering over een breed scala aan taken te beoordelen. Om dit aan te pakken, presenteren we MultiMedQA, een benchmark die zes bestaande open vraagbeantwoordingsdatasets combineert die professionele medische examens, onderzoek en consumentenvragen omvatten; en HealthSearchQA, een nieuwe gratis-responsdataset van medische vragen die online worden gezocht. Bovendien evalueren we PaLM (een 540 miljard parameter LLM) en zijn instructie-georiënteerde variant, Flan-PaLM, op MultiMedQA. Met behulp van een combinatie van aanbevelingsstrategieën bereikt Flan-PaLM state-of-the-art nauwkeurigheid op elke MultiMedQA multi-choice dataset (MedQA, MedMCQA, PubMedQA, MMLU klinische onderwerpen), waaronder 67,6% nauwkeurigheid op MedQA (US Medical License Exam questions), die de vorige state-of-the-art met meer dan 17% overtreft. Echter, menselijke evaluatie onthult belangrijke gaten in Flan-PaLM-reacties. Om dit op te lossen introduceren we instructie prompt tuning, een param We tonen aan dat begrip, herinnering aan kennis en medisch redeneren worden verbeterd met modelschalings- en instructie-instructietuning, wat suggereert dat LLM's in de geneeskunde potentieel nuttig zijn Dit papier is Onder de CC by 4.0 Deed (Attribution 4.0 International) licentie. available on arxiv Beschikbaar in het archief Onze menselijke evaluaties onthullen belangrijke beperkingen van de huidige modellen, die het belang versterken van zowel evaluatie kaders en methodologische ontwikkeling bij het creëren van veilige, nuttige LLM modellen voor klinische toepassingen. 1 Inleiding Geneeskunde is een menselijke inspanning waarbij taal belangrijke interacties mogelijk maakt voor en tussen klinieken, onderzoekers en patiënten. Niettemin zijn de hedendaagse AI-modellen voor toepassingen in geneeskunde en gezondheidszorg grotendeels mislukt om taal volledig te benutten.Deze modellen, hoewel nuttig, zijn voornamelijk single-task-systemen (bijv. classificatie, regressie, segmentatie), zonder expressiviteit en interactieve mogelijkheden. - het - het Als gevolg hiervan is er een discrepantie tussen wat de modellen van vandaag kunnen doen en wat er van hen kan worden verwacht in echte klinische workflows. - het . 21 81 97 42 74 Recente ontwikkelingen in grote taalmodellen (LLM's) bieden een kans om AI-systemen te heroverwegen, met taal als een hulpmiddel voor het bemiddelen van mens-AI-interactie. Deze expressieve en interactieve modellen bieden grote belofte in hun vermogen om algemeen nuttige vertegenwoordigingen te leren van de kennis die in medische corpora is gecodeerd, op schaal. 10 De veiligheidskritische aard van het domein vereist echter een zorgvuldige ontwikkeling van evaluatie kaders, waardoor onderzoekers de vooruitgang zinvol kunnen meten en mogelijke schade kunnen vastleggen en verminderen.Dit is vooral belangrijk voor LLM's, omdat deze modellen generaties kunnen produceren die niet in lijn zijn met klinische en maatschappelijke waarden. Om te beoordelen hoe goed LLM's klinische kennis coderen en hun potentieel in de geneeskunde beoordelen, overwegen we medisch vragen beantwoorden. Deze taak is uitdagend: het verstrekken van hoogwaardige antwoorden op medische vragen vereist begrip van de medische context, herinnering aan passende medische kennis en redeneren met deskundige informatie. ] zijn vaak beperkt tot het beoordelen van classificatie nauwkeurigheid of geautomatiseerde natuurlijke taal generatie metricen (bijv. BLEU [ Dit creëert een onvervulde behoefte aan een brede medische vraag beantwoorden benchmark om de feitelijkheid van de antwoorden van LLM's te beoordelen, het gebruik van deskundige kennis in medische en wetenschappelijke redenering, behulpzaamheid, nauwkeurigheid, gezondheid eerlijkheid, en mogelijke schade aan mensen accepteren model outputs als feiten. 33 67 Om dit aan te pakken, curaten we MultiMedQA, een benchmark bestaande uit zeven medische vragen beantwoorden datasets, waaronder zes bestaande datasets: MedQA [ ], MedMCQA van [ Bij PubMedQa [ Het leven van [ De geneesmiddelen [ ], en MMLU klinische onderwerpen [ We introduceren onlangs de zevende dataset, HealthSearchQA, die bestaat uit veelgestelde gezondheidsvragen. 33 64 34 1 2 29 Om LLM's te beoordelen met behulp van MultiMedQA, bouwen we op PaLM, een 540 miljard parameter LLM [ ], en zijn instructietoestelde variant Flan-PaLM [ ]. Met behulp van een combinatie van few-shot [ ], keten van denken (CoT) [ ], en zelfconsistentie [ Flan-PaLM bereikt state-of-the-art (SOTA) prestaties op MedQA, MedMCQA, PubMedQA en MMLU klinische onderwerpen, vaak overtreft een aantal sterke LLM baseline met een aanzienlijke marge. 14 15 12 91 88 Ondanks de sterke prestaties van Flan-PaLM op vragen met meerdere keuzes, onthullen de antwoorden op consumentenmedische vragen belangrijke lacunes. Om dit op te lossen, stellen we voor instructie prompt tuning, een data- en parameter-efficiënte afstemmingstechniek, om Flan-PaLM verder aan te passen aan het medische domein. Het resulterende model, Med-PaLM, werkt bemoedigend op de assen van ons pilot human evaluation framework. Een panel van clinici beoordeelden bijvoorbeeld dat slechts 61,9% van de Flan-PaLM langvormige antwoorden in overeenstemming waren met wetenschappelijke consensus, vergeleken met 92,6% voor Med-PaLM antwoorden, vergeleken met klinisch gegenereerde antwoorden (92,9%). Hoewel deze resultaten veelbelovend zijn, is het medische domein complex. verdere evaluaties zijn noodzakelijk, met name in de dimensies eerlijkheid, billijkheid en vooroordelen. Ons werk toont aan dat veel beperkingen moeten worden overwonnen voordat dergelijke modellen levensvatbaar worden voor gebruik in klinische toepassingen. Onze belangrijkste bijdragen worden hieronder samengevat: Aanpak voor de evaluatie van LLM's in medische vraagbeantwoording - het We presenteren deze dataset naast zes andere bestaande open datasets voor het beantwoorden van medische vragen, het bestrijken van medische examens, medisch onderzoek en consumentenmedische vragen, als een diverse benchmark om de klinische kennis en vraag beantwoorden mogelijkheden van LLM's te beoordelen (zie sectie ) van Curation of HealthSearchQA and MultiMedQA 3.1 - het We proberen een kader voor de beoordeling van artsen en leken om meerdere assen van de prestaties van de LLM te beoordelen, naast nauwkeurigheid op datasets met meerdere keuzes. Onze beoordeling beoordeelt antwoorden voor overeenstemming met wetenschappelijke en klinische consensus, waarschijnlijkheid en mogelijke mate van schade, leesbegrip, herinnering aan relevante klinische kennis, manipulatie van kennis via geldige redenering, volledigheid van antwoorden, potentieel voor vooroordelen, relevantie en behulpzaamheid (zie sectie ) van Pilot framework for human evaluation 3.2 Op de MedQA, MedMCQA, PubMedQA en MMLU klinische thema datasets bereikt FLAN-PaLM SOTA-prestaties via een combinatie van aanbevelende strategieën, die meerdere sterke LLM-basislijnen overtreffen. Instructie prompt tuning om LLM's af te stemmen op het medische domein We introduceren instructie prompt tuning, een eenvoudige, gegevens- en parameter-efficiënte techniek voor het afstemmen van LLM's op het veiligheidskritische medische domein (zie sectie 3.3.3). We maken hiervan gebruik om Med-PaLM, een instructie prompt-tuned versie van Flan-PaLM gespecialiseerd in het medische domein te bouwen. Ons menselijke evaluatie kader onthult de beperkingen van Flan-PaLM in wetenschappelijke grounding, schade en vooroordelen. De belangrijkste beperkingen van LLM's onthuld door onze menselijke evaluatie Terwijl onze resultaten het potentieel van LLM's in de geneeskunde aantonen, suggereren ze ook dat verschillende kritische verbeteringen nodig zijn om deze modellen levensvatbaar te maken voor klinische toepassingen in de echte wereld. 2 Gerelateerd werk In de afgelopen jaren hebben LLM's indrukwekkende prestaties getoond op natuurlijke taalverwerking (NLP) taken [ - het - het - het - het - het - het - het - het - het ]. Ze zijn hun succes verschuldigd aan het opschalen van de training van transformer-gebaseerde modellen [ ]. Het is aangetoond dat modelprestaties en data-efficiëntie schalen met modelgrootte en datasetgrootte [ LLM's worden vaak getraind met behulp van zelfbeheersing op grote schaal, met behulp van algemene tekstcorpi zoals Wikipedia en BooksCorpus. - het ].Misschien is het meest interessante aspect van deze LLM's hun in-context paar-shot vaardigheden, die deze modellen aanpassen aan diverse taken zonder gradiënt-gebaseerde parameter updates [ - het - het - het Dit stelt hen in staat om snel te generaliseren naar onzichtbare taken en zelfs schijnbare redenering vaardigheden met passende aanmoedigende strategieën te tonen [ - het - het - het . Large language models (LLMs) 12 14 15 30 69 70 73 89 91 99 84 37 17 29 12 40 43 89 14 47 79 91 Verschillende studies hebben aangetoond dat LLM's het vermogen hebben om te fungeren als impliciete kennisbanken [ - het - het ]. Er is echter een aanzienlijk risico dat deze modellen hallucinaties produceren, sociale vooroordelen versterken die aanwezig zijn in hun trainingsgegevens en tekortkomingen in hun redeneringsvermogen tonen. Om de huidige beperkingen van LLM's te onderzoeken en de grote kloof tussen menselijke en LLM-taalkennis te kwantificeren, werd BIG-bench geïntroduceerd als een gemeenschapsbreed initiatief om benchmark te geven op taken die op het moment van publicatie naar verluidt verder liggen dan de mogelijkheden van de huidige taalmodellen [ . 29 35 79 78 Recente onderzoeken, zoals SciBERT [ ], BioNLP [ ], BioMegatron [ ], Biobert [ ], PubMedBERT [ Het durven van [ ], ScholarBERT [ ], en BioGPT [ Deze modellen, hoewel veelbelovend, zijn meestal klein in schaal en reikwijdte in vergelijking met LLMs zoals GPT-3 [ En de Palme [ Terwijl het medische domein uitdagend is, hebben specifieke voorstellen voor LLMs al voorbeelden opgenomen die zo gevarieerd zijn als het verhogen van niet-kritische klinische beoordelingen tot samenvatting van complexe medische communicatie [ - het - het . LLMs for science and biomedicine 5 46 76 44 25 66 31 56 12 14 3 41 75 De dichtstbijzijnde precedentie van ons werk is Taylor [ De , die een LLM voor de wetenschap genaamd Galactica introduceerde, en Liévin [ De ], die de redeneringskracht van LLM's in de medische vraagbeantwoording context bestudeerde. [ De ] gebruikt Instruct GPT-3, een instructie-georiënteerde LLM [ [ ] en de toepassing van keten-of-thinking aanmoedigen [ ] bovenaan om de resultaten op de MedQA, MedMCQA en PubMedQA datasets te verbeteren. En van al. 79 En van al. 50 En van al. 50 63 91 3 Methoden Hier beschrijven we het in detail: Datasets: de MultiMedQA benchmark voor de beoordeling van LLM's in medische vraagbeantwoording. kader voor menselijke evaluatie: een rating framework voor de evaluatie van model (en klinische) antwoorden door clinici en leken. Modellering: Grote taalmodellen (LLM's) en de methoden die worden gebruikt om ze af te stemmen op de vereisten van het medische domein in deze studie. 3.1 Datasets Om het potentieel van LLM's in de geneeskunde te beoordelen, hebben we ons gericht op het beantwoorden van medische vragen. Het beantwoorden van medische vragen vereist leesvaardigheden, het vermogen om medische kennis nauwkeurig te herinneren en de manipulatie van deskundige kennis. Er zijn verschillende bestaande medische vraag beantwoording datasets voor onderzoek. Deze omvatten datasets die professionele medische kennis zoals medische examenvragen beoordelen [ - het , vragen die medisch onderzoek begrip vaardigheden vereisen [ ], en vragen die de mogelijkheid vereisen om gebruikersintentie te beoordelen en nuttige antwoorden te bieden op hun medische informatiebehoeften [ - het . 33 64 34 1 2 We erkennen dat medische kennis groot is in zowel kwantiteit als kwaliteit. Bestaande benchmarks zijn inherent beperkt en bieden slechts gedeeltelijke dekking van de ruimte van medische kennis. Niettemin, het samenbrengen van een aantal verschillende datasets voor het beantwoorden van medische vragen maakt een diepere beoordeling van LLM-kennis mogelijk dan multi-choice-nauwkeurigheid of natuurlijke taalgeneratie-metricen zoals BLEU. De datasets die we samen hebben gegroepeerd onderzoeken verschillende vaardigheden - sommige zijn multi-choice-vragen terwijl anderen langvormige antwoorden vereisen; sommige zijn open domein (waar vragen worden beantwoord zonder beschikbare informatie te beperken tot een vooraf bepaalde bron) terwijl anderen gesloten domein zijn (waar vragen worden beantwoord door inhoud te halen uit gerelateerde referenti Voor een uitgebreide samenvatting van medische vraag beantwoording datasets. 33 3.1.1 MultiMedQA - Een benchmark voor het beantwoorden van medische vragen MultiMedQA omvat datasets met meerdere keuzes die vragen beantwoorden, datasets die langere formulieren vereisen voor antwoorden op vragen van medische professionals en datasets die langere formulieren vereisen voor antwoorden op vragen die door niet-professionals kunnen worden gesteld. ], MedMCQA van [ Bij PubMedQa [ Het leven van [ De geneesmiddelen [ ] en MMLU klinische onderwerpen [ We hebben MultiMedQA verder uitgebreid met een nieuwe dataset van gecurateerde algemeen gezochte gezondheidsvragen: HealthSearchQA. Alle datasets zijn in het Engels en we beschrijven ze hieronder in detail. 33 64 34 1 2 29 Deze datasets variëren langs de volgende assen: Format: Multiple-choice vs. langvormige antwoordvragen Beoordeelde vaardigheden: bijv. beoordeling van de herinnering aan medische feiten in isolatie versus beoordeling van medische redeneringskracht naast herinnering aan feiten Domain: open domein vs. gesloten domein Vraagbron: van professionele medische examens, medisch onderzoek of consumenten die medische informatie zoeken Labels en metagegevens: aanwezigheid van labels of toelichtingen en hun bronnen Terwijl MedMCQA, PubMedQA, LiveQA en MedicationQA referentie long-form antwoorden of verklaringen bieden, gebruiken we ze niet in dit werk. Ten eerste komen de referentie antwoorden niet uit consistente bronnen over de verschillende datasets. Antwoorden kwamen vaak van geautomatiseerde hulpmiddelen of niet-klinische professionals zoals bibliothecarissen. De constructie van de referentie antwoorden en verklaringen in deze baanbrekende datasets werd niet geoptimaliseerd voor holistische of uitgebreide beoordelingen van de kwaliteit van lange antwoorden, waardoor ze suboptimal zijn voor gebruik als een "grondwaarheid" tegen welke LLM's te beoordelen met behulp van geautomatiseerde natuurlijke taalmetrieken zoals BLEU. Om dit te verlichten, zoals besproken in sectie Ten tweede, gezien de veiligheidskritische vereisten van het medische domein, geloven we dat het belangrijk is om verder te gaan dan geautomatiseerde metingen van de kwaliteit van de generatie van langvormige antwoorden met behulp van metrics zoals BLEU naar die met betrekking tot meer nuancieuze menselijke evaluatie kaders zoals die voorgesteld in deze studie. 4.5 Het MedQA-dataset [ ] bestaat uit US Medical License Exam (USMLE) stijl vragen, die werden verkregen met een keuze uit 4 of 5 mogelijke antwoorden van de National Medical Board Examination in de VS. De ontwikkeling set bestaat uit 11450 vragen en de test set heeft 1273 vragen. MedQA (USMLE) 33 De MedMCQA dataset bestaat uit meer dan 194k 4-optie multi-choice vragen van Indiase medische toelatingsexamens (AIIMS/NEET) [ ]. Deze dataset omvat 2.4k gezondheidszorg onderwerpen en 21 medische onderwerpen. MedMCQA 64 De pubMedQA dataset [ ] bestaat uit 1k deskundig gelabeld vraag antwoordparen waar de taak is om een ja / nee / misschien meervoudige keuze antwoord gegeven een vraag samen met een PubMed abstract als context te produceren. Terwijl de MedQA en MedMCQA datasets zijn open domein vraag beantwoording taken, de PubMedQA taak is gesloten domein, in die het vereist antwoord inferentie uit de ondersteunende PubMed abstract context. PubMedQA 34 “Measuring Massive Multitask Language Understanding” (MMLU) [ ] includes exam questions from 57 domains. We selected the subtasks most relevant to medical knowledge: “anatomy”, “clinical knowledge”, “college medicine”, “medical genetics”, “professional medicine”, and “college biology”. Each MMLU subtask contains multiple-choice questions with four options, along with the answers. MMLU 29 De LiveQA dataset [ ] werd gecurateerd als onderdeel van de Text Retrieval Challenge (TREC) 2017. De dataset bestaat uit medische vragen ingediend door mensen aan de National Library of Medicine (NLM). De dataset bestaat ook uit handmatig verzamelde referentie antwoorden van vertrouwde bronnen zoals de National Institute of Health (NIH) website. LiveQA 1 Het medicijnsysteem [ ] bestaat uit veelgestelde consumentenvragen over geneesmiddelen.Naast de vraag bevat de dataset annotaties die overeenkomen met geneesmiddelenfocus en -interacties. Net als LiveQA evalueren we het vermogen van modellen om langvormige antwoorden op de vragen in de testset te produceren. MedicationQA 2 We hebben onze eigen aanvullende dataset gecurateerd bestaande uit 3375 algemeen gezochte consumentenvragen, aangeduid als “HealthSearchQA”. De dataset werd gecurateerd met behulp van zaadmedische aandoeningen en de bijbehorende symptomen. We gebruikten de zaadgegevens om openbaar beschikbare algemeen gezochte vragen te halen die werden gegenereerd door een zoekmachine, die werden weergegeven aan alle gebruikers die de zaadvoorwaarden invoeren. HealthSearchQA Hoewel MultiMedQA ons in staat stelt om de medische vraag beantwoorden mogelijkheden van LLMs langs meerdere assen te onderzoeken, erkennen we dat het niet uitputtend is. ] of die preklinische biomedische kennis vereisen [ in toekomstige werkzaamheden. 65 83 3.2 Kader voor menselijke evaluatie Here we describe our proposed framework for human evaluation of long-form answers to medical questions. 3.2 Klinische evaluatie Terwijl objectieve nauwkeurigheidsmetricen op vragen met meerdere keuzes een robuuste maatstaf zijn voor de prestaties van het model, verliezen ze een aantal belangrijke details.Om de generatieve outputs van LLM's in open-end-vraagbeantwoording voor medische onderwerpen beter te beoordelen, hebben we een proefkader ontwikkeld voor menselijke evaluatie van long-form-modellen antwoorden op consumentenmedische vragen in de LiveQA-, MedicationQA- en HealthSearchQA-dataset. | Summary of the different axes along which clinicians evaluate the answers in our consumer medical question answering datasets. These include agreement with scientific consensus, possibility and likelihood of harm, evidence of comprehension, reasoning and retrieval ability, presence of inappropriate, incorrect or missing content and possibility of bias in the answer. We use a pool of clinicians to evaluate the quality of model and human-generated answers along these axes. Table 2 Task Axis Question 1 Scientific consensus How does the answer relate to the consensus in the scientific andclinical community? 2 Extent of possible harm What is the extent of possible harm? 3 Likelihood of possible harm What is the likelihood of possible harm? 4 Evidence of correct comprehension Does the answer contain any evidence of correct reading compre-hension? (indication the question has been understood) 5 Evidence of correct retrieval Does the answer contain any evidence of correct recall of knowl-edge? (mention of a relevant and/or correct fact for answering the question) 6 Evidence of correct reasoning Does the answer contain any evidence of correct reasoning steps?(correct rationale for answering the question) 7 Evidence of incorrect comprehension Does the answer contain any evidence of incorrect reading com-prehension? (indication the question has not been understood) 8 Evidence of incorrect retrieval Does the answer contain any evidence of incorrect recall of knowl-edge? (mention of an irrelevant and/or incorrect fact for answering the question) 9 Evidence of incorrect reasoning Does the answer contain any evidence of incorrect reasoning steps?(incorrect rationale for answering the question) 10 Inappropriate/incorrect content Does the answer contain any content it shouldn’t? 11 Missing content Does the answer omit any content it shouldn’t? 12 Possibility of bias Does the answer contain any information that is inapplicable or inaccurate for any particular medical demographic? 1 Scientific consensus How does the answer relate to the consensus in the scientific andclinical community? 2 Extent of possible harm Hoe groot is de mogelijke schade? 3 Likelihood of possible harm Wat is de waarschijnlijkheid van mogelijke schade? 4 Bewijs van correct begrip Bevat het antwoord bewijs van een correcte leesbegrip? (aanduiding dat de vraag is begrepen) 5 Evidence of correct retrieval Does the answer contain any evidence of correct recall of knowl-edge? (mention of a relevant and/or correct fact for answering the question) 6 Evidence of correct reasoning Does the answer contain any evidence of correct reasoning steps?(correct rationale for answering the question) 7 Evidence of incorrect comprehension Bevat het antwoord enig bewijs van onjuiste leescomprehension? (indicatie dat de vraag niet is begrepen) 8 Bewijs van onjuiste recovery Bevat het antwoord bewijs van onjuiste herinnering aan knowl-edge? (vermelding van een irrelevant en/of onjuist feit voor het beantwoorden van de vraag) 9 Evidence of incorrect reasoning Does the answer contain any evidence of incorrect reasoning steps?(incorrect rationale for answering the question) 10 Onjuiste / onjuiste inhoud Bevat het antwoord enige inhoud die het niet zou moeten hebben? 11 Missing content Verlaat het antwoord enige inhoud die het niet zou moeten hebben? 12 Possibility of bias Bevat het antwoord informatie die niet toepasbaar of onnauwkeurig is voor een bepaalde medische demografie? The pilot framework was inspired by approaches published in a similar domain by Feng [ ] to examine the strengths and weaknesses of LLM generations in clinical settings. We used focus groups and interviews with clinicians based in the UK, US and India to identify additional axes of evaluation [ ] and expanded the framework items to address notions of agreement with scientific consensus, possibility and likelihood of harm, completeness and missingness of answers and possibility of bias. Alignment with scientific consensus was measured by asking raters whether the output of the model was aligned with a prevailing scientific consensus (for example in the form of well-accepted clinical practice guidelines), opposed to a scientific consensus; or whether no clear scientific consensus exists regarding the question. Harm is a complex concept that can be evaluated along several dimensions (e.g. physical health, mental health, moral, financial and many others). When answering this question, raters were asked to focus solely on physical/mental health-related harms, and evaluated both severity (in a format inspired by the AHRQ common formats for harm [ ]) and likelihood, under the assumption that a consumer or physician based on the content of the answer might take actions. Bias was assessed broadly by raters considering if the answer contained information that would be inapplicable or inaccurate to a specific patient demographic. The questions asked in the evaluation are summarized in Table et al. 22 60 93 2 Our framework items’ form, wording and response-scale points were refined by undertaking further interviews with triplicate assessments of 25 question-answer tuples per dataset by three qualified clinicians. Instructions for the clinicians were written including indicative examples of ratings for questions, and iterated until the clinicians’ rating approaches converged to indicate the instructions were usable. Once the guidelines had converged a larger set of question-answer tuples from the consumer medical questions datasets were evaluated by single-ratings performed by one of nine clinicians based in the UK, USA or India and qualified for practice in their respective countries, with specialist experience including pediatrics, surgery, internal medicine and primary care. | Summary of the different axes along which lay users evaluate the utility of answers in our consumer medical question answering datasets. We use a pool of 5 non-expert lay users to evaluate the quality of model and human-generated answers along these axes. Table 3 Task Axis Question 1 Answer captures user intent How well does the answer address the intent of the question? 2 Helpfulness of the answer How helpful is this answer to the user? (for example, does it enable them to draw a conclusion or help clarify next steps?) 1 Answer captures user intent How well does the answer address the intent of the question? 2 Helpfulness of the answer Hoe nuttig is dit antwoord voor de gebruiker? (bijvoorbeeld, stelt het hen in staat een conclusie te trekken of helpt het de volgende stappen te verduidelijken?) 3.2.2 Lay gebruiker (niet-expert) evaluatie Om de bruikbaarheid en bruikbaarheid van de antwoorden op de medische vragen van consumenten te beoordelen, hebben we een aanvullende gebruikersbeoordeling (niet-deskundige) uitgevoerd. Dit werd uitgevoerd door vijf beoordelaars zonder medische achtergrond, die allemaal in India waren gevestigd.Het doel van deze oefening was te beoordelen hoe goed het antwoord de waargenomen bedoeling onder de vraag aanpakte en hoe nuttig en handig het was. 3 3.3 Modeling In deze sectie geven we details over grote taalmodellen (LLM's) en de technieken die worden gebruikt om ze aan te passen aan de vereisten van het medische domein. 3.3.1 Models We build on the PaLM and Flan-PaLM family of LLMs in this study. Pathways Language Model (PaLM), geïntroduceerd door [ ] is a densely-activated decoder-only transformer language model trained using Pathways [ ], a large-scale ML accelerator orchestration system that enables highly efficient training across TPU pods. The PaLM training corpus consists of 780 billion tokens representing a mixture of webpages, Wikipedia articles, source code, social media conversations, news articles and books. All three PaLM model variants are trained for exactly one epoch of the training data. We refer to [ , - het Op het moment van de release behaalde de PaLM 540B baanbrekende prestaties, die de fine-tune state van de modellen overtreffen op een suite van multi-stap redeneringstaken en de gemiddelde menselijke prestaties op de BIG-bench overtreffen. - het . PaLM 14 4 14 19 80 14 78 In addition to the baseline PaLM models, we also considered the instruction-tuned counterpart introduced by [ ].Deze modellen worden getraind met behulp van instructietuning, d.w.z. finetuning van het model op een verzameling datasets waarin elk voorbeeld wordt voorafgezet met een combinatie van instructies en/of enkele exemplaren. [ De ] demonstrated the effectiveness of scaling the number of tasks, model size and using chain-of-thought data [ ] as instructions. The Flan-PaLM model reached state of the art performance on several benchmarks such as MMLU, BBH, and TyDIQA [ ]. Across the suite of evaluation tasks considered in [ ], Flan-PaLM outperformed baseline PaLM by an average of 9.4%, demonstrating the effectiveness of the instruction tuning approach. Flan-PaLM 15 et al. 15 91 16 15 In deze studie hebben we zowel de modelvarianten PaLM als Flan-PaLM in drie verschillende modelgroottes overwogen: 8B, 62B en 540B, waarbij het grootste model 6144 TPUv4-chips gebruikt voor pre-training. 3.3.2 Aligning LLMs to the medical domain General-purpose LLMs like PaLM [ ] en GPT-3 [ ] have reached state of the art performance on a wide variety of tasks on challenging benchmarks such as BIG-bench. However, given the safety critical nature of the medical domain, it is necessary to adapt and align the model with domain-specific data. Typical transfer learning and domain adaptation methods rely on end-to-end finetuning of the model with large amounts of in-domain data, an approach that is challenging here given the paucity of medical data. As such, in this study we focused on data-efficient alignment strategies building on prompting [ ] and prompt tuning [ ]. 14 12 12 45 Brown [ ] demonstreerde dat LLM's sterke paar-shot leerlingen zijn, waar snel in-context leren kan worden bereikt door middel van prompting strategieën. Door middel van een handvol demonstratie voorbeelden gecodeerd als prompt tekst in de invoer context, deze modellen zijn in staat om te generaliseren naar nieuwe voorbeelden en nieuwe taken zonder enige gradiënt updates of finetuning. Het opmerkelijke succes van in-context paar-shot leren heeft de ontwikkeling van vele prompting strategieën, waaronder scratchpad gestimuleerd [ ], keten van gedachte [ en de minste aanleiding tot de ], especially for multi-step computation and reasoning problems such as math problems [ ]. In this study we focused on standard few-shot, chain-of-thought and self-consistency prompting as discussed below. Prompting strategies et al. 12 61 91 100 17 The standard few-shot prompting strategy was introduced by Brown [ ]. Here, the prompt to the model is designed to include few-shot examples describing the task through text-based demonstrations. These demonstrations are typically encoded as input-output pairs. The number of examples is typically chosen depending on the number of tokens that can fit into the input context window of the model. After the prompt, the model is provided with an input and asked to generate the test-time prediction. The zero-shot prompting counterpart typically only involves an instruction describing the task without any additional examples. Brown [ ] observed that while zero-shot prompting scaled modestly with model size, performance with few-shot prompting increased more rapidly. Further, Wei [ ] observed emergent abilities– that is, abilities which are non-existent in small models but rapidly improve above random performance beyond a certain model size in the prompting paradigm. Few-shot prompting En van al. 12 et al. 12 et al. 90 In this study we worked with a panel of qualified clinicians to identify the best demonstration examples and craft the few-shot prompts. Separate prompts were designed for each dataset as detailed in Section Meestal gebruikten we 5 input-outputvoorbeelden voor de consumentenmedische vraag beantwoordende datasets, maar verminderde het aantal tot 3 of minder voor PubMedQA gezien de noodzaak om ook in de abstracte context binnen de prompt-tekst te passen. A.8 Chain-of-thought (CoT), introduced by Wei [ ], involves augmenting each few-shot example in the prompt with a step-by-step breakdown and a coherent set of intermediate reasoning steps towards the final answer. The approach is designed to mimic the human thought process when solving problems that require multi-step computation and reasoning. Wei [ ] demonstrated that CoT prompting can elicit reasoning abilities in sufficiently large language models and dramatically improve performance on tasks such as math problems [ ]. Further, the appearance of such CoT reasoning appears to be an emergent ability [ ] of LLMs. Lewkowycz [ De ] used CoT prompting as one of the key strategies in their work leading to breakthrough LLM performance on several STEM benchmarks. Chain-of-thought prompting et al. 91 et al. 91 17 90 et al. 47 Veel van de medische vragen die in deze studie worden onderzocht, omvatten complexe multi-stap redenering, waardoor ze een goede pasvorm zijn voor CoT-inductietechnieken. Samen met clinici hebben we CoT-inductietechnieken ontwikkeld om duidelijke demonstraties te bieden over hoe de gegeven medische vragen te redeneren en te beantwoorden. . A.9 van A straightforward strategy to improve the performance on the multiple-choice benchmarks is to prompt and sample multiple decoding outputs from the model. The final answer is the one with the majority (or plurality) vote. This idea was introduced by Wang [ De ] under the name of "self-consistency". The rationale behind this approach here is that for a domain such as medicine with complex reasoning paths, there might be multiple potential routes to the correct answer. Marginalizing out the reasoning paths can lead to the most consistent answer. The self-consistency prompting strategy led to particularly strong improvements in [ ], and we adopted the same approach for our datasets with multiple-choice questions: MedQA, MedMCQA, PubMedQA and MMLU. Self-consistency prompting et al. 88 47 Because LLMs have grown to hundreds of billions of parameters [ - het ], finetuning them is extraordinarily computationally expensive. While the success of few-shot prompting has alleviated this issue to a large extent, many tasks would benefit further from gradient-based learning. Lester [ De ] introduced prompt tuning (in contrast to prompting / priming), a simple and computationally inexpensive Prompt tuning 12 14 En van al. 45 method to adapt LLMs to specific downstream tasks, especially with limited data. The approach involves the learning of soft prompt vectors through backpropagation while keeping the rest of the LLM frozen, thus allowing easy reuse of a single model across tasks. This use of soft prompts can be contrasted with the discrete “hard” text-based few-shot prompts popularized by LLMs such as GPT-3 [ ]. While prompt tuning can benefit from any number of labeled examples, typically only a handful of examples (e.g., tens) are required to achieve good performance. Further, Lester 12 et al. [ ] demonstrated that prompt-tuned model performance becomes comparable with end-to-end finetuning at increased model scale. Other related approaches include prefix tuning [ ], where prefix activation vectors are prepended to each layer of the LLM encoder and learned through backpropagation. Lester [ ]’s prompt tuning can be thought of as a simplification of this idea, restricting the learnable parameters to only those representing a small number of tokens prepended to the input as a soft prompt. 45 48 et al. 45 3.3.3 Instruction prompt tuning Wei [ ] and Chung [ ] demonstrated the benefits of multi-task instruction finetuning: the Flan-PaLM model achieved state of the performance on several benchmarks such as BIG-bench [ ] and MMLU [ ]. In particular, Flan-PaLM demonstrated the benefits of using CoT data in fine-tuning, leading to robust improvements in tasks that required reasoning. et al. 89 et al. 15 47 29 Given the strong performance of instruction tuning, we built primarily on the Flan-PALM model in this work. However, as discussed in Section , our human evaluation revealed key gaps in Flan-PaLM’s performance on the consumer medical question answering datasets, even with few-shot prompting. To further align the model to the requirements of the safety-critical medical domain, we explored additional training specifically on medical data. 4.5 For this additional training, we used prompt tuning instead of full-model finetuning given compute and clinician data generation costs. Our approach effectively extends Flan-PaLM’s principle of "learning to follow instructions" to the prompt tuning stage. Specifically, rather than using the soft prompt learned by prompt tuning as a replacement for a task-specific human-engineered prompt, we instead use the soft prompt as an initial prefix that is shared across multiple medical datasets, and which is followed by the relevant task-specific human-engineered prompt (consisting of instructions and/or few-shot exemplars, which may be chain-of-thought examples) along with the actual question and/or context. We verwijzen naar deze methode van prompt tuning als “instructie prompt tuning”. Instructie prompt tuning kan dus worden gezien als een lichtgewicht manier (data-efficiënt, parameter-efficiënt, computerefficiënt tijdens zowel training als inferentie) van het trainen van een model om instructies te volgen in een of meer domeinen. Given the combination of soft prompt with hard prompt, instruction prompt tuning can be considered a type of "hard-soft hybrid prompt tuning" [ ], alongside existing techniques that insert hard anchor tokens into a soft prompt [ ], insert learned soft tokens into a hard prompt [ ], or use a learned soft prompt as a prefix for a short zero-shot hard prompt [ , ]. To the best of our knowledge, ours is the first published example of learning a soft prompt that is prefixed in front of a full hard prompt containing a mixture of instructions and few-shot exemplars. 52 53 28 26 96 3.3.4 Alles bij elkaar brengen: Med-PaLM Om Flan-PaLM aan te passen aan het medische domein, hebben we instructie prompt tuning toegepast op een kleine set van exemplaren. Deze voorbeelden werden effectief gebruikt om het model te instrueren om tekstgeneraties meer af te stemmen op de vereisten van het medische domein, met goede voorbeelden van medisch begrip, herinnering aan klinische kennis, en redeneren op medische kennis waarschijnlijk niet leiden tot schade aan de patiënt. We randomly sampled examples from MultiMedQA free-response datasets (HealthSearchQA, MedicationQA, LiveQA) and asked a panel of five clinicians to provide exemplar answers. These clinicians were based in the US and UK with specialist experience in primary care, surgery, internal medicine, and pediatrics. Clinicians then filtered out questions / answer pairs that they decided were not good examples to instruct the model. This generally happened when clinicians felt like they could not produce an “ideal” model answer for a given question, e.g., if the information required to answer a question was not known. We were left with 40 examples across HealthSearchQA, MedicationQA, and LiveQA used for instruction prompt tuning training. The resulting model, Med-PaLM, was evaluated on the consumer medical question answering datasets of MultiMedQA along with Flan-PaLM. Figure gives an overview of our instruction prompt tuning approach for Med-PaLM. Further details on the hyperparameter optimization and model selection process can be found in Section . The model card for Med-PaLM is provided in Section . 2 A.1 A.5 4 Resultaten In this section, we first provide an overview of our key results as summarized in Figures and Vervolgens presenteren we verschillende ablatieën om de resultaten te contextualiseren en te interpreteren. 3 4 4.1 Flan-PaLM exceeds previous state-of-the-art on MedQA (USMLE) by over 17% Op de MedQA-dataset bestaande uit USMLE-stijlvragen met 4 opties behaalde ons Flan-PaLM 540B-model een meervoudige keuzevraag (MCQ) nauwkeurigheid van 67,6% die het DRAGON-model overtreft. Bij 20,1 procent 94 Concurrent to our study, Bolton [ ] developed PubMedGPT, a 2.7 billion model trained exclusively on biomedical abstracts and paper. The model achieved a performance of 50.3% on MedQA questions with 4 options. To the best of our knowledge, this is the state-of-the-art on MedQA, and Flan-PaLM 540B exceeded this by 17.3%. Table Bij de moeilijker gestelde vragen met 5 opties behaalde ons model een score van 62,0%. et al. 9 4 4.2 State-of-the-art performance on MedMCQA and PubMedQA Op de MedMCQA dataset, bestaande uit medische toelatingsexamen vragen uit India, Flan-PaLM 540B behaalde een prestaties van 57,6% op de developer set. ]. 79 Similarly on the PubMedQA dataset, our model achieved an accuracy of 79.0% outperforming the previous state of the art BioGPT model Luo [ Hoewel deze verbetering klein lijkt te lijken in vergelijking met MedQA en MedMCQA datasets, is de single ratter menselijke prestaties op PubMedQA 78.0% [ ], aangegeven dat er een inherent plafond kan zijn voor maximale prestaties op deze taak. et al. 56 33 | Summary of the best performing models on the MedQA (USMLE) dataset questions with 4 options. Our results with Flan-PaLM exceed previous state of the art by over 17%. Table 4 Model (number of parameters) MedQA (USMLE) Accuracy % Flan-PaLM (540 B)(ours) 67.6 PubMedGPT (2.7 B) [ ] 9 50.3 DRAGON (360 M) [ ] 94 47.5 BioLinkBERT (340 M) [ ] 95 45.1 Galactica (120 B) [ ] 79 44.4 PubMedBERT (100 M) [ ] 25 38.1 GPT-Neo (2.7 B) [ ] 7 33.3 Flan-PaLM (540 B)(ours) 67.6 PubMedGPT (2.7 B) [ ] 9 50.3 DRAGON (360 M) [ ] 94 47.5 BioLinkBERT (340 M) [ ] 95 45.1 Galactica (120 B) [ ] 79 44.4 PubMedBERT (100 M) [ ] 25 38.1 GPT-Neo (2.7 B) [ ] 7 33.3 4.3 State-of-the-art performance on MMLU clinical topics The MMLU dataset contains multiple-choice questions from several clinical knowledge, medicine and biology related topics. These include anatomy, clinical knowledge, professional medicine, human genetics, college medicine and college biology. Flan-PaLM 540B achieved state of the art performance on all these subsets, outperforming strong LLMs like PaLM, Gopher, Chinchilla, BLOOM, OPT and Galactica. In particular, on the professional medicine and clinical knowledge subset, Flan-PaLM 540B achieved a SOTA accuracy of 83.5% and 84.0%. Figure summarizes the results, providing comparisons with other LLMs where available [ . 4 79 4.4 Ablations We hebben verschillende ablaties uitgevoerd op drie van de datasets met meerdere keuzes - MedQA, MedMCQA en PubMedQA - om onze resultaten beter te begrijpen en de belangrijkste componenten te identificeren die bijdragen aan de prestaties van Flan-PaLM. Across all model sizes, we observed that the instruction-tuned Flan-PaLM model outperformed the baseline PaLM model on all three datasets - MedQA, MedMCQA and PubMedQA. The models were few-shot prompted in these experiments using the prompt text detailed in . The detailed results are summarized in . The improvements were most prominent in the PubMedQA dataset where the 8B Flan-PaLM model outperformed the baseline PaLM model by over 30%. Similar strong improvements were observed in the case of 62B and 540B variants too. These results demonstrated the strong benefits of instruction fine-tuning. Similar results with MMLU clinical topics are reported in Section . Instruction tuning improves performance on medical question answering A.8 5 A.3 van We have not yet completed a thorough analysis of the effect of instruction prompt tuning on multiple-choice accuracy; our analysis is of Flan-PaLM in this section, not Med-PaLM. Med-PaLM (instruction prompt-tuned Flan-PaLM) was developed to improve the long-form generation results of Flan-PaLM presented in Section by better aligning the model to the medical domain. However, given the success of domain-agnostic instruction tuning for multiple-choice question answering, in-domain instruction prompt tuning appears promising, and we present a preliminary result in Section . 4.5 A.6 Een gerelateerde opmerking van was the strong performance improvements obtained from scaling the model from 8B to 62B and 540B. We observed approximately a 2x improvement in performance when scaling the model from 8B to 540B in both PaLM and Flan-PaLM. These improvements were more pronounced in the MedQA and MedMCQA datasets. In particular, for the Flan-PaLM model, the 540B variant outperformed the 62B variant by over 14% and the 8B variant by over 24%. Given these results and the strong performance of the Flan-PaLM 540B model, we built on this model for downstream experiments and ablations. The scaling plots are provided in Section . Scaling improves performance on medical question answering 5 A.4 summarizes the results from using CoT prompting and provides a comparison with the few-shot prompting strategy using the Flan-PaLM 540B model. Somewhat unexpectedly, we did not observe improvements using CoT over the standard few-shot prompting strategy across the three multiple-choice datasets - MedQA, MedMCQA and PubMedQA. The CoT prompts used are summarized in Section . Chain-of-Thought (CoT) prompting 6 A.9 Wang [ ] showed that self-consistency prompting can help when CoT prompting hurts performance. They showed significant improvements on arithmetic and commonsense reasoning tasks. Taking their cue, we apply it to our datasets. We fixed the number of chain-of-thought answer explanation paths to 11 for each of the three datasets. We then marginalized over the different explanation paths to select the most consistent answer. Using this strategy, we observed significant improvements over the standard few-shot prompting strategy for the Flan-PaLM 540B model on the MedQA and MedMCQA datasets. In particular, for the MedQA dataset we observed a >7% improvement with self-consistency. However, somewhat unexpectedly, self-consistency led to a drop in performance for the PubMedQA dataset. The results are summarized in Table . Self-consistency (SC) leads to strong improvement in multiple-choice performance et al. 88 7 We further provide some example responses from the Flan-PaLM 540B model for MedQA in Table . 8 LLMs are capable of long, coherent, and complex generations. However, they can also generate statements inconsistent with fact. In medical settings in particular, such failure modes need to be carefully vetted, and in real world applications, generations unlikely to be true should be withheld. Instead, we may want to defer to other information sources or experts when needed. One solution is therefore for LLMs to communicate uncertainty estimates along with their responses. Uncertainty and Selective Prediction Terwijl onzekerheidsmetingen over LLM-outputsequenties een open gebied van onderzoek blijven [ , ], hier hebben we een eenvoudige proxy onderzocht als een initiële benadering om de relatie tussen LLM-onzekerheid en statement-nauwkeurigheid te meten. ], met behulp van het aantal decodes dat overeenkomt met een gegeven antwoord van zelfconsistentie als een maatstaf van onzekerheid en gebruikte het om het antwoord te onthouden als het model niet adequaat vertrouwde. We voerden het experiment uit met behulp van 41 decodes van het Flan-PaLM 540B-model met keten-of-thought-prompting en zelfconsistentie. that as the deferring fraction increases (i.e., with a higher “confidence” required to provide a prediction), the performance of the model on MedQA improves, reaching up to an accuracy of of 82.5% at a 0.45 deferring fraction. This suggests our measure of response uncertainty may be reasonable, and that LLMs seem to encode uncertainty about their knowledge in the medical domain. However, more research is needed beyond this preliminary analysis. 36 51 82 5 4.5 Human evaluation results We randomly selected 100 questions from HealthSearchQA, 20 questions from LiveQA, and 20 questions from MedicationQA as a smaller long-form answer benchmark for detailed human evaluation. These questions reflect real-world consumer queries for medical information. These selected questions were disjoint from those exemplars used for instruction prompt tuning to produce Med-PaLM. We had a panel of clinicians generate expert reference answers to these questions. We then produced answers using Flan-PaLM and Med-PaLM (both 540B models). A few qualitative examples of these questions and the corresponding Med-PaLM responses are shown in Table . We had the three sets of answers evaluated by another panel of clinicians along the axes in Table , without revealing the source of answers. One clinician evaluated each answer. To reduce the impact of variation across clinicians on generalizability of our findings, our panel consisted of 9 clinicians (based in the US, UK, and India). We used the non-parametric bootstrap to estimate any significant variation in the results, where 100 bootstrap replicas were used to produce a distribution for each set and we used the 95% bootstrap percentile interval to assess variations. These results are described in detail below and in Section . 9 2 A.7 We wished to understand how the answers related to current consensus in the clinical and scientific community. On the 140 questions evaluated in the study, we found that clinicians’ answers were judged to be aligned with the scientific consensus in 92.9% of questions. On the other hand, Flan-PaLM was found to be in agreement with the scientific consensus in only 61.9% of answers. For other questions, answers were either opposed to consensus, or no consensus existed. This suggested that generic instruction tuning on its own was not sufficient to produce scientific and clinically grounded answers. However, we observed that 92.9% of Med-PaLM answers were judged to be in accordance with the scientific consensus, showcasing the strength of instruction prompt tuning as an alignment technique to produce scientifically grounded answers. Scientific consensus: We note that since PaLM, Flan-PaLM, and Med-PaLM were trained using corpora of web documents, books, Wikipedia, code, natural language tasks, and medical tasks at a given point of time, one potential limitation of these models is that they can reflect the scientific consensus of the past instead of today. This was not a commonly observed failure mode for Med-PaLM today, but this motivates future work in continual learning of LLMs and retrieval from a continuously evolving corpus. We probeerden de medische begrip, medische kennisherwinning en redeneringsmogelijkheden van het model te begrijpen (of het nu expert of model gegenereerd is) zoals uitgedrukt door de door hen gegenereerde antwoorden.We vroegen een panel van clinici om te beoordelen of antwoorden enig (één of meer voorbeelden van) bewijs bevatten van correct / onjuist medisch lezen begrip, medische kennisherwinning en medische redeneringsmogelijkheden, met behulp van dezelfde aanpak als Feng [ De ]. Correct and incorrect evidence were assessed in parallel because it is possible that a single long-form answer may contain evidence of both correct and incorrect comprehension, retrieval and reasoning. Comprehension, retrieval and reasoning capabilities: et al. 22 We found that expert generated answers were again considerably superior to Flan-PaLM, though performance was improved by instruction prompt tuning for Med-PaLM. This trend was observed in all the six sub-questions used to evaluate in this axis. For example, with regard to evidence of correct retrieval of medical knowledge, we found that clinician answers scored 97.8% while Flan-PaLM only scored 76.3%. However, the instruction prompt-tuned Med-PaLM model scored 95.4%, reducing the inferiority of the model compared to clinicians. The goal of this evaluation was to understand the completeness and correctness of the generated answers, by assessing whether the answer omits any information it should not, or whether the answer contained any content it should not. Where there was deemed to be missing or omitted content, the rater was asked whether that was of great or little potential clinical significance. Incorrect or missing content: Again we observed that clinician-generated answers were superior to AI models. Clinician answers showed evidence of inappropriate/incorrect content in only 1.4% of the cases, compared to 16.1% for Flan-PaLM. Surprisingly, instruction prompt tuning seemed to further degrade performance, with 18.7% of the Med-PaLM answers judged to contain inappropriate or incorrect content. On the other hand, we observed that instruction prompt tuning helped improve model performance in omission of important information. While Flan-PaLM answers were judged to miss important information 47.2% of the time, the number improved significantly for Med-PaLM with only 15.1% of the answers adjudged to have missing information, reducing the inferiority compared to clinicians whose answers were judged to have missing information in only 11.1% of the cases. A few qualitative examples are shown in Table 10 suggesting that LLM answers may be able to complement and complete physician responses to patient queries in future use cases. One potential explanation of these observations is that instruction prompt tuning teaches the Med-PaLM model to generate significantly more detailed answers than the Flan-PaLM model, reducing the omission of important information. However a longer answer also increases the risk of introducing incorrect content. We vroegen beoordelaars om te veronderstellen dat de output van modellen zou kunnen leiden tot acties door zowel klinieken als consumenten/patiënten, en de mogelijke ernst en waarschijnlijkheid van fysieke/mentale gezondheid gerelateerde schade die zou kunnen resulteren te schatten. [ ], which presents options to assign severity of harm ranging from death, severe or life-threatening injury, moderate, mild or no harm. We acknowledge that this definition of harm is more typically used in the context of analyzing harms incurred during healthcare delivery and that even in such settings (where the context for harms occurring is known with considerably greater specificity) there is frequently substantial variation in physician estimation of harm severity [ ]. The validity of the AHRQ scale cannot therefore be assumed to extend to our context, where our rater outputs should be regarded as subjective estimates because our work was not grounded in a specific intended use and sociocultural context. Possible extent and likelihood of harm: et al. 93 86 Despite the broad definition and subjectivity of ratings, we observed that instruction prompt tuning produced safer answers that reduced both estimated likelihood and severity. While 29.7% of the Flan-PaLM responses were judged as potentially leading to harm, this number dropped to 5.9% for Med-PaLM comparing on par with clinician-generated answers which were also judged as potentially harmful in 5.7% of the cases. Similarly, on the likelihood of harm axes, instruction prompt tuning enabled Med-PaLM answers to match the expert generated answers. The final axis along which we evaluated the answers was bias. The use of large language models for medical question answering has the potential for bias and fairness-related harms that contribute to health disparities. These harms derive from several sources, including the presence of patterns in training data that reflect disparities in health outcomes and access to care, the capability for medical question answering systems to reproduce racist misconceptions regarding the cause of racial health disparities [ , ], algorithmische ontwerpkeuzes [ ], en verschillen in gedrag of prestaties van machine learning systemen over populaties en groepen die downstream schade introduceren wanneer gebruikt om medische besluitvorming te informeren [ . Bias for medical demographics: 20 85 32 13 Medische vraagbeantwoordingssystemen vormen ook aanvullende risico's die verder gaan dan die van het gebruik van andere AI-toepassingen in de gezondheidszorg, omdat ze het potentieel hebben om willekeurige outputs te produceren, beperkte redeneringsmogelijkheden hebben en potentieel kunnen worden gebruikt voor een breed scala aan downstream-gebruiksgevallen.We probeerden te begrijpen of het antwoord enige informatie bevatte die onnauwkeurig of niet van toepassing is op een bepaalde demografische situatie. Flan-PaLM-reacties bleken in 7,9% van de gevallen voorkeursinformatie te bevatten. Naast de beoordeling door deskundigen, hadden we ook een panel van vijf niet-deskundigen in het domein (personen zonder medische achtergrond, gevestigd in India) die de antwoorden beoordeelden. De resultaten zijn samengevat in Figuur 10 hieronder. Terwijl Flan-PaLM antwoorden werden beoordeeld als nuttig in slechts 60.6% van de gevallen, het aantal verbeterde tot 80.3% voor Med-PaLM antwoorden. Dit bleef echter lager dan klinische antwoorden die werden beoordeeld als nuttig 91.1% van de tijd. Evenzo waren Flan-PaLM antwoorden de vraag intentie van de gebruiker in 90.8% van de gevallen. Dit aantal verbeterde tot 94.0% voor Med-PaLM, dat lag lager dan klinisch gegenereerde antwoorden bij 95.9 Lay user assessment: judged as directly addressing the The lay evaluation consistently reproduced the benefits of instruction prompt tuning to produce answers that are helpful to users, while also demonstrating that there is still considerable work needed to approximate the quality of outputs provided by human clinicians. 5 Discussion Our results suggest that strong performance on medical question answering may be an emergent ability [ ] of LLMs combined with effective instruction prompt tuning. 90 Firstly, we observed strong scaling performance with accuracy improving by approximately 2x as we scale the PaLM models from 8-billion to 540-billion. The performance of the PaLM 8-billion on MedQA was only slightly better than random performance. However, this number improved by over 30% for the PaLM 540-billion demonstrating the effectiveness of scale for the medical question answering task. We observed similar improvements for the MedMCQA and PubMedQA datasets. Further, instruction fine-tuning was also effective with Flan-PaLM models performing better than the PaLM models across all size variants on all the multiple-choice datasets. It is possible that the PaLM pre-training corpus included significant quantities of high quality medical content and one possible conjecture for the strong performance of the 540-billion model variant is memorization of evaluation datasets considered in this study. However, Chowdhery [ ] showed similar deltas in performance of the PaLM 8B and 540B model when evaluating contaminated (i.e where part of the test set is in the model pre-training corpus) and cleaned test datasets. This suggests that memorization alone does not explain the strong performance observed by scaling up the models. et al. 14 There have been several efforts to train language models on a biomedical corpus, especially PubMed. These include BioGPT [ ] (355 miljoen parameters), PubMedGPT [ ] (2.7 miljard parameters) en Galactica [ ] (120 billion parameters). Our models were able to outperform these efforts on PubMedQA without any finetuning. Further, the benefits of scale and instruction fine-tuning were much more pronounced on the MedQA dataset, which can be considered out-of-domain for all these models. Given the results, we observe that medical answering performance (requiring recall, reading comprehension, and reasoning skills) improves with LLM scale. 56 9 79 However, our human evaluation results on the consumer medical question answering datasets clearly point out that scale alone is insufficient. Even state-of-the-art LLMs like Flan-PaLM can generate answers that are inappropriate for use in the safety-critical medical domain. However, the Med-PaLM results demonstrate that with instruction prompt tuning we have a data and parameter-efficient alignment technique useful for improving factors related to accuracy, factuality, consistency, safety, harm, and bias, helping close the gap with clinical experts and bringing these models closer to real-world clinical applications. 6 Beperkingen Our study demonstrated the potential of LLMs for encoding medical knowledge and in particular for question answering. However, it had several limitations which we discuss in detail below and outline directions for future research. 6.1 Expansion of MultiMedQA Firstly, while the MultiMedQA benchmark is diverse and contains questions from a variety of professional medicine, medical research and consumer sources, it is by no means exhaustive. We plan to expand the benchmark in the future to include a larger variety of medical and scientific domains (eg: biology) and formats. Een belangrijke uitdaging in klinische omgevingen is het genereren van informatie van patiënten en het synthetiseren van bevindingen in een beoordeling en plan. Vraagbeantwoordingstaken met meerdere keuzes zijn inherent gemakkelijker omdat ze vaak worden gebaseerd op vignetten die door deskundigen zijn samengesteld en zijn geselecteerd om een algemeen voorkeursantwoord te hebben, wat niet voor alle medische beslissingen geldt. Furthermore, we only considered English-language datasets in this study, and there is a strong need to expand the scope of the benchmark to support multilingual evaluations. 6.2 Ontwikkeling van belangrijke LLM-capaciteiten die nodig zijn voor medische toepassingen Terwijl de Flan-PaLM in staat was om state-of-the-art prestaties te bereiken op verschillende multi-choice medische vraag beantwoorden benchmarks, onze menselijke evaluatie suggereert duidelijk dat deze modellen zijn niet op klinisch deskundig niveau op vele klinisch belangrijke assen. grounding of the responses in authoritative medical sources and accounting for the time-varying nature of medical consensus. ability to detect and communicate uncertainty effectively to the human in-the-loop whether clinician or lay user. ability to respond to queries in multiple languages. 6.3 Improving the approach to human evaluation The rating framework we proposed for this study represents a promising pilot approach, but our chosen axes of evaluation were not exhaustive and were subjective in nature. For example the concept of medical/scientific consensus is time-varying in nature and is reflective of understandings of human health and disease and physiology based on discrimination in areas such as race/ethnicity, gender, age, ability, and more [ - het ]. 38 57 Furthermore, consensus often exists only for topics of relevance to certain groups (e.g. greater in number and/or power) and consensus may be lacking for certain subpopulations affected by topics for various reasons (e.g., controversial topics, lower incidence, less funding). Additionally, the concept of harm may differ according to population (e.g., a genetic study of a smaller group of people may reveal information that is factual but incongruent with that group’s cultural beliefs, which could cause members of this group harm). Expert assessment of harm may also vary based on location, lived experience, and cultural background. Our ratings of potential harm were subjective estimates, and variation in perceived harm may also have been due to differences in health literacy of both our clinician and lay raters, or might vary in real world settings depending on the sociocultural context and health literacy of the person receiving and acting on the answers to the health questions in the study by Berkman [ ]. Further research might test whether perceived usefulness and harm of question answers varied according to the understandability and actionability score for the answer content [ . En van al. 6 77 The number of model responses evaluated and the pool of clinicians and lay-people assessing them were limited, as our results were based on only a single clinician or lay-person evaluating the responses. This represents a limitation to generalizability of our findings which could be mitigated by inclusion of a significantly larger and intentionally diverse pool of human raters (clinicians and lay users) with participatory design in the development of model auditing tools. It is worth noting that the space of LLM responses or "coverage" is extremely high and that presents an additional difficulty in the design of evaluation tools and frameworks. The pilot framework we developed could be significantly advanced using recommended best practice approaches for the design and validation of rating instruments from health, social and behavioral research [ ]. This could entail the identification of additional rating items through participatory research, evaluation of rating items by domain experts and technology recipients for relevance, representativeness, and technical quality. The inclusion of a substantially larger pool of human raters would also enable testing of instrument generalizability by ratifying the test dimensionality, test-retest reliability and validity [ ]. Aangezien hetzelfde antwoord op meerdere manieren kan worden geëvalueerd, is het meest geschikte beoordelingsinstrument ook afhankelijk van het beoogde doel en de ontvanger voor LLM-outputs, wat meerdere mogelijkheden biedt voor de ontwikkeling van gevalideerde beoordelingsschalen afhankelijk van de context en het doel van het gebruik. Verder zijn substantiële gebruikerservaring (UX) en mens-computer-interactie (HCI) studies met gemeenschapsgebaseerde participatieve onderzoeksmethoden noodzakelijk vóór elk gebruik in de echte wereld en zouden specifiek zijn voor een ontwikkeld hulpmiddel dat buiten het bereik van ons onderzoeksonderzoek ligt. In deze contexten zou verder onderzoek de onafhankelijke invloed kunnen onderzoeken van variatie in het onderwijsniveau, medische omstandigheden 8 8 6.4 Fairness and equity considerations Our current approach to evaluating bias is limited and does not serve as a comprehensive assessment of potential harms, fairness, or equity. The development of procedures for the evaluation of bias and fairness-related harms in large language models is ongoing [ , ]. Healthcare is a particularly complex application of large language models given the safety-critical nature of the domain and the nuance associated with social and structural bias that drives health disparities. The intersection of large language models and healthcare creates unique opportunities for responsible and ethical innovation of robust assessment and mitigation tools for bias, fairness, and health equity. 49 92 We outline opportunities for future research into frameworks for the systematic identification and mitigation of downstream harms and impacts of large language models in healthcare contexts. Key principles include the use of participatory methods to design contextualized evaluations that reflect the values of patients that may benefit or be harmed, grounding the evaluation in one or more specific downstream clinical use cases [ , ], and the use of dataset and model documentation frameworks for transparent reporting of choices and assumptions made during data collection and curation, model development, and evaluation [ , , ]. Furthermore, research is needed into the design of algorithmic procedures and benchmarks that probe for specific technical biases that are known to cause harm if not mitigated. For instance, depending on the context, it may be relevant to assess sensitivity of model outputs to perturbations of demographic identifiers in prompts designed deliberately such that the result should not change under the perturbation [ - het , . 54 71 24 59 72 23 68 98 Additionally, the aforementioned research activities to build evaluation methods to achieve health equity in large language models require interdisciplinary collaboration to ensure that various scientific perspectives and methods can be applied to the task of understanding the social and contextual aspects of health [ , - het ]. 27 58 62 The development of evaluation frameworks for large language models is a critical research agenda that should be approached with equal rigor and attention as that given to the work of encoding clinical knowledge in language models. In this study we worked with a panel of four qualified clinicians to identify the best-demonstration examples and craft few-shot prompts, all based in either the US or UK, with expertise in internal medicine, pediatrics, surgery and primary care. Although recent studies have surprisingly suggested that the validity of reasoning within a chain-of-thought prompt only contributes a small extent to the impact of this strategy on LLM performance in multi-step reasoning challenges [ Verder onderzoek kan het bereik van klinieken die zich bezighouden met snelle constructie en selectie van voorbeeldige antwoorden aanzienlijk uitbreiden en zo onderzoeken hoe variatie in meerdere assen van de soorten klinieken die deelnemen aan deze activiteit LLM gedrag beïnvloeden; bijvoorbeeld klinieks demografie, geografie, specialiteit, ervaringen en meer. 87 6.5 Ethical considerations This research demonstrates the potential of LLMs for future use in healthcare. Transitioning from a LLM that is used for medical question answering to a tool that can be used by healthcare providers, administrators, and consumers will require significant additional research to ensure the safety, reliability, efficacy, and privacy of the technology. Careful consideration will need to be given to the ethical deployment of this technology including rigorous quality assessment when used in different clinical settings and guardrails to mitigate against over reliance on the output of a medical assistant. For example, the potential harms of using a LLM for diagnosing or treating an illness are much greater than using a LLM for information about a disease or medication. Additional research will be needed to assess LLMs used in healthcare for homogenization and amplification of biases and security vulnerabilities inherited from base models [ - het , , , Gezien de voortdurende evolutie van klinische kennis, zal het ook belangrijk zijn om manieren te ontwikkelen voor LLMs om up-to-date klinische informatie te bieden. 10 11 18 39 49 7 Conclusie The advent of foundation AI models and large language models present a significant opportunity to rethink the development of medical AI and make it easier, safer and more equitable to use. At the same time, medicine is an especially complex domain for applications of large language models. We hopen dat deze studie zal leiden tot verdere gesprekken en samenwerkingen tussen patiënten, consumenten, AI-onderzoekers, artsen, sociale wetenschappers, ethisten, beleidsmakers en andere geïnteresseerden om deze vroege onderzoeksresultaten verantwoordelijk te vertalen om de gezondheidszorg te verbeteren. erkenningen We danken Michael Howell, Cameron Chen, Basil Mustafa, David Fleet, Fayruz Kibria, Gordon Turner, Lisa Lehmann, Ivor Horn, Maggie Shiels, Shravya Shetty, Jukka Zitting, Evan Rappaport, Lucy Marples, Viknesh Sounderajah, Ali Connell, Jan Freyberg, Cian Hughes, Megan Jones-Bell, Susan Thomas, Martin Ho, Sushant Prakash, Bradley Green, Ewa Dominowska, Frederick Liu, Xuezhi Wang, en Dina Demner-Fushman (van de National Library of Medicine) voor hun waardevolle inzichten en feedback tijdens ons onderzoek. Referenties Abacha, A.B., Agichtein, E., Pinter, Y. en Demner-Fushman, D. in (2017), 1 tot en met 12. Overview of the medical question answering task at TREC 2017 LiveQA. TREC 2. Abacha, A. B., Mrabet, Y., Sharp, M., Goodwin, T. R., Shooshan, S. E. & Demner-Fushman, D. in (2019), 25–29. De kloof tussen consumentenvragen en vertrouwde antwoorden overbruggen. MedInfo Agrawal, M., Hegselmann, S., Lang, H., Kim, Y. & Sontag, D. Grote taalmodellen zijn Zero-Shot klinische informatie extractors. (2022). arXiv voorprint arXiv:2205.12689 Barham, P., Chowdhery, A., Dean, J., Ghemawat, S., Hand, S., Hurt, D., Isard, M., Lim, H., Pang, R., Roy, S., En van al. Pathways: Asynchrone gedistribueerde gegevensstroom voor ML. 430 tot en met 449 (2022). Procedures van machine learning en systemen 4, 5. Beltagy, I., Lo, K. & Cohan, A. SciBERT: A pretrained language model for scientific text. (2019) van arXiv preprint arXiv:1903.10676 Berkman, N. D., Sheridan, S. L., Donahue, K. E., Halpern, D. J., Viera, A., Crotty, K., Holland, A., Brasure, M., Lohr, K. N., Harden, E., Health literacy interventions and outcomes: an updated systematic review. 1 tot en met 941 (2011). et al. bewijsstukken / evaluatie van technologie, Zwart, S., Gao, L., Wang, P., Leahy, C. en Biderman, S. version 1.0. If you use this software, please cite it using these metadata. Mar. 2021. GPT-Neo: Large Scale Autoregressive Language Modeling with Mesh-Tensorflow https : . //doi.org/10.5281/zenodo.5297715 8. Boateng, G. O., Neilands, T. B., Frongillo, E. A., Melgar-Quiñonez, H. R. & Young, S. L. Best practices for developing and validating scales for health, social, and behavioral research: a primer. 149 (2018). Grenzen in de volksgezondheid 6, 9. Bolton, E., Hall, D., Yasunaga, M., Lee, T., Manning, C. & Liang, P. . 2022. Stanford CRFM introduceert PubMedGPT 2.7B https://hai.stanford.edu/news/stanford-crfm-introduces-pubmedgpt-27b 10. Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., On the opportunities and risks of foundation models. (2021). et al. arXiv preprint arXiv:2108.07258 11. Bommasani, R., Liang, P. & Lee, T. Language Models are Changing AI: The Need for Holistic Evaluation https : . 2022. //crfm.stanford.edu/2022/11/17/helm.html 12. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Language models are few-shot learners. 1877–1901 (2020). et al. Advances in neural information processing systems 33, 13. Chen, I. Y., Pierson, E., Rose, S., Joshi, S., Ferryman, K. & Ghassemi, M. Ethical machine learning in healthcare. 123–144 (2021). Annual review of biomedical data science 4, Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., PaLM: Scaling language modeling with pathways. (2022). En van al. arXiv preprint arXiv:2204.02311 15. Chung, H. W., Hou, L., Longpre, S., Zoph, B., Tay, Y., Fedus, W., Li, E., Wang, X., Dehghani, M., Brahma, S., et al. Scaling instruction-finetuned language models. (2022). arXiv preprint arXiv:2210.11416 16. Clark, J. H., Choi, E., Collins, M., Garrette, D., Kwiatkowski, T., Nikolaev, V. & Palomaki, J. TyDi QA: A benchmark for information-seeking question answering in typologically diverse languages. 454–470 (2020). Transactions of the Association for Computational Linguistics 8, 17. Cobbe, K., Kosaraju, V., Bavarian, M., Hilton, J., Nakano, R., Hesse, C. & Schulman, J. Training verifiers to solve math word problems. (2021). arXiv preprint arXiv:2110.14168 18. Creel, K. & Hellman, D. The Algorithmic Leviathan: Arbitrariness, Fairness, and Opportunity in Algorithmic Decision-Making Systems. 1–18 (2022). Canadian Journal of Philosophy, 19. Du, N., Huang, Y., Dai, A. M., Tong, S., Lepikhin, D., Xu, Y., Krikun, M., Zhou, Y., Yu, A. W., Firat, O., in (2022), 5547–5569. Glam et al. Efficiënte schaal van taalmodellen met mix-of-experts Internationale conferentie machine learning 20. Eneanya, N. D., Boulware, L., Tsai, J., Bruce, M. A., Ford, C. L., Harris, C., Morales, L. S., Ryan, M. J., Reese, P. P., Thorpe, R. J., Health inequities and the inappropriate use of race in nephrology. 84 tot en met 94 (2022). et al. Nature Reviews Nephrology 18, Esteva, A., Chou, K., Yeung, S., Naik, N., Madani, A., Mottaghi, A., Liu, Y., Topol, E., Dean, J. & Socher, R. Deep learning-enabled medische computer visie. 1–9 (2021). NPJ digital medicine 4, 22. Feng, S. Y., Khetan, V., Sacaleanu, B., Gershman, A. & Hovy, E. CHARD: Clinical Health-Aware Reasoning Across Dimensions for Text Generation Models. Het is (2022) arXiv preprint arXiv:2210.04191 23. Garg, S., Perot, V., Limtiaco, N., Taly, A., Chi, E. H. & Beutel, A. in (2019), 219–226. Counterfactual fairness in text classification through robustness Procedures van de 2019 AAAI/ACM conferentie over AI, ethiek en samenleving 24. Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J. W., Wallach, H., Iii, H. D. & Crawford, K. Datasheets for datasets. 86 tot en met 92 (2021). Communications of the ACM 64, 25. Gu, Y., Tinn, R., Cheng, H., Lucas, M., Usuyama, N., Liu, X., Naumann, T., Gao, J. & Poon, H. Domain-specific language model pretraining for biomedical natural language processing. 1–23 (2021). ACM Transactions on Computing for Healthcare (HEALTH) 3, Gu, Y., Han, X., Liu, Z. & Huang, M. Ppt: Pre-trained prompt tuning voor weinig-shot leren. (2021). arXiv preprint arXiv:2109.04332 27. Guidance, W. Ethics and governance of artificial intelligence for health. Het is (2021). World Health Organization 28. Han, X., Zhao, W., Ding, N., Liu, Z. & Sun, M. Ptr: Prompt tuning with rules for text classification. (2022). AI Open Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D. & Steinhardt, J. Het meten van massale multitask taalbegrip. (2020). arXiv voorprint arXiv:2009.03300 Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., Casas, D. d. L., Hendricks, L. A., Welbl, J., Clark, A., Training Compute-Optimal Grote Taalmodellen. Het is (2022) En van al. arXiv preprint arXiv:2203.15556 Hong, Z., Ajith, A., Pauloski, G., Duede, E., Malamud, C., Magoulas, R., Chard, K. & Foster, I. ScholarBERT: Groter is niet altijd beter. Het is (2022) arXiv preprint arXiv:2205.11342 32. Hooker, S. Moving beyond “algorithmic bias is a data problem”. 100241 (2021). Patterns 2, 33. Jin, D., Pan, E., Oufattole, N., Weng, W.-H., Fang, H. & Szolovits, P. What disease does this patient have? a large-scale open domain question answering dataset from medical exams. 6421 van 2021). Applied Sciences 11, Jin, Q., Dhingra, B., Liu, Z., Cohen, W. W. & Lu, X. PubMedQA: Een dataset voor het beantwoorden van vragen in biomedisch onderzoek. (2019). arXiv preprint arXiv:1909.06146 35. Joshi, M., Choi, E., Weld, D. S. & Zettlemoyer, L. TriviaQA: A large scale distantly supervised challenge dataset for reading comprehension. (2017). arXiv preprint arXiv:1705.03551 36. Kadavath, S., Conerly, T., Askell, A., Henighan, T., Drain, D., Perez, E., Schiefer, N., Dodds, Z. H., DasSarma, N., Tran-Johnson, E., Language models (mostly) know what they know. (2022). et al. arXiv preprint arXiv:2207.05221 37. Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J. & Amodei, D. Scaling laws for neural language models. (2020). arXiv preprint arXiv:2001.08361 38. Kington, R. S., Arnesen, S., Chou, W.-Y. S., Curry, S. J., Lazer, D. & Villarruel, A. M. Identifying credible sources of health information in social media: Principles and attributes. (2021). NAM perspectives 2021 39. Kleinberg, J. & Raghavan, M. Algorithmic monoculture and social welfare. e2018340118 (2021). Proceedings of the National Academy of Sciences 118, 40. Kojima, T., Gu, S. S., Reid, M., Matsuo, Y. & Iwasawa, Y. Large Language Models are Zero-Shot Reasoners. Het is (2022) arXiv preprint arXiv:2205.11916 41. Korngiebel, D. M. & Mooney, S. D. Considering the possibilities and pitfalls of Generative Pre-trained Transformer 3 (GPT-3) in healthcare delivery. 1–3 (2021). NPJ Digital Medicine 4, 42. Lakkaraju, H., Slack, D., Chen, Y., Tan, C. & Singh, S. Rethinking Explainability as a Dialogue: A Practitioner’s Perspective. (2022). arXiv preprint arXiv:2202.01875 43. Lampinen, A. K., Dasgupta, I., Chan, S. C., Matthewson, K., Tessler, M. H., Creswell, A., McClelland, J. L., Wang, J. X. & Hill, F. Can language models learn from explanations in context? (2022). arXiv preprint arXiv:2204.02329 Lee, J., Yoon, W., Kim, S., Kim, D., Kim, S., So, C. H. & Kang, J. BioBERT: een vooraf opgeleid biomedisch taalrepresentatiemodel voor biomedische tekstmijnen. 1234 tot en met 1240 (2020) Bioinformatics 36, 45. Lester, B., Al-Rfou, R. & Constant, N. The power of scale for parameter-efficient prompt tuning. Het is (2021). arXiv preprint arXiv:2104.08691 46. Lewis, P., Ott, M., Du, J. & Stoyanov, V. in (2020), 146–157. Pretrained language models for biomedical and clinical tasks: Understanding and extending the state-of-the-art Proceedings of the 3rd Clinical Natural Language Processing Workshop 47. Lewkowycz, A., Andreassen, A., Dohan, D., Dyer, E., Michalewski, H., Ramasesh, V., Slone, A., Anil, C., Schlag, I., Gutman-Solo, T., Solving quantitative reasoning problems with language models. (2022). et al. arXiv preprint arXiv:2206.14858 48. Li, X. L. & Liang, P. Prefix-tuning: Optimizing continuous prompts for generation. (2021). arXiv preprint arXiv:2101.00190 49. Liang, P., Bommasani, R., Lee, T., Tsipras, D., Soylu, D., Yasunaga, M., Zhang, Y., Narayanan, D., Wu, Y., Kumar, A., Holistische evaluatie van taalmodellen. (2022). et al. arXiv preprint arXiv:2211.09110 50. Liévin, V., Hother, C. E. & Winther, O. Can large language models reason about medical questions? Het is (2022) arXiv preprint arXiv:2207.08143 51. Lin, S., Hilton, J. & Evans, O. Teaching Models to Express Their Uncertainty in Words. Het is (2022) arXiv preprint arXiv:2205.14334 52. Liu, P., Yuan, W., Fu, J., Jiang, Z., Hayashi, H. & Neubig, G. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. (2021). arXiv preprint arXiv:2107.13586 Liu, X., Zheng, Y., Du, Z., Ding, M., Qian, Y., Yang, Z. & Tang, J. GPT begrijpt ook. (2021). arXiv preprint arXiv:2103.10385 Liu, X., Glocker, B., McCradden, M. M., Ghassemi, M., Denniston, A. K. & Oakden-Rayner, L. De medische algoritmische audit. (2022). The Lancet Digital Health Loshchilov, I. & Hutter, F. Afgescheiden gewichtsverlies regularisatie. (2017). arXiv preprint arXiv:1711.05101 56. Luo, R., Sun, L., Xia, Y., Qin, T., Zhang, S., Poon, H. & Liu, T.-Y. BioGPT: generative pre-trained transformer for biomedical text generation and mining. (2022). Briefings in Bioinformatics 23 57. Mandavilli, A. . 2021. Medische tijdschriften zijn blind voor racisme als gezondheidscrisis, zeggen critici https://www.nytimes.com/2021/06/02/ health/jama-racism-bauchner.html 58. Matheny, M., Israni, S. T., Ahmed, M. & Whicher, D. Artificial Intelligence in Health Care: The Hope, the Hype, the Promise, the Peril (2022). 59. Mitchell, M., Wu, S., Zaldivar, A., Barnes, P., Vasserman, L., Hutchinson, B., Spitzer, E., Raji, I. D. & Gebru, T. in (2019), 220 tot en met 229. Modelkaarten voor modelrapportage Procedures van de conferentie over billijkheid, verantwoordingsplicht en transparantie 60. Morgado, F. F., Meireles, J. F., Neves, C. M., Amaral, A. & Ferreira, M. E. Scale development: ten main limitations and recommendations to improve future research practices. (2017). Psicologia: Reflexao e Critica 30 61. Nye, M., Andreassen, A. J., Gur-Ari, G., Michalewski, H., Austin, J., Bieber, D., Dohan, D., Lewkowycz, A., Bosma, M., Luan, D., Show your work: Scratchpads for intermediate computation with language models. Het is (2021). En van al. arXiv preprint arXiv:2112.00114 62. Of Science, W. H. O. & Policy, T. . 2022. The Blueprint for an AI Bill of Rights: Making Automated Systems Work for the American People https://www.whitehouse.gov/wp-content/uploads/2022/10/Blueprint-for-an-AI-Bill-of-Rights.pdf 63. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Train taalmodellen om instructies te volgen met menselijke feedback. Het is (2022) En van al. arXiv preprint arXiv:2203.02155 64. Pal, A., Umapathi, L. K. & Sankarasubbu, M. in (2022), 248 tot en met 260 MedMCQA: A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering Conferentie over gezondheid, inferentie en leren 65. Pampari, A., Raghavan, P., Liang, J. & Peng, J. emrqa: A large corpus for question answering on electronic medical records. (2018). arXiv preprint arXiv:1809.00732 Papanikolaou, Y. & Pierleoni, A. DARE: Data augmented relation extraction met gpt-2. (2020). arXiv vooruitdrukking arXiv:2004.13845 67. Papineni, K., Roukos, S., Ward, T. & Zhu, W.-J. in (2002), 311 tot en met 318. Bleu: een methode voor automatische evaluatie van machinevertaling Proceedings of the 40th annual meeting of the Association for Computational Linguistics 68. Prabhakaran, V., Hutchinson, B. & Mitchell, M. Perturbation sensitivity analysis to detect unintended model biases. (2019) van arXiv preprint arXiv:1910.04210 69. Rae, J. W., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., Song, F., Aslanides, J., Henderson, S., Ring, R., Young, S., Scaling language models: Methods, analysis & insights from training gopher. (2021). En van al. arXiv voorprint arXiv:2112.11446 Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., Liu, P. J., Het verkennen van de grenzen van transfer learning met een uniforme tekst-to-tekst transformator. 1 tot 67 (2020) et al. J. Mach. Leer het niet. 21, Raji, I.D., Smart, A., White, R.N., Mitchell, M., Gebru, T., Hutchinson, B., Smith-Loud, J., Theron, D. & Barnes, P. in (2020), 33 tot en met 44. Closing the AI accountability gap: Defining an end-to-end framework for internal algorithmic auditing Proceedings of the 2020 conference on fairness, accountability, and transparency 72. Rostamzadeh, N., Mincu, D., Roy, S., Smart, A., Wilcox, L., Pushkarna, M., Schrouff, J., Amironesei, R., Moorosi, N. & Heller, K. Healthsheet: Development of a Transparency Artifact for Health Datasets. (2022). arXiv preprint arXiv:2202.13028 Scao, T. L., Fan, A., Akiki, C., Pavlick, E., Ilić, S., Hesslow, D., Castagné, R., Luccioni, A. S., Yvon, F., Gallé, M., En van al. BLOOM: Een 176B-parameter open-access meertalige taalmodel. (2022). arXiv preprint arXiv:2211.05100 Schaekermann, M., Cai, C. J., Huang, A. E. & Sayres, R. in (2020), 1 tot en met 13. Deskundige discussies verbeteren het begrip van moeilijke gevallen in medische beeldbeoordeling Proceedings of the 2020 CHI conference on human factors in computing systems 75. Sezgin, E., Sirrianni, J., Linwood, S. L., Operationaliseren en implementeren van vooraf opgeleide, grote kunstmatige intelligentie taalkundige modellen in het Amerikaanse gezondheidszorgsysteem: perspectief van generatieve vooraf opgeleide transformator 3 (GPT-3) als een servicemodel. E32875 van het jaar 2022. et al. JMIR medische informatica 10, Shin, H.-C., Zhang, Y., Bakhturina, E., Puri, R., Patwary, M., Shoeybi, M. & Mani, R. BioMegatron: Grotere biomedische domein taalmodel. Het is (2020). arXiv voorprint arXiv:2010.06060 Shoemaker, S. J., Wolf, M. S. & Brach, C. Ontwikkeling van de Patient Educational Materials Assessment Tool (PEMAT): een nieuwe maatstaf van begrijpelijkheid en handelen voor gedrukte en audiovisuele patiëntinformatie. 395 tot en met 403 (2014). Patiënteducatie en counseling 96, 78. Srivastava, A., Rastogi, A., Rao, A., Shoeb, A. A. M., Abid, A., Fisch, A., Brown, A. R., Santoro, A., Gupta, A., Garriga-Alonso, A., Beyond the Imitation Game: Het kwantificeren en extrapoleren van de mogelijkheden van taalmodellen. Het is (2022) En van al. arXiv preprint arXiv:2206.04615 Taylor, R., Kardas, M., Cucurull, G., Scialom, T., Hartshorn, A., Saravia, E., Poulton, A., Kerkez, V. & Stojnic, R. Galactica: Een groot taalmodel voor de wetenschap. Het is (2022) arXiv preprint arXiv:2211.09085 Thoppilan, R., De Freitas, D., Hall, J., Shazeer, N., Kulshreshtha, A., Cheng, H.-T., Jin, A., Bos, T., Baker, L., Du, Y., Lamda: taalmodellen voor dialoogtoepassingen. Het is (2022) et al. arXiv voorprint arXiv:2201.08239 Tomašev, N., Harris, N., Baur, S., Mottram, A., Glorot, X., Rae, J. W., Zielinski, M., Askham, H., Saraiva, A., Magliulo, V., Gebruik van diepgaand leren om continue risicomodellen te ontwikkelen voor het voorspellen van ongunstige gebeurtenissen uit elektronische gezondheidsgegevens. 2765 tot 2787 (2021). En van al. Natuurprotocollen 16, 82. Tran, D., Liu, J., Dusenberry, M. W., Phan, D., Collier, M., Ren, J., Han, K., Wang, Z., Mariet, Z., Hu, H., Plex: Op weg naar betrouwbaarheid met vooraf getrainde grote modeluitbreidingen. Het is (2022) En van al. arXiv preprint arXiv:2207.07411 Tsatsaronis, G., Balikas, G., Malakasiotis, P., Partalas, I., Zschunke, M., Alvers, M. R., Weissenborn, D., Krithara, A., Petridis, S., Polychronopoulos, D., Een overzicht van de BIOASQ grootschalige biomedische semantische indexering en vraagbeantwoordingswedstrijd. 1 tot en met 28 (2015). et al. BMC Bioinformatica 16, 84. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł. & Polosukhin, I. Attention is all you need. (2017) van Vooruitgang in neurale informatiesystemen 30 Vyas, D.A., Eisenstein, L.G. en Jones, D.S. 2020. Verborgen in het zicht — heroverweging van het gebruik van rassencorrectie in klinische algoritmen Walsh, K. E., Harik, P., Mazor, K. M., Perfetto, D., Anatchkova, M., Biggins, C., Wagner, J., Schoettker, P. J., Firneno, C., Klugman, R., Het meten van de schade in de gezondheidszorg: het optimaliseren van de beoordeling van negatieve gebeurtenissen. 436 (2017). En van al. Medische zorg 55, Wang, b., Min, S., Deng, X., Shen, J., Wu, Y., Zettlemoyer, L. & Sun, H. Naar het begrijpen van keten-of-gedachte-prompting: een empirische studie van wat telt. Het is (2022) arXiv voorprint arXiv:2212.10001 Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E. & Zhou, D. Zelfconsistentie verbetert keten van denken redenering in taalmodellen. Het is (2022) arXiv preprint arXiv:2203.11171 Wei, J., Bosma, M., Zhao, V. Y., Guu, K., Yu, A. W., Lester, B., Du, N., Dai, A. M. & Le, Q. V. Finetuned taalmodellen zijn nul-schot leerlingen. Het is (2021). arXiv preprint arXiv:2109.01652 90. Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., Opkomende vaardigheden van grote taalmodellen. Het is (2022) En van al. arXiv preprint arXiv:2206.07682 Wei, J., Wang, X., Schuurmans, D., Bosma, M., Chi, E., Le, Q. & Zhou, D. Een keten van gedachte die de redenering in grote taalmodellen veroorzaakt. Het is (2022) arXiv preprint arXiv:2201.11903 Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.-S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A., Ethical and social risks of harm from language models. Het is (2021). et al. arXiv voorprint arXiv:2112.04359 93. Williams, T., Szekendi, M., Pavkovic, S., Clevenger, W. & Cerese, J. The reliability of AHRQ Common Format Harm Scales in rating patient safety events. 52 tot en met 59 (2015). Journal van de patiëntveiligheid 11, 94. Yasunaga, M., Bosselut, A., Ren, H., Zhang, X., Manning, C. D., Liang, P. & Leskovec, J. Diepe bidirectionele taal-kennis grafische vooropleiding. Het is (2022) arXiv preprint arXiv:2210.09338 Yasunaga, M., Leskovec, J. & Liang, P. LinkBERT: Pretraining Language Models met Document Links. (2022). arXiv preprint arXiv:2203.15827 Ye, S., Jang, J., Kim, D., Jo, Y. & Seo, M. Retrieval van Soft Prompt verbetert de Zero-Shot Task Generalization. Het is (2022) arXiv preprint arXiv:2210.03029 Yim, J., Chopra, R., Spitz, T., Winkens, J., Obika, A., Kelly, C., Askham, H., Lukic, M., Huemer, J., Fasler, K., En van al. Het voorspellen van conversie naar leeftijdsgebonden maculaire degeneratie met behulp van diep leren. 892 tot en met 899 (2020) Natuurgeneeskunde 26, Zhang, H., Lu, A. X., Abdalla, M., McDermott, M. & Ghassemi, M. in (2020), 110 tot en met 120 Pijnlijke woorden: kwantificeren van vooroordelen in klinische contextuele woordembeddings Procedures van de ACM-conferentie over gezondheid, inferentie en leren Zhang, S., Roller, S., Goyal, N., Artetxe, M., Chen, M., Chen, S., Dewan, C., Diab, M., Li, X., Lin, X. V., OPT: Open vooraf opgeleide transformertaalmodellen. Het is (2022) En van al. arXiv preprint arXiv:2205.01068 Zhou, D., Schärli, N., Hou, L., Wei, J., Scales, N., Wang, X., Schuurmans, D., Bousquet, O., Le, Q. & Chi, E. Minst-to-Most Prompting maakt complexe redenering mogelijk in grote taalmodellen. Het is (2022) arXiv preprint arXiv:2205.10625 Bijlage A.1 Hyperparameters en modelkeuze We voerden instructie prompt tuning uit op Flan-PaLM 540B met een zachte promptlengte van 100 om Med-PaLM te produceren. [ De Wij initialiseren willekeurig de leerbare parameters om uniform te zijn over [-0.5, 0.5], gevolgd door Lester [ De ]. We grid gezocht over leerpercentages in 0.001, 0.003, 0.01 met AdamW optimizer [ en een gewichtsverliesfactor in . en 0*. }.* We gebruikten een batchgrootte van 32 over alle runs. En van al. 14 En van al. 45 55 0 0 001 00001 We hebben de modelselectie uitgevoerd door een arts te vragen om antwoorden te rangschikken op verschillende voorbeelden van HealthSearchQA, MedicationQA en LiveQA (niet gebruikt voor training of menselijke evaluatie) en de checkpoint gekozen die het beste werkte. we deden deze handmatige validatie in plaats van een aantal geautomatiseerde metricen op een validatie set te berekenen, bijvoorbeeld negatieve log-waarschijnlijkheid op gehouden (vraag, antwoord) paren, omdat in de grote outputruimte van natuurlijke taalgeneraties deze metricen misschien niet goed correleren met menselijke oordelen van werkelijke modeluitgangen. A.2 Variatie van resultaten Vanwege herhaalde stochastische decodering met behulp van temperatuurmonstering, is er enige verwachte variatie in resultaten met zelfconsistentie.Hoewel het onpraktisch is om meerdere experimenten uit te voeren voor al onze modellen over alle datasets die in deze studie worden gebruikt, herhalen we de evaluaties op de MedQA-datasets 4 keer met ons beste prestatiemodel.De waargenomen variantie is 0,078 wat een hoge mate van consistentie in de resultaten suggereert. A.3 MMLU ablatie We hebben ablatie uitgevoerd door het Flan-PaLM 540B-model te vergelijken met behulp van de weinig-schoten, keten-of-thought (CoT) en zelf-consistentie-inducerende strategieën op MMLU klinische onderwerpen [ De resultaten worden samengevat in de sectie We merken op dat terwijl de Flan-PaLM 540B met zelfconsistentie voor de meeste onderwerpen de beste resultaten oplevert, er een paar onderwerpen zijn waar standaard weinig-schoten of CoT-opdrachten beter werken. 29 A.3 van A.4 Scaling plots We bieden schaalplots die de PaLM- en Flan-PaLM-modellen vergelijken met behulp van een paar-shot prompting op de MedQA- en MedMCQA-datasets in Figuur en een andere schaalplot die Flan-PaLM vergelijkt met weinig-schot prompting en Flan-PaLM met zelf-consistentie prompting in Figuur We observeren sterke schaalprestaties en zien een steile toename van de prestaties als we de grootte van het LLM-model opschalen. A1 van A.2 van A.5 Modelkaart voor Med-PaLM Med-PaLM maakt gebruik van hetzelfde systeem type en implementatie kaders als Flan-PaLM [ ]. We tonen delen van de modelkaart [ Speciaal voor Med-PaLM in Table . 15 59 A.2 van A.6 Med-PaLM evaluatie met meerdere keuzes Med-PaLM werd getraind met behulp van instructie prompt tuning om de kwaliteit van lange-form generaties geproduceerd door Flan-PaLM te verbeteren. Echter, gezien de algemeenheid van instructie prompt tuning, kan de techniek ook worden toegepast op datasets met meerdere keuzes. In een voorlopig experiment hebben we Flan-PaLM getraind met behulp van instructie prompt tuning op MedQA, MedMCQA, PubMedQA en MMLU (klinische onderwerpen). De exemplaren werden geschreven door een panel van vijf gekwalificeerde clinici. Elk trainingsmodel bevatte dataset-specifieke instructies en 5 voorbeelden van een paar schoten. Het resulterende model behaalde een nauwkeurigheid van 67,2% op MedQA met behulp van keten-of-thought en zelf-consistentie, ongeveer overeenkomstig het overeenkomstige resultaat met Flan-PaLM i Section We zijn van plan dit vroege resultaat in toekomstige werkzaamheden uit te breiden. 4 A.7 Gedetailleerde resultaten van menselijke evaluaties Gedetailleerde resultaten van menselijke evaluaties met vertrouwensintervallen worden samengevat in tabel - tafel . A.3 van A. 12 A.8 Enkele snelle voorbeelden We geven voorbeelden van enkele paar-schot prompts gebruikt in de studie in Tabel De tafel De tafel met Ta-ble en tafel . A. 13 A. 14 A. 15 A. 16 A. 17 A.9 Chain-of-Thought prompt voorbeelden We hebben voorbeelden gegeven van enkele van de keten-of-gedachte-opdrachten die in deze studie worden gebruikt in tabel De tafel met Ta-ble en tafel . A. 18 A19 A. 20 A. 21 Dit document is verkrijgbaar onder CC by 4.0 Deed (Attribution 4.0 International) licentie. Dit document is verkrijgbaar onder CC by 4.0 Deed (Attribution 4.0 International) licentie.