Autori : Karan Singhal (Google Research, DeepMind) Shekoofeh Azizi (Google Research, DeepMind) Tao Tu (Google Research, DeepMind) S. Sara Mahdavi (Google Research, DeepMind) Jason Wei (Google Research, DeepMind) Hyung Won Chung (Google Research, DeepMind) Nathan Scales (Google Research, DeepMind) Ajay Tanwani (Google Research, DeepMind) Heather Cole-Lewis (Google Research, DeepMind) Stephen Pfohl (Google Research, DeepMind) Perry Payne (Google Research, DeepMind) Martin Seneviratne (Google Research, DeepMind) Paul Gamble (Google Research, DeepMind) Chris Kelly (Google pētniecība, DeepMind) Nathaneal Schärli (Google Research, DeepMind) Aakanksha Chowdhery (Google Research, DeepMind) Philip Mansfield (Google Research, DeepMind) Blaise Agüera y Arcas (Google Research, DeepMind) Dale Webster (Google Research, DeepMind) Greg S. Corrado (Google Research, DeepMind) Yossi Matias (Google Research, DeepMind) Katherine Chou (Google Research, DeepMind) Juraj Gottweis (Google Research, DeepMind) Nenad Tomasev (Google Research, DeepMind) Yun Liu (Google Research, DeepMind) Alvin Rajkomar (Google Research, DeepMind) Joelle Barral (Google Research, DeepMind) Christopher Semturs (Google Research, DeepMind) Alan Karthikesalingam (Google Research, DeepMind) Vivek Natarajan (Google Research, DeepMind Autori : Karan Singhal (Google pētniecība, DeepMind) Shekoofeh Azizi (Google pētījumi, DeepMind) Tao Tu (Google pētījumi, DeepMind) S. Sara Mahdavi (Google pētniecība, DeepMind) Jason Wei (Google pētījumi, DeepMind) Hyung Won Chung (Google pētniecība, DeepMind) Nathan Scales (Google pētniecība, DeepMind) Ajay Tanwani (Google pētniecība, DeepMind) Heather Cole-Lewis (Google pētniecība, DeepMind) Stephen Pfohl (Google pētījumi, DeepMind) Perijs Pīens (Google Research, DeepMind) Martin Seneviratne (Google pētniecība, DeepMind) Paul Gamble (Google pētījumi, DeepMind) Chris Kelly (Google pētniecība, DeepMind) Nathaneal Schärli (Google pētniecība, DeepMind) Aakanksha Chowdhery (Google pētniecība, DeepMind) Philip Mansfield (Google pētījumi, DeepMind) Blaise Agüera y Arcas (Google pētniecība, DeepMind) Dale Webster (Google pētījumi, DeepMind) Greg S. Corrado (Google pētījumi, DeepMind) Yossi Matias (Google pētniecība, DeepMind) Katherine Chou (Google pētījumi, DeepMind) Jurajs Gottweis (Google pētniecība, DeepMind) Nenads Tomasevs (Google pētniecība, DeepMind) Yun Liu (Google pētniecība, DeepMind) Alvins Rajkomars (Google pētniecība, DeepMind) Joelle Barral (Google pētniecība, DeepMind) Kristofers Semturs (Google pētījumi, DeepMind) Alan Karthikesalingam (Google pētījumi, DeepMind) Vivek Natarajan (Google pētniecība, DeepMind) Lielie valodas modeļi (LLM) ir parādījuši iespaidīgas spējas dabiskās valodas izpratnē un ģenerēšanā, bet medicīnas un klīnisko lietojumu kvalitātes sloksne ir augsta. Šodien mēģinājumi novērtēt modeļu klīniskās zināšanas parasti paļaujas uz automatizētiem novērtējumiem uz ierobežotiem kritērijiem. Nav standarta, lai novērtētu modeļu prognozes un pamatojumu visā uzdevumu klāstā. Lai risinātu šo problēmu, mēs piedāvājam MultiMedQA, kritēriju, kas apvieno sešas esošās atvērtās jautājumu atbildes datu kopas, kas aptver profesionālas medicīnas pārbaudes, pētījumus un patērētāju vaicājumus; un HealthSearchQA, jaunu bezmaksas datu kopu par medicīniskajiem jautājumiem, ko mekl Turklāt mēs izvērtējam PaLM (540 miljardu parametru LLM) un tā instrukciju pielāgoto variantu, Flan-PaLM, MultiMedQA. Izmantojot pamācību stratēģiju kombināciju, Flan-PaLM sasniedz modernu precizitāti katrā MultiMedQA vairāku izvēles datu kopumā (MedQA, MedMCQA, PubMedQA, MMLU klīniskās tēmas), ieskaitot 67.6% precizitāti MedQA (ASV medicīniskās licences eksāmena jautājumos), pārsniedzot iepriekšējo stāvokli par vairāk nekā 17%. Tomēr cilvēka novērtējums atklāj galvenās nepilnības Flan-PaLM atbildēs. Lai to atrisinātu, mēs ieviešam instrukciju ātro pielāgošanu, parametru efektīvu pieeju LLM pielāgošanai Mēs parādām, ka izpratne, atgādinājums par zināšanām un medicīniskais pamatojums uzlabojas ar modeļa mērogu un instrukciju ātro pielāgošanu, kas liecina par LLM medicīnas potenciālo lietderību Šis dokuments ir Attiecības ir licencētas saskaņā ar CC by 4.0 Deed (Attribution 4.0 International) licenci. Pieejams arhīvā Pieejams arhīvā Mūsu cilvēka novērtējumi atklāj svarīgus mūsdienu modeļu ierobežojumus, nostiprinot gan novērtēšanas sistēmu, gan metožu izstrādes nozīmi drošu un noderīgu LLM modeļu radīšanā klīniskajām lietojumprogrammām. 1 Ievads Medicīna ir humāns darbs, kurā valoda ļauj būtiskām mijiedarbībām starp klīnikām, pētniekiem un pacientiem.Tomēr mūsdienu AI modeļi medicīnas un veselības aprūpes lietojumprogrammām lielā mērā nav pilnībā izmantojuši valodu.Šie modeļi, lai gan noderīgi, galvenokārt ir viena uzdevuma sistēmas (piemēram, klasifikācija, regresija, segmentācija), kurām trūkst izteiksmes un interaktīvās spējas. , , ]. Tā rezultātā pastāv nesaskaņa starp to, ko mūsdienu modeļi var darīt, un to, ko no tiem var sagaidīt reālajā klīniskajā darba procesā [ , 21 81 97 42 74 Nesenie panākumi lielo valodu modeļos (LLM) piedāvā iespēju pārdomāt AI sistēmas, izmantojot valodu kā instrumentu cilvēku un AI mijiedarbības starpniecībai. ], lielas iepriekš apmācītas AI sistēmas, kuras var atkārtoti izmantot ar minimālām pūlēm daudzās jomās un dažādos uzdevumos.Šie izteiksmīgie un interaktīvie modeļi piedāvā lielu solījumu savā spējā apgūt vispārēji noderīgas pārstāvības no zināšanām, kas kodētas medicīnas korpusa mērogā. 10 Tomēr domēna drošības kritiskais raksturs prasa pārdomātu novērtēšanas sistēmu izstrādi, kas ļauj pētniekiem nozīmīgi izmērīt progresu un uztvert un mazināt potenciālo kaitējumu. Tas ir īpaši svarīgi LLM, jo šie modeļi var radīt paaudzes, kas nav saskaņotas ar klīniskajām un sabiedriskajām vērtībām. Lai novērtētu, cik labi LLM kodē klīniskās zināšanas un novērtē to potenciālu medicīnā, mēs apsveram medicīnisko jautājumu atbildēšanu. Šis uzdevums ir izaicinošs: augstas kvalitātes atbilžu sniegšana medicīniskajiem jautājumiem prasa izprast medicīnisko kontekstu, atgādināt par atbilstošām medicīniskajām zināšanām un pamatojumu ar ekspertu informāciju. ] bieži vien ir ierobežotas, lai novērtētu klasifikācijas precizitāti vai automatizētu dabiskās valodas ģenerācijas metrikas (piemēram, BLEU [ ]), un neļauj detalizētu analīzi, kas nepieciešama reālās pasaules klīniskajām lietojumprogrammām. tas rada neapmierinātu nepieciešamību pēc plaša medicīniskā jautājuma, kas atbild uz atsauces kritēriju, lai novērtētu LLM atbilžu faktiskumu, ekspertu zināšanu izmantošanu medicīnas un zinātniskajā argumentācijā, noderīgumu, precizitāti, veselības taisnīgumu un potenciālo kaitējumu cilvēkiem, kas pieņem modeļa rezultātus kā faktus. 33 67 Lai risinātu šo problēmu, mēs kurējam MultiMedQA, etalonu, kas sastāv no septiņiem medicīnas jautājumu atbildes datu kopumiem, tostarp sešiem esošajiem datu kopumiem: MedQA [ Saskaņā ar MK noteikumiem [ Saskaņā ar PubMedQA [ Dzīvošana [ Medikamentu lietošana [ ], un MMLU klīniskās tēmas [ Mēs nesen ieviesām septīto datu kopu, HealthSearchQA, kas sastāv no visbiežāk meklētiem veselības jautājumiem. 33 64 34 1 2 29 Lai novērtētu LLM, izmantojot MultiMedQA, mēs balstāmies uz PaLM, 540 miljardu parametru LLM [ ], un tās instrukciju pielāgotais variants Flan-PaLM [ ]. izmantojot nelielu šāvienu kombināciju [ ], ķēdes domāšana (CoT) [ ], un pašpietiekamība [ Flan-PaLM sasniedz state-of-the-art (SOTA) sniegumu MedQA, MedMCQA, PubMedQA un MMLU klīniskajās tēmās, bieži pārsniedzot vairākas spēcīgas LLM bāzes līnijas ar ievērojamu maržu. 14 15 12 91 88 Neskatoties uz Flan-PaLM spēcīgo sniegumu vairāku izvēles jautājumu risināšanā, tās atbildes uz patērētāju medicīnas jautājumiem atklāj galvenās nepilnības. Lai to novērstu, mēs ierosinām instrukciju ātro pielāgošanu, datu un parametru efektīvu saskaņošanas metodi, lai Flan-PaLM vēl vairāk pielāgotu medicīnas jomai. Iegūtais modelis, Med-PaLM, darbojas iedvesmojoši mūsu pilotu cilvēka novērtēšanas sistēmā. Piemēram, klīnisko ekspertu grupa novērtēja tikai 61,9% no Flan-PaLM ilgās formas atbildēm, lai tās atbilstu zinātniskajam konsensam, salīdzinot ar 92,6% Med-PaLM atbildēm, salīdzinot ar klīnikas sniegtajām atbildēm (92, Lai gan šie rezultāti ir daudzsološi, medicīnas joma ir sarežģīta. Ir nepieciešami turpmāki novērtējumi, jo īpaši taisnīguma, taisnīguma un aizspriedumu dimensijās.Mūsu darbs parāda, ka daudzi ierobežojumi ir jāpārvar, pirms šādi modeļi kļūst dzīvotspējīgi lietošanai klīniskajās lietojumprogrammās. Mūsu galvenie ieguldījumi ir apkopoti zemāk: LLM novērtēšanas pieejas medicīnas jautājumu risināšanā - ir Mēs iepazīstinām ar HealthSearchQA, datu kopu no 3375 visbiežāk meklētiem patērētāju medicīnas jautājumiem. mēs iepazīstinām ar šo datu kopu kopā ar sešiem citiem esošajiem atvērtajiem datu kopiem medicīnas jautājumu atbildēšanai, medicīnas eksāmenam, medicīnas pētījumiem un patērētāju medicīnas jautājumiem, kā daudzveidīgu kritēriju, lai novērtētu LLM klīniskās zināšanas un jautājumu atbildes spējas (skatīt sadaļu). Tātad ) Curation of HealthSearchQA and MultiMedQA 3.1 - ir Mēs izmēģinām sistēmu ārstu un laicīgo lietotāju novērtēšanai, lai novērtētu vairākus LLM veiktspējas virzienus, kas pārsniedz precizitāti uz vairāku izvēles datu kopām.Mūsu novērtējums novērtē atbildes par piekrišanu zinātniskajam un klīniskajam konsensam, kaitējuma iespējamību un iespējamo apjomu, lasīšanas izpratni, attiecīgo klīnisko zināšanu atgādināšanu, zināšanu manipulāciju, izmantojot derīgu pamatojumu, atbilžu pilnīgumu, iespējamo aizspriedumu, atbilstību un noderīgumu (skatīt sadaļu Tātad ) Pilot framework for human evaluation 3.2 Uz MedQA, MedMCQA, PubMedQA un MMLU klīnisko tēmu datu kopām FLAN-PaLM sasniedz SOTA veiktspēju, izmantojot mudinošu stratēģiju kombināciju, pārsniedzot vairākus spēcīgus LLM pamatnostādnes. Instruction prompt tuning, lai saskaņotu LLM ar medicīnas jomu Mēs ieviešam instrukciju prompt tuning, vienkāršu, datu un parametru efektīvu metodi, lai saskaņotu LLM ar drošības kritisko medicīnas jomu (skatīt 3.3.3. iedaļu). Mēs to izmantojam, lai izveidotu Med-PaLM, instrukciju prompt-tuned versiju Flan-PaLM, kas specializējas medicīnas jomā. Mūsu cilvēka novērtēšanas sistēma atklāj Flan-PaLM ierobežojumus zinātniskā pamatojuma, kaitējuma un aizspriedumiem. Tomēr Med-PaLM ievērojami samazina plaisu (vai pat salīdzina labvēlīgi) klīnikām vairākās no šīm asīm, saskaņā ar gan klīnikām, gan lietotājiem (skatīt 4.5 i Galvenie LLM ierobežojumi, kas atklāti mūsu cilvēka novērtējumā Lai gan mūsu rezultāti demonstrē LLM medicīnas potenciālu, tie arī liecina, ka ir nepieciešami vairāki kritiski uzlabojumi, lai šie modeļi būtu dzīvotspējīgi reālajā klīniskajā lietojumprogrammā. 2 Saistītie darbi Pēdējos gados LLM ir parādījuši iespaidīgu sniegumu dabiskās valodas apstrādes (NLP) uzdevumos [ , , , , , , , , , Viņi ir parādā savu panākumus, lai palielinātu apmācību transformatoru balstītu modeļu [ ]. ir pierādīts, ka modeļa veiktspējas un datu efektivitātes skalas ar modeļa izmēru un datu kopu izmēru [ ]. LLM bieži tiek apmācīti, izmantojot pašpārvaldi lielā mērogā, izmantojot vispārējus teksta korpusus, piemēram, Wikipedia un BooksCorpus. , ]. Varbūt visinteresantākais aspekts šo LLM ir to kontekstā dažu šāvienu spējas, kas pielāgo šos modeļus dažādiem uzdevumiem bez gradientu bāzes parametru atjauninājumiem [ , , , Tas ļauj viņiem ātri vispārināt uz neredzamiem uzdevumiem un pat parādīt acīmredzamas domāšanas spējas ar atbilstošām mudināšanas stratēģijām [ , , , Large language models (LLMs) 12 14 15 30 69 70 73 89 91 99 84 37 17 29 12 40 43 89 14 47 79 91 Vairāki pētījumi ir parādījuši, ka LLM ir spēja darboties kā netiešās zināšanu bāzes [ , , ].Tomēr pastāv ievērojams risks, ka šie modeļi rada halucinācijas, pastiprinot sociālos aizspriedumus, kas atrodas viņu apmācības datiem, un parādot trūkumus viņu domāšanas spējās. Lai pārbaudītu LLM pašreizējos ierobežojumus un kvantitatīvi aprēķinātu lielo plaisu starp cilvēka un LLM valodas spējām, BIG-bench tika ieviesta kā kopienas mēroga iniciatīva, lai salīdzinātu uzdevumus, kas publicēšanas brīdī tika uzskatīti par ārpus pašreizējo valodas modeļu iespējām [ 29 35 79 78 Jaunākie pētījumi, piemēram, SciBERT [ ], BioNLP [ ], Biomehāniskais materiāls [ Bioloģiskais dārzs [ ], PubMedBERT [ Drosme ir [ ], skolotājsBērziņš [ ], un BioGPT [ ], ir pierādījuši efektivitāti, izmantojot kurētu zinātnisko un biomedicīnas korpusu gan diskriminējošu, gan ģeneratīvo valodas modelēšanu.Šie modeļi, lai gan daudzsološi, parasti ir mazi mērogā un apjomā, salīdzinot ar LLM, piemēram, GPT-3 [ Pāvilostā [ ]. Lai gan medicīnas joma ir izaicinoša, konkrēti priekšlikumi LLM jau ir iekļauti piemēri, kas ir tik dažādi, piemēram, palielinot ne-kritiskos klīniskos novērtējumus, lai apkopotu sarežģītas medicīniskās komunikācijas [ , , LLMs for science and biomedicine 5 46 76 44 25 66 31 56 12 14 3 41 75 Mūsu darba tuvākie precedenti ir Taylor [Lasīt ], kurš ieviesa LLM zinātnē ar nosaukumu Galactica, un Liévin [Lasīt ], kurš pētīja LLM domāšanas spēju medicīnas jautājumu atbildes kontekstā. [Lasīt ] izmanto Instruct GPT-3, instrukciju pielāgots LLM [ [ ] un pielietojis ķēdes domāšanu [ ] uz augšu, lai uzlabotu rezultātus uz MedQA, MedMCQA un PubMedQA datu kopām. un Al. 79 un Al. 50 un Al. 50 63 91 3 Metodes Šeit mēs detalizēti aprakstām: Datu kopas: MultiMedQA kritērijs LLM novērtēšanai medicīnas jautājumu risināšanā. Cilvēka novērtēšanas sistēma: vērtēšanas sistēma, lai novērtētu klīnikas un laicīgo respondentu modeļa (un klīnikas) atbildes. Modeli: Lieli valodas modeļi (LLM) un metodes, ko izmanto, lai tos pielāgotu medicīnas jomas prasībām šajā pētījumā. 3.1 Datu kopas Lai novērtētu LLM medicīnas potenciālu, mēs koncentrējamies uz medicīnas jautājumu atbildēšanu. Atbildēt uz medicīnas jautājumiem prasa lasīšanas izpratnes prasmes, spēju precīzi atcerēties medicīnas zināšanas un ekspertu zināšanu manipulāciju. Ir vairāki esošie medicīnas jautājumu atbildes datu kopumi pētniecībai. Tie ietver datu kopumus, kas novērtē profesionālās medicīniskās zināšanas, piemēram, medicīnas eksāmena jautājumus [ , ], jautājumi, kas prasa medicīnas pētījumu izpratnes prasmes [ ], un jautājumi, kas prasa spēju novērtēt lietotāja nodomu un sniegt noderīgas atbildes uz viņu medicīnas informācijas vajadzībām [ , 33 64 34 1 2 Mēs atzīstam, ka medicīnas zināšanas ir plašas gan kvantitātes, gan kvalitātes ziņā. Esošie kritēriji ir dabiski ierobežoti un nodrošina tikai daļēju medicīnas zināšanu telpas pārklājumu. Tomēr, apvienojot vairākus dažādus datu kopumus medicīnas jautājumu atbildēšanai, ir iespējams padziļināt LLM zināšanu novērtējumu nekā vairāku izvēles precizitāte vai dabiskās valodas ģenerācijas rādītāji, piemēram, BLEU. Datu kopumi, kurus mēs apvienojām, pārbauda dažādas spējas - daži ir vairāku izvēles jautājumi, bet citi prasa ilgtermiņa atbildes; daži ir atvērti domēni (kur jautājumi tiek atbildēti, neierobežojot pieejamo informāciju uz iepriekš noteiktu avotu), bet citi ir slēgti domēni (kur jautājumi ] par visaptverošu medicīnisko jautājumu kopsavilkumu, kas atbild uz datu kopām. 33 3.1.1 MultiMedQA - atsauces vērtība medicīnas jautājumu atbildēšanai MultiMedQA ietver vairāku izvēles jautājumu atbildes datu kopas, datu kopas, kurām nepieciešamas garākas formas atbildes uz medicīnas speciālistu jautājumiem, un datu kopas, kurām nepieciešamas garākas formas atbildes uz jautājumiem, kurus var uzdot neprofesionāļi. Saskaņā ar MK noteikumiem [ Saskaņā ar PubMedQA [ Dzīvošana [ Medikamentu lietošana [ ] un MMLU klīniskās tēmas [ Mēs vēl vairāk paplašinājām MultiMedQA ar jaunu datu kopu parasti meklētiem veselības vaicājumiem: HealthSearchQA. Visi datu kopumi ir angļu valodā, un mēs tos detalizēti aprakstām zemāk. 33 64 34 1 2 29 Šie datu kopumi atšķiras pa šādām asīm: Formāts: daudzkārtēja izvēle vs. garas formas atbilžu jautājumi Pārbaudītās spējas: piemēram, medicīnisko faktu atgādināšanas novērtēšana izolācijā pret medicīnisko pamatojuma spēju novērtēšanu papildus faktu atgādināšanai Domēns: atvērts domēns vs. slēgts domēns Jautājumu avots: no profesionālām medicīnas pārbaudēm, medicīnas pētījumiem vai patērētājiem, kas meklē medicīnisko informāciju Etiķetes un metadati: etiķetes vai paskaidrojumi un to avoti Lai gan MedMCQA, PubMedQA, LiveQA un MedicationQA nodrošina atsauces garās formas atbildes vai izskaidrojumus, mēs tos neizmantojam šajā darbā. Pirmkārt, atsauces atbildes nenāk no konsekventiem avotiem dažādās datu kopās. Atbildes bieži nāk no automatizētiem rīkiem vai ne-klīnikas, piemēram, bibliotēku darbiniekiem. Atsauces atbildes un paskaidrojumi šajās novatoriskajās datu kopās netika optimizēti holistiskiem vai visaptverošiem ilgās atbildes kvalitātes novērtējumiem, kas padara tos suboptimālus lietošanai kā "zemes patiesību", pret kuru novērtēt LLM, izmantojot automatizētas valodas metrikas, piemēram, BLEU. Lai atvieglotu šo, kā apspriests sadaļā Otrkārt, ņemot vērā medicīnas jomas drošības un kritiskās prasības, mēs uzskatām, ka ir svarīgi pāriet no automatizētiem ilgformas atbildes kvalitātes mērījumiem, izmantojot tādus rādītājus kā BLEU, līdz tiem, kas ietver vairāk niansētus cilvēka novērtējuma satvarus, piemēram, šajā pētījumā ierosināto. 4.5 MedQA datu kopums [ ] sastāv no ASV medicīniskās licences eksāmena (USMLE) stila jautājumiem, kas tika iegūti, izvēloties 4 vai 5 iespējamās atbildes no Nacionālās medicīniskās padomes eksāmena ASV. MedQA (USMLE) 33 MedMCQA datu kopums sastāv no vairāk nekā 194k 4 variantu vairākas izvēles jautājumiem no Indijas medicīnas ieceļošanas eksāmeniem (AIIMS/NEET) [ ]. Šis datu kopums aptver 2,4 000 veselības aprūpes tēmu un 21 medicīnas tēmu. MedMCQA 64 PubMedQA datu kopums [ ] sastāv no 1k ekspertu marķētiem jautājumu atbildes pāriem, kur uzdevums ir radīt jā/nē/varbūt vairāku izvēles atbildi uz jautājumu kopā ar PubMed abstraktu kā kontekstu. kamēr MedQA un MedMCQA datu kopas ir atvērtā domēna jautājumu atbildes uzdevumi, PubMedQA uzdevums ir slēgts domēns, jo tas prasa atbildes secinājumu no atbalstošā PubMed abstraktā konteksta. PubMedQA 34 “Massive Multitask Language Understanding” (MMLU) mērīšana Mēs izvēlējāmies apakšuzdevumus, kas ir vispiemērotākie medicīnas zināšanām: “anatomija”, “klīniskās zināšanas”, “koledžas medicīna”, “medicīnas ģenētika”, “profesionālā medicīna” un “koledžas bioloģija”. MMLU 29 Datu bāze [ Datu kopums sastāv no medicīniskajiem jautājumiem, ko cilvēki iesnieguši Nacionālajai medicīnas bibliotēkai (NLM).Datu kopums sastāv arī no manuāli savāktiem atsauces atbildēm no uzticamiem avotiem, piemēram, Nacionālā veselības institūta (NIH) mājas lapā. LiveQA 1 The MedicationQA dataset [ ] sastāv no bieži uzdotajiem patērētāju jautājumiem par zālēm. Papildus jautājumam datu kopumā ir piezīmes, kas atbilst zāļu koncentrācijai un mijiedarbībai. Līdzīgi kā LiveQA, mēs novērtējam modeļu spēju sniegt garās formas atbildes uz jautājumiem testā. MedicationQA 2 Mēs esam kurējuši savu papildu datu kopu, kas sastāv no 3375 visbiežāk meklētiem patērētāju jautājumiem, ko sauc par “HealthSearchQA”. Datu kopums tika kurēts, izmantojot sēklu medicīniskos apstākļus un to saistītos simptomus. Mēs izmantojām sēklu datus, lai iegūtu publiski pieejamus visbiežāk meklētos jautājumus, ko radījusi meklētājprogramma, kas tika parādīti visiem lietotājiem, kuri ievadīja sēklu terminus. Mēs publicējam datu kopu kā atvērtu kritēriju patērētāju medicīnisko jautājumu atbildēšanai un ceram, ka tas būs noderīgs resurss kopienai, kā datu kopums, kas atspoguļo reālās patērētāju bažas. HealthSearchQA Lai gan MultiMedQA ļauj mums izpētīt medicīnisko jautājumu atbildes iespējas LLM pa vairākiem asiem, mēs atzīstam, ka tas nav izsmeļošs. ] or those requiring pre-clinical biomedical knowledge [ ], in future work. 65 83 3.2 Cilvēka novērtējuma sistēma Šeit mēs aprakstām mūsu ierosināto sistēmu, lai novērtētu ilgtermiņa atbildes uz medicīniskiem jautājumiem. 3.2.1 Klīniskais novērtējums While objective accuracy metrics on multiple-choice questions are a robust measure of model performance, they omit several important details. To more deeply assess the generative outputs of LLMs in open-ended question answering for medical topics, we developed a pilot framework for human evaluation of long-form model answers to consumer medical questions in the LiveQA, MedicationQA and HealthSearchQA datasets. Dažādu virzienu kopsavilkums, pa kuriem klīnikas izvērtē atbildes mūsu patērētāju medicīnas jautājumu atbildes datu kopās.Tie ietver piekrišanu zinātniskajam konsensam, kaitējuma iespējamību un iespējamību, pierādījumus par izpratni, pamatojumu un atgūšanas spēju, nepiemērotu, nepareizu vai trūkstošu saturu un atbildes aizspriedumu iespējamību.Mēs izmantojam klīnikas grupu, lai novērtētu modeļa kvalitāti un cilvēka radītās atbildes pa šīm virzienām. Table 2 Task Axis Question 1 Scientific consensus How does the answer relate to the consensus in the scientific andclinical community? 2 Extent of possible harm What is the extent of possible harm? 3 Likelihood of possible harm What is the likelihood of possible harm? 4 Evidence of correct comprehension Does the answer contain any evidence of correct reading compre-hension? (indication the question has been understood) 5 Evidence of correct retrieval Does the answer contain any evidence of correct recall of knowl-edge? (mention of a relevant and/or correct fact for answering the question) 6 Evidence of correct reasoning Does the answer contain any evidence of correct reasoning steps?(correct rationale for answering the question) 7 Evidence of incorrect comprehension Does the answer contain any evidence of incorrect reading com-prehension? (indication the question has not been understood) 8 Evidence of incorrect retrieval Does the answer contain any evidence of incorrect recall of knowl-edge? (mention of an irrelevant and/or incorrect fact for answering the question) 9 Evidence of incorrect reasoning Does the answer contain any evidence of incorrect reasoning steps?(incorrect rationale for answering the question) 10 Inappropriate/incorrect content Does the answer contain any content it shouldn’t? 11 Missing content Does the answer omit any content it shouldn’t? 12 Possibility of bias Does the answer contain any information that is inapplicable or inaccurate for any particular medical demographic? 1 Scientific consensus Kā atbilde attiecas uz konsensu zinātniskajā un klīniskajā kopienā? 2 Extent of possible harm What is the extent of possible harm? 3 Iespējamie bojājumi What is the likelihood of possible harm? 4 Evidence of correct comprehension Vai atbilde satur pierādījumus par pareizu lasīšanas izpratni? (norāde, ka jautājums ir saprotams) 5 Evidence of correct retrieval Vai atbilde satur pierādījumus par to, ka ir pareizi atgādināts zināšanu līmenis? (atsauce uz attiecīgu un/vai pareizu faktu, lai atbildētu uz jautājumu) 6 Evidence of correct reasoning Vai atbilde satur pierādījumus par pareizajiem pamatojuma soļiem? (labs pamatojums, lai atbildētu uz jautājumu) 7 Pierādījumi par nepareizu izpratni Vai atbilde satur pierādījumus par nepareizu lasīšanu? (norāde jautājums nav saprotams) 8 Pierādījumi par nepareizu atgūšanu Vai atbilde satur jebkādus pierādījumus par nepareizu atgādinājumu par knowl-edge? (piezīme par nepiemērotu un/vai nepareizu faktu, lai atbildētu uz jautājumu) 9 Pierādījumi par nepareizu argumentāciju Does the answer contain any evidence of incorrect reasoning steps?(incorrect rationale for answering the question) 10 Inappropriate/incorrect content Does the answer contain any content it shouldn’t? 11 Trūkst satura Vai atbilde izslēdz jebkuru saturu, kas tam nevajadzētu būt? 12 Possibility of bias Does the answer contain any information that is inapplicable or inaccurate for any particular medical demographic? The pilot framework was inspired by approaches published in a similar domain by Feng [Lasīt ] to examine the strengths and weaknesses of LLM generations in clinical settings. We used focus groups and interviews with clinicians based in the UK, US and India to identify additional axes of evaluation [ ] un paplašināja pamatelementus, lai risinātu jēdzienus par vienošanos ar zinātnisko konsensu, kaitējuma iespējamību un iespējamību, atbilžu pilnīgumu un trūkumu un aizspriedumu iespējamību. Saskaņošana ar zinātnisko konsensu tika izmērīta, jautājot vērtētājiem, vai modeļa iznākums bija saskaņots ar dominējošo zinātnisko konsensu (piemēram, labi pieņemtu klīniskās prakses vadlīniju veidā), pretēji zinātniskajam konsensam; vai arī nav skaidra zinātniskā konsensa attiecībā uz jautājumu. Kaitējums ir sarežģīta koncepcija, ko var novērtēt pa vairākiem dimensijiem (piemēram, fizisko veselību, garīgo veselību, morālo, finansiālo un daudziem citiem). Atbildot uz šo jautājumu, vērtētā ]) and likelihood, under the assumption that a consumer or physician based on the content of the answer might take actions. Bias was assessed broadly by raters considering if the answer contained information that would be inapplicable or inaccurate to a specific patient demographic. The questions asked in the evaluation are summarized in Table un Al. 22 60 93 2 Our framework items’ form, wording and response-scale points were refined by undertaking further interviews with triplicate assessments of 25 question-answer tuples per dataset by three qualified clinicians. Instructions for the clinicians were written including indicative examples of ratings for questions, and iterated until the clinicians’ rating approaches converged to indicate the instructions were usable. Once the guidelines had converged a larger set of question-answer tuples from the consumer medical questions datasets were evaluated by single-ratings performed by one of nine clinicians based in the UK, USA or India and qualified for practice in their respective countries, with specialist experience including pediatrics, surgery, internal medicine and primary care. Dažādu asi kopsavilkums, pa kuriem laicīgie lietotāji novērtē atbilžu lietderību mūsu patērētāju medicīnas jautājumu atbildes datu kopās.Mēs izmantojam 5 neekspertu laicīgie lietotāji, lai novērtētu modeļa kvalitāti un cilvēka radītās atbildes pa šīm asiem. Table 3 Task Axis Question 1 Answer captures user intent How well does the answer address the intent of the question? 2 Helpfulness of the answer How helpful is this answer to the user? (for example, does it enable them to draw a conclusion or help clarify next steps?) 1 Answer captures user intent Cik labi atbilde atbilst jautājuma mērķim? 2 Helpfulness of the answer How helpful is this answer to the user? (for example, does it enable them to draw a conclusion or help clarify next steps?) 3.2.2 Lay user (non-expert) evaluation Lai novērtētu atbilžu noderīgumu un lietderību patērētāju medicīniskajiem jautājumiem, mēs veicām papildu laicīgo lietotāju (neekspertu) novērtējumu. To veica pieci vērtētāji bez medicīnas pieredzes, no kuriem visi bija reģistrēti Indijā.Šā vingrinājuma mērķis bija novērtēt, cik labi atbilde risināja jautājuma pamatā esošo uztveramo nodomu un cik noderīga un rīcībspējīga tā bija. 3 3.3 Modeling In this section, we detail large language models (LLMs) and the techniques used to align them with the requirements of the medical domain. 3.3 Modeļi We build on the PaLM and Flan-PaLM family of LLMs in this study. Pathways valodas modelis (PaLM), ko ieviesa [ ] is a densely-activated decoder-only transformer language model trained using Pathways [ PaLM apmācības korpuss sastāv no 780 miljardiem žetonu, kas pārstāv tīmekļa lapu, Vikipēdijas rakstu, avota koda, sociālo mediju sarunu, ziņu rakstu un grāmatu maisījumu. , , ] for more details on the training corpus. At the time of release, PaLM 540B achieved breakthrough performance, outperforming fine tuned state of the art models on a suite of multi-step reasoning tasks and exceeding average human performance on BIG-bench [ , ]. PaLM 14 4 14 19 80 14 78 In addition to the baseline PaLM models, we also considered the instruction-tuned counterpart introduced by [ ]. These models are trained using instruction tuning, i.e., finetuning the model on a collection of datasets in which each example is prefixed with some combination of instructions and/or few-shot exemplars. In particular, Chung [ ] demonstrated the effectiveness of scaling the number of tasks, model size and using chain-of-thought data [ ] as instructions. The Flan-PaLM model reached state of the art performance on several benchmarks such as MMLU, BBH, and TyDIQA [ ]. visā novērtējuma uzdevumu komplektā, kas aplūkoti [ ], Flan-PaLM outperformed baseline PaLM by an average of 9.4%, demonstrating the effectiveness of the instruction tuning approach. Flan-PaLM 15 et al. 15 91 16 15 In this study we considered both the PaLM and Flan-PaLM model variants at three different model sizes: 8B, 62B and 540B, with the largest model using 6144 TPUv4 chips for pretraining. 3.3.2 Aligning LLMs to the medical domain General-purpose LLMs like PaLM [ ] and GPT-3 [ ] ir sasnieguši mākslas sniegumu plašā uzdevumu klāstā par izaicinošiem kritērijiem, piemēram, BIG-bench. Tomēr, ņemot vērā medicīnas jomas drošības kritisko raksturu, ir nepieciešams pielāgot un saskaņot modeli ar domēna specifiskajiem datiem. Tipiskas pārsūtīšanas mācīšanās un domēna pielāgošanas metodes paļaujas uz modeļa finetuning ar lielu daudzumu domēna datu, pieeju, kas šeit ir izaicinoša, ņemot vērā medicīnisko datu nepietiekamību. ] and prompt tuning [ ]. 14 12 12 45 Brown [ ] demonstrated that LLMs are strong few-shot learners, where fast in-context learning can be achieved through prompting strategies. Through a handful of demonstration examples encoded as prompt text in the input context, these models are able to generalize to new examples and new tasks without any gradient updates or finetuning. The remarkable success of in-context few-shot learning has spurred the development of many prompting strategies including scratchpad [ ], chain-of-thought [ Mazāk par vislielāko lēcienu ], jo īpaši daudzpakāpju skaitļošanas un domāšanas problēmām, piemēram, matemātikas problēmām [ ]. In this study we focused on standard few-shot, chain-of-thought and self-consistency prompting as discussed below. Prompting strategies et al. 12 61 91 100 17 Standarta dažu šāvienu veicināšanas stratēģiju ieviesa Brown [ ]. Here, the prompt to the model is designed to include few-shot examples describing the task through text-based demonstrations. These demonstrations are typically encoded as input-output pairs. The number of examples is typically chosen depending on the number of tokens that can fit into the input context window of the model. After the prompt, the model is provided with an input and asked to generate the test-time prediction. The zero-shot prompting counterpart typically only involves an instruction describing the task without any additional examples. Brown [ ] observed that while zero-shot prompting scaled modestly with model size, performance with few-shot prompting increased more rapidly. Further, Wei [ ] observed emergent abilities– that is, abilities which are non-existent in small models but rapidly improve above random performance beyond a certain model size in the prompting paradigm. Few-shot prompting et al. 12 et al. 12 et al. 90 Šajā pētījumā mēs strādājām ar kvalificētu klīniku paneli, lai identificētu labākos demonstrācijas piemērus un izveidotu dažus uzbrukumus. . The number of few-shot demonstrations varied depending on the dataset. Typically we used 5 input-output examples for the consumer medical question answering datasets, but reduced the number to 3 or fewer for PubMedQA given the need to also fit in the abstract context within the prompt text. A.8 Chain-of-thought (CoT), introduced by Wei [ ], involves augmenting each few-shot example in the prompt with a step-by-step breakdown and a coherent set of intermediate reasoning steps towards the final answer. The approach is designed to mimic the human thought process when solving problems that require multi-step computation and reasoning. Wei [Lasīt ] parādīja, ka CoT stimulēšana var izraisīt domāšanas spējas pietiekami lielos valodas modeļos un ievērojami uzlabot veiktspēju tādos uzdevumos kā matemātikas problēmas [ Turklāt šāda CoT pamatojuma parādīšanās šķiet par jaunu spēju [ ] of LLMs. Lewkowycz [Lasīt ] used CoT prompting as one of the key strategies in their work leading to breakthrough LLM performance on several STEM benchmarks. Chain-of-thought prompting un Al. 91 et al. 91 17 90 un Al. 47 Many of the medical questions explored in this study involve complex multi-step reasoning, making them a good fit for CoT prompting techniques. Together with clinicians, we crafted CoT prompts to provide clear demonstrations on how to reason and answer the given medical questions. Examples of such prompts are detailed in Section . A.9 A straightforward strategy to improve the performance on the multiple-choice benchmarks is to prompt and sample multiple decoding outputs from the model. The final answer is the one with the majority (or plurality) vote. This idea was introduced by Wang [ ] under the name of "self-consistency". The rationale behind this approach here is that for a domain such as medicine with complex reasoning paths, there might be multiple potential routes to the correct answer. Marginalizing out the reasoning paths can lead to the most consistent answer. The self-consistency prompting strategy led to particularly strong improvements in [ ], and we adopted the same approach for our datasets with multiple-choice questions: MedQA, MedMCQA, PubMedQA and MMLU. Self-consistency prompting et al. 88 47 Jo LLM ir pieaudzis līdz simtiem miljardu parametru [ , ], finetuning them is extraordinarily computationally expensive. While the success of few-shot prompting has alleviated this issue to a large extent, many tasks would benefit further from gradient-based learning. Lester [ ] ieviesa ātro pielāgošanu (atšķirībā no ielūguma / priminga), vienkāršu un aprēķinoši lētu Prompt tuning 12 14 et al. 45 method to adapt LLMs to specific downstream tasks, especially with limited data. The approach involves the learning of soft prompt vectors through backpropagation while keeping the rest of the LLM frozen, thus allowing easy reuse of a single model across tasks. Šo mīksto ielūgumu izmantošanu var kontrastēt ar diskrētām "grūtām" tekstu balstītajām dažiem šāvienu ielūgumiem, ko popularizē LLM, piemēram, GPT-3 [ ]. While prompt tuning can benefit from any number of labeled examples, typically only a handful of examples (e.g., tens) are required to achieve good performance. Further, Lester 12 et al. [ ] demonstrated that prompt-tuned model performance becomes comparable with end-to-end finetuning at increased model scale. Other related approaches include prefix tuning [ ], kur prefiksa aktivācijas vektori tiek predestināti katram LLM kodētāja slānim un iemācīti, izmantojot atpakaļizplatīšanu. [ ]’s prompt tuning can be thought of as a simplification of this idea, restricting the learnable parameters to only those representing a small number of tokens prepended to the input as a soft prompt. 45 48 et al. 45 3.3.3 Instruction prompt tuning Wei [ ] and Chung [ ] demonstrated the benefits of multi-task instruction finetuning: the Flan-PaLM model achieved state of the performance on several benchmarks such as BIG-bench [ Un arī MMLU [ ]. In particular, Flan-PaLM demonstrated the benefits of using CoT data in fine-tuning, leading to robust improvements in tasks that required reasoning. et al. 89 et al. 15 47 29 Given the strong performance of instruction tuning, we built primarily on the Flan-PALM model in this work. However, as discussed in Section , our human evaluation revealed key gaps in Flan-PaLM’s performance on the consumer medical question answering datasets, even with few-shot prompting. To further align the model to the requirements of the safety-critical medical domain, we explored additional training specifically on medical data. 4.5 Mūsu pieeja efektīvi paplašina Flan-PaLM principu "mācīties sekot instrukcijām" uz prompt tuning posmu. Konkrēti, tā vietā, lai izmantotu mīksto prompt iemācījies prompt tuning kā aizstājēju uzdevumu specifisko cilvēka inženiertehnisko prompt, mēs izmantojam mīksto prompt kā sākotnējo prefiksu, kas tiek dalīta vairākās medicīnas datu kopās, un kas tiek sekots ar attiecīgo uzdevumu specifisko cilvēka inženiertehnisko prompt (kas sastāv no instrukcijām un / vai dažiem šāvieniem paraugiem, kas var būt ķēdes domas piemēri) kopā ar faktisko jautājumu un / vai kontekstu. We refer to this method of prompt tuning as “instruction prompt tuning”. Instruction prompt tuning can thus be seen as a lightweight way (data-efficient, parameter-efficient, compute-efficient during both training and inference) of training a model to follow instructions in one or more domains. In our setting, instruction prompt tuning adapted LLMs to better follow the specific type of instructions used in the family of medical datasets that we target. Ņemot vērā mīksto lodziņu kombināciju ar cieto lodziņu, instrukciju lodziņu pielāgošanu var uzskatīt par "smago hibrīdu lodziņu pielāgošanu". ], kopā ar esošajām metodēm, kas ievieto cieto ankoru žetonus mīkstā ielūgumā [ ], ievietojiet iemācītos mīkstus žetonus cietā promptā [ ], or use a learned soft prompt as a prefix for a short zero-shot hard prompt [ , Pēc labākajām zināšanām, mūsu ir pirmais publicētais piemērs, kā mācīties mīkstu ielūgumu, kas ir piestiprināts priekšā pilnīgam cietajam ielūgumam, kas satur instrukciju un dažu šāvienu eksemplāru maisījumu. 52 53 28 26 96 3.3.4 Putting it all together: Med-PaLM To adapt Flan-PaLM to the medical domain, we applied instruction prompt tuning on a small set of exemplars. These examples were effectively used to instruct the model to produce text generations more aligned with the requirements of the medical domain, with good examples of medical comprehension, recall of clinical knowledge, and reasoning on medical knowledge unlikely to lead to patient harm. Thus, curation of these examples was very important. We randomly sampled examples from MultiMedQA free-response datasets (HealthSearchQA, MedicationQA, LiveQA) and asked a panel of five clinicians to provide exemplar answers. These clinicians were based in the US and UK with specialist experience in primary care, surgery, internal medicine, and pediatrics. Clinicians then filtered out questions / answer pairs that they decided were not good examples to instruct the model. This generally happened when clinicians felt like they could not produce an “ideal” model answer for a given question, e.g., if the information required to answer a question was not known. We were left with 40 examples across HealthSearchQA, MedicationQA, and LiveQA used for instruction prompt tuning training. The resulting model, Med-PaLM, was evaluated on the consumer medical question answering datasets of MultiMedQA along with Flan-PaLM. Figure gives an overview of our instruction prompt tuning approach for Med-PaLM. Further details on the hyperparameter optimization and model selection process can be found in Section Med-PaLM modeļa karte ir sniegta sadaļā . 2 A.1 A.5 4 Rezultāti Šajā sadaļā mēs vispirms sniedzam pārskatu par mūsu galvenajiem rezultātiem, kas apkopoti skaitļos and Tad mēs iepazīstinām ar vairākām ablācijām, lai palīdzētu kontekstualizēt un interpretēt rezultātus. 3 4 4.1 Flan-PaLM exceeds previous state-of-the-art on MedQA (USMLE) by over 17% On the MedQA dataset consisting of USMLE style questions with 4 options, our Flan-PaLM 540B model achieved a multiple-choice question (MCQ) accuracy of 67.6% surpassing the DRAGON model [ ] by 20.1%. 94 Konkurenti mūsu pētījumam, Bolton [ ] developed PubMedGPT, a 2.7 billion model trained exclusively on biomedical abstracts and paper. The model achieved a performance of 50.3% on MedQA questions with 4 options. To the best of our knowledge, this is the state-of-the-art on MedQA, and Flan-PaLM 540B exceeded this by 17.3%. Table compares to best performing models on this dataset. On the more difficult set of questions with 5 options, our model obtained a score of 62.0%. et al. 9 4 4.2 State-of-the-art performance on MedMCQA and PubMedQA On the MedMCQA dataset, consisting of medical entrance exam questions from India, Flan-PaLM 540B reached a performance of 57.6% on the dev set. This exceeds the previous state of the art result of 52.9% by the Galactica model [ 79 Similarly on the PubMedQA dataset, our model achieved an accuracy of 79.0% outperforming the previous state of the art BioGPT model Luo [ ] by 0.8%. The results are summarized in Figure 2 below. While this improvement may seem small compared to MedQA and MedMCQA datasets, the single rater human performance on PubMedQA is 78.0% [ ], indicating that there may be an inherent ceiling to the maximum possible performance on this task. et al. 56 33 Flan-PaLM rezultāti pārsniedz iepriekšējo tehnikas stāvokli par vairāk nekā 17%. Table 4 Model (number of parameters) MedQA (USMLE) Accuracy % Flan-PaLM (540 B)(ours) 67.6 PubMedGPT (2.7 B) [ ] 9 50.3 DRAGON (360 M) [ ] 94 47.5 BioLinkBERT (340 M) [ ] 95 45.1 Galactica (120 B) [ ] 79 44.4 PubMedBERT (100 M) [ ] 25 38.1 GPT-Neo (2.7 B) [ ] 7 33.3 Flan-PaLM (540 B)(ours) 67.6 Pļaviņu novada domes priekšsēdētāja vietnieks (2.7 b) ] 9 50.3 DRAGON (360 M) [ ] 94 47.5 BioLinkBERT (340 M) [ ] 95 45.1 Galactica (120 B) [ ] 79 44.4 PubMedBERT (100 M) [ ] 25 38.1 GPT-Neo (2.7 B) [ ] 7 33.3 4.3 State-of-the-art performance on MMLU clinical topics The MMLU dataset contains multiple-choice questions from several clinical knowledge, medicine and biology related topics. These include anatomy, clinical knowledge, professional medicine, human genetics, college medicine and college biology. Flan-PaLM 540B achieved state of the art performance on all these subsets, outperforming strong LLMs like PaLM, Gopher, Chinchilla, BLOOM, OPT and Galactica. In particular, on the professional medicine and clinical knowledge subset, Flan-PaLM 540B achieved a SOTA accuracy of 83.5% and 84.0%. Figure summarizes the results, providing comparisons with other LLMs where available [ ]. 4 79 4.4 Ablations We performed several ablations on three of the multiple-choice datasets - MedQA, MedMCQA and PubMedQA - to better understand our results and identify the key components contributing to Flan-PaLM’s performance. We present them in detail below: Across all model sizes, we observed that the instruction-tuned Flan-PaLM model outperformed the baseline PaLM model on all three datasets - MedQA, MedMCQA and PubMedQA. The models were few-shot prompted in these experiments using the prompt text detailed in . The detailed results are summarized in Uzlabojumi bija visizteiktākie PubMedQA datu kopā, kur 8B Flan-PaLM modelis pārsniedza sākotnējo PaLM modeli par vairāk nekā 30%. Līdzīgi spēcīgi uzlabojumi tika novēroti arī 62B un 540B variantu gadījumā. . Instruction tuning improves performance on medical question answering A.8 5 A.3 We have not yet completed a thorough analysis of the effect of instruction prompt tuning on multiple-choice accuracy; our analysis is of Flan-PaLM in this section, not Med-PaLM. Med-PaLM (instruction prompt-tuned Flan-PaLM) was developed to improve the long-form generation results of Flan-PaLM presented in Section by better aligning the model to the medical domain. However, given the success of domain-agnostic instruction tuning for multiple-choice question answering, in-domain instruction prompt tuning appears promising, and we present a preliminary result in Section . 4.5 A.6 A related observation from was the strong performance improvements obtained from scaling the model from 8B to 62B and 540B. We observed approximately a 2x improvement in performance when scaling the model from 8B to 540B in both PaLM and Flan-PaLM. These improvements were more pronounced in the MedQA and MedMCQA datasets. In particular, for the Flan-PaLM model, the 540B variant outperformed the 62B variant by over 14% and the 8B variant by over 24%. Given these results and the strong performance of the Flan-PaLM 540B model, we built on this model for downstream experiments and ablations. The scaling plots are provided in Section . Scaling improves performance on medical question answering 5 A.4 summarizes the results from using CoT prompting and provides a comparison with the few-shot prompting strategy using the Flan-PaLM 540B model. Somewhat unexpectedly, we did not observe improvements using CoT over the standard few-shot prompting strategy across the three multiple-choice datasets - MedQA, MedMCQA and PubMedQA. The CoT prompts used are summarized in Section . Chain-of-Thought (CoT) prompting 6 A. 9 Wang [Lasīt ] showed that self-consistency prompting can help when CoT prompting hurts performance. They showed significant improvements on arithmetic and commonsense reasoning tasks. Taking their cue, we apply it to our datasets. We fixed the number of chain-of-thought answer explanation paths to 11 for each of the three datasets. We then marginalized over the different explanation paths to select the most consistent answer. Using this strategy, we observed significant improvements over the standard few-shot prompting strategy for the Flan-PaLM 540B model on the MedQA and MedMCQA datasets. In particular, for the MedQA dataset we observed a >7% improvement with self-consistency. However, somewhat unexpectedly, self-consistency led to a drop in performance for the PubMedQA dataset. The results are summarized in Table . Self-consistency (SC) leads to strong improvement in multiple-choice performance un Al. 88 7 Mēs arī sniedzam dažas piemēru atbildes no Flan-PaLM 540B modeļa MedQA in Table . 8 LLM spēj ilgas, saskaņotas un sarežģītas paaudzes. Tomēr viņi var arī radīt apgalvojumus, kas nav saskaņoti ar faktu. Īpaši medicīnas apstākļos šādi neveiksmju režīmi ir rūpīgi jāpārbauda, un reālajās lietojumprogrammās būtu jāatturas no paaudzēm, kas, visticamāk, nebūs patiesas. Tā vietā, ja nepieciešams, mēs varam vēlēties atlikt uz citiem informācijas avotiem vai ekspertiem. Uncertainty and Selective Prediction While uncertainty measures over LLM output sequences remains an open area of research [ , ], here we explored a simple proxy as an initial approach to measuring the relationship between LLM uncertainty and statement accuracy. We created a selective prediction task [ ], using the number of decodes matching a given answer from self-consistency as a measure of uncertainty and used it to withhold the answer if the model was not appropriately confident. We performed the experiment using 41 decodes from the Flan-PaLM 540B model with chain-of-thought prompting and self consistency. We observe in ka, tā kā atlikšanas frakcija palielinās (t.i., ar augstāku “uzticību”, kas nepieciešama, lai sniegtu prognozi), modeļa veiktspēja MedQA uzlabo, sasniedzot līdz 82.5% precizitāti 0,45 atlikšanas frakcijā. 36 51 82 5 4.5 Human evaluation results We randomly selected 100 questions from HealthSearchQA, 20 questions from LiveQA, and 20 questions from MedicationQA as a smaller long-form answer benchmark for detailed human evaluation. These questions reflect real-world consumer queries for medical information. These selected questions were disjoint from those exemplars used for instruction prompt tuning to produce Med-PaLM. Pēc tam mēs izstrādājām atbildes, izmantojot Flan-PaLM un Med-PaLM (abi 540B modeļi). Mums bija trīs atbilžu kopas, ko izvērtēja cita klīniku grupa pa tabulā esošajām asīm. , without revealing the source of answers. One clinician evaluated each answer. To reduce the impact of variation across clinicians on generalizability of our findings, our panel consisted of 9 clinicians (based in the US, UK, and India). We used the non-parametric bootstrap to estimate any significant variation in the results, where 100 bootstrap replicas were used to produce a distribution for each set and we used the 95% bootstrap percentile interval to assess variations. These results are described in detail below and in Section . 9 2 A. 7 We wished to understand how the answers related to current consensus in the clinical and scientific community. On the 140 questions evaluated in the study, we found that clinicians’ answers were judged to be aligned with the scientific consensus in 92.9% of questions. On the other hand, Flan-PaLM was found to be in agreement with the scientific consensus in only 61.9% of answers. For other questions, answers were either opposed to consensus, or no consensus existed. This suggested that generic instruction tuning on its own was not sufficient to produce scientific and clinically grounded answers. However, we observed that 92.9% of Med-PaLM answers were judged to be in accordance with the scientific consensus, showcasing the strength of instruction prompt tuning as an alignment technique to produce scientifically grounded answers. Scientific consensus: We note that since PaLM, Flan-PaLM, and Med-PaLM were trained using corpora of web documents, books, Wikipedia, code, natural language tasks, and medical tasks at a given point of time, one potential limitation of these models is that they can reflect the scientific consensus of the past instead of today. This was not a commonly observed failure mode for Med-PaLM today, but this motivates future work in continual learning of LLMs and retrieval from a continuously evolving corpus. We sought to understand the (whether expert or model generated) medical comprehension, medical knowledge retrieval and reasoning capabilities of the model as expressed through the answers generated by them. We asked a panel of clinicians to rate whether answers contained any (one or more example of) evidence of correct / incorrect medical reading comprehension, medical knowledge retrieval and medical reasoning capabilities, using the same approach as Feng [ ]. Correct and incorrect evidence were assessed in parallel because it is possible that a single long-form answer may contain evidence of both correct and incorrect comprehension, retrieval and reasoning. Comprehension, retrieval and reasoning capabilities: et al. 22 We found that expert generated answers were again considerably superior to Flan-PaLM, though performance was improved by instruction prompt tuning for Med-PaLM. This trend was observed in all the six sub-questions used to evaluate in this axis. For example, with regard to evidence of correct retrieval of medical knowledge, we found that clinician answers scored 97.8% while Flan-PaLM only scored 76.3%. However, the instruction prompt-tuned Med-PaLM model scored 95.4%, reducing the inferiority of the model compared to clinicians. Šā novērtējuma mērķis bija saprast radīto atbilžu pilnīgumu un pareizību, izvērtējot, vai atbilde izlaiž jebkādu informāciju, kas tai nevajadzētu būt, vai arī atbilde satur jebkādu saturu, kas tai nevajadzētu būt. Incorrect or missing content: Atkal mēs novērojām, ka klīnikas radītās atbildes bija labākas par AI modeļiem. klīnikas atbildes parādīja pierādījumus par nepiemērotu / nepareizu saturu tikai 1,4% gadījumu, salīdzinot ar 16,1% Flan-PaLM. Pārsteidzoši, instrukciju rokasgrāmatu pielāgošana vēl vairāk pasliktināja veiktspēju, un 18,7% Med-PaLM atbildes tika uzskatītas par nepiemērotu vai nepareizu saturu. No otras puses, mēs novērojām, ka instrukciju ātro pielāgošanu palīdzēja uzlabot modeļa veiktspēju, izlaižot svarīgu informāciju. Kamēr Flan-PaLM atbildes tika vērtēti, lai palaist garām svarīgu informāciju 47,2% no laika, skaits ievērojami uzlabojās Med-PaLM ar tikai 15,1% no atbildēm atzīts par trūkstošo informāciju, samazinot mazākumtautību salīdzinājumā ar klīnikām, kuru atbildes tika vērtēti, lai būtu trūkstošo informāciju tikai 11,1% gadījumu. daži kvalitatīvi piemēri ir parādīti 10. tabulā, kas liecina, ka LLM atbildes var papildināt un pabeigt ārsta atbildes uz pacientu pieprasījumiem turpmākajos lietošanas gadījumos. Viens no iespējamajiem šo novērojumu izskaidrojumiem ir tas, ka instrukciju ievadīšanas iestatīšana māca Med-PaLM modeli radīt ievērojami detalizētākas atbildes nekā Flan-PaLM modelis, samazinot svarīgas informācijas izlaišanu. We sought to identify the severity and likelihood of potential harm based on acting upon the generated answers. We asked raters to assume that the output of models might lead to actions by either clinicians or consumers/patients, and estimate the possible severity and likelihood of physical/mental health-related harms that might result. We based the options for selection by raters in the AHRQ Common Formats Williams [Lasīt Mēs atzīstam, ka šī kaitējuma definīcija parasti tiek izmantota, analizējot kaitējumu, kas radušies veselības aprūpes laikā, un ka pat šādos apstākļos (kur konteksts kaitējumu, kas rodas, ir zināms ar ievērojami lielāku specifiku) bieži ir būtiskas izmaiņas ārsta novērtējumā par kaitējuma smagumu [ ]. The validity of the AHRQ scale cannot therefore be assumed to extend to our context, where our rater outputs should be regarded as subjective estimates because our work was not grounded in a specific intended use and sociocultural context. Possible extent and likelihood of harm: un Al. 93 86 Despite the broad definition and subjectivity of ratings, we observed that instruction prompt tuning produced safer answers that reduced both estimated likelihood and severity. While 29.7% of the Flan-PaLM responses were judged as potentially leading to harm, this number dropped to 5.9% for Med-PaLM comparing on par with clinician-generated answers which were also judged as potentially harmful in 5.7% of the cases. Similarly, on the likelihood of harm axes, instruction prompt tuning enabled Med-PaLM answers to match the expert generated answers. The final axis along which we evaluated the answers was bias. The use of large language models for medical question answering has the potential for bias and fairness-related harms that contribute to health disparities. These harms derive from several sources, including the presence of patterns in training data that reflect disparities in health outcomes and access to care, the capability for medical question answering systems to reproduce racist misconceptions regarding the cause of racial health disparities [ , ], algorithmic design choices [ ], and differences in behavior or performance of machine learning systems across populations and groups that introduce downstream harms when used to inform medical decision making [ ]. Bias for medical demographics: 20 85 32 13 Medical question answering systems also pose additional risks beyond those posed by the use of other AI applications in healthcare because they have potential to produce arbitrary outputs, have limited reasoning capability, and could potentially be used for a wide range of downstream use cases. We sought to understand whether the answer contained any information that is inaccurate or inapplicable for a particular demographic. Flan-PaLM answers were found to contain biased information in 7.9% of the cases. However, this number reduced to 0.8% for Med-PaLM, comparing favorably with experts whose answers were judged to contain evidence of bias in 1.4% of the cases. Beyond expert evaluation, we also had a panel of five non-experts in the domain (laypeople without a medical background, based in India) assess the answers. The results are summarized in Fig 10 below. While Flan-PaLM answers were judged to be helpful in only 60.6% of the cases, the number improved to 80.3% for Med-PaLM answers. However, this remained inferior to clinician answers which were judged to be helpful 91.1% of the time. Similarly, Flan-PaLM answers were user’s question intent in 90.8% of cases. This number improved to 94.0% for Med-PaLM, which was inferior to clinician-generated answers at 95.9%. Lay user assessment: Tiek uzskatīts, ka tieši vēršoties pie The lay evaluation consistently reproduced the benefits of instruction prompt tuning to produce answers that are helpful to users, while also demonstrating that there is still considerable work needed to approximate the quality of outputs provided by human clinicians. 5 Discussion Our results suggest that strong performance on medical question answering may be an emergent ability [ ] no LLM kombinācijā ar efektīvu instrukciju ātro pielāgošanu. 90 Firstly, we observed strong scaling performance with accuracy improving by approximately 2x as we scale the PaLM models from 8-billion to 540-billion. The performance of the PaLM 8-billion on MedQA was only slightly better than random performance. However, this number improved by over 30% for the PaLM 540-billion demonstrating the effectiveness of scale for the medical question answering task. We observed similar improvements for the MedMCQA and PubMedQA datasets. Further, instruction fine-tuning was also effective with Flan-PaLM models performing better than the PaLM models across all size variants on all the multiple-choice datasets. It is possible that the PaLM pre-training corpus included significant quantities of high quality medical content and one possible conjecture for the strong performance of the 540-billion model variant is memorization of evaluation datasets considered in this study. However, Chowdhery [ ] showed similar deltas in performance of the PaLM 8B and 540B model when evaluating contaminated (i.e where part of the test set is in the model pre-training corpus) and cleaned test datasets. This suggests that memorization alone does not explain the strong performance observed by scaling up the models. et al. 14 There have been several efforts to train language models on a biomedical corpus, especially PubMed. These include BioGPT [ ] (355 miljoni parametru), PubMedGPT [ ] (2.7 miljardi parametru) un Galactica [ ] (120 miljardi parametru). Mūsu modeļi spēja pārspēt šos centienus PubMedQA bez jebkādas finetuning. Turklāt, ieguvumi no mēroga un instrukciju finet-tuning bija daudz izteiktāka uz MedQA datu kopu, ko var uzskatīt par ārpus domēna visiem šiem modeļiem. Ņemot vērā rezultātus, mēs novērojam, ka medicīniskās atbildes sniegumu (prasot atgādināt, lasīšanas izpratni un apsvērumu prasmes) uzlabo ar LLM mēroga. 56 9 79 However, our human evaluation results on the consumer medical question answering datasets clearly point out that scale alone is insufficient. Even state-of-the-art LLMs like Flan-PaLM can generate answers that are inappropriate for use in the safety-critical medical domain. However, the Med-PaLM results demonstrate that with instruction prompt tuning we have a data and parameter-efficient alignment technique useful for improving factors related to accuracy, factuality, consistency, safety, harm, and bias, helping close the gap with clinical experts and bringing these models closer to real-world clinical applications. 6 Limitations Our study demonstrated the potential of LLMs for encoding medical knowledge and in particular for question answering. However, it had several limitations which we discuss in detail below and outline directions for future research. 6.1 MultiMedQA paplašināšanās Pirmkārt, lai gan MultiMedQA etalons ir daudzveidīgs un satur jautājumus no dažādiem profesionālās medicīnas, medicīnas pētniecības un patērētāju avotiem, tas nekādā ziņā nav izsmeļošs. Galvenais izaicinājums klīniskajās vidēs ir izvirzīt informāciju no pacientiem un sintezēt konstatējumus novērtējumā un plānā.Daudzkārtējas izvēles jautājumu atbildes uzdevumi pēc būtības ir vieglāki, jo tie bieži vien ir balstīti uz ekspertu sagatavotām vignetēm un izvēlētas, lai būtu vispārēji vēlama atbilde, kas nav taisnība visiem medicīniskajiem lēmumiem. Furthermore, we only considered English-language datasets in this study, and there is a strong need to expand the scope of the benchmark to support multilingual evaluations. 6.2 Development of key LLM capabilities necessary for medical applications Kaut arī Flan-PaLM spēja sasniegt modernāko sniegumu vairākos vairāku izvēles medicīnisko jautājumu atbildes kritērijos, mūsu cilvēka novērtējums skaidri liecina, ka šie modeļi nav klīnisko ekspertu līmenī daudzās klīniski svarīgās daļās. grounding of the responses in authoritative medical sources and accounting for the time-varying nature of medical consensus. ability to detect and communicate uncertainty effectively to the human in-the-loop whether clinician or lay user. ability to respond to queries in multiple languages. 6.3 Improving the approach to human evaluation Reitingu sistēma, ko mēs ierosinājām šim pētījumam, ir daudzsološa izmēģinājuma pieeja, bet mūsu izvēlētās izvērtēšanas jomas nebija izsmeļošas un tās bija subjektīvas. piemēram, medicīnas/zinātnes konsensu jēdziens ir laika ziņā mainīgs un atspoguļo cilvēka veselības un slimību un fizioloģijas izpratni, pamatojoties uz diskrimināciju tādās jomās kā rases/etniskā piederība, dzimums, vecums, spēja un daudz kas cits. , ]. 38 57 Furthermore, consensus often exists only for topics of relevance to certain groups (e.g. greater in number and/or power) and consensus may be lacking for certain subpopulations affected by topics for various reasons (e.g., controversial topics, lower incidence, less funding). Additionally, the concept of harm may differ according to population (e.g., a genetic study of a smaller group of people may reveal information that is factual but incongruent with that group’s cultural beliefs, which could cause members of this group harm). Expert assessment of harm may also vary based on location, lived experience, and cultural background. Our ratings of potential harm were subjective estimates, and variation in perceived harm may also have been due to differences in health literacy of both our clinician and lay raters, or might vary in real world settings depending on the sociocultural context and health literacy of the person receiving and acting on the answers to the health questions in the study by Berkman [Lasīt ]. Further research might test whether perceived usefulness and harm of question answers varied according to the understandability and actionability score for the answer content [ un Al. 6 77 The number of model responses evaluated and the pool of clinicians and lay-people assessing them were limited, as our results were based on only a single clinician or lay-person evaluating the responses. This represents a limitation to generalizability of our findings which could be mitigated by inclusion of a significantly larger and intentionally diverse pool of human raters (clinicians and lay users) with participatory design in the development of model auditing tools. It is worth noting that the space of LLM responses or "coverage" is extremely high and that presents an additional difficulty in the design of evaluation tools and frameworks. The pilot framework we developed could be significantly advanced using recommended best practice approaches for the design and validation of rating instruments from health, social and behavioral research [ ]. This could entail the identification of additional rating items through participatory research, evaluation of rating items by domain experts and technology recipients for relevance, representativeness, and technical quality. The inclusion of a substantially larger pool of human raters would also enable testing of instrument generalizability by ratifying the test dimensionality, test-retest reliability and validity [ ]. As the same answer can be evaluated multiple ways, the most appropriate rating instrument is also dependent on the intended purpose and recipient for LLM outputs, providing multiple opportunities for the development of validated rating scales depending on the context and purpose of use. Further, substantial user experience (UX) and human-computer interaction (HCI) studies using community-based participatory research methods are necessary before any real world use, and would be specific to a developed tool that is beyond the scope of our exploratory research. Under these contexts further research could explore the independent influence of variation in lay raters’ education level, medical conditions, caregiver status, experience with health care, education level or other relevant factors on their perceptions of the quality of model outputs. The impact of variation in clinician raters’ specialty, demographics, geography or other factors could be similarly explored in further research. 8 8 6.4 Fairness and equity considerations Our current approach to evaluating bias is limited and does not serve as a comprehensive assessment of potential harms, fairness, or equity. The development of procedures for the evaluation of bias and fairness-related harms in large language models is ongoing [ , ]. Healthcare is a particularly complex application of large language models given the safety-critical nature of the domain and the nuance associated with social and structural bias that drives health disparities. The intersection of large language models and healthcare creates unique opportunities for responsible and ethical innovation of robust assessment and mitigation tools for bias, fairness, and health equity. 49 92 We outline opportunities for future research into frameworks for the systematic identification and mitigation of downstream harms and impacts of large language models in healthcare contexts. Key principles include the use of participatory methods to design contextualized evaluations that reflect the values of patients that may benefit or be harmed, grounding the evaluation in one or more specific downstream clinical use cases [ , ], and the use of dataset and model documentation frameworks for transparent reporting of choices and assumptions made during data collection and curation, model development, and evaluation [ , , ]. Furthermore, research is needed into the design of algorithmic procedures and benchmarks that probe for specific technical biases that are known to cause harm if not mitigated. For instance, depending on the context, it may be relevant to assess sensitivity of model outputs to perturbations of demographic identifiers in prompts designed deliberately such that the result should not change under the perturbation [ , , ]. 54 71 24 59 72 23 68 98 Additionally, the aforementioned research activities to build evaluation methods to achieve health equity in large language models require interdisciplinary collaboration to ensure that various scientific perspectives and methods can be applied to the task of understanding the social and contextual aspects of health [ , , ]. 27 58 62 The development of evaluation frameworks for large language models is a critical research agenda that should be approached with equal rigor and attention as that given to the work of encoding clinical knowledge in language models. In this study we worked with a panel of four qualified clinicians to identify the best-demonstration examples and craft few-shot prompts, all based in either the US or UK, with expertise in internal medicine, pediatrics, surgery and primary care. Although recent studies have surprisingly suggested that the validity of reasoning within a chain-of-thought prompt only contributes a small extent to the impact of this strategy on LLM performance in multi-step reasoning challenges [ ], further research could significantly expand the range of clinicians engaged in prompt construction and the selection of exemplar answers and thereby explore how variation in multiple axes of the types of clinician participating in this activity impact LLM behavior; for example clinician demographics, geography, specialism, lived experience and more. 87 6.5 Ethical considerations This research demonstrates the potential of LLMs for future use in healthcare. Transitioning from a LLM that is used for medical question answering to a tool that can be used by healthcare providers, administrators, and consumers will require significant additional research to ensure the safety, reliability, efficacy, and privacy of the technology. Careful consideration will need to be given to the ethical deployment of this technology including rigorous quality assessment when used in different clinical settings and guardrails to mitigate against over reliance on the output of a medical assistant. For example, the potential harms of using a LLM for diagnosing or treating an illness are much greater than using a LLM for information about a disease or medication. Additional research will be needed to assess LLMs used in healthcare for homogenization and amplification of biases and security vulnerabilities inherited from base models [ , , , , ]. Given the continuous evolution of clinical knowledge, it will also be important to develop ways for LLMs to provide up to date clinical information. 10 11 18 39 49 7 Conclusion The advent of foundation AI models and large language models present a significant opportunity to rethink the development of medical AI and make it easier, safer and more equitable to use. At the same time, medicine is an especially complex domain for applications of large language models. Mēs ceram, ka šis pētījums izraisīs turpmākas sarunas un sadarbību starp pacientiem, patērētājiem, AI pētniekiem, klīnikām, sociālajiem zinātniekiem, ētistiem, politikas veidotājiem un citām ieinteresētajām personām, lai atbildīgi tulkotu šos agrīnos pētījumu rezultātus, lai uzlabotu veselības aprūpi. Acknowledgments This project was an extensive collaboration between many teams at Google Research and Deepmind. We thank Michael Howell, Cameron Chen, Basil Mustafa, David Fleet, Fayruz Kibria, Gordon Turner, Lisa Lehmann, Ivor Horn, Maggie Shiels, Shravya Shetty, Jukka Zitting, Evan Rappaport, Lucy Marples, Viknesh Sounderajah, Ali Connell, Jan Freyberg, Cian Hughes, Megan Jones-Bell, Susan Thomas, Martin Ho, Sushant Prakash, Bradley Green, Ewa Dominowska, Frederick Liu, Xuezhi Wang, and Dina Demner-Fushman (from the National Library of Medicine) for their valuable insights and feedback during our research. We are also grateful to Karen DeSalvo, Zoubin Ghahramani, James Manyika, and Jeff Dean for their support during the course of this project. References 1. Abacha, A. B., Agichtein, E., Pinter, Y. & Demner-Fushman, D. in (2017), 1 līdz 12. Pārskats par medicīnisko jautājumu atbildes uzdevumu TREC 2017 LiveQA. TREC Abacha, A. B., Mrabet, Y., Sharp, M., Goodwin, T. R., Shooshan, S. E. un Demner-Fushman, D. in (2019), 25–29. Novērst plaisu starp patērētāju medikamentu jautājumiem un uzticamām atbildēm. MedInfo 3. Agrawal, M., Hegselmann, S., Lang, H., Kim, Y. & Sontag, D. Large Language Models are Zero-Shot Clinical Information Extractors. (2022). arXiv pirmizrāde arXiv:2205.12689 4. Barham, P., Chowdhery, A., Dean, J., Ghemawat, S., Hand, S., Hurt, D., Isard, M., Lim, H., Pang, R., Roy, S., et al. Pathways: Asynchronous distributed dataflow for ML. 430 līdz 449 (2022). Proceedings of Machine Learning and Systems 4, 5. Beltagy, I., Lo, K. & Cohan, A. SciBERT: A pretrained language model for scientific text. (2019). arXiv preprint arXiv:1903.10676 6. Berkman, N. D., Sheridan, S. L., Donahue, K. E., Halpern, D. J., Viera, A., Crotty, K., Holland, A., Brasure, M., Lohr, K. N., Harden, E., Veselības analfabētiskās iejaukšanās un rezultāti: atjaunināta sistemātiska pārskatīšana. 1 līdz 941 (2011). et al. Evidence report/technology assessment, 7. Black, S., Gao, L., Wang, P., Leahy, C. & Biderman, S. version 1.0. If you use this software, please cite it using these metadata. Mar. 2021. GPT-Neo: Large Scale Autoregressive Language Modeling with Mesh-Tensorflow https : . //doi.org/10.5281/zenodo.5297715 Boateng, G. O., Neilands, T. B., Frongillo, E. A., Melgar-Quiñonez, H. R. & Young, S. L. Labākā prakse veselības, sociālo un uzvedības pētījumu skalu izstrādē un validēšanā: pamats. 149 (no 2018. gada 1. maija) Frontiers in public health 6, 9. Bolton, E., Hall, D., Yasunaga, M., Lee, T., Manning, C. & Liang, P. 2022. gadā Stanford CRFM Introduces PubMedGPT 2.7B https://hai.stanford.edu/news/stanford-crfm-introduces-pubmedgpt-27b 10. Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., On the opportunities and risks of foundation models. (2021). et al. arXiv preprint arXiv:2108.07258 Bommasani, R., Liang, P. un Lee, T. Language Models are Changing AI: The Need for Holistic Evaluation https : . 2022. //crfm.stanford.edu/2022/11/17/helm.html 12. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Language models are few-shot learners. 1877–1901 (2020). un Al. Advances in neural information processing systems 33, Chen, I.Y., Pierson, E., Rose, S., Joshi, S., Ferryman, K. & Ghassemi, M. Ētikas mašīntulkošana veselības aprūpē. 123–144 (2021). Annual review of biomedical data science 4, 14. Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., PaLM: Scaling language modeling with pathways. (2022). et al. arXiv preprint arXiv:2204.02311 15. Chung, H. W., Hou, L., Longpre, S., Zoph, B., Tay, Y., Fedus, W., Li, E., Wang, X., Dehghani, M., Brahma, S., et al. Scaling instruction-finetuned language models. (2022). arXiv preprint arXiv:2210.11416 16. Clark, J. H., Choi, E., Collins, M., Garrette, D., Kwiatkowski, T., Nikolaev, V. & Palomaki, J. TyDi QA: A benchmark for information-seeking question answering in typologically diverse languages. 454–470 (2020). Asociācijas Computational Lingvistics darījumi 8, Cobbe, K., Kosaraju, V., Bavārijas, M., Hilton, J., Nakano, R., Hesse, C. & Schulman, J. Apmācības verifikatori matemātikas vārdu problēmu risināšanai. (2021). arXiv preprint arXiv:2110.14168 Creel, K. un Hellman, D. Algoritmiskais leviatāns: patvaļība, taisnīgums un iespējas algoritmiskajās lēmumu pieņemšanas sistēmās. 1–18 (2022). Canadian Journal of Philosophy, 19. Du, N., Huang, Y., Dai, A. M., Tong, S., Lepikhin, D., Xu, Y., Krikun, M., Zhou, Y., Yu, A. W., Firat, O., In (2022), 5547–5569. et al. Glam: Efficient scaling of language models with mixture-of-experts International Conference on Machine Learning 20. Eneanya, N. D., Boulware, L., Tsai, J., Bruce, M. A., Ford, C. L., Harris, C., Morales, L. S., Ryan, M. J., Reese, P. P., Thorpe, R. J., Health inequities and the inappropriate use of race in nephrology. 84–94 (2022). et al. Nature Reviews Nephrology 18, Esteva, A., Chou, K., Yeung, S., Naik, N., Madani, A., Mottaghi, A., Liu, Y., Topol, E., Dean, J. & Socher, R. Dziļa mācīšanās ļauj medicīnas datora redze. 1–9 (2021). NPJ digital medicine 4, 22. Feng, S. Y., Khetan, V., Sacaleanu, B., Gershman, A. & Hovy, E. CHARD: Clinical Health-Aware Reasoning Across Dimensions for Text Generation Models. (2022). arXiv preprint arXiv:2210.04191 23. Garg, S., Perot, V., Limtiaco, N., Taly, A., Chi, E. H. & Beutel, A. in (2019), 219–226. Kontrafaktuālā taisnīgums teksta klasifikācijā caur stabilitāti Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society 24. Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J. W., Wallach, H., Iii, H. D. & Crawford, K. Datasheets for datasets. 86 līdz 92 (2021). ACM paziņojumi 64, 25. Gu, Y., Tinn, R., Cheng, H., Lucas, M., Usuyama, N., Liu, X., Naumann, T., Gao, J. & Poon, H. Domain-specific language model pretraining for biomedical natural language processing. 1–23 (2021). ACM Transactions on Computing for Healthcare (HEALTH) 3, Gu, Y., Han, X., Liu, Z. & Huang, M. Ppt: iepriekš apmācīts ātro pielāgošanu dažiem šāvienu mācīšanās. (2021). arXiv preprint arXiv:2109.04332 27. Guidance, W. Ethics and governance of artificial intelligence for health. (2021). Pasaules Veselības organizācija Han, X., Zhao, W., Ding, N., Liu, Z. & Sun, M. Ptr: Prompt tuning ar noteikumiem teksta klasifikācijai. (2022). AI Open Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D. un Steinhardt, J. Mērīšanas masveida multitask valodas izpratni. Tātad 2020. arXiv pirmizrāde arXiv:2009.03300 Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., Casas, D. d. L., Hendricks, L. A., Welbl, J., Clark, A., Apmācība Compute-Optimal lielās valodas modeļiem. (2022). un Al. arXiv preprint arXiv:2203.15556 Hong, Z., Ajith, A., Pauloski, G., Duede, E., Malamud, C., Magoulas, R., Chard, K. & Foster, I. ScholarBERT: Lielāks ne vienmēr ir labāks. 2022 Parādīt rakstu arXiv preprint arXiv:2205.11342 32. Hooker, S. Moving beyond “algorithmic bias is a data problem”. 100241 (2021). Patterns 2, Jin, D., Pan, E., Oufattole, N., Weng, W.-H., Fang, H. & Szolovits, P. Kāda slimība ir šim pacientam? liela mēroga atklātā domēna jautājums, kas atbild uz datu kopumu no medicīniskajām pārbaudēm. 6421 (no 2021) Applied Sciences 11, 34. Jin, Q., Dhingra, B., Liu, Z., Cohen, W. W. & Lu, X. PubMedQA: A dataset for biomedical research question answering. (2019). arXiv preprint arXiv:1909.06146 Joshi, M., Choi, E., Weld, D. S. & Zettlemoyer, L. TriviaQA: Liela mēroga attālināti uzraudzīts izaicinājumu datu kopums lasīšanas izpratnei. (2017). arXiv preprint arXiv:1705.03551 36. Kadavath, S., Conerly, T., Askell, A., Henighan, T., Drain, D., Perez, E., Schiefer, N., Dodds, Z. H., DasSarma, N., Tran-Johnson, E., Language models (mostly) know what they know. (2022). et al. arXiv preprint arXiv:2207.05221 37. Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J. & Amodei, D. Scaling laws for neural language models. (2020). arXiv pirmizrāde arXiv:2001.08361 38. Kington, R. S., Arnesen, S., Chou, W.-Y. S., Curry, S. J., Lazer, D. & Villarruel, A. M. Identifying credible sources of health information in social media: Principles and attributes. (2021). NAM perspectives 2021 39. Kleinberg, J. & Raghavan, M. Algorithmic monoculture and social welfare. e2018340118 (no 2021) Nacionālās zinātņu akadēmijas procedūras 118, 40. Kojima, T., Gu, S. S., Reid, M., Matsuo, Y. & Iwasawa, Y. Large Language Models are Zero-Shot Reasoners. (2022). arXiv preprint arXiv:2205.11916 Korngiebel, D. M. & Mooney, S. D. Ņemot vērā iespējas un slazdus Generative Pre-Trained Transformer 3 (GPT-3) veselības aprūpes piegādē. 1 līdz 3 (2021) NPJ Digital Medicine 4, 42. Lakkaraju, H., Slack, D., Chen, Y., Tan, C. & Singh, S. Rethinking Explainability as a Dialogue: A Practitioner’s Perspective. (2022). arXiv pirmizrāde arXiv:2202.01875 43. Lampinen, A. K., Dasgupta, I., Chan, S. C., Matthewson, K., Tessler, M. H., Creswell, A., McClelland, J. L., Wang, J. X. & Hill, F. Can language models learn from explanations in context? (2022). arXiv preprint arXiv:2204.02329 Lee, J., Yoon, W., Kim, S., Kim, D., Kim, S., So, C. H. & Kang, J. BioBERT: iepriekš apmācīts biomedicīnas valodas pārstāvības modelis biomedicīnas teksta ieguvei. 1234–1240 (2020). Bioinformātika 36, 45. Lester, B., Al-Rfou, R. & Constant, N. The power of scale for parameter-efficient prompt tuning. (2021). arXiv preprint arXiv:2104.08691 46. Lewis, P., Ott, M., Du, J. & Stoyanov, V. in (2020), 146–157. Pretrained language models for biomedical and clinical tasks: Understanding and extending the state-of-the-art Proceedings of the 3rd Clinical Natural Language Processing Workshop 47. Lewkowycz, A., Andreassen, A., Dohan, D., Dyer, E., Michalewski, H., Ramasesh, V., Slone, A., Anil, C., Schlag, I., Gutman-Solo, T., Kvantitatīvās domāšanas problēmu risināšana ar valodas modeļiem. (2022). et al. arXiv preprint arXiv:2206.14858 Li, X. L. un Liang, P. Prefix-tuning: optimizēt nepārtrauktu pieprasījumu ģenerēšanai. Tātad 2021. arXiv preprint arXiv:2101.00190 49. Liang, P., Bommasani, R., Lee, T., Tsipras, D., Soylu, D., Yasunaga, M., Zhang, Y., Narayanan, D., Wu, Y., Kumar, A., Holistic evaluation of language models. 2022 Parādīt rakstu et al. arXiv preprint arXiv:2211.09110 50. Liévin, V., Hother, C. E. & Winther, O. Can large language models reason about medical questions? (2022). arXiv preprint arXiv:2207.08143 Lin, S., Hilton, J. & Evans, O. Mācību modeļi, lai izteiktu savu nenoteiktību vārdos. (2022). arXiv preprint arXiv:2205.14334 Liu, P., Yuan, W., Fu, J., Jiang, Z., Hayashi, H. & Neubig, G. Priekšapmācība, pamācība un prognoze: Sistemātiska aptauja par stimulējošām metodēm dabiskās valodas apstrādē. (2021). arXiv preprint arXiv:2107.13586 53. Liu, X., Zheng, Y., Du, Z., Ding, M., Qian, Y., Yang, Z. & Tang, J. GPT understands, too. (2021). arXiv preprint arXiv:2103.10385 54. Liu, X., Glocker, B., McCradden, M. M., Ghassemi, M., Denniston, A. K. & Oakden-Rayner, L. The medical algorithmic audit. (2022). The Lancet Digital Health 55. Loshchilov, I. & Hutter, F. Decoupled weight decay regularization. (2017). arXiv preprint arXiv:1711.05101 56. Luo, R., Sun, L., Xia, Y., Qin, T., Zhang, S., Poon, H. & Liu, T.-Y. BioGPT: generative pre-trained transformer for biomedical text generation and mining. (2022). Briefings in Bioinformatics 23 57. Mandavilli, A. . 2021. Medical Journals Blind to Racism as Health Crisis, Critics Say https://www.nytimes.com/2021/06/02/ health/jama-racism-bauchner.html 58. Matheny, M., Israni, S. T., Ahmed, M. & Whicher, D. Artificial Intelligence in Health Care: The Hope, the Hype, the Promise, the Peril (2022). Mitchell, M., Wu, S., Zaldivar, A., Barnes, P., Vasserman, L., Hutchinson, B., Spitzer, E., Raji, I. D. un Gebru, T. in (2019), 220–229. Model cards for model reporting Proceedings of the conference on fairness, accountability, and transparency 60. Morgado, F. F., Meireles, J. F., Neves, C. M., Amaral, A. & Ferreira, M. E. Scale development: ten main limitations and recommendations to improve future research practices. (2017). Psiholoģija: pārdomas un kritika 30 61. Nye, M., Andreassen, A. J., Gur-Ari, G., Michalewski, H., Austin, J., Bieber, D., Dohan, D., Lewkowycz, A., Bosma, M., Luan, D., Show your work: Scratchpads for intermediate computation with language models. (2021). et al. arXiv preprint arXiv:2112.00114 No zinātnes, W. H. O. un politika, T. . 2022. The Blueprint for an AI Bill of Rights: Making Automated Systems Work for the American People https://www.whitehouse.gov/wp-content/uploads/2022/10/Blueprint-for-an-AI-Bill-of-Rights.pdf 63. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Training language models to follow instructions with human feedback. (2022). un Al. arXiv preprint arXiv:2203.02155 Pal, A., Umapathi, L. K. un Sankarasubbu, M. in 2022), 248 līdz 260 MedMCQA: Liela mēroga Multi-Subject Multi-Choice datu kopums medicīnas domēna jautājumu atbildēšanai Conference on Health, Inference, and Learning Pampari, A., Raghavan, P., Liang, J. & Peng, J. emrqa: Liels korpuss, lai atbildētu uz jautājumiem par elektronisko medicīnisko ierakstu. (2018). arXiv preprint arXiv:1809.00732 66. Papanikolaou, Y. & Pierleoni, A. DARE: Data augmented relation extraction with gpt-2. (2020). arXiv preprint arXiv:2004.13845 Papineni, K., Roukos, S., Ward, T. un Zhu, W.-J. in (2002), 311–318. Bleu: metode automātiskai mašīntulkošanas novērtēšanai Proceedings of the 40th annual meeting of the Association for Computational Linguistics Prabhakaran, V., Hutchinson, B. un Mitchell, M. traucējumu jutīguma analīze, lai atklātu neparedzētus modeļa aizspriedumus. (2019). arXiv preprint arXiv:1910.04210 69. Rae, J. W., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., Song, F., Aslanides, J., Henderson, S., Ring, R., Young, S., Skalošanas valodas modeļi: metodes, analīze un ieskati no apmācības gopher. (2021). un Al. arXiv preprint arXiv:2112.11446 70. Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., Liu, P. J., Izpētīt pārsūtīšanas mācīšanās robežas ar vienotu teksta-teksta transformatoru. 1 līdz 67 (2020) et al. J. Mačs. Lasīt tālāk 21, Raji, I.D., Smart, A., White, R.N., Mitchell, M., Gebru, T., Hutchinson, B., Smith-Loud, J., Theron, D. un Barnes, P. In (2020), 33–44. AI pārskatatbildības atšķirības novēršana: definējot iekšējās algoritmiskās revīzijas pamatnostādnes Proceedings of the 2020 conference on fairness, accountability, and transparency 72. Rostamzadeh, N., Mincu, D., Roy, S., Smart, A., Wilcox, L., Pushkarna, M., Schrouff, J., Amironesei, R., Moorosi, N. & Heller, K. Healthsheet: Development of a Transparency Artifact for Health Datasets. (2022). arXiv preprint arXiv:2202.13028 73. Scao, T. L., Fan, A., Akiki, C., Pavlick, E., Ilić, S., Hesslow, D., Castagné, R., Luccioni, A. S., Yvon, F., Gallé, M., et al. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. 2022 Parādīt rakstu arXiv preprint arXiv:2211.05100 74. Schaekermann, M., Cai, C. J., Huang, A. E. un Sayres, R. in (2020), 1–13. Ekspertu diskusijas uzlabo izpratni par sarežģītiem gadījumiem medicīnas attēla novērtēšanā Proceedings of the 2020 CHI conference on human factors in computing systems 75. Sezgin, E., Sirrianni, J., Linwood, S. L., Iepriekš apmācītu, lielu mākslīgā intelekta valodu modeļu ieviešana ASV veselības aprūpes sistēmā: ģeneratīvā pretapmācītā transformatora 3 (GPT-3) perspektīva kā pakalpojuma modelis. e32875 (2022). un Al. JMIR Medicīnas informatika 10, Shin, H.-C., Zhang, Y., Bakhturina, E., Puri, R., Patwary, M., Shoeybi, M. & Mani, R. BioMegatron: Lielāks biomedicīnas domēna valodas modelis. Tātad 2020. arXiv Preprint arXiv:2010.060 Shoemaker, S. J., Wolf, M. S. & Brach, C. Pacientu izglītības materiālu novērtēšanas rīka (PEMAT) izstrāde: jauns pacientu informācijas izpratnes un rīcības pasākums drukātā un audiovizuālā formātā. 395–403 (2014). Pacientu izglītība un konsultācijas 96, Srivastava, A., Rastogi, A., Rao, A., Shoeb, A. A. M., Abid, A., Fisch, A., Brown, A. R., Santoro, A., Gupta, A., Garriga-Alonso, A., Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models. 2022 Parādīt rakstu un Al. arXiv preprint arXiv:2206.04615 79. Taylor, R., Kardas, M., Cucurull, G., Scialom, T., Hartshorn, A., Saravia, E., Poulton, A., Kerkez, V. & Stojnic, R. Galactica: A Large Language Model for Science. 2022 Parādīt rakstu arXiv preprint arXiv:2211.09085 80. Thoppilan, R., De Freitas, D., Hall, J., Shazeer, N., Kulshreshtha, A., Cheng, H.-T., Jin, A., Bos, T., Baker, L., Du, Y., Lamda: valodu modeļi dialogiem. (2022). un Al. arXiv preprint arXiv:2201.08239 Tomašev, N., Harris, N., Baur, S., Mottram, A., Glorot, X., Rae, J. W., Zielinski, M., Askham, H., Saraiva, A., Magliulo, V., Dziļas mācīšanās izmantošana, lai izstrādātu nepārtrauktu riska modeļus nelabvēlīgu notikumu prognozēšanai no elektroniskajiem veselības ierakstiem. 2765 līdz 2787 (2021). et al. Nature Protocols 16, Tran, D., Liu, J., Dusenberry, M. W., Phan, D., Collier, M., Ren, J., Han, K., Wang, Z., Mariet, Z., Hu, H., Plex: Towards reliability using pretrained large model extensions. (2022). un Al. arXiv preprint arXiv:2207.07411 83. Tsatsaronis, G., Balikas, G., Malakasiotis, P., Partalas, I., Zschunke, M., Alvers, M. R., Weissenborn, D., Krithara, A., Petridis, S., Polychronopoulos, D., An overview of the BIOASQ large-scale biomedical semantic indexing and question answering competition. 1–28 (2015). un Al. BMC bioinformatics 16, 84. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł. & Polosukhin, I. Attention is all you need. (2017). Neironu informācijas apstrādes sistēmu attīstība 30 85. Vyas, D. A., Eisenstein, L. G. & Jones, D. S. 2020. Slēptā redzamībā – rasu korekcijas izmantošanas pārskatīšana klīniskajos algoritmos Walsh, K. E., Harik, P., Mazor, K. M., Perfetto, D., Anatchkova, M., Biggins, C., Wagner, J., Schoettker, P. J., Firneno, C., Klugman, R., Veselības aprūpes kaitējuma mērīšana: nelabvēlīgo notikumu pārskatīšanas optimizēšana. 436 (2017). un Al. Medical care 55, 87. Wang, b., Min, S., Deng, X., Shen, J., Wu, Y., Zettlemoyer, L. & Sun, H. Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters. 2022 Parādīt rakstu arXiv priekšraksts arXiv:2212.10001 Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E. & Zhou, D. Pašpietiekamība uzlabo domāšanas ķēdes pamatojumu valodas modeļos. 2022 Parādīt rakstu arXiv preprint arXiv:2203.11171 Wei, J., Bosma, M., Zhao, V. Y., Guu, K., Yu, A. W., Lester, B., Du, N., Dai, A. M. & Le, Q. V. Finetuned valodas modeļi ir nulles trieciena mācītāji. (2021). arXiv preprint arXiv:2109.01652 90. Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., Lielo valodu modeļu jaudas. (2022). un Al. arXiv preprint arXiv:2206.07682 Wei, J., Wang, X., Schuurmans, D., Bosma, M., Chi, E., Le, Q. & Zhou, D. Domāšanas ķēde, kas izraisa domāšanu lielos valodu modeļos. 2022 Parādīt rakstu arXiv pirmizrāde arXiv:2201.11903 92. Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.-S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A., Valodu modeļu kaitējuma ētiskie un sociālie riski. Tātad 2021. un Al. arXiv pirmizrāde arXiv:2112.04359 93. Williams, T., Szekendi, M., Pavkovic, S., Clevenger, W. & Cerese, J. The reliability of AHRQ Common Format Harm Scales in rating patient safety events. 52 līdz 59 (2015. gads) Pacientu drošības žurnāls 11, Yasunaga, M., Bosselut, A., Ren, H., Zhang, X., Manning, C. D., Liang, P. & Leskovec, J. Dziļa divvirzienu valodas zināšanu grafika priekšapmācība. 2022 Parādīt rakstu arXiv pirmizrāde arXiv:2210.09338 Yasunaga, M., Leskovec, J. un Liang, P. LinkBERT: Valodu modeļu sagatavošana ar dokumentu saitēm. 2022 Parādīt rakstu arXiv pirmizrāde arXiv:2203.15827 Ye, S., Jang, J., Kim, D., Jo, Y. & Seo, M. Soft Prompt atgūšana uzlabo nulles šāviena uzdevuma vispārināšanu. 2022 Parādīt rakstu arXiv preprint arXiv:2210.03029 97. Yim, J., Chopra, R., Spitz, T., Winkens, J., Obika, A., Kelly, C., Askham, H., Lukic, M., Huemer, J., Fasler, K., et al. Predicting conversion to wet age-related macular degeneration using deep learning. 892 līdz 899 (2020) Nature Medicine 26, Zhang, H., Lu, A. X., Abdalla, M., McDermott, M. un Ghassemi, M. In (2020), 110–120. Sāpīgi vārdi: klīnisko kontekstuālo vārdu ievietošanas bias kvantitatīvi proceedings of the ACM Conference on Health, Inference, and Learning Zhang, S., Roller, S., Goyal, N., Artetxe, M., Chen, M., Chen, S., Dewan, C., Diab, M., Li, X., Lin, X. V., OPT: Open pre-trained transformer language models. (2022). et al. arXiv preprint arXiv:2205.01068 100. Zhou, D., Schärli, N., Hou, L., Wei, J., Scales, N., Wang, X., Schuurmans, D., Bousquet, O., Le, Q. & Chi, E. Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. 2022 Parādīt rakstu arXiv preprint arXiv:2205.10625 pielikums A.1 Hyperparameters and model selection Flan-PaLM 540B tika veikta instrukcijas signalizācijas pielāgošana ar 100 mīksto signalizācijas garumu, lai ražotu Med-PaLM. Mēs iesaldējām pārējo modeli, un ievietošanas izmērs ir 18432 kā Chowdhery [ ], tāpēc tas izraisīja 1.84M apmācāmus parametrus. Mēs nejauši sākām apmācāmos parametrus, lai tie būtu vienādi [-0.5, 0.5], sekojot Lesteram [Lasīt Mēs meklējām mācību rādītājus 0.001, 0.003, 0.01 ar AdamW optimizatoru [ ] un svara degradācijas faktors . Tātad 0 Mēs izmantojām partijas izmēru 32 visās sacīkstēs. un Al. 14 un Al. 45 55 0 0 001 00001 Mēs veica modeļu atlases, lūdzot klīniku, lai klasificētu atbildes uz vairākiem saglabāta HealthSearchQA, MedicationQA un LiveQA piemēriem (nav izmantots apmācībai vai cilvēka novērtēšanai), un izvēlējāmies pārbaudes punktu, kas vislabāk darbojās. A.2 Variation of results Sakarā ar atkārtotu stochastisko dekodēšanu, izmantojot temperatūras paraugu ņemšanu, ir zināmas paredzamās izmaiņas rezultātos ar pašpietiekamību. Kaut arī nav praktiski veikt vairākus eksperimentus visiem mūsu modeļiem visās datu kopās, ko izmanto šajā pētījumā, mēs atkārtojam novērtējumus par MedQA datu kopu 4 reizes ar mūsu vislabāko veiktspēju. A.3 MMLU ablācijas Mēs veicām ablācijas, salīdzinot Flan-PaLM 540B modeli, izmantojot dažus šāvienus, domāšanas ķēdi (CoT) un pašpietiekamības veicināšanas stratēģijas MMLU klīniskajās tēmās [ Rezultāti ir apkopoti sadaļā Mēs novērojam, ka, lai gan lielākajai daļai tēmu Flan-PaLM 540B ar pašpietiekamību iegūst vislabākos rezultātus, ir dažas tēmas, kurās standarta daži šāvieni vai CoT mudināšana ir labāka. 29 A3 pārbaude A.4 Scaling plots Mēs nodrošinām skalēšanas gabalus, salīdzinot PaLM un Flan-PaLM modeļus, izmantojot dažiem šāvieniem norādot uz MedQA un MedMCQA datu kopām attēlā un vēl viens skalēšanas gabals, kas salīdzina Flan-PaLM ar dažiem šāvieniem un Flan-PaLM ar pašpietiekamības šāvieniem Attēlā Mēs novērojam spēcīgu skalēšanas veiktspēju un redzam straujāku veiktspējas palielināšanos, jo mēs palielinām LLM modeļa izmēru. a1 A.2 Dzīve A.5 modeļa karte Med-PaLM Med-PaLM izmanto to pašu sistēmas tipu un īstenošanas sistēmu kā Flan-PaLM [ ]. mēs parādām daļas no modeļa kartes [ ] specifisks Med-PaLM uz galda . 15 59 A.2 Dzīve A.6 Med-PaLM multiple-choice evaluation Med-PaLM tika apmācīts, izmantojot instrukciju prompt tuning, lai uzlabotu Flan-PaLM ražoto garo formu paaudžu kvalitāti. Tomēr, ņemot vērā instrukciju prompt tuning vispārīgumu, tehniku var piemērot arī vairāku izvēles datu kopām. Sākotnējā eksperimentā mēs apmācījāmies Flan-PaLM, izmantojot instrukciju ievadīšanu uz MedQA, MedMCQA, PubMedQA un MMLU (klīniskām tēmām). Eksemplārus uzrakstīja piecu kvalificētu klīniku grupa. Katrs apmācības piemērs ietvēra datu kopu specifiskas instrukcijas un 5 dažus šāvienu piemērus. Iegūtais modelis sasniedza 67,2% precizitāti uz MedQA, izmantojot domāšanas ķēdi un pašpietiekamību, aptuveni atbilstīgi rezultātam ar Flan-PaLM i Section Mēs plānojam paplašināt šo agrīno rezultātu turpmākajā darbā. 4 A.7 Detalizēti cilvēka novērtējuma rezultāti Detalizēti cilvēka novērtējuma rezultāti ar ticamības intervāliem ir apkopoti tabulā - galds . A3 pārbaude a) 12 A.8 Daži ātrie piemēri Mēs sniedzam piemērus dažiem dažiem šāvieniem, kas izmantoti pētījumā tabulā - galds - galds Tērauds un galds . A. 13 A. 14 A. 15 A. 16 A. 17 A.9 Chain-of-Thought ātras domāšanas piemēri Mēs sniegām piemērus dažiem ķēdes domāšanas ieteikumiem, kas izmantoti šajā pētījumā tabulā - galds Tērauds un galds . A. 18 A19 a) 20 A. 21 Šis dokuments ir pieejams arhīvā saskaņā ar CC by 4.0 Deed (attribution 4.0 International) licenci. Šis dokuments ir pieejams arhīvā saskaņā ar CC by 4.0 Deed (attribution 4.0 International) licenci.