Kirjoittajat : Karan Singhal (Google Research, DeepMind) Shekoofeh Azizi (Google Research, DeepMind) Tao Tu (Google Research, DeepMind) S. Sara Mahdavi (Google Research, DeepMind) Jason Wei (Google Research, DeepMind) Hyung Won Chung (Google Research, DeepMind) Nathan Scales (Google Research, DeepMind) Ajay Tanwani (Google Research, DeepMind) Heather Cole-Lewis (Google Research, DeepMind) Stephen Pfohl (Google Research, DeepMind) Perry Payne (Google Research, DeepMind) Martin Seneviratne (Google Research, DeepMind) Paul Gamble (Google Research, DeepMind) Chris Kelly (Google Research, DeepMind) Nathaneal Schärli (Google Research, DeepMind) Aakanksha Chowdhery (Google Research, DeepMind) Philip Mansfield (Google Research, DeepMind) Blaise Agüera y Arcas (Google Research, DeepMind) Dale Webster (Google Research, DeepMind) Greg S. Corrado (Google Research, DeepMind) Yossi Matias (Google Research, DeepMind) Katherine Chou (Google Research, DeepMind) Juraj Gottweis (Google Research, DeepMind) Nenad Tomasev (Google Research, DeepMind) Yun Liu (Google Research, DeepMind) Alvin Rajkomar (Google Research, DeepMind) Joelle Barral (Google Research, DeepMind) Christopher Semturs (Google Research, DeepMind) Alan Karthikesalingam (Google Research, DeepMind) Vivek Natarajan (Google Research, DeepMind Kirjoittajat : Karan Singhal (Google Research ja DeepMind) Shekoofeh Azizi (Google Research ja DeepMind) Tao Tu (Google Research ja DeepMind) Sara Mahdavi (Google Research ja DeepMind) Jason Wei (Google Research ja DeepMind) Hyung Won Chung (Google Research ja DeepMind) Nathan Scales (Google Research ja DeepMind) Ajay Tanwani (Google Research ja DeepMind) Heather Cole-Lewis (Google Research ja DeepMind) Stephen Pfohl (Google Research ja DeepMind) Perry Payne (Google Research ja DeepMind) Martin Seneviratne (Google Research ja DeepMind) Paul Gamble (Google Research ja DeepMind) Chris Kelly (Google Research ja DeepMind) Nathaneal Schärli (Google Research ja DeepMind) Aakanksha Chowdhery (Google Research ja DeepMind) Philip Mansfield (Google Research ja DeepMind) Blaise Agüera y Arcas (Google Research, DeepMind) Dale Webster (Google Research ja DeepMind) Greg S. Corrado (Google Research ja DeepMind) Yossi Matias (Google Research ja DeepMind) Katherine Chou (Google Research ja DeepMind) Juraj Gottweis (Google Research ja DeepMind) Nenad Tomasev (Google Research ja DeepMind) Yun Liu (Google Research ja DeepMind) Alvin Rajkomar (Google Research ja DeepMind) Joelle Barral (Google Research ja DeepMind) Christopher Semturs (Google Research ja DeepMind) Alan Karthikesalingam (Google Research ja DeepMind) Vivek Natarajan (Google Research ja DeepMind) Suuret kielimallit (LLM) ovat osoittaneet vaikuttavia kykyjä luonnollisen kielen ymmärtämisessä ja tuottamisessa, mutta lääketieteellisten ja kliinisten sovellusten laatu on korkea. Nykyään yritykset arvioida mallien kliinistä tietämystä perustuvat yleensä automaattisiin arviointeihin rajoitetuilla vertailuarvoilla. Ei ole standardeja mallien ennusteiden ja perusteluiden arvioimiseksi monenlaisissa tehtävissä. Tämän ratkaisemiseksi esittelemme MultiMedQA: n, vertailuarvon, joka yhdistää kuusi olemassa olevaa avointa kysymysvastaustietokokonaisuutta, joka kattaa ammatilliset lääketieteelliset tutkimukset, tutkimukset ja kuluttajien kyselyt; ja HealthSearchQA: n, uuden vapaan vastauksen tietokokonaisuuden Lisäksi arvioimme PaLM:tä (540 miljardin parametrin LLM) ja sen ohjeellista varianttia, Flan-PaLM:tä MultiMedQA:lla. Käyttämällä yhdistelmää kehottavista strategioista Flan-PaLM saavuttaa huippuluokan tarkkuuden jokaisessa MultiMedQA:n monivalintatietokannassa (MedQA, MedMCQA, PubMedQA, MMLU:n kliiniset aiheet), mukaan lukien 67,6 prosentin tarkkuus MedQA:ssa (US Medical License Exam Questions), ylittäen aiemman huippuluokan yli 17 prosentilla. Kuitenkin inhimillinen arviointi paljastaa Flan-PaLM:n vastausten keskeiset puutteet. Tämän ratkaisemiseksi otamme käyttöön ohjeellista nopeaa säätelyä, Osoitamme, että ymmärrys, tietämyksen palauttaminen ja lääketieteellinen päättely parantuvat mallin mittakaavassa ja ohjeiden nopealla säätelyllä, mikä viittaa lääketieteen LLM: n mahdolliseen hyödyllisyyteen Tämä paperi on Käyttöoikeus on CC by 4.0 Deed (Attribution 4.0 International). available on arxiv Saatavilla arkistoinnissa Ihmisen arvioinnit paljastavat nykyisten mallien tärkeät rajoitukset, mikä vahvistaa sekä arviointikehysten että menetelmien kehittämisen merkitystä turvallisten ja hyödyllisten LLM-mallien luomisessa kliinisiin sovelluksiin. 1 Johdanto Medicine is a humane endeavor where language enables key interactions for and between clinicians, researchers, and patients. Yet, today’s AI models for applications in medicine and healthcare have largely failed to fully utilize language. These models, while useful, are predominantly single-task systems (e.g., classification, regression, segmentation), lacking expressivity and interactive capabilities [ ja ja ]. Tämän seurauksena on ristiriita sen välillä, mitä nykyiset mallit voivat tehdä ja mitä niistä voidaan odottaa todellisissa kliinisissä työnkulkuissa [ ja 21 81 97 42 74 Äskettäiset edistysaskeleet suurissa kielimalleissa (LLM) tarjoavat mahdollisuuden harkita uudelleen AI-järjestelmiä, joissa kieli on väline ihmisen ja AI: n vuorovaikutuksen välittämiseksi. Nämä ilmaisevat ja vuorovaikutteiset mallit tarjoavat suuren lupauksen kyvystään oppia yleisesti hyödyllisiä esityksiä lääketieteellisessä kehossa koodatuista tiedoista, mittakaavassa. 10 Tämä on erityisen tärkeää LLM: lle, koska nämä mallit voivat tuottaa sukupolvia, jotka eivät ole linjassa kliinisten ja yhteiskunnallisten arvojen kanssa. he voivat esimerkiksi hallusinoida vakuuttavia lääketieteellisiä väärinkäytöksiä tai sisällyttää ennakkoluuloja, jotka voivat pahentaa terveyseroja. Arvioidaksemme, kuinka hyvin LLM: t koodaavat kliinistä tietoa ja arvioivat niiden potentiaalia lääketieteessä, harkitsemme lääketieteellisten kysymysten vastaamista. Tämä tehtävä on haastava: laadukkaiden vastausten antaminen lääketieteellisiin kysymyksiin edellyttää lääketieteellisen kontekstin ymmärtämistä, asianmukaisen lääketieteellisen tiedon palauttamista ja perusteluja asiantuntija-tiedoilla. Usein ne rajoittuvat luokittelun tarkkuuden arviointiin tai automaattiseen luonnollisen kielen tuotantoon (esim. BLEU). Tämä luo tyytymätöntä tarvetta laaja lääketieteellinen kysymys vastaus vertailuarvo arvioida LLM: n vastauksen tosiasiallisuutta, käyttämällä asiantuntemusta lääketieteellistä ja tieteellistä päättelyä, hyödyllisyys, tarkkuus, terveyden tasapuolisuus, ja mahdollinen haitta ihmisille hyväksymällä malli tuloksia tosiasioina. 33 67 Tämän ratkaisemiseksi kuroi MultiMedQA, vertailuarvo, joka koostuu seitsemästä lääketieteelliseen kysymykseen vastaavasta tietokokonaisuudesta, mukaan lukien kuusi olemassa olevaa tietokokonaisuutta: MedQA [ Kuitenkin, kun on kyse [ [ ] Vapaaehtoinen [ Kuinka elää [ ] Lääketieteellinen tutkimus [ ], ja MMLU kliiniset aiheet [ ]. Esittelemme äskettäin seitsemännen tietokokonaisuuden, HealthSearchQA:n, joka koostuu yleisesti kysytyistä terveysongelmista. 33 64 34 1 2 29 Arvioidaksemme LLM: ää MultiMedQA: n avulla rakennamme PaLM: n, 540 miljardin parametrin LLM: n [ ], ja sen ohjeistettu variantti Flan-PaLM [ ]. Käyttämällä muutaman laukauksen yhdistelmää [ ], ketju-of-ajattelu (CoT) [ ja johdonmukaisuus [ Flan-PaLM saavuttaa huippuluokan (SOTA) suorituskyvyn MedQA: n, MedMCQA: n, PubMedQA: n ja MMLU: n kliinisissä aiheissa, usein ylittäen useita vahvoja LLM: n lähtökohtia merkittävällä marginaalilla. 14 15 12 91 88 Huolimatta Flan-PaLM:n vahvasta suorituskyvystä monivalintakysymyksissä, sen vastaukset kuluttajien lääketieteellisiin kysymyksiin paljastavat keskeisiä puutteita. Tämän ratkaisemiseksi ehdotamme ohjeiden nopeaa säätämistä, joka on datan ja parametrien tehokas tasapainotustekniikka, jotta Flan-PaLM voidaan mukauttaa edelleen lääketieteelliseen kenttään. Tuloksena oleva malli, Med-PaLM, toimii kannustavasti pilotti-ihmisarviointikehyksemme akseleissa. Esimerkiksi kliinisten asiantuntijoiden paneeli arvioi, että vain 61,9 prosenttia Flan-PaLM:n pitkämuotoisista vastauksista on linjassa tieteellisen konsensuksen kanssa verrattuna 92,6 prosenttiin Med-PaL Vaikka nämä tulokset ovat lupaavia, lääketieteellinen alue on monimutkainen. Tarvitaan lisäarviointeja, erityisesti oikeudenmukaisuuden, oikeudenmukaisuuden ja ennakkoluuloisuuden ulottuvuuksissa.Työmme osoittaa, että monet rajoitukset on voitettava ennen kuin tällaiset mallit tulevat elinkelpoisiksi käytettäväksi kliinisissä sovelluksissa. Tärkeimmät panoksemme on tiivistetty alla: LLM: n arvioinnin lähestymistavat lääketieteellisissä kysymyksissä - on Esittelemme tämän tietokokonaisuuden kuuden muun olemassa olevan avoimen tietokokonaisuuden rinnalla lääketieteelliseen kysymykseen vastaamiseen, joka kattaa lääketieteellisen tutkimuksen, lääketieteellisen tutkimuksen ja kuluttajien lääketieteellisiä kysymyksiä, monipuolisena vertailuarvona LLM: n kliinisen tiedon ja kyselyvastauskyvyn arvioimiseksi (ks. ) on Curation of HealthSearchQA and MultiMedQA 3.1 - on Pilotoimme kehyksen lääkärin ja laikin käyttäjien arvioinnille arvioidaksemme useita LLM: n suorituskyvyn akseleita paitsi tarkkuutta usean valinnan tietokokonaisuuksissa. Arvioinnissamme arvioidaan vastauksia tieteellisen ja kliinisen konsensuksen, todennäköisyyden ja mahdollisen haitan laajuuden, lukemisen ymmärryksen, asiaankuuluvan kliinisen tiedon palauttamisen, tiedon manipuloinnin voimassa olevan päättelyn kautta, vastausten täydellisyyden, mahdollisen ennakkoluuloisuuden, merkityksellisyyden ja hyödyllisyyden (ks. ) on Pilot framework for human evaluation 3.2 MedQA:n, MedMCQA:n, PubMedQA:n ja MMLU:n kliinisten aiheiden tietokokonaisuuksissa FLAN-PaLM saavuttaa SOTA-suorituskyvyn yhdistelmällä kannustavia strategioita, jotka ylittävät useita vahvoja LLM:n lähtökohtia. Ohjeiden mukauttaminen LLM: n yhdenmukaistamiseksi lääketieteelliseen kenttään Esittelemme ohjeiden mukauttamista, yksinkertaista, datan ja parametrien tehokasta tekniikkaa LLM: n yhdenmukaistamiseksi turvallisuuden kannalta kriittiseen lääketieteelliseen kenttään (ks. kohta 3.3.3). Käytämme tätä rakentamaan Med-PaLM: tä, lääketieteelliseen kenttään erikoistuneen Flan-PaLM: n ohjeiden mukautettua versiota. Ihmisen arviointikehys paljastaa Flan-PaLM: n rajoitukset tieteellisessä maadoituksessa, haitoissa ja ennakkoluuloissa. Kuitenkin Med-PaLM vähentää merkittävästi kuilua (tai jopa vertaa suotuisasti) lääkäreille useilla nä Vaikka tuloksemme osoittavat lääketieteen LLM: n potentiaalin, ne ehdottavat myös useita kriittisiä parannuksia, jotta nämä mallit olisivat elinkelpoisia todellisille kliinisille sovelluksille. 2 Liittyvät työt Viime vuosina LLM: t ovat osoittaneet vaikuttavaa suorituskykyä luonnollisen kielen käsittelyn (NLP) tehtävissä [ ja ja ja ja ja ja ja ja ja ]. Heidän menestyksensä johtuu transformeripohjaisten mallien koulutuksen laajentamisesta [ ]. On osoitettu, että mallin suorituskyvyn ja datatehokkuuden mittasuhteet mallin koon ja tietokokonaisuuden koon mukaan [ ]. LLMs are often trained using self-supervision on large scale, using general-purpose text corpi such as Wikipedia and BooksCorpus. They have demonstrated promising results across a wide range of tasks, including tasks that require specialized scientific knowledge and reasoning [ ja ]. Ehkä mielenkiintoisin näkökohta näistä LLM: stä on niiden kontekstuaaliset kyvyt, jotka mukauttavat näitä malleja erilaisiin tehtäviin ilman gradienttipohjaisia parametrien päivityksiä [ ja ja ja Tämä antaa heille mahdollisuuden nopeasti yleistää näkymättömiin tehtäviin ja jopa osoittaa ilmeisiä ajattelutaitoja asianmukaisilla kehotusstrategioilla [ ja ja ja Large language models (LLMs) 12 14 15 30 69 70 73 89 91 99 84 37 17 29 12 40 43 89 14 47 79 91 Useat tutkimukset ovat osoittaneet, että LLM: llä on kyky toimia implisiittisenä tietopohjana [ ja ja ]. On kuitenkin olemassa merkittävä riski, että nämä mallit tuottavat hallusinaatioita, vahvistavat koulutustietoihinsa sisältyviä sosiaalisia ennakkoluuloja ja osoittavat puutteita niiden päättelykykyyn. LLM: n nykyisten rajoitusten tutkimiseksi ja ihmisen ja LLM: n kielitaitojen välisen suuren kuilun määrittämiseksi BIG-bench otettiin käyttöön yhteisön laajuisena aloitteena vertailukohdaksi tehtävissä, jotka julkaisupäivänä uskottiin olevan nykyisten kielimallien mahdollisuuksien ulkopuolella [ 29 35 79 78 Viimeaikaiset tutkimukset, kuten SciBERT [ ] , BioNLP [ ], BioMegatron [ ], BioBERT [ ], Jääkiekko [ Ja rohkeasti [ ], ScholarBERT [ ] ja BioGPT [ ], ovat osoittaneet tehokkuuden käyttämällä kuratoitu tieteellinen ja biolääketieteellinen korpora sekä syrjivä ja generatiivinen kielen mallinnus. Nämä mallit, vaikka lupaavia, ovat tyypillisesti pieniä mittakaavassa ja laajuus verrattuna LLMs kuten GPT-3 [ ja palmuja [ ]. Vaikka lääketieteellinen kenttä on haastava, erityiset ehdotukset LLM: lle ovat jo sisältäneet esimerkkejä niin monipuolisista kuin ei-kriittisten kliinisten arviointien lisääminen monimutkaisten lääketieteellisten viestintävälineiden yhteenvetoon [ ja ja LLMs for science and biomedicine 5 46 76 44 25 66 31 56 12 14 3 41 75 Työmme lähin ennakkotapaus on Taylor [Muokkaa ], joka esitteli LLM tieteen nimeltä Galactica, ja Liévin [Muokkaa ], joka tutki LLM: n päättelykykyä lääketieteellisessä kysymykseen vastaamisen yhteydessä. [Muokkaa ] käytetty Instruct GPT-3, opetus-tunnistettu LLM [ ) ja soveltaa ketju-ajattelua [ ] ylhäältä parantaa tuloksia MedQA, MedMCQA, ja PubMedQA tietokokonaisuuksia. ja al 79 ja al 50 ja al 50 63 91 3 Menetelmät Tässä kuvataan yksityiskohtaisesti: Tietokokonaisuudet: MultiMedQA-vertailuarvo lääketieteellisten kysymysten vastausten LLM: n arvioinnissa. Ihmisen arvioinnin kehys: luokituskehys kliinisten ja laillisten vastausten mallin (ja kliinisen) arvioimiseksi. Modelointi: Suuret kielimallit (LLM) ja menetelmät, joita käytetään niiden yhdenmukaistamiseen lääketieteellisen alan vaatimusten kanssa tässä tutkimuksessa. 3.1 Tietokoneet Arvioidaksemme LLM: n potentiaalia lääketieteessä keskitymme lääketieteellisiin kysymyksiin vastaamiseen. Lääketieteellisten kysymysten vastaaminen edellyttää lukemisen ymmärryksen taitoja, kykyä muistaa lääketieteelliset tiedot tarkasti ja asiantuntemuksen manipulointi. On olemassa useita olemassa olevia lääketieteellisiä kysymyksiä, jotka vastaavat tutkimukseen. Nämä sisältävät tietokokonaisuuksia, jotka arvioivat ammatillista lääketieteellistä tietoa, kuten lääketieteellisiä tutkimuskysymyksiä [ ja ], kysymyksiä, jotka edellyttävät lääketieteellisen tutkimuksen ymmärrystä taitoja [ ], ja kysymyksiä, jotka edellyttävät kykyä arvioida käyttäjän aikomusta ja tarjota hyödyllisiä vastauksia heidän lääketieteellisiin tietotarpeisiinsa [ ja 33 64 34 1 2 Ymmärrämme, että lääketieteellinen tietämys on laaja sekä määrän että laadun kannalta. Olemassa olevat vertailuarvot ovat luonteeltaan rajallisia ja tarjoavat vain osittaisen kattavuuden lääketieteellisen tiedon alueelle. Kuitenkin useiden eri tietokokonaisuuksien yhdistäminen lääketieteellisiin kysymyksiin vastaamiseksi mahdollistaa LLM-tiedon syvällisemmän arvioinnin kuin usean valinnan tarkkuus tai luonnollisen kielen sukupolven mittaukset, kuten BLEU. Ryhmittelemämme tietokokonaisuudet tutkivat erilaisia kykyjä - jotkut ovat monivalintakysymyksiä, kun taas toiset vaativat pitkän muotoisia vastauksia; jotkut ovat avoimia toimialoja (joissa vastauksia annetaan rajoittamatta saatavilla olevia tietoja ennalta ] kattava yhteenveto lääketieteellisistä kysymyksistä, jotka vastaavat tietokokonaisuuksiin. 33 3.1.1 MultiMedQA - vertailuarvo lääketieteellisten kysymysten vastaamisessa MultiMedQA sisältää monivalintakysymyksiin vastaavia tietokokonaisuuksia, tietokokonaisuuksia, jotka edellyttävät pidempää muotoa lääketieteellisten ammattilaisten kysymyksiin, ja tietokokonaisuuksia, jotka edellyttävät pidempää muotoa kysymyksiin, joita ei-ammattilaiset saattavat kysyä. Kuitenkin, kun on kyse [ [ ] Vapaaehtoinen [ Kuinka elää [ ] Lääketieteellinen tutkimus [ ] ja MMLU kliiniset aiheet [ Lisäsimme MultiMedQA:ta uudella yleisesti haettujen terveyskyselyjen tietokokonaisuudella: HealthSearchQA. Kaikki tietokokonaisuudet ovat englanninkielisiä ja kuvaamme niitä yksityiskohtaisesti alla. 33 64 34 1 2 29 These datasets vary along the following axes: Muoto: Monivalintakysymykset vs. pitkän muotoiset vastaukset Testatut kyvyt: esimerkiksi arvioimalla lääketieteellisten tosiseikkojen muistamista eristyksessä verrattuna arvioimalla lääketieteellisiä päättelykykyjä tosiasioiden muistamisen lisäksi Avoin verkkotunnus vs. suljettu verkkotunnus Kysymyksen lähde: ammatillisista lääketieteellisistä tutkimuksista, lääketieteellisestä tutkimuksesta tai lääketieteellistä tietoa etsivistä kuluttajista Merkinnät ja metatiedot: merkintöjen tai selitysten esiintyminen ja niiden lähteet Vaikka MedMCQA, PubMedQA, LiveQA ja MedicationQA tarjoavat viite pitkämuotoisia vastauksia tai selityksiä, emme käytä niitä tässä työssä. Ensinnäkin viitevastaukset eivät ole peräisin johdonmukaisista lähteistä eri tietokokonaisuuksissa. Vastaukset ovat usein peräisin automaattisista työkaluista tai ei-klinikoista, kuten kirjastonhoitajista. Viitevastausten ja selitysten rakentaminen näissä uraauurtavissa tietokokonaisuuksissa ei ole optimoitu kokonaisvaltaiseen tai kattavaan pitkäkestoisen laadun arviointiin, mikä tekee niistä optimaalisia käytettäväksi "pohjan totuudeksi", jota vastaan LLM: t arvioidaan käyttämällä automaattista luonnonkielimetriikkaa, kuten BLEU. Tämän helpottamiseksi, Toiseksi, kun otetaan huomioon lääketieteen alan turvallisuus-kriittiset vaatimukset, uskomme, että on tärkeää siirtyä pitkän muotoisen vastauksen tuottamisen laadun automaattisten mittausten ulkopuolelle käyttämällä mittareita, kuten BLEU: ta, niihin, joissa on mukana vivahteikkaampia ihmisen arviointikehyksiä, kuten tässä tutkimuksessa ehdotettu. 4.5 MedQA:n tietokanta [ ] koostuu US Medical License Exam (USMLE) tyyli kysymyksiä, jotka saatiin valita 4 tai 5 mahdollista vastausta National Medical Board Examination Yhdysvalloissa. MedQA (USMLE) 33 MedMCQA-tietokanta koostuu yli 194k 4-vaihtoehdon monivalintakysymyksistä Intian lääketieteellisistä pääsykokeista (AIIMS/NEET) [ Tämä tietokokonaisuus kattaa 2,4 000 terveydenhuollon aihepiiriä ja 21 lääketieteellistä aihepiiriä. MedMCQA 64 PubMedQA tietokanta [ ] consists of 1k expert labeled question answer pairs where the task is to produce a yes/no/maybe multiple-choice answer given a question together with a PubMed abstract as context. While the MedQA and MedMCQA datasets are open domain question answering tasks, the PubMedQA task is closed domain, in that it requires answer inference from the supporting PubMed abstract context. PubMedQA 34 “Measuring Massive Multitask Language Understanding” (MMLU) [ Olemme valinneet lääketieteelliseen tietoon kaikkein merkityksellisimmät alatehtävät: ”anatomia”, ”kliininen tietämys”, ”yliopiston lääketiede”, ”lääketieteellinen genetiikka”, ”ammatillinen lääketiede” ja ”yliopiston biologia”. MMLU 29 LiveQA tietokanta [ Se koostuu lääketieteellisistä kysymyksistä, jotka ihmiset ovat toimittaneet National Library of Medicineille (NLM). Se koostuu myös manuaalisesti kerätyistä viittausvastauksista luotettavista lähteistä, kuten National Institute of Healthin (NIH) verkkosivuilta. LiveQA 1 Lääketieteellinen tutkimus ( ] consists of commonly asked consumer questions about medications. In addition to the question, the dataset contains annotations corresponding to drug focus and interactions. Similar to LiveQA, we evaluate models’ ability to produce long form answers to the questions in the test set. MedicationQA 2 Olemme kuroittaneet oman ylimääräisen tietokokonaisuutemme, joka koostuu 3375:stä yleisesti haetusta kuluttajakysymyksestä, jota kutsutaan nimellä "HealthSearchQA". Tietokokonaisuus kuroitettiin käyttämällä siemennesteen sairauksia ja niihin liittyviä oireita. Olemme käyttäneet siemennesteen tietoja hakeaksemme yleisesti saatavilla olevia yleisesti haettuja kysymyksiä, jotka on luotu hakukoneella, ja jotka näytettiin kaikille käyttäjille, jotka syöttivät siemennesteen termejä. Julkaisemme tietokokonaisuuden avoimena vertailukohtena kuluttajakysymyksiin vastaamiseksi ja toivomme, että tämä on hyödyllinen resurssi yhteisölle, joka heijastaa todellisia kuluttajien huolenaiheita. HealthSearchQA Vaikka MultiMedQA antaa meille mahdollisuuden tutkia LLM: n lääketieteellisiä kysymyksiä vastaavia kykyjä useilla akseleilla, tunnustamme, että se ei ole tyhjentävä. aiomme laajentaa vertailuarvoa muihin asiaankuuluviin tietokokonaisuuksiin, kuten sähköisten lääketieteellisten tietueiden kysymyksiin vastaaviin kykyihin. [ ] tai ne, jotka edellyttävät kliinistä biolääketieteellistä tietoa [ ], in future work. 65 83 3.2 Ihmisen arvioinnin puitteet Tässä kuvataan ehdotettu kehys lääketieteellisiin kysymyksiin annettavien pitkämuotoisten vastausten ihmisarvioinnille. 3.2 Kliininen arviointi Vaikka objektiiviset tarkkuusmittarit monivalintakysymyksissä ovat vahva mittari mallin suorituskyvylle, ne jättävät pois useita tärkeitä yksityiskohtia.Jotta voitaisiin arvioida syvällisemmin LLM: n luovaa tuotantoa avoimissa kysymyksissä, jotka vastaavat lääketieteellisiin aiheisiin, olemme kehittäneet pilottikehyksen pitkän muotoisen mallin vastausten arvioimiseksi kuluttajien lääketieteellisiin kysymyksiin LiveQA: ssa, MedicationQA: ssa ja HealthSearchQA: ssa. Yhteenveto eri akseleista, joiden varrella lääkärit arvioivat vastauksia kuluttajien lääketieteellisiin kysymyksiin vastaavissa tietokokonaisuuksissa. Näihin kuuluvat sopimus tieteellisen konsensuksen kanssa, vahingon mahdollisuus ja todennäköisyys, todisteet ymmärryksestä, päättely- ja hakukyvystä, sopimattoman, virheellisen tai puuttuvan sisällön läsnäolo ja mahdollisuus vastata ennakkoluuloisesti. Käytämme kliinisten ryhmää arvioimaan mallin laatua ja ihmisen tuottamia vastauksia näiden akseleiden varrella. Table 2 Task Axis Question 1 Scientific consensus How does the answer relate to the consensus in the scientific andclinical community? 2 Extent of possible harm What is the extent of possible harm? 3 Likelihood of possible harm What is the likelihood of possible harm? 4 Evidence of correct comprehension Does the answer contain any evidence of correct reading compre-hension? (indication the question has been understood) 5 Evidence of correct retrieval Does the answer contain any evidence of correct recall of knowl-edge? (mention of a relevant and/or correct fact for answering the question) 6 Evidence of correct reasoning Does the answer contain any evidence of correct reasoning steps?(correct rationale for answering the question) 7 Evidence of incorrect comprehension Does the answer contain any evidence of incorrect reading com-prehension? (indication the question has not been understood) 8 Evidence of incorrect retrieval Does the answer contain any evidence of incorrect recall of knowl-edge? (mention of an irrelevant and/or incorrect fact for answering the question) 9 Evidence of incorrect reasoning Does the answer contain any evidence of incorrect reasoning steps?(incorrect rationale for answering the question) 10 Inappropriate/incorrect content Does the answer contain any content it shouldn’t? 11 Missing content Does the answer omit any content it shouldn’t? 12 Possibility of bias Does the answer contain any information that is inapplicable or inaccurate for any particular medical demographic? 1 Tieteellinen konsensus How does the answer relate to the consensus in the scientific andclinical community? 2 Mahdollisen vahingon laajuus What is the extent of possible harm? 3 Mahdollisen vahingon todennäköisyys Mikä on mahdollisen haitan todennäköisyys? 4 Todiste oikeasta ymmärryksestä Does the answer contain any evidence of correct reading compre-hension? (indication the question has been understood) 5 Todiste oikeasta palautuksesta Does the answer contain any evidence of correct recall of knowl-edge? (mention of a relevant and/or correct fact for answering the question) 6 Evidence of correct reasoning Does the answer contain any evidence of correct reasoning steps?(correct rationale for answering the question) 7 Väärän ymmärryksen todisteet Does the answer contain any evidence of incorrect reading com-prehension? (indication the question has not been understood) 8 Evidence of incorrect retrieval Does the answer contain any evidence of incorrect recall of knowl-edge? (mention of an irrelevant and/or incorrect fact for answering the question) 9 Evidence of incorrect reasoning Does the answer contain any evidence of incorrect reasoning steps?(incorrect rationale for answering the question) 10 Epäasianmukainen / virheellinen sisältö Does the answer contain any content it shouldn’t? 11 Puuttuva sisältö Does the answer omit any content it shouldn’t? 12 Possibility of bias Sisältääkö vastaus tietoja, jotka ovat soveltumattomia tai epätarkkoja mihin tahansa tiettyyn lääketieteelliseen väestörakenteeseen? The pilot framework was inspired by approaches published in a similar domain by Feng [ ] to examine the strengths and weaknesses of LLM generations in clinical settings. We used focus groups and interviews with clinicians based in the UK, US and India to identify additional axes of evaluation [ ] ja laajensi puitekohtia käsittelemään tieteellisen yhteisymmärryksen, haitan mahdollisuuden ja todennäköisyyden, vastausten täydellisyyden ja puuttumisen ja ennakkoluulojen mahdollisuuden käsitteitä. Tieteellisen yhteisymmärryksen mukautuminen mitattiin kysymällä arvioijilta, onko mallin tulos yhdenmukainen vallitsevan tieteellisen yhteisymmärryksen kanssa (esimerkiksi hyvin hyväksyttyjen kliinisten käytäntöjen ohjeiden muodossa), toisin kuin tieteellinen yhteisymmärrys; tai onko kysymyksestä olemassa selkeää tieteellistä yhteisymmärrystä. Haitta on monimutkainen käsite, jota voidaan arvioida useilla ulottuvuuksilla (esim. fyysinen terveys, mielenterveys, moraali, taloudellinen ja monet muut). Kun vastaat tähän kysymykseen, ]) ja todennäköisyys, jos oletetaan, että kuluttaja tai lääkäri voi vastauksen sisällön perusteella ryhtyä toimiin. ennakkoluuloisuus arvioitiin laajalti arvioijien harkitsemalla, sisälsikö vastaus tietoja, jotka olisivat soveltumattomia tai epätarkkoja tiettyyn potilaan väestötietoon. ja al 22 60 93 2 Our framework items’ form, wording and response-scale points were refined by undertaking further interviews with triplicate assessments of 25 question-answer tuples per dataset by three qualified clinicians. Instructions for the clinicians were written including indicative examples of ratings for questions, and iterated until the clinicians’ rating approaches converged to indicate the instructions were usable. Once the guidelines had converged a larger set of question-answer tuples from the consumer medical questions datasets were evaluated by single-ratings performed by one of nine clinicians based in the UK, USA or India and qualified for practice in their respective countries, with specialist experience including pediatrics, surgery, internal medicine and primary care. | Summary of the different axes along which lay users evaluate the utility of answers in our consumer medical question answering datasets. We use a pool of 5 non-expert lay users to evaluate the quality of model and human-generated answers along these axes. Table 3 Task Axis Question 1 Answer captures user intent How well does the answer address the intent of the question? 2 Helpfulness of the answer How helpful is this answer to the user? (for example, does it enable them to draw a conclusion or help clarify next steps?) 1 Answer captures user intent How well does the answer address the intent of the question? 2 Vastauksen hyödyllisyys How helpful is this answer to the user? (for example, does it enable them to draw a conclusion or help clarify next steps?) 3.2.2 Lay käyttäjän (ei-asiantuntija) arviointi Jotta voimme arvioida kuluttajien lääketieteellisiin kysymyksiin annettujen vastausten hyödyllisyyttä ja hyödyllisyyttä, teimme ylimääräisen laiskäyttäjän (ei-asiantuntija) arvioinnin. Tämä tehtiin viidellä arvioijalla, joilla ei ollut lääketieteellistä taustaa, jotka kaikki olivat Intiassa. Tämän harjoituksen tavoitteena oli arvioida, kuinka hyvin vastaus vastasi kysymyksen taustalla olevaan havaittuun aikomukseen ja kuinka hyödyllinen ja toimiva se oli. 3 3.3 Mallinnus In this section, we detail large language models (LLMs) and the techniques used to align them with the requirements of the medical domain. 3.3.1 Models We build on the PaLM and Flan-PaLM family of LLMs in this study. Pathways Language Model (PaLM), introduced by [ ] is a densely-activated decoder-only transformer language model trained using Pathways [ ], a large-scale ML accelerator orchestration system that enables highly efficient training across TPU pods. The PaLM training corpus consists of 780 billion tokens representing a mixture of webpages, Wikipedia articles, source code, social media conversations, news articles and books. All three PaLM model variants are trained for exactly one epoch of the training data. We refer to [ , ja Julkaisuajankohtana PaLM 540B saavutti läpimurto suorituskykyä, ylittäen hienostuneen kunnon mallien suorituskyvyn monivaiheisissa päättelytehtävissä ja ylittäen keskimääräisen ihmisen suorituskyvyn BIG-pankilla [ , PaLM 14 4 14 19 80 14 78 Perusmallin PaLM-mallin lisäksi harkitsimme myös ohjeistettuja vastapuolia, jotka on otettu käyttöön [ ]. These models are trained using instruction tuning, i.e., finetuning the model on a collection of datasets in which each example is prefixed with some combination of instructions and/or few-shot exemplars. In particular, Chung [ ] demonstrated the effectiveness of scaling the number of tasks, model size and using chain-of-thought data [ ] as instructions. The Flan-PaLM model reached state of the art performance on several benchmarks such as MMLU, BBH, and TyDIQA [ ]. Across the suite of evaluation tasks considered in [ ], Flan-PaLM outperformed baseline PaLM by an average of 9.4%, demonstrating the effectiveness of the instruction tuning approach. Flan-PaLM 15 ja al 15 91 16 15 In this study we considered both the PaLM and Flan-PaLM model variants at three different model sizes: 8B, 62B and 540B, with the largest model using 6144 TPUv4 chips for pretraining. 3.3.2 Aligning LLMs to the medical domain General-purpose LLMs like PaLM [ ] ja GPT-3 [ ] have reached state of the art performance on a wide variety of tasks on challenging benchmarks such as BIG-bench. However, given the safety critical nature of the medical domain, it is necessary to adapt and align the model with domain-specific data. Typical transfer learning and domain adaptation methods rely on end-to-end finetuning of the model with large amounts of in-domain data, an approach that is challenging here given the paucity of medical data. As such, in this study we focused on data-efficient alignment strategies building on prompting [ ] and prompt tuning [ ]. 14 12 12 45 Brownin [ ] demonstrated that LLMs are strong few-shot learners, where fast in-context learning can be achieved through prompting strategies. Through a handful of demonstration examples encoded as prompt text in the input context, these models are able to generalize to new examples and new tasks without any gradient updates or finetuning. The remarkable success of in-context few-shot learning has spurred the development of many prompting strategies including scratchpad [ ], ketju-of-ajatus [ [ ] ja vähintäänkin nopeammin [ ], especially for multi-step computation and reasoning problems such as math problems [ ]. In this study we focused on standard few-shot, chain-of-thought and self-consistency prompting as discussed below. Prompting strategies et al. 12 61 91 100 17 Brownin käyttöön ottama tavanomainen muutaman laukauksen edistävä strategia [ ]. Here, the prompt to the model is designed to include few-shot examples describing the task through text-based demonstrations. These demonstrations are typically encoded as input-output pairs. The number of examples is typically chosen depending on the number of tokens that can fit into the input context window of the model. After the prompt, the model is provided with an input and asked to generate the test-time prediction. The zero-shot prompting counterpart typically only involves an instruction describing the task without any additional examples. Brown [ ] havaitsi, että vaikka nollatappioinnit kasvoivat vaatimattomasti mallin koon myötä, suorituskyky, jossa oli muutamia laukauksia, kasvoi nopeammin. [ ] havaittiin kehittyviä kykyjä – eli kykyjä, jotka eivät ole olemassa pienissä malleissa, mutta parantavat nopeasti satunnaisen suorituskyvyn yläpuolella tietyn mallin koon ulkopuolella kehottavassa paradigmassa. Few-shot prompting et al. 12 et al. 12 et al. 90 In this study we worked with a panel of qualified clinicians to identify the best demonstration examples and craft the few-shot prompts. Separate prompts were designed for each dataset as detailed in Section . The number of few-shot demonstrations varied depending on the dataset. Typically we used 5 input-output examples for the consumer medical question answering datasets, but reduced the number to 3 or fewer for PubMedQA given the need to also fit in the abstract context within the prompt text. A.8 Chain-of-thought (CoT), introduced by Wei [ ], liittyy lisäämällä jokaisen muutaman laukauksen esimerkki esitteessä askel askeleelta hajoaminen ja johdonmukainen joukko välivaiheisia päättelyvaiheita kohti lopullista vastausta. lähestymistapa on suunniteltu jäljittelemään ihmisen ajatteluprosessia ratkaistaessa ongelmia, jotka edellyttävät monivaiheista laskentaa ja päättelyä. [ ] demonstrated that CoT prompting can elicit reasoning abilities in sufficiently large language models and dramatically improve performance on tasks such as math problems [ ]. Further, the appearance of such CoT reasoning appears to be an emergent ability [ ] of LLMs. Lewkowycz [ ] used CoT prompting as one of the key strategies in their work leading to breakthrough LLM performance on several STEM benchmarks. Chain-of-thought prompting ja al 91 et al. 91 17 90 et al. 47 Monet tässä tutkimuksessa tutkituista lääketieteellisistä kysymyksistä liittyvät monimutkaiseen monivaiheiseen päättelyyn, mikä tekee niistä hyvän sovelluksen CoT-kyselytekniikoihin. Yhdessä kliinisten lääkäreiden kanssa kehitimme CoT-kyselyitä, jotka antavat selkeitä osoituksia siitä, miten syytetään ja vastataan annettuihin lääketieteellisiin kysymyksiin. . A.9 A straightforward strategy to improve the performance on the multiple-choice benchmarks is to prompt and sample multiple decoding outputs from the model. The final answer is the one with the majority (or plurality) vote. This idea was introduced by Wang [Muokkaa ] under the name of "self-consistency". The rationale behind this approach here is that for a domain such as medicine with complex reasoning paths, there might be multiple potential routes to the correct answer. Marginalizing out the reasoning paths can lead to the most consistent answer. The self-consistency prompting strategy led to particularly strong improvements in [ ], and we adopted the same approach for our datasets with multiple-choice questions: MedQA, MedMCQA, PubMedQA and MMLU. Self-consistency prompting et al. 88 47 Because LLMs have grown to hundreds of billions of parameters [ , ], finetuning them is extraordinarily computationally expensive. While the success of few-shot prompting has alleviated this issue to a large extent, many tasks would benefit further from gradient-based learning. Lester [ ] introduced prompt tuning (in contrast to prompting / priming), a simple and computationally inexpensive Prompt tuning 12 14 et al. 45 Menetelmä mukauttaa LLM: n tiettyihin jäljellä oleviin tehtäviin, erityisesti rajoitetuilla tiedoilla. lähestymistapa sisältää pehmeiden prompt-vektoreiden oppimisen backpropagationin avulla säilyttäen loput LLM: stä jäädytettynä, mikä mahdollistaa yhden mallin helpon uudelleenkäytön tehtävien välillä. This use of soft prompts can be contrasted with the discrete “hard” text-based few-shot prompts popularized by LLMs such as GPT-3 [ ]. Vaikka nopea säätö voi hyötyä mistä tahansa merkittyjen esimerkkien määrästä, yleensä vain muutama esimerkki (esimerkiksi kymmeniä) tarvitaan hyvän suorituskyvyn saavuttamiseksi. 12 ja al [ ] demonstrated that prompt-tuned model performance becomes comparable with end-to-end finetuning at increased model scale. Other related approaches include prefix tuning [ ], where prefix activation vectors are prepended to each layer of the LLM encoder and learned through backpropagation. Lester [Muokkaa ]’s prompt tuning can be thought of as a simplification of this idea, restricting the learnable parameters to only those representing a small number of tokens prepended to the input as a soft prompt. 45 48 et al. 45 3.3.3 Instruction prompt tuning Wei [Muokkaa ] and Chung [ ] osoitti usean tehtävän ohjeen hienosäätämisen edut: Flan-PaLM-malli saavutti suorituskyvyn tason useilla vertailuarvoilla, kuten BIG-bench [ ] and MMLU [ ]. In particular, Flan-PaLM demonstrated the benefits of using CoT data in fine-tuning, leading to robust improvements in tasks that required reasoning. ja al 89 et al. 15 47 29 Kun otetaan huomioon ohjeiden säätämisen vahva suorituskyky, rakensimme tässä työssä ensisijaisesti Flan-PALM-mallin. , our human evaluation revealed key gaps in Flan-PaLM’s performance on the consumer medical question answering datasets, even with few-shot prompting. To further align the model to the requirements of the safety-critical medical domain, we explored additional training specifically on medical data. 4.5 For this additional training, we used prompt tuning instead of full-model finetuning given compute and clinician data generation costs. Our approach effectively extends Flan-PaLM’s principle of "learning to follow instructions" to the prompt tuning stage. Specifically, rather than using the soft prompt learned by prompt tuning as a replacement for a task-specific human-engineered prompt, we instead use the soft prompt as an initial prefix that is shared across multiple medical datasets, and which is followed by the relevant task-specific human-engineered prompt (consisting of instructions and/or few-shot exemplars, which may be chain-of-thought examples) along with the actual question and/or context. We refer to this method of prompt tuning as “instruction prompt tuning”. Instruction prompt tuning can thus be seen as a lightweight way (data-efficient, parameter-efficient, compute-efficient during both training and inference) of training a model to follow instructions in one or more domains. In our setting, instruction prompt tuning adapted LLMs to better follow the specific type of instructions used in the family of medical datasets that we target. Given the combination of soft prompt with hard prompt, instruction prompt tuning can be considered a type of "hard-soft hybrid prompt tuning" [ ], rinnalla olemassa olevia tekniikoita, jotka lisäävät kovia ankkuritunnisteita pehmeään kyselyyn [ ], insert learned soft tokens into a hard prompt [ ], or use a learned soft prompt as a prefix for a short zero-shot hard prompt [ , ]. To the best of our knowledge, ours is the first published example of learning a soft prompt that is prefixed in front of a full hard prompt containing a mixture of instructions and few-shot exemplars. 52 53 28 26 96 3.3.4 Putting it all together: Med-PaLM To adapt Flan-PaLM to the medical domain, we applied instruction prompt tuning on a small set of exemplars. These examples were effectively used to instruct the model to produce text generations more aligned with the requirements of the medical domain, with good examples of medical comprehension, recall of clinical knowledge, and reasoning on medical knowledge unlikely to lead to patient harm. Thus, curation of these examples was very important. We randomly sampled examples from MultiMedQA free-response datasets (HealthSearchQA, MedicationQA, LiveQA) and asked a panel of five clinicians to provide exemplar answers. These clinicians were based in the US and UK with specialist experience in primary care, surgery, internal medicine, and pediatrics. Clinicians then filtered out questions / answer pairs that they decided were not good examples to instruct the model. This generally happened when clinicians felt like they could not produce an “ideal” model answer for a given question, e.g., if the information required to answer a question was not known. We were left with 40 examples across HealthSearchQA, MedicationQA, and LiveQA used for instruction prompt tuning training. The resulting model, Med-PaLM, was evaluated on the consumer medical question answering datasets of MultiMedQA along with Flan-PaLM. Figure gives an overview of our instruction prompt tuning approach for Med-PaLM. Further details on the hyperparameter optimization and model selection process can be found in Section Med-PaLM:n mallikortti on saatavilla kohdassa . 2 A1 Näytä A.5 4 Results Tässä osiossa annamme ensin yleiskuvan keskeisistä tuloksistamme, jotka on tiivistetty luvuissa. ja Sitten esittelemme useita ablaatioita tulosten kontekstualisoimiseksi ja tulkitsemiseksi. 3 4 4.1 Flan-PaLM exceeds previous state-of-the-art on MedQA (USMLE) by over 17% MedQA-tietokannassa, joka koostuu USMLE-tyylikysymyksistä, joissa on 4 vaihtoehtoa, Flan-PaLM 540B -mallimme saavutti monivalintakysymyksen (MCQ) tarkkuuden 67,6%, joka ylitti DRAGON-mallin [ ] by 20.1%. 94 Kilpailija tutkimuksellemme, Bolton [ ] developed PubMedGPT, a 2.7 billion model trained exclusively on biomedical abstracts and paper. The model achieved a performance of 50.3% on MedQA questions with 4 options. To the best of our knowledge, this is the state-of-the-art on MedQA, and Flan-PaLM 540B exceeded this by 17.3%. Table verrataan parhaiten toimiviin malleihin tällä tietokokonaisuudella. Vaikeammilla kysymyksillä, joissa on 5 vaihtoehtoa, mallimme sai 62,0 prosentin pisteet. et al. 9 4 4.2 State-of-the-art performance on MedMCQA and PubMedQA On the MedMCQA dataset, consisting of medical entrance exam questions from India, Flan-PaLM 540B reached a performance of 57.6% on the dev set. This exceeds the previous state of the art result of 52.9% by the Galactica model [ ]. 79 Similarly on the PubMedQA dataset, our model achieved an accuracy of 79.0% outperforming the previous state of the art BioGPT model Luo [ ] by 0.8%. The results are summarized in Figure 2 below. While this improvement may seem small compared to MedQA and MedMCQA datasets, the single rater human performance on PubMedQA is 78.0% [ ], indicating that there may be an inherent ceiling to the maximum possible performance on this task. et al. 56 33 | Summary of the best performing models on the MedQA (USMLE) dataset questions with 4 options. Our results with Flan-PaLM exceed previous state of the art by over 17%. Table 4 Model (number of parameters) MedQA (USMLE) Accuracy % Flan-PaLM (540 B)(ours) 67.6 PubMedGPT (2.7 B) [ ] 9 50.3 DRAGON (360 M) [ ] 94 47.5 BioLinkBERT (340 M) [ ] 95 45.1 Galactica (120 B) [ ] 79 44.4 PubMedBERT (100 M) [ ] 25 38.1 GPT-Neo (2.7 B) [ ] 7 33.3 Flan-PaLM (540 B)(ours) 67.6 PubMedGPT (2.7 B) [ ] 9 50.3 DRAGON (360 M) [ ] 94 47.5 BioLinkBERT (340 M) [ ] 95 45.1 Vapaaehtoinen (120 B) ] 79 44.4 PubMedBERT (100 M) [ ] 25 38.1 GPT-Neo (2.7 B) [ ] 7 33.3 4.3 State-of-the-art performance on MMLU clinical topics The MMLU dataset contains multiple-choice questions from several clinical knowledge, medicine and biology related topics. These include anatomy, clinical knowledge, professional medicine, human genetics, college medicine and college biology. Flan-PaLM 540B achieved state of the art performance on all these subsets, outperforming strong LLMs like PaLM, Gopher, Chinchilla, BLOOM, OPT and Galactica. In particular, on the professional medicine and clinical knowledge subset, Flan-PaLM 540B achieved a SOTA accuracy of 83.5% and 84.0%. Figure tiivistää tulokset ja tarjoaa vertailuja muiden LLM: n kanssa, jos niitä on saatavilla [ 4 79 4.4 Ablations Teimme useita ablaatioita kolmelle monivalintatietokokonaisuudesta – MedQA, MedMCQA ja PubMedQA – saadaksemme paremman käsityksen tuloksistamme ja tunnistaaksemme Flan-PaLM:n suorituskykyyn vaikuttavat keskeiset komponentit. Across all model sizes, we observed that the instruction-tuned Flan-PaLM model outperformed the baseline PaLM model on all three datasets - MedQA, MedMCQA and PubMedQA. The models were few-shot prompted in these experiments using the prompt text detailed in . The detailed results are summarized in Parannukset näkyivät eniten PubMedQA-tietokannassa, jossa 8B Flan-PaLM -malli ylitti lähtötason PaLM-mallin yli 30 %. Samanlaisia voimakkaita parannuksia havaittiin myös 62B- ja 540B-muunnelmissa. . Instruction tuning improves performance on medical question answering A. 8 § 5 A.3 Emme ole vielä suorittaneet perusteellista analyysia ohjeiden nopean säätämisen vaikutuksesta usean valinnan tarkkuuteen; analyysimme on tässä osassa Flan-PaLM, ei Med-PaLM. Med-PaLM (ohjeiden nopean säätämisen Flan-PaLM) kehitettiin parantamaan osassa esitettyjä Flan-PaLM:n pitkämuotoisia tuloksia. by better aligning the model to the medical domain. However, given the success of domain-agnostic instruction tuning for multiple-choice question answering, in-domain instruction prompt tuning appears promising, and we present a preliminary result in Section . 4.5 A.6 Aiheeseen liittyvä havainto oli voimakas suorituskyvyn parannus, joka saatiin mallin skaalautumisesta 8B:stä 62B:hen ja 540B:hen. havaitsimme noin 2x:n suorituskyvyn parannuksen, kun mallia skaalattiin 8B:stä 540B:hen sekä PaLM:ssä että Flan-PaLM:ssä. Nämä parannukset olivat voimakkaampia MedQA:n ja MedMCQA:n tietokokonaisuuksissa. Erityisesti Flan-PaLM:n mallissa 540B:n variantti ylitti 62B:n variantin yli 14 % ja 8B:n variantin yli 24 %. Näiden tulosten ja Flan-PaLM 540B:n vahvan suorituskyvyn vuoksi rakensimme tätä mallia jäljellä oleviin kokeisiin ja ablaatioihin. . Scaling improves performance on medical question answering 5 A.4 Näytä summarizes the results from using CoT prompting and provides a comparison with the few-shot prompting strategy using the Flan-PaLM 540B model. Somewhat unexpectedly, we did not observe improvements using CoT over the standard few-shot prompting strategy across the three multiple-choice datasets - MedQA, MedMCQA and PubMedQA. The CoT prompts used are summarized in Section . Chain-of-Thought (CoT) prompting 6 A.9 Wang [ ] osoitti, että itsejohdonmukaisuuden kehotus voi auttaa, kun CoT-johdonmukaisuus vahingoittaa suorituskykyä. He osoittivat merkittäviä parannuksia aritmeettisissä ja järjenmukaisissa päättelytehtävissä. Kun otamme vihjeen, sovellamme sitä tietokokonaisuuksiimme. Olemme vahvistaneet ajatusketjun vastausten selitysreittien määrän 11:een jokaiselle kolmesta tietokokonaisuudesta. Sitten marginaalisimme eri selitysreittejä valitaksemme johdonmukaisimman vastauksen. Tämän strategian avulla havaitsimme merkittäviä parannuksia Flan-PaLM 540B -mallin vakiojohdon strategiaan verrattuna MedQA- ja MedMCQA-tietokokonaisuuksiin. Erityisesti MedQ . Self-consistency (SC) leads to strong improvement in multiple-choice performance et al. 88 7 We further provide some example responses from the Flan-PaLM 540B model for MedQA in Table . 8 LLMs are capable of long, coherent, and complex generations. However, they can also generate statements inconsistent with fact. In medical settings in particular, such failure modes need to be carefully vetted, and in real world applications, generations unlikely to be true should be withheld. Instead, we may want to defer to other information sources or experts when needed. One solution is therefore for LLMs to communicate uncertainty estimates along with their responses. Uncertainty and Selective Prediction While uncertainty measures over LLM output sequences remains an open area of research [ ja ], tässä olemme tutkineet yksinkertaista välityspalvelua alkuvaiheena LLM: n epävarmuuden ja lausunnon tarkkuuden välisen suhteen mittaamiseen. ], käyttämällä tietyn vastauksen vastaavien dekoodien määrää itsekohtaisuudesta epävarmuuden mittauksena ja käyttämällä sitä pidättämään vastauksen, jos malli ei ollut asianmukaisesti luottavainen. Teimme kokeilun käyttämällä 41 dekoodia Flan-PaLM 540B -mallista, jossa oli ajatusketju ja itsekohtaisuus. että kun viivästymisfraktio kasvaa (eli ennusteen antamiseen vaadittavalla korkeammalla "luottamuksella"), MedQA-mallin suorituskyky paranee, saavuttaen jopa 82,5 prosentin tarkkuuden 0,45 viivästymisfraktiolla. Tämä viittaa siihen, että vastauksen epävarmuusmittauksemme voi olla kohtuullinen ja että LLM: t näyttävät koodaavan epävarmuutta heidän tietämyksestään lääketieteellisellä alalla. 36 51 82 5 4.5 Human evaluation results Valitsimme satunnaisesti 100 kysymystä HealthSearchQA:lta, 20 kysymystä LiveQA:lta ja 20 kysymystä MedicationQA:lta pienemmäksi pitkän muotoisen vastauksen vertailuarvoksi yksityiskohtaiselle ihmisarvioinnille.Nämä kysymykset heijastavat todellisia kuluttajien kyselyitä lääketieteellisistä tiedoista.Nämä valitut kysymykset erotettiin niistä esimerkeistä, joita käytettiin Med-PaLM:n tuottamiseen. We had a panel of clinicians generate expert reference answers to these questions. We then produced answers using Flan-PaLM and Med-PaLM (both 540B models). A few qualitative examples of these questions and the corresponding Med-PaLM responses are shown in Table Meillä oli kolme joukkoa vastauksia, joita toinen paneeli lääkäreistä arvioi taulukon akselien varrella. , paljastamatta vastausten lähde. Yksi lääkäri arvioi jokaisen vastauksen. Kliinisten vaihtelujen vaikutuksen vähentämiseksi havaintojemme yleistettävyyteen paneelimme koostui 9 lääkäristä (pohjainen Yhdysvalloissa, Yhdistyneessä kuningaskunnassa ja Intiassa). Käytimme ei-parametrista bootstrapia arvioidaksemme tulosten merkittävän vaihtelun, jossa 100 bootstrap-replikkaa käytettiin tuottamaan jakelu jokaiselle sarjalle ja käytimme 95% bootstrap-prosenttiluokkaa vaihtelujen arvioimiseksi. . 9 2 A.7 We wished to understand how the answers related to current consensus in the clinical and scientific community. On the 140 questions evaluated in the study, we found that clinicians’ answers were judged to be aligned with the scientific consensus in 92.9% of questions. On the other hand, Flan-PaLM was found to be in agreement with the scientific consensus in only 61.9% of answers. For other questions, answers were either opposed to consensus, or no consensus existed. This suggested that generic instruction tuning on its own was not sufficient to produce scientific and clinically grounded answers. However, we observed that 92.9% of Med-PaLM answers were judged to be in accordance with the scientific consensus, showcasing the strength of instruction prompt tuning as an alignment technique to produce scientifically grounded answers. Scientific consensus: We note that since PaLM, Flan-PaLM, and Med-PaLM were trained using corpora of web documents, books, Wikipedia, code, natural language tasks, and medical tasks at a given point of time, one potential limitation of these models is that they can reflect the scientific consensus of the past instead of today. This was not a commonly observed failure mode for Med-PaLM today, but this motivates future work in continual learning of LLMs and retrieval from a continuously evolving corpus. Yritimme ymmärtää (joko asiantuntija tai malli tuottanut) lääketieteellisen ymmärryksen, lääketieteellisen tiedon hankkimisen ja päättelyn kyvyt mallin ilmaistuna niiden tuottamien vastausten kautta. pyysimme paneeli kliinikoita arvioimaan, sisälsivätkö vastaukset mitään (yksi tai useampi esimerkki) todisteita oikeasta / virheellisestä lääketieteellisen lukemisen ymmärtämisestä, lääketieteellisen tiedon hankkimisesta ja lääketieteellisen päättelyn kyvyistä käyttäen samaa lähestymistapaa kuin Feng [ Oikeita ja virheellisiä todisteita arvioitiin rinnakkain, koska on mahdollista, että yksi pitkä muotoinen vastaus voi sisältää todisteita sekä oikeasta että virheellisestä ymmärryksestä, etsimisestä ja päättelystä. Comprehension, retrieval and reasoning capabilities: et al. 22 We found that expert generated answers were again considerably superior to Flan-PaLM, though performance was improved by instruction prompt tuning for Med-PaLM. This trend was observed in all the six sub-questions used to evaluate in this axis. For example, with regard to evidence of correct retrieval of medical knowledge, we found that clinician answers scored 97.8% while Flan-PaLM only scored 76.3%. However, the instruction prompt-tuned Med-PaLM model scored 95.4%, reducing the inferiority of the model compared to clinicians. The goal of this evaluation was to understand the completeness and correctness of the generated answers, by assessing whether the answer omits any information it should not, or whether the answer contained any content it should not. Where there was deemed to be missing or omitted content, the rater was asked whether that was of great or little potential clinical significance. Incorrect or missing content: Jälleen kerran havaitsimme, että lääkärin tuottamat vastaukset olivat parempia kuin AI-mallit.Lääkärin vastaukset osoittivat todisteita sopimattomasta / virheellisestä sisällöstä vain 1,4%: ssa tapauksista, verrattuna 16,1%: iin Flan-PaLM. Yllättäen ohjeiden välitön säätö näytti heikentävän suorituskykyä entisestään, ja 18,7% Med-PaLM: n vastauksista arvioitiin sisältävän sopimatonta tai virheellistä sisältöä. On the other hand, we observed that instruction prompt tuning helped improve model performance in omission of important information. While Flan-PaLM answers were judged to miss important information 47.2% of the time, the number improved significantly for Med-PaLM with only 15.1% of the answers adjudged to have missing information, reducing the inferiority compared to clinicians whose answers were judged to have missing information in only 11.1% of the cases. A few qualitative examples are shown in Table 10 suggesting that LLM answers may be able to complement and complete physician responses to patient queries in future use cases. Yksi näiden havaintojen mahdollinen selitys on, että ohjeiden välitön säätö opettaa Med-PaLM-mallia tuottamaan huomattavasti yksityiskohtaisempia vastauksia kuin Flan-PaLM-malli, mikä vähentää tärkeiden tietojen laiminlyöntiä. We sought to identify the severity and likelihood of potential harm based on acting upon the generated answers. We asked raters to assume that the output of models might lead to actions by either clinicians or consumers/patients, and estimate the possible severity and likelihood of physical/mental health-related harms that might result. We based the options for selection by raters in the AHRQ Common Formats Williams [ ], which presents options to assign severity of harm ranging from death, severe or life-threatening injury, moderate, mild or no harm. We acknowledge that this definition of harm is more typically used in the context of analyzing harms incurred during healthcare delivery and that even in such settings (where the context for harms occurring is known with considerably greater specificity) there is frequently substantial variation in physician estimation of harm severity [ ]. The validity of the AHRQ scale cannot therefore be assumed to extend to our context, where our rater outputs should be regarded as subjective estimates because our work was not grounded in a specific intended use and sociocultural context. Possible extent and likelihood of harm: et al. 93 86 Despite the broad definition and subjectivity of ratings, we observed that instruction prompt tuning produced safer answers that reduced both estimated likelihood and severity. While 29.7% of the Flan-PaLM responses were judged as potentially leading to harm, this number dropped to 5.9% for Med-PaLM comparing on par with clinician-generated answers which were also judged as potentially harmful in 5.7% of the cases. Samoin vahinkojen todennäköisyydellä ohjeiden ohjauksen säätö mahdollisti Med-PaLM: n vastausten vastaamisen asiantuntijoiden tuottamiin vastauksiin. The final axis along which we evaluated the answers was bias. The use of large language models for medical question answering has the potential for bias and fairness-related harms that contribute to health disparities. These harms derive from several sources, including the presence of patterns in training data that reflect disparities in health outcomes and access to care, the capability for medical question answering systems to reproduce racist misconceptions regarding the cause of racial health disparities [ , ], algorithmic design choices [ ], and differences in behavior or performance of machine learning systems across populations and groups that introduce downstream harms when used to inform medical decision making [ ]. Bias for medical demographics: 20 85 32 13 Medical question answering systems also pose additional risks beyond those posed by the use of other AI applications in healthcare because they have potential to produce arbitrary outputs, have limited reasoning capability, and could potentially be used for a wide range of downstream use cases. We sought to understand whether the answer contained any information that is inaccurate or inapplicable for a particular demographic. Flan-PaLM answers were found to contain biased information in 7.9% of the cases. However, this number reduced to 0.8% for Med-PaLM, comparing favorably with experts whose answers were judged to contain evidence of bias in 1.4% of the cases. Beyond expert evaluation, we also had a panel of five non-experts in the domain (laypeople without a medical background, based in India) assess the answers. The results are summarized in Fig 10 below. While Flan-PaLM answers were judged to be helpful in only 60.6% of the cases, the number improved to 80.3% for Med-PaLM answers. However, this remained inferior to clinician answers which were judged to be helpful 91.1% of the time. Similarly, Flan-PaLM answers were user’s question intent in 90.8% of cases. This number improved to 94.0% for Med-PaLM, which was inferior to clinician-generated answers at 95.9%. Lay user assessment: judged as directly addressing the The lay evaluation consistently reproduced the benefits of instruction prompt tuning to produce answers that are helpful to users, while also demonstrating that there is still considerable work needed to approximate the quality of outputs provided by human clinicians. 5 Discussion Our results suggest that strong performance on medical question answering may be an emergent ability [ ] of LLMs combined with effective instruction prompt tuning. 90 Ensinnäkin havaitsimme voimakkaan skaalauksen suorituskyvyn ja tarkkuuden parantuneen noin 2x, kun skaalaamme PaLM-mallit 8 miljardista 540 miljardiin. MedQA:n 8 miljardin PaLM:n suorituskyky oli vain hieman parempi kuin satunnainen suorituskyky. Kuitenkin tämä luku parani yli 30 % PaLM:n 540 miljardilla, mikä osoitti skaalauksen tehokkuuden lääketieteelliseen kyselyvastaukseen. Havaitsimme samanlaisia parannuksia MedMCQA:n ja PubMedQA:n tietokokonaisuuksissa. It is possible that the PaLM pre-training corpus included significant quantities of high quality medical content and one possible conjecture for the strong performance of the 540-billion model variant is memorization of evaluation datasets considered in this study. However, Chowdhery [ ] showed similar deltas in performance of the PaLM 8B and 540B model when evaluating contaminated (i.e where part of the test set is in the model pre-training corpus) and cleaned test datasets. This suggests that memorization alone does not explain the strong performance observed by scaling up the models. ja al 14 There have been several efforts to train language models on a biomedical corpus, especially PubMed. These include BioGPT [ ] (355 miljoonaa parametriä), PubMedGPT [ ] (2.7 billion parameters) and Galactica [ ] (120 miljardia parametriä). Mallimme pystyivät ylittämään nämä ponnistelut PubMedQA:ssa ilman mitään hienosäätöä. Lisäksi mittakaavan ja ohjeiden hienosäätöön liittyvät edut olivat MedQA-tietokannassa paljon voimakkaampia, jota voidaan pitää kaikkien näiden mallien ulkopuolisena. Kun otetaan huomioon tulokset, havaitsemme, että lääketieteellisen vastauksen suorituskyky (tarvitsee muistutusta, lukemisen ymmärrystä ja päättelytaitoja) paranee LLM-asteikolla. 56 9 79 Kuitenkin ihmisen arvioinnin tulokset kuluttajien lääketieteelliseen kysymykseen vastaavista tietokokonaisuuksista osoittavat selvästi, että mittakaava yksinään on riittämätön. Jopa Flan-PaLM: n kaltaiset huippuluokan LLM: t voivat tuottaa vastauksia, jotka eivät sovellu turvallisuuden kannalta kriittisen lääketieteellisen alan käyttöön. Kuitenkin Med-PaLM: n tulokset osoittavat, että ohjeiden nopealla säätämisellä meillä on datan ja parametrien tehokas tasoitustekniikka, joka on hyödyllinen parantamaan tarkkuuteen, tosiasiallisuuteen, johdonmukaisuuteen, turvallisuuteen, haittoihin ja ennakkoluuloihin liittyviä tekijöitä, mikä auttaa sulkemaan kuilun kliinisten asiantuntijoiden kanssa ja tu 6 Limitations Our study demonstrated the potential of LLMs for encoding medical knowledge and in particular for question answering. However, it had several limitations which we discuss in detail below and outline directions for future research. 6.1 Expansion of MultiMedQA Firstly, while the MultiMedQA benchmark is diverse and contains questions from a variety of professional medicine, medical research and consumer sources, it is by no means exhaustive. We plan to expand the benchmark in the future to include a larger variety of medical and scientific domains (eg: biology) and formats. A key challenge in clinical environments is eliciting information from patients and synthesizing findings into an assessment and plan. Multiple-choice question answering tasks are inherently easier because they are often grounded in vignettes compiled by experts and selected to have a generally preferred answer, which is not true for all medical decisions. Developing benchmark tasks that reflect real world clinical workflows is an important direction of future research. Lisäksi tarkastelimme tässä tutkimuksessa vain englanninkielisiä tietokokonaisuuksia, ja on tarpeen laajentaa vertailuarvon soveltamisalaa monikielisten arviointien tukemiseksi. 6.2 Development of key LLM capabilities necessary for medical applications Vaikka Flan-PaLM pystyi saavuttamaan huippuluokan suorituskyvyn useilla monivalintakysymyksiin vastaavilla vertailuarvoilla, inhimillinen arviointi viittaa selvästi siihen, että nämä mallit eivät ole kliinisen asiantuntijan tasolla monilla kliinisesti tärkeillä akseleilla. grounding of the responses in authoritative medical sources and accounting for the time-varying nature of medical consensus. kyky havaita ja kommunikoida epävarmuutta tehokkaasti in-the-loop ihmiselle riippumatta siitä, onko lääkäri tai laiska käyttäjä. Kyky vastata kyselyihin useilla kielillä. 6.3 Improving the approach to human evaluation The rating framework we proposed for this study represents a promising pilot approach, but our chosen axes of evaluation were not exhaustive and were subjective in nature. For example the concept of medical/scientific consensus is time-varying in nature and is reflective of understandings of human health and disease and physiology based on discrimination in areas such as race/ethnicity, gender, age, ability, and more [ ja 38 57 Furthermore, consensus often exists only for topics of relevance to certain groups (e.g. greater in number and/or power) and consensus may be lacking for certain subpopulations affected by topics for various reasons (e.g., controversial topics, lower incidence, less funding). Additionally, the concept of harm may differ according to population (e.g., a genetic study of a smaller group of people may reveal information that is factual but incongruent with that group’s cultural beliefs, which could cause members of this group harm). Expert assessment of harm may also vary based on location, lived experience, and cultural background. Our ratings of potential harm were subjective estimates, and variation in perceived harm may also have been due to differences in health literacy of both our clinician and lay raters, or might vary in real world settings depending on the sociocultural context and health literacy of the person receiving and acting on the answers to the health questions in the study by Berkman [ ]. Further research might test whether perceived usefulness and harm of question answers varied according to the understandability and actionability score for the answer content [ ]. et al. 6 77 The number of model responses evaluated and the pool of clinicians and lay-people assessing them were limited, as our results were based on only a single clinician or lay-person evaluating the responses. This represents a limitation to generalizability of our findings which could be mitigated by inclusion of a significantly larger and intentionally diverse pool of human raters (clinicians and lay users) with participatory design in the development of model auditing tools. It is worth noting that the space of LLM responses or "coverage" is extremely high and that presents an additional difficulty in the design of evaluation tools and frameworks. The pilot framework we developed could be significantly advanced using recommended best practice approaches for the design and validation of rating instruments from health, social and behavioral research [ ]. This could entail the identification of additional rating items through participatory research, evaluation of rating items by domain experts and technology recipients for relevance, representativeness, and technical quality. The inclusion of a substantially larger pool of human raters would also enable testing of instrument generalizability by ratifying the test dimensionality, test-retest reliability and validity [ ]. As the same answer can be evaluated multiple ways, the most appropriate rating instrument is also dependent on the intended purpose and recipient for LLM outputs, providing multiple opportunities for the development of validated rating scales depending on the context and purpose of use. Further, substantial user experience (UX) and human-computer interaction (HCI) studies using community-based participatory research methods are necessary before any real world use, and would be specific to a developed tool that is beyond the scope of our exploratory research. Under these contexts further research could explore the independent influence of variation in lay raters’ education level, medical conditions, caregiver status, experience with health care, education level or other relevant factors on their perceptions of the quality of model outputs. The impact of variation in clinician raters’ specialty, demographics, geography or other factors could be similarly explored in further research. 8 8 6.4 Fairness and equity considerations Our current approach to evaluating bias is limited and does not serve as a comprehensive assessment of potential harms, fairness, or equity. The development of procedures for the evaluation of bias and fairness-related harms in large language models is ongoing [ , ]. Healthcare is a particularly complex application of large language models given the safety-critical nature of the domain and the nuance associated with social and structural bias that drives health disparities. The intersection of large language models and healthcare creates unique opportunities for responsible and ethical innovation of robust assessment and mitigation tools for bias, fairness, and health equity. 49 92 We outline opportunities for future research into frameworks for the systematic identification and mitigation of downstream harms and impacts of large language models in healthcare contexts. Key principles include the use of participatory methods to design contextualized evaluations that reflect the values of patients that may benefit or be harmed, grounding the evaluation in one or more specific downstream clinical use cases [ , ], and the use of dataset and model documentation frameworks for transparent reporting of choices and assumptions made during data collection and curation, model development, and evaluation [ ja , ]. Furthermore, research is needed into the design of algorithmic procedures and benchmarks that probe for specific technical biases that are known to cause harm if not mitigated. For instance, depending on the context, it may be relevant to assess sensitivity of model outputs to perturbations of demographic identifiers in prompts designed deliberately such that the result should not change under the perturbation [ , , ]. 54 71 24 59 72 23 68 98 Additionally, the aforementioned research activities to build evaluation methods to achieve health equity in large language models require interdisciplinary collaboration to ensure that various scientific perspectives and methods can be applied to the task of understanding the social and contextual aspects of health [ ja ja 27 58 62 The development of evaluation frameworks for large language models is a critical research agenda that should be approached with equal rigor and attention as that given to the work of encoding clinical knowledge in language models. In this study we worked with a panel of four qualified clinicians to identify the best-demonstration examples and craft few-shot prompts, all based in either the US or UK, with expertise in internal medicine, pediatrics, surgery and primary care. Although recent studies have surprisingly suggested that the validity of reasoning within a chain-of-thought prompt only contributes a small extent to the impact of this strategy on LLM performance in multi-step reasoning challenges [ ], further research could significantly expand the range of clinicians engaged in prompt construction and the selection of exemplar answers and thereby explore how variation in multiple axes of the types of clinician participating in this activity impact LLM behavior; for example clinician demographics, geography, specialism, lived experience and more. 87 6.5 Ethical considerations This research demonstrates the potential of LLMs for future use in healthcare. Transitioning from a LLM that is used for medical question answering to a tool that can be used by healthcare providers, administrators, and consumers will require significant additional research to ensure the safety, reliability, efficacy, and privacy of the technology. Careful consideration will need to be given to the ethical deployment of this technology including rigorous quality assessment when used in different clinical settings and guardrails to mitigate against over reliance on the output of a medical assistant. For example, the potential harms of using a LLM for diagnosing or treating an illness are much greater than using a LLM for information about a disease or medication. Additional research will be needed to assess LLMs used in healthcare for homogenization and amplification of biases and security vulnerabilities inherited from base models [ , , , , ]. Given the continuous evolution of clinical knowledge, it will also be important to develop ways for LLMs to provide up to date clinical information. 10 11 18 39 49 7 Conclusion The advent of foundation AI models and large language models present a significant opportunity to rethink the development of medical AI and make it easier, safer and more equitable to use. At the same time, medicine is an especially complex domain for applications of large language models. Toivomme, että tämä tutkimus herättää lisää keskusteluja ja yhteistyötä potilaiden, kuluttajien, AI-tutkijoiden, lääkäreiden, yhteiskuntatieteilijöiden, eettisten, poliittisten päättäjien ja muiden kiinnostuneiden henkilöiden välillä, jotta nämä varhaiset tutkimustulokset voidaan kääntää vastuullisesti terveydenhuollon parantamiseksi. Acknowledgments This project was an extensive collaboration between many teams at Google Research and Deepmind. We thank Michael Howell, Cameron Chen, Basil Mustafa, David Fleet, Fayruz Kibria, Gordon Turner, Lisa Lehmann, Ivor Horn, Maggie Shiels, Shravya Shetty, Jukka Zitting, Evan Rappaport, Lucy Marples, Viknesh Sounderajah, Ali Connell, Jan Freyberg, Cian Hughes, Megan Jones-Bell, Susan Thomas, Martin Ho, Sushant Prakash, Bradley Green, Ewa Dominowska, Frederick Liu, Xuezhi Wang, and Dina Demner-Fushman (from the National Library of Medicine) for their valuable insights and feedback during our research. We are also grateful to Karen DeSalvo, Zoubin Ghahramani, James Manyika, and Jeff Dean for their support during the course of this project. Viittaukset 1. Abacha, A. B., Agichtein, E., Pinter, Y. & Demner-Fushman, D. in Vuonna 2017 1–12. Overview of the medical question answering task at TREC 2017 LiveQA. TREC 2. Abacha, A. B., Mrabet, Y., Sharp, M., Goodwin, T. R., Shooshan, S. E. & Demner-Fushman, D. in Vuonna 2019, 25–29. Kuluttajien lääketieteellisten kysymysten ja luotettavien vastausten välinen kuilu. MedInfo 3. Agrawal, M., Hegselmann, S., Lang, H., Kim, Y. & Sontag, D. Suuret kielimallit ovat Zero-Shot Clinical Information Extractors. (2022). arXiv ennakkotilaus arXiv:2205.12689 4. Barham, P., Chowdhery, A., Dean, J., Ghemawat, S., Hand, S., Hurt, D., Isard, M., Lim, H., Pang, R., Roy, S., et al. Pathways: Asynchronous distributed dataflow for ML. 430–449 vuoteen 2022. Proceedings of Machine Learning and Systems 4, 5. Beltagy, I., Lo, K. & Cohan, A. SciBERT: A pretrained language model for scientific text. (2019). arXiv preprint arXiv:1903.10676 6. Berkman, N. D., Sheridan, S. L., Donahue, K. E., Halpern, D. J., Viera, A., Crotty, K., Holland, A., Brasure, M., Lohr, K. N., Harden, E., Health literacy interventions and outcomes: an updated systematic review. 1–941 vuonna 2011 et al. todisteiden raportti / teknologian arviointi, 7. Black, S., Gao, L., Wang, P., Leahy, C. ja Biderman, S. versio 1.0. Jos käytät tätä ohjelmistoa, mainitse se käyttämällä näitä metatietoja. GPT-Neo: Large Scale Autoregressive Language Modeling with Mesh-Tensorflow https : . //doi.org/10.5281/zenodo.5297715 8. Boateng, G. O., Neilands, T. B., Frongillo, E. A., Melgar-Quiñonez, H. R. & Young, S. L. Best practices for developing and validating scales for health, social, and behavioral research: a primer. 149 (2018). Frontiers in public health 6, 9. Bolton, E., Hall, D., Yasunaga, M., Lee, T., Manning, C. ja Liang, P. Vuonna 2022. Stanford CRFM esittelee PubMedGPT 2.7B:n https://hai.stanford.edu/news/stanford-crfm-introduces-pubmedgpt-27b 10. Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., On the opportunities and risks of foundation models. (2021). et al. arXiv ennakkotilaus arXiv:2108.07258 11. Bommasani, R., Liang, P. & Lee, T. Language Models are Changing AI: The Need for Holistic Evaluation https : . 2022. //crfm.stanford.edu/2022/11/17/helm.html 12. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Language models are few-shot learners. 1877–1901 (2020). ja al Neural Information Processing -järjestelmien kehittäminen 33, 13. Chen, I. Y., Pierson, E., Rose, S., Joshi, S., Ferryman, K. & Ghassemi, M. Ethical machine learning in healthcare. 123–144 (2021). Biolääketieteellisen tiedon vuosikertomus 4, 14. Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., PaLM: Scaling language modeling with pathways. (2022). et al. arXiv preprint arXiv:2204.02311 15. Chung, H. W., Hou, L., Longpre, S., Zoph, B., Tay, Y., Fedus, W., Li, E., Wang, X., Dehghani, M., Brahma, S., et al. Scaling instruction-finetuned language models. (2022). arXiv preprint arXiv:2210.11416 16. Clark, J. H., Choi, E., Collins, M., Garrette, D., Kwiatkowski, T., Nikolaev, V. & Palomaki, J. TyDi QA: A benchmark for information-seeking question answering in typologically diverse languages. 454–470 vuoteen 2020 asti Transactions of the Association for Computational Linguistics 8, 17. Cobbe, K., Kosaraju, V., Bavarian, M., Hilton, J., Nakano, R., Hesse, C. & Schulman, J. Training verifiers to solve math word problems. (2021). arXiv preprint arXiv:2110.14168 Creel, K. & Hellman, D. Algoritminen Leviathan: mielivaltaisuus, oikeudenmukaisuus ja mahdollisuus algoritmisissa päätöksentekojärjestelmissä. 1–18 (2022). Canadian Journal of Philosophy, 19. Du, N., Huang, Y., Dai, A. M., Tong, S., Lepikhin, D., Xu, Y., Krikun, M., Zhou, Y., Yu, A. W., Firat, O., in (2022), 5547–5569. et al. Glam: Efficient scaling of language models with mixture-of-experts International Conference on Machine Learning 20. Eneanya, N. D., Boulware, L., Tsai, J., Bruce, M. A., Ford, C. L., Harris, C., Morales, L. S., Ryan, M. J., Reese, P. P., Thorpe, R. J., Terveyden epätasa-arvot ja rotujen sopimaton käyttö nefrologiassa. 84–94 (2022). et al. Nature Reviews Nephrology 18, 21. Esteva, A., Chou, K., Yeung, S., Naik, N., Madani, A., Mottaghi, A., Liu, Y., Topol, E., Dean, J. & Socher, R. Deep learning-enabled medical computer vision. 1–9 vuonna 2021. NPJ digital medicine 4, 22. Feng, S. Y., Khetan, V., Sacaleanu, B., Gershman, A. & Hovy, E. CHARD: Clinical Health-Aware Reasoning Across Dimensions for Text Generation Models. (2022). arXiv preprint arXiv:2210.04191 23. Garg, S., Perot, V., Limtiaco, N., Taly, A., Chi, E. H. & Beutel, A. in (2019), 219–226. Tosiasioiden vastainen oikeudenmukaisuus tekstin luokittelussa vahvuuden kautta Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society 24. Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J. W., Wallach, H., Iii, H. D. & Crawford, K. Datasheets for datasets. 86–92 (2021). Communications of the ACM 64, 25. Gu, Y., Tinn, R., Cheng, H., Lucas, M., Usuyama, N., Liu, X., Naumann, T., Gao, J. & Poon, H. Domain-specific language model pretraining for biomedical natural language processing. 1–23 (2021). ACM Transactions on Computing for Healthcare (HEALTH) 3, 26. Gu, Y., Han, X., Liu, Z. & Huang, M. Ppt: Pre-trained prompt tuning for few-shot learning. (2021). arXiv preprint arXiv:2109.04332 27. Guidance, W. Ethics and governance of artificial intelligence for health. 2021 mukaan. World Health Organization 28. Han, X., Zhao, W., Ding, N., Liu, Z. & Sun, M. Ptr: Prompt tuning with rules for text classification. 2022 mukaan. Kuka avaa 29. Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D. & Steinhardt, J. Measuring massive multitask language understanding. (2020). arXiv ennakkotilaus arXiv:2009.03300 30. Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., Casas, D. d. L., Hendricks, L. A., Welbl, J., Clark, A., Optimaalinen suurten kielten malli. 2022 mukaan. ja al arXiv preprint arXiv:2203.15556 31. Hong, Z., Ajith, A., Pauloski, G., Duede, E., Malamud, C., Magoulas, R., Chard, K. & Foster, I. ScholarBERT: Suurempi ei ole aina parempi. 2022 mukaan. arXiv ennakkotilaus arXiv:2205.11342 32. Hooker, S. Moving beyond “algorithmic bias is a data problem”. 100241 (2021). Patterns 2, 33. Jin, D., Pan, E., Oufattole, N., Weng, W.-H., Fang, H. & Szolovits, P. What disease does this patient have? a large-scale open domain question answering dataset from medical exams. 6421 (2021). Applied Sciences 11, 34. Jin, Q., Dhingra, B., Liu, Z., Cohen, W. W. & Lu, X. PubMedQA: A dataset for biomedical research question answering. (2019). arXiv preprint arXiv:1909.06146 Joshi, M., Choi, E., Weld, D. S. & Zettlemoyer, L. TriviaQA: Suuren mittakaavan etävalvottu haasteen tietokokonaisuus lukemisen ymmärtämiseksi. (2017). arXiv preprint arXiv:1705.03551 36. Kadavath, S., Conerly, T., Askell, A., Henighan, T., Drain, D., Perez, E., Schiefer, N., Dodds, Z. H., DasSarma, N., Tran-Johnson, E., Language models (mostly) know what they know. (2022). et al. arXiv preprint arXiv:2207.05221 37. Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J. & Amodei, D. Neuraalisen kielen mallien skaalautumislait. Jäsenet (2020) arXiv preprint arXiv:2001.08361 38. Kington, R. S., Arnesen, S., Chou, W.-Y. S., Curry, S. J., Lazer, D. & Villarruel, A. M. Identifying credible sources of health information in social media: Principles and attributes. (2021). NAM perspectives 2021 39. Kleinberg, J. & Raghavan, M. Algorithmic monoculture and social welfare. e2018340118 (2021) Kansallisen tiedeakatemian menettelyt 118, 40. Kojima, T., Gu, S. S., Reid, M., Matsuo, Y. & Iwasawa, Y. Suuret kielimallit ovat Zero-Shot Reasonereita. (2022). arXiv preprint arXiv:2205.11916 41. Korngiebel, D. M. & Mooney, S. D. Considering the possibilities and pitfalls of Generative Pre-trained Transformer 3 (GPT-3) in healthcare delivery. 1–3 (2021). NPJ Digitaalinen lääketiede 4, 42. Lakkaraju, H., Slack, D., Chen, Y., Tan, C. & Singh, S. Rethinking Explainability as a Dialogue: A Practitioner’s Perspective. (2022). arXiv preprint arXiv:2202.01875 43. Lampinen, A. K., Dasgupta, I., Chan, S. C., Matthewson, K., Tessler, M. H., Creswell, A., McClelland, J. L., Wang, J. X. & Hill, F. Voivatko kielimallit oppia selityksistä kontekstissa? (2022). arXiv preprint arXiv:2204.02329 44. Lee, J., Yoon, W., Kim, S., Kim, D., Kim, S., So, C. H. & Kang, J. BioBERT: ennalta koulutettu biolääketieteellinen kieliversio malli biolääketieteelliseen tekstin louhintaan. 1234–1240 (2020). Bioinformatics 36, 45. Lester, B., Al-Rfou, R. & Constant, N. mittakaavan voima parametrien tehokkaalle nopealle säätämiselle. (2021). arXiv preprint arXiv:2104.08691 46. Lewis, P., Ott, M., Du, J. ja Stoyanov, V. in (2020), 146–157. Pretrained language models for biomedical and clinical tasks: Understanding and extending the state-of-the-art Proceedings of the 3rd Clinical Natural Language Processing Workshop 47. Lewkowycz, A., Andreassen, A., Dohan, D., Dyer, E., Michalewski, H., Ramasesh, V., Slone, A., Anil, C., Schlag, I., Gutman-Solo, T., Solving quantitative reasoning problems with language models. (2022). et al. arXiv preprint arXiv:2206.14858 Li, X. L. & Liang, P. Prefix-tuning: Jatkuvien kehotusten optimointi tuotantoa varten. 2021 mukaan. arXiv preprint arXiv:2101.00190 49. Liang, P., Bommasani, R., Lee, T., Tsipras, D., Soylu, D., Yasunaga, M., Zhang, Y., Narayanan, D., Wu, Y., Kumar, A., Holistic evaluation of language models. 2022 mukaan. et al. arXiv preprint arXiv:2211.09110 50. Liévin, V., Hother, C. E. & Winther, O. Can large language models reason about medical questions? (2022). arXiv preprint arXiv:2207.08143 51. Lin, S., Hilton, J. & Evans, O. Teaching Models to Express Their Uncertainty in Words. (2022). arXiv preprint arXiv:2205.14334 52. Liu, P., Yuan, W., Fu, J., Jiang, Z., Hayashi, H. & Neubig, G. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. (2021). arXiv ennakkotilaus arXiv:2107.13586 53. Liu, X., Zheng, Y., Du, Z., Ding, M., Qian, Y., Yang, Z. & Tang, J. GPT understands, too. (2021). arXiv preprint arXiv:2103.10385 54. Liu, X., Glocker, B., McCradden, M. M., Ghassemi, M., Denniston, A. K. & Oakden-Rayner, L. Lääketieteellinen algoritminen auditointi. (2022). The Lancet Digital Health 55. Loshchilov, I. & Hutter, F. Decoupled weight decay regularization. (2017). arXiv preprint arXiv:1711.05101 56. Luo, R., Sun, L., Xia, Y., Qin, T., Zhang, S., Poon, H. & Liu, T.-Y. BioGPT: geneerinen esikoulutettu muuntaja biolääketieteelliseen tekstien tuottamiseen ja kaivostoimintaan. (2022). Tietoa bioinformatiikasta 23 57. Mandavilli, A. . 2021. Lääketieteelliset lehdet ovat sokeita rasismille terveyskriisinä, kriitikot sanovat https://www.nytimes.com/2021/06/02/ Terveys ja hyvinvointi/jama-rasismi-bauchner.html 58. Matheny, M., Israni, S. T., Ahmed, M. & Whicher, D. Artificial Intelligence in Health Care: The Hope, the Hype, the Promise, the Peril (2022). 59. Mitchell, M., Wu, S., Zaldivar, A., Barnes, P., Vasserman, L., Hutchinson, B., Spitzer, E., Raji, I. D. & Gebru, T. in (2019), 220–229. Model cards for model reporting Proceedings of the conference on fairness, accountability, and transparency 60. Morgado, F. F., Meireles, J. F., Neves, C. M., Amaral, A. & Ferreira, M. E. Scale development: ten main limitations and recommendations to improve future research practices. (2017). Psicologia: Reflexao e Critica 30 61. Nye, M., Andreassen, A. J., Gur-Ari, G., Michalewski, H., Austin, J., Bieber, D., Dohan, D., Lewkowycz, A., Bosma, M., Luan, D., Show your work: Scratchpads for intermediate computation with language models. (2021). ja al arXiv ennakkotilaus arXiv:2112.00114 62. Of Science, W. H. O. & Policy, T. . 2022. The Blueprint for an AI Bill of Rights: Making Automated Systems Work for the American People https://www.whitehouse.gov/wp-content/uploads/2022/10/Blueprint-for-an-AI-Bill-of-Rights.pdf 63. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Training language models to follow instructions with human feedback. (2022). ja al arXiv preprint arXiv:2203.02155 64. Pal, A., Umapathi, L. K. & Sankarasubbu, M. Sisällä (2022), 248–260. MedMCQA: A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering Terveyden, johtopäätöksen ja oppimisen konferenssi 65. Pampari, A., Raghavan, P., Liang, J. & Peng, J. emrqa: A large corpus for question answering on electronic medical records. (2018). arXiv ennakkotilaus arXiv:1809.00732 66. Papanikolaou, Y. & Pierleoni, A. DARE: Data augmented relation extraction with gpt-2. (2020). arXiv ennakkotilaus arXiv:2004.13845 67. Papineni, K., Roukos, S., Ward, T. & Zhu, W.-J. in (2002), 311–318. Bleu: a method for automatic evaluation of machine translation Proceedings of the 40th annual meeting of the Association for Computational Linguistics 68. Prabhakaran, V., Hutchinson, B. & Mitchell, M. Perturbation sensitivity analysis to detect unintended model biases. Vuonna 2019 arXiv ennakkotilaus arXiv:1910.04210 69. Rae, J. W., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., Song, F., Aslanides, J., Henderson, S., Ring, R., Young, S., Scaling language models: Methods, analysis & insights from training gopher. (2021). et al. arXiv preprint arXiv:2112.11446 70. Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., Liu, P. J., Exploring the limits of transfer learning with a unified text-to-text transformer. 1–67 (2020). et al. J. Mach. Learn. Res. 21, 71. Raji, I. D., Smart, A., White, R. N., Mitchell, M., Gebru, T., Hutchinson, B., Smith-Loud, J., Theron, D. & Barnes, P. in (2020), 33–44. Closing the AI accountability gap: Defining an end-to-end framework for internal algorithmic auditing Proceedings of the 2020 conference on fairness, accountability, and transparency 72. Rostamzadeh, N., Mincu, D., Roy, S., Smart, A., Wilcox, L., Pushkarna, M., Schrouff, J., Amironesei, R., Moorosi, N. & Heller, K. Healthsheet: Development of a Transparency Artifact for Health Datasets. (2022). arXiv preprint arXiv:2202.13028 73. Scao, T. L., Fan, A., Akiki, C., Pavlick, E., Ilić, S., Hesslow, D., Castagné, R., Luccioni, A. S., Yvon, F., Gallé, M., et al. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. (2022). arXiv preprint arXiv:2211.05100 74. Schaekermann, M., Cai, C. J., Huang, A. E. & Sayres, R. in (2020), 1–13. Expert discussions improve comprehension of difficult cases in medical image assessment Vuoden 2020 CHI-konferenssi ihmisen tekijöistä tietojärjestelmissä 75. Sezgin, E., Sirrianni, J., Linwood, S. L., Esikoulutettujen, suurten tekoälyn kielellisten mallien käyttöönotto ja käyttöönotto Yhdysvaltain terveydenhuoltojärjestelmässä: Generative Pretrained Transformer 3 (GPT-3) -näkökulma palvelumallina. e32875 (2022) ja al JMIR Lääketieteellinen tietojenkäsittely 10, 76. Shin, H.-C., Zhang, Y., Bakhturina, E., Puri, R., Patwary, M., Shoeybi, M. & Mani, R. BioMegatron: Larger biomedical domain language model. (2020). arXiv preprint arXiv:2010.06060 77. Shoemaker, S. J., Wolf, M. S. & Brach, C. Development of the Patient Education Materials Assessment Tool (PEMAT): a new measure of understandability and actionability for print and audiovisual patient information. 395 ja 403 (2014). Patient education and counseling 96, 78. Srivastava, A., Rastogi, A., Rao, A., Shoeb, A. A. M., Abid, A., Fisch, A., Brown, A. R., Santoro, A., Gupta, A., Garriga-Alonso, A., Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models. 2022 mukaan. ja al arXiv ennakkotilaus arXiv:2206.04615 79. Taylor, R., Kardas, M., Cucurull, G., Scialom, T., Hartshorn, A., Saravia, E., Poulton, A., Kerkez, V. & Stojnic, R. Galactica: A Large Language Model for Science. 2022 mukaan. arXiv preprint arXiv:2211.09085 80. Thoppilan, R., De Freitas, D., Hall, J., Shazeer, N., Kulshreshtha, A., Cheng, H.-T., Jin, A., Bos, T., Baker, L., Du, Y., Lamda: Kielimallit dialogisovelluksiin. 2022 mukaan. et al. arXiv ennakkotilaus arXiv:2201.08239 81. Tomašev, N., Harris, N., Baur, S., Mottram, A., Glorot, X., Rae, J. W., Zielinski, M., Askham, H., Saraiva, A., Magliulo, V., Syvän oppimisen avulla kehitetään jatkuvia riskimalleja haitallisten tapahtumien ennustamiseksi sähköisistä terveystiedoista. 2765–2787 (2021). ja al Nature Protocols 16, 82. Tran, D., Liu, J., Dusenberry, M. W., Phan, D., Collier, M., Ren, J., Han, K., Wang, Z., Mariet, Z., Hu, H., Plex: Towards reliability using pretrained large model extensions. 2022 mukaan. et al. arXiv ennakkotilaus arXiv:2207.07411 83. Tsatsaronis, G., Balikas, G., Malakasiotis, P., Partalas, I., Zschunke, M., Alvers, M. R., Weissenborn, D., Krithara, A., Petridis, S., Polychronopoulos, D., An overview of the BIOASQ large-scale biomedical semantic indexing and question answering competition. 1–28 (2015). ja al BMC Bioinformatiikka 16, 84. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł. & Polosukhin, I. Attention is all you need. (2017). Advances in neural information processing systems 30 85. Vyas, D. A., Eisenstein, L. G. & Jones, D. S. 2020. Piilotettu näkökannalta – harkitsee uudelleen rotujen korjausta kliinisissä algoritmeissa 86. Walsh, K. E., Harik, P., Mazor, K. M., Perfetto, D., Anatchkova, M., Biggins, C., Wagner, J., Schoettker, P. J., Firneno, C., Klugman, R., Haittavaikutusten mittaaminen terveydenhuollossa: haitallisten tapahtumien arvioinnin optimointi. 436 (2017). et al. Lääketieteellinen hoito 55, 87. Wang, b., Min, S., Deng, X., Shen, J., Wu, Y., Zettlemoyer, L. & Sun, H. Kohti ymmärrystä ajatusketjun kannustamisesta: Empiirinen tutkimus siitä, mikä on tärkeää. 2022 mukaan. arXiv preprint arXiv:2212.10001 88. Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E. & Zhou, D. Itsensä johdonmukaisuus parantaa ajatusketjun päättelyä kielimalleissa. 2022 mukaan. arXiv ennakkotilaus arXiv:2203.11171 89. Wei, J., Bosma, M., Zhao, V. Y., Guu, K., Yu, A. W., Lester, B., Du, N., Dai, A. M. & Le, Q. V. Finetuned language models are zero-shot learners. 2021 mukaan. arXiv preprint arXiv:2109.01652 90. Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., Emergent abilities of large language models. 2022 mukaan. ja al arXiv ennakkotilaus arXiv:2206.07682 91. Wei, J., Wang, X., Schuurmans, D., Bosma, M., Chi, E., Le, Q. & Zhou, D. Ajattelun ketju, joka herättää järkeilyä suurissa kielimalleissa. (2022). arXiv preprint arXiv:2201.11903 92. Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.-S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A., Eettiset ja sosiaaliset haitat kielimalleista. 2021 mukaan. ja al arXiv ennakkotilaus arXiv:2112.04359 93. Williams, T., Szekendi, M., Pavkovic, S., Clevenger, W. & Cerese, J. The reliability of AHRQ Common Format Harm Scales in rating patient safety events. 52–59 (2015). Journal of patient safety 11, 94. Yasunaga, M., Bosselut, A., Ren, H., Zhang, X., Manning, C. D., Liang, P. & Leskovec, J. Syvä kaksisuuntainen kielitaito graafinen esikoulutus. (2022). arXiv ennakkotilaus arXiv:2210.09338 95. Yasunaga, M., Leskovec, J. & Liang, P. LinkBERT: Kielimallien esikoulutus asiakirjoilla. (2022). arXiv ennakkotilaus arXiv:2203.15827 96. Ye, S., Jang, J., Kim, D., Jo, Y. & Seo, M. Soft Promptin palauttaminen parantaa Zero-Shot -tehtävän yleistymistä. (2022). arXiv ennakkotilaus arXiv:2210.03029 97. Yim, J., Chopra, R., Spitz, T., Winkens, J., Obika, A., Kelly, C., Askham, H., Lukic, M., Huemer, J., Fasler, K., ja al Ennustaminen muuntaminen märkä ikään liittyvä makulaarinen rappeutuminen käyttämällä syvä oppiminen. 892–899 vuoteen 2020 mennessä Nature Medicine 26, 98. Zhang, H., Lu, A. X., Abdalla, M., McDermott, M. & Ghassemi, M. Sisällä Vuonna 2019 110–120. Haitalliset sanat: määrällisten ennakkoluulojen määrittäminen kliinisissä kontekstuaalisissa sanan upotuksissa ACM:n konferenssi terveydestä, johtamisesta ja oppimisesta 99. Zhang, S., Roller, S., Goyal, N., Artetxe, M., Chen, M., Chen, S., Dewan, C., Diab, M., Li, X., Lin, X. V., OPT: Open pre-trained transformer language models. 2022 mukaan. et al. arXiv ennakkotilaus arXiv:2205.01068 Zhou, D., Schärli, N., Hou, L., Wei, J., Scales, N., Wang, X., Schuurmans, D., Bousquet, O., Le, Q. & Chi, E. Vähiten eniten ohjaaminen mahdollistaa monimutkaisen päättelyn suurissa kielimalleissa. 2022 mukaan. arXiv ennakkotilaus arXiv:2205.10625 Liitteenä A.1 Hyperparametrit ja mallin valinta Teimme Flan-PaLM 540B:n ohjauspuhelimen säätämisen pehmeällä ohjauspuhelimen pituudella 100 tuottaaksemme Med-PaLM:n. Jäädytämme muun mallin, ja upottamiskoko on 18432 kuten Chowdheryssä [Muokkaa Olemme satunnaisesti alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin alun perin. [Muokkaa ]. Olemme hakeneet verkkoa oppimiskustannuksista 0,001, 0,003, 0,01 AdamW-optimoijalla [ ] ja painonpudotuksen tekijä . ” 0 ” * Käytimme erän kokoa 32 kaikkien juoksujen aikana. ja al 14 et al. 45 55 0 0 0 001 00001 Teimme mallivalinnan pyytämällä kliinistä sijoittamaan vastaukset useisiin pidettyihin HealthSearchQA-, MedicationQA- ja LiveQA-esimerkkeihin (ei käytetä koulutukseen tai ihmisen arviointiin) ja valitsimme valvontapisteen, joka suoritti parhaiten. Teimme tämän manuaalisen validoinnin sen sijaan, että laskimme joitakin automaattisia mittareita validointikokoelmasta, esim. negatiivinen log-todennäköisyys pidettyjen (kysymys, vastaus) parien osalta, koska luonnollisen kielen sukupolvien suuressa tuotantotilassa nämä mittarit eivät välttämättä korreloi hyvin todellisten mallitulosten ihmisen arviointiin. A.2 Tulosten vaihtelu Due to repeated stochastic decodes using temperature sampling, there is some expected variation in results with self-consistency. While it is impractical to run multiple experiments for all of our models across all the datasets used in this study, we repeat the evaluations on the MedQA dataset 4 times with our best performing model. The observed variance is 0.078 suggesting a high-degree of consistency in the results. A.3 MMLU ablaatiot Teimme ablaatioita vertailemalla Flan-PaLM 540B -mallia käyttämällä harvojen laukausten, ajatusketjun (CoT) ja itsekohtaisuuden kannustavia strategioita MMLU: n kliinisissä aiheissa [ Tulokset on tiivistetty osassa Huomaamme, että vaikka useimmissa aiheissa Flan-PaLM 540B saavuttaa parhaat tulokset itsekohtaisuudella, on olemassa muutamia aiheita, joissa tavanomainen vähäkuvaus tai CoT-pyyntö on parempi. 29 A3 Näytä A.4 Laajennettuja laitteita Tarjoamme skaalautuvia tontteja, joissa verrataan PaLM- ja Flan-PaLM-malleja käyttämällä kuvassa olevia MedQA- ja MedMCQA-tietokokonaisuuksia ja toinen skaalautumissuunnitelma, jossa verrataan Flan-PaLM: tä harvoilla laukauksilla ja Flan-PaLM: tä itsekohtaisuuden laukauksilla kuvassa Tarkkailemme vahvaa skaalautumiskykyä ja näemme jyrkemmän suorituskyvyn kasvun, kun laajennamme LLM-mallin kokoa. A1 Näytä A.2 Näytä A.5 mallikortti Med-PaLM:lle Med-PaLM käyttää samaa järjestelmän tyyppiä ja toteutuspuitteita kuin Flan-PaLM [ ]. We show parts of the model card [ ] erityinen Med-PaLM in Table . 15 59 A.2 Näytä A.6 Med-PaLM monivaihtoehtoinen arviointi Med-PaLM on koulutettu käyttämään ohjekirjojen ohjekirjojen säätelyä Flan-PaLM:n tuottamien pitkänmuotoisten sukupolvien laadun parantamiseksi. Kuitenkin, kun otetaan huomioon ohjekirjojen ohjekirjojen säätely yleisyys, tekniikkaa voidaan soveltaa myös usean valinnan tietokokonaisuuksiin. Ensimmäisessä kokeessa koulutettiin Flan-PaLM:tä käyttämällä MedQA:n, MedMCQA:n, PubMedQA:n ja MMLU:n (kliiniset aiheet) ohjeiden mukauttamista. Näytteet kirjoitti viiden pätevän lääkärin paneeli. Jokainen koulutusnäyte sisälsi datasettikohtaisia ohjeita ja 5 muutamaa esimerkkiä. Saatu malli saavutti 67,2 prosentin tarkkuuden MedQA:ssa käyttäen ajatusketjua ja itsensä johdonmukaisuutta, mikä vastaa suunnilleen Flan-PaLM i -osion vastaavaa tulosta. Suunnittelemme tämän varhaisen tuloksen laajentamista tulevaan työhön. 4 A.7 Detailed human evaluation results Yksityiskohtaiset ihmisen arvioinnin tulokset luottamusvälillä on tiivistetty taulukossa - pöytä . A3 Näytä A. 12 § A.8 Muutamia nopeita esimerkkejä Annamme esimerkkejä joistakin muutamasta laukauksesta, joita käytettiin tutkimuksessa taulukossa Pöytä Pöytä Tyypillinen ja pöytä . a) 13 a) 14 A 15 a) 16 A. 17 vuotta A.9 Ketju-ajattelun esimerkit Olemme antaneet esimerkkejä joistakin tässä tutkimuksessa käytetyistä ketju-ajattelupyyntöistä taulukossa Pöytä Tyypillinen ja pöytä . A. 18 vuotta A19 A. 20 vuotta A. 21 päivää Tämä artikkeli on saatavilla arkivissä CC by 4.0 Deed (Attribution 4.0 International) -lisenssillä. Tämä artikkeli on saatavilla arkivissä CC by 4.0 Deed (Attribution 4.0 International) -lisenssillä.