En ny integritets-första AI förutsäger COVID-svårighetsgrad med hjälp av röntgenstrålar och medicinska register

Författare : Ittai Dayan Holger R. Roth Aoxiao Zhong Ahmed Harouni Amilcare Gentili Anas Z. Abidin Andrew Liu Anthony Beardsworth Costa Bradford J. Wood Chien-Sung Tsai Chih-Hung och Wang Chun-Nan Hsu av C. K. Lee Peiying Ruan Daguang Xu Dufan Wu Eddie Huang Felipe Campos Kitamura Griffin Lacey Gustavo César de Antônio Corradi Gustavo Nino Hao-Hsin Shin Hirofumi Obinata Hui Ren Jason C. Crane Jesse Tetreault Jiahui Guan John W. Garrett Joshua D. Kaggie Jung Gil Park Keith Dreyer Krishna Juluru Kristopher Kersten Marcio Aloisio Bezerra Cavalcanti Rockenbach Marius George Linguraru Masoom A. Haider Meena AbdelMaseeh Nicola Rieke Pablo F. Damasceno Pedro Mario Cruz e Silva Pochuan Wang Sheng Xu Shuichi Kawano Sira Sriswasdi Om Soo Young Park Thomas M. Grist Varun Buch Watsamon Jantarabenjakul Weichung Wang Won Young Tak Xiang Li Xihong Lin Young Joon Kwon Abood Quraini Följ Andrew Feng Andrew N. Priest Baris Turkbey Benjamin Glicksberg Bernardo Bizzo Byung Seok Kim Carlos Tor-Díez Chia-Cheng Lee Chia-Jung Hsu Chin Lin Chiu-Ling Lai Christopher P. Hess Colin Compas Deepeksha Bhatia Eric K. Oermann Evan Leibovitz Hisashi Sasaki Hitoshi Mori Isaac Yang Jae Ho Sohn Krishna Nand Keshava Murthy Li-Chen Fu Matheus Ribeiro Furtado de Mendonça Mike Fralick Min Kyu Kang Mohammad Adil Natalie Gangai Peerapon Vateekul Pierre Elnajjar Sarah Hickman Sharmila Majumdar Shelley L. McLeod Sheridan Reed Stefan Gräf Stephanie Harmon Tatsuya Kodama Thanyawee Puthanakit Tony Mazzulli Vitor Lima de Lavor Yothin Rakvongthai Yu Rim Lee Yuhong Wen Fiona J. Gilbert Mona G. Flores Quanzheng Li Författare : Lämna Dayan Författaren Holger R. Roth Aoxiao Zhong Ahmed Harouni Amilcare vänliga Anas Z. Abidin Andrew Liu Följ Anthony Beardsworth Costa Följ Bradford J. Wood Chien-Sung och Tsai Chih-Hung och Wang Chun-Nan Hsu av C. K. Lee Föregående Ruan Daguang Xu Dufan Wu Eddie Huang Följ Felipe Campos Kitamura Följ Griffin Lacey Gustavo César av Antônio Corradi Gustavo Nino Hao-Hsin Shin Hirofumi Obinata Hui Ren Författaren Jason C. Crane Författare: Jesse Tetreault Jiahui Guan Följ John W. Garrett Följ Joshua D. Kaggie Om Jung Gil Park Keith Dreyer Övrigt Krishna Juluru Kristin Kersten Författaren Marcio Aloisio Bezerra Cavalcanti Rockenbach Följ Marius George Linguraru Masoom A. Haider Meena AbdelMaseeh Nicola Rieke Följ Pablo F. Damasceno Pedro Mario Cruz och Silva Pochuan Wang Sheng Xu Om Shuichi Kawano Fröken Srisvik Om Soo Young Park Thomas M. Grist Varun bok Watsamons middagsmat Växjö Wang Vinnare: Young Tak Xiang Li Xihong Lin Författare: Young Joon Kwon Huvudstaden Quraini Följ Andrew Feng Följ Andrew N. Priest Baris Turkbey av Benjamin Glicksberg Bernhard Bizzo Lyssna på Kim Författaren Carlos Tor-Díez Från Chia-Cheng Lee Chia-Jung Hsu Kina Lin Chiu-Ling Lai från Följ Christopher P. Hess Colin Kompas Deepeksha Bhatia Följ Eric K. Oermann Författaren Evan Leibovitz Hisashi Sasaki Övrigt Hitoshi Mori Isak Yang Jae Ho son Krishna Nand Keshava Murthy Li-Chen Fö Matheus Ribeiro från Furtado de Mendonça Mike Fralick Min Kyu Kang Mohammad Adil och Natalie Gangai Peerapon Vateekul Pierre Elnajjar Följ Sarah Hickman Sharmila Majumdar Följ Shelley L. McLeod Författaren Sheridan Reed Stefan Gräfs Stephenie Harmon Tatsuya Kodama Lämna en kommentar av Tony Mazzulli Vitor Lima på jobbet Yothin Rakvongthai Följ Yu Rim Lee Yuhong Wen Författaren Fiona J. Gilbert Mona G. Blommor Vänta på Li Abstrakt Federerad inlärning (FL) är en metod som används för att utbilda artificiell intelligensmodeller med data från flera källor samtidigt som data anonymiseras, vilket eliminerar många hinder för datautbyte. Här använde vi data från 20 institut över hela världen för att utbilda en FL-modell, kallad EXAM (elektronisk medicinsk rekord (EMR) bröst X-ray AI-modell), som förutsäger framtida syrebehov hos symptomatiska patienter med COVID-19 med hjälp av ingångar av vitala tecken, laboratoriedata och bröst X-ray. EXAM uppnådde ett genomsnittligt område under kurvan (AUC) >0.92 för att förutsäga resultat vid 24 och 72 timmar från tidpunkten för den första presentationen till akutmottagningen, och det gav 16% förbättring huvud De vetenskapliga, akademiska, medicinska och datavetenskapliga samhällena har samlats inför COVID-19 pandemisk kris för att snabbt utvärdera nya paradigmer inom artificiell intelligens (AI) som är snabba och säkra, och potentiellt uppmuntra datautbyte och modellutbildning och testning utan de vanliga integritets- och datainnehavshinderna i konventionella samarbeten. , Hälso- och sjukvårdspersonal, forskare och industrin har vänt sitt fokus för att ta itu med ouppfyllda och kritiska kliniska behov som skapats av krisen, med anmärkningsvärda resultat. , , , , , , Rekrytering av kliniska prövningar har påskyndats och underlättats av nationella tillsynsorgan och en internationell samarbetsanda. , , Dataanalys- och AI-disciplinerna har alltid främjat öppna och samarbetsbaserade tillvägagångssätt, som omfattar begrepp som öppen källkodsprogramvara, reproducerbar forskning, dataregister och gör anonyma datamängder tillgängliga för allmänheten. , Pandemin har framhållit behovet av att snabbt genomföra data-samarbeten som ger de kliniska och vetenskapliga samhällena möjlighet att svara på snabbt utvecklande och utbredda globala utmaningar.Datautbyte har etiska, reglerande och juridiska komplexiteter som understryks, och kanske något komplicerat, av den senaste tidens inträde av stora teknikföretag i hälsovårdens datavärld. , , . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Ett konkret exempel på dessa typer av samarbete är vårt tidigare arbete med en AI-baserad SARS-COV-2-modell för kliniskt beslutsstöd (CDS).Denna CDS-modell utvecklades på Mass General Brigham (MGB) och validerades över flera hälso- och sjukvårdssystemens data.Inputen till CDS-modellen var röntgenbilder av bröstet (CXR), vitala tecken, demografiska data och laboratorievärden som visades i tidigare publikationer vara förutsägbara för resultaten av patienter med COVID-19 , , , CXR valdes som bildinmatning eftersom det är allmänt tillgängligt och vanligtvis indikeras av riktlinjer som de som tillhandahålls av ACR Företaget Fleischner och WHO Nationella thoracic samhällen , nationella hälsovårdsministeriet COVID handböcker och radiologiska samhällen runt om i världen Utgången av CDS-modellen var en poäng, kallad CORISK , som motsvarar kraven på syreunderstöd och som kan hjälpa till vid screening av patienter av frontlinjekliniker , , Hälso- och sjukvårdspersonal har varit kända för att föredra modeller som validerades på sina egna data. Hittills har de flesta AI-modeller, inklusive den ovannämnda CDS-modellen, utbildats och validerats på "smala" data som ofta saknar mångfald. , , potentiellt resulterar i övermontering och lägre generaliserbarhet. Detta kan mildras genom utbildning med olika data från flera platser utan centralisering av data med hjälp av metoder som transfer learning , FL är en metod som används för att utbilda AI-modeller på olika datakällor, utan att data transporteras eller exponeras utanför sin ursprungliga plats. . 18 19 20 21 22 23 24 25 26 27 28 29 30 27 31 32 33 34 35 36 Federerat lärande stöder snabb lansering av centralt orkestrerade experiment med förbättrad spårbarhet av data och utvärdering av algoritmiska förändringar och effekter Ett tillvägagångssätt för FL, som kallas klient-server, skickar en ”outbildad” modell till andra servrar (”noder”) som utför partiella träningsuppgifter, vilket i sin tur skickar resultaten tillbaka för att slås samman i den centrala (”federerade”) servern. . 37 36 Datastyrning för FL upprätthålls lokalt, vilket lindrar sekretessproblem, med endast modellvikter eller gradienter som kommuniceras mellan klientwebbplatser och den federerade servern , FL har redan visat löfte i senaste medicinska imaging applikationer , , , Analys av Covid-19 , , Ett anmärkningsvärt exempel är en dödlighetsprognosmodell hos patienter infekterade med SARS-COV-2 som använder kliniska egenskaper, om än begränsad i fråga om antal modaliteter och skala. . 38 39 40 41 42 43 8 44 45 46 Vårt mål var att utveckla en robust, generaliserbar modell som kunde hjälpa till med att testa patienter. Vi teoriserade att CDS-modellen kunde federeras framgångsrikt, med tanke på dess användning av datainmatningar som är relativt vanliga i klinisk praxis och som inte är starkt beroende av operatörsberoende bedömningar av patientens tillstånd (t.ex. kliniska intryck eller rapporterade symtom). Istället användes laboratorieresultat, vitala tecken, en bildstudie och en vanligen fångad demografisk (dvs. ålder). Vi omutbildade därför CDS-modellen med olika data med hjälp av en klient-server FL-metod för att utveckla en ny global FL-modell, som hette EXAM, med hjälp av CXR- och EMR-funktioner som inmatning Vår hypotes var att EXAM skulle prestera bättre än lokala modeller och skulle generalisera bättre över hälso- och sjukvårdssystem. Resultaten Exam modellarkitektur EXAM-modellen är baserad på CDS-modellen som nämns ovan Totalt 20 egenskaper (19 från EMR och en CXR) användes som inmatning till modellen. Resultatet (dvs. ”jord sanning”) etiketter tilldelades baserat på patientens syrebehandling efter 24 och 72 timmars perioder från inledande antagning till nödavdelningen (ED). En detaljerad lista över de önskade egenskaperna och resultaten kan ses i tabellen . 27 1 Patienternas resultatetiketter ställdes in på 0, 0,25, 0,50 och 0,75 beroende på vilken intensiv syrebehandling patienten fick i prognosfönstret. Oxygenterapi kategorierna var, respektive, rumsluft (RA), lågt flöde syre (LFO), högflöde syre (HFO)/noninvasiv ventilation (NIV) eller mekanisk ventilation (MV). Om patienten dog inom prognosfönstret, ställdes resultatet etikett till 1. Detta resulterade i att två etiketter tilldelades i intervallet 0–1, motsvarande var och en av prognosfönstren (dvs. 24 och 72 h). För EMR-funktioner användes endast de första värdena som fångades i ED och dataförbehandlingen inkluderade avidentifiering, saknad värdeimputation och normalisering till nollmedel och enhetsvarians. Modellen sammanfogar därför information från både EMR- och CXR-funktioner, med hjälp av ett 34-lager konvolutionellt neuralt nätverk (ResNet34) för att extrahera funktioner från ett CXR- och ett Deep & Cross-nätverk för att sammanfoga funktionerna tillsammans med EMR-funktionerna (för mer utökade detaljer, se Modellutgången är en riskpoäng, kallad EXAM-poängen, som är ett kontinuerligt värde i intervallet 0–1 för var och en av de 24- och 72-timmarsprognoser som motsvarar de etiketter som beskrivs ovan. Metoder Föderera modellen EXAM-modellen utbildades med hjälp av en kohort på 16,148 fall, vilket gör den inte bara bland de första FL-modellerna för COVID-19 utan också ett mycket stort och multicontinentalt utvecklingsprojekt inom kliniskt relevant AI (Fig. Data mellan platser harmoniserades inte före utvinning och, mot bakgrund av verkliga kliniska informatik omständigheter, en noggrann harmonisering av datainmatningen genomfördes inte av författarna (Fig. och ) 1a och b 1c och d , Världskarta som visar de 20 olika klientwebbplatserna som bidrar till EXAM-studien. , Antal fall som bidrog av varje institution eller webbplats (klient 1 representerar webbplatsen som bidrog med det största antalet fall). Bröst X-ray intensitetsfördelning vid varje klientplats. , Patienternas ålder på varje klientwebbplats, som visar minsta och högsta ålder (asterisk), genomsnittlig ålder (trianglar) och standardavvikelse (horisontella streck). . a b c d 1 Vi jämförde lokalt utbildade modeller med den globala FL-modellen på varje kunds testdata. « 1 × 10–3, Wilcoxon signerad-rank test) av 16% (enligt definitionen av genomsnittlig AUC vid körning av modellen på respektive lokala testuppsättningar: från 0,795 till 0,920, eller 12,5 procentenheter) (Figur. Det resulterade också i en 38% förbättring av generaliserbarheten (som definieras av genomsnittlig AUC vid körning av modellen på alla testuppsättningar: från 0,667 till 0,920, eller 25,3 procentenheter) av den bästa globala modellen för förutsägelse av 24-timmars syrebehandling jämfört med modeller som utbildats endast på en webbplatss egna data (Figur. För de förutsägbara resultaten av 72-timmars syrebehandling resulterade den bästa globala modellutbildningen i en genomsnittlig prestandaförbättring på 18% jämfört med lokalt utbildade modeller, medan generaliserbarheten av den globala modellen förbättrades i genomsnitt med 34% (Extended Data Fig. Stabiliteten i våra resultat validerades genom att upprepa tre körningar av lokal och FL-utbildning på olika randomiserade data splits. P 2a 2b 1 , Prestanda på varje kunds test uppsatt i förutsägelse av 24-timmars syrebehandling för modeller utbildade på lokala data endast (Local) jämfört med den bästa globala modellen tillgänglig på servern (FL (se bästa)). , Generalizability (genomsnittlig prestanda på andra webbplatsers testdata, som representeras av genomsnittlig AUC) som en funktion av en kunds datasetstorlek (ing. fall). Den gröna horisontella linjen anger generalizabilityprestandan för den bästa globala modellen. ) och klient 14 hade fall endast med RA-behandling, så att utvärderingsmetriken (av AUC) inte var tillämplig i något av dessa fall ( Data för klient 14 uteslöts också från beräkningen av genomsnittlig generaliserbarhet i lokala modeller. a b 1 Metoder Lokala modeller som utbildades med hjälp av obalanserade kohorter (t.ex. mestadels milda fall av COVID-19) hade märkbar nytta av FL-metoden, med en betydande förbättring i förutsägelse av genomsnittlig AUC-prestanda för kategorier med endast ett fåtal fall. Detta var uppenbart på klientsidan 16 (en obalanserad datamängd), med de flesta patienter som upplevde mild sjukdoms svårighetsgrad och med endast ett fåtal svåra fall. FL-modellen uppnådde en högre sann-positiv hastighet för de två positiva (svåra) fallen och en märkbart lägre falsk-positiv hastighet jämfört med den lokala modellen, både som visas i mottagarens operativa karakteristiska (ROC) tomter och förvirrande matr och Extended Data Fig. Ännu viktigare, generaliserbarheten av FL-modellen ökade betydligt över den lokalt utbildade modellen. 3a 2 , ROC på klientplats 16, med obalanserade data och mestadels milda fall. , ROC av den lokala modellen på klientplatsen 12 (en liten datamängd), genomsnittlig ROC av modeller utbildade på större datamängder som motsvarar de fem klientplatserna i Boston-området (1, 4, 5, 6, 8) och ROC av den bästa globala modellen i förutsägelse av 72-timmars syrebehandling för olika tröskelvärden för EXAM-poäng (vänster, mitten, höger). Pos och neg betecknar antalet positiva och negativa fall, respektive, som definieras av detta intervall av EXAM poäng. a b t När det gäller klientwebbplatser med relativt små datamängder överträffade den bästa FL-modellen inte bara den lokala modellen utan även de som utbildades på större datamängder från fem klientwebbplatser i Boston-området i USA (Fig. och ) 3b Den globala modellen fungerade bra för att förutsäga syrebehov vid 24/72 h hos patienter både COVID-positiva och negativa (Extended Data Fig. och ) 3 Validering på oberoende platser Efter den inledande utbildningen testades EXAM därefter på tre oberoende valideringsplatser: Cooley Dickinson Hospital (CDH), Martha’s Vineyard Hospital (MVH) och Nantucket Cottage Hospital (NCH), alla i Massachusetts, USA. Modellen omskolades inte på dessa platser och användes endast för valideringsändamål. , och ROC-kurvorna och förvirringsmatriserna för den största datamängden (från CDH) visas i figuren. Operationspunkten var inställd på att skilja mellan icke-mekanisk ventilation och mekanisk ventilation (MV) behandling (eller död). FL global utbildad modell, EXAM, uppnådde en genomsnittlig AUC på 0,944 och 0,924 för 24- och 72-timmars förutsägelse uppgifter, respektive (Tabell) För förutsägelse av MV behandling (eller död) vid 24 h, EXAM uppnådde en känslighet av 0,950 och specificitet av 0,882 vid CDH, och en känslighet av 1.000 specificitet av 0,934 vid MVH. NCH hade inga fall med MV/död vid 24 h. När det gäller 72-h MV förutsägelse, EXAM uppnådde en känslighet av 0,929 och specificitet av 0,880 vid CDH, känslighet av 1.000 och specificitet av 0,976 vid MVH och känslighet av 1.000 och specificitet av 0,929 vid NCH. 2 4 2 , , Performance (ROC) (topp) och confusion matriser (botten) av EXAM FL-modellen på CDH-dataset för förutsägelse av syrebehov vid 24 h ( ) och 72 timmar ( ) ROC för tre olika cutoff värden ( ) av riskpoängen för undersökningen visas. a b a b t För MV vid CDH vid 72 h hade EXAM en låg falsk negativ ränta på 7,1%. , som visar två falsk-negativa fall från CDH där ett fall hade många saknade EMR-datafunktioner och den andra hade en CXR med en rörelse artefakt och några saknade EMR-funktioner. 4 Användning av differentiell integritet En primär motivation för hälso- och sjukvårdsinstitutioner att använda FL är att bevara säkerheten och integriteten hos sina data samt att följa datakompatibilitetsåtgärder. eller till och med rekonstruktionen av träningsbilder från modellgradienterna själva För att motverka dessa risker har säkerhetsförbättrande åtgärder använts för att minska risken vid ”avlyssning” av data under webbplats-server-kommunikation. Vi experimenterade med tekniker för att undvika avlyssning av FL-data och lade till en säkerhetsfunktion som vi tror kan uppmuntra fler institutioner att använda FL. Vi validerade därmed tidigare resultat som visar att partiell viktdelning och andra differentiella sekretesstekniker framgångsrikt kan tillämpas i FL. Genom att undersöka ett partiellt viktdelningssystem , , Vi visade att modeller kan uppnå jämförbar prestanda även när endast 25% av viktuppdateringarna delas (Extended Data Fig. och ) 47 48 49 50 50 51 52 5 Diskussionen Denna studie innehåller en stor, verklig FL-studie inom hälso- och sjukvården när det gäller antalet platser och antalet datapunkter som används. Vi tror att den ger ett kraftfullt bevis på konceptet för möjligheten att använda FL för snabb och samarbetsutveckling av nödvändiga AI-modeller inom hälso- och sjukvården. Vår studie omfattade flera platser över fyra kontinenter och under överinseende av olika tillsynsorgan, och därmed håller löftet om att tillhandahållas till olika reglerade marknader på ett snabbare sätt. Den globala FL-modellen, EXAM, visade sig vara mer robust och uppnådde bättre resultat på enskilda platser än någon modell som utbildades på endast lokala data. Vi tror att en konsekvent förbättring uppnåddes på grund av en större men också mer varierad För en klientwebbplats med en relativt liten datamängd kan två typiska tillvägagångssätt användas för att passa en användbar modell: en är att träna lokalt med sina egna data, den andra är att tillämpa en modell som utbildats på en större datamängd. För webbplatser med små datamängder skulle det ha varit praktiskt taget omöjligt att bygga en effektiv djupinlärningsmodell med hjälp av endast deras lokala data. Upptäckten, att dessa två tillvägagångssätt var överlägsna på alla tre förutsägelseuppgifter av den globala FL-modellen, indikerar att fördelen för klientwebbplatser med små datamängder som härrör från deltagande i FL-samarbeten är betydande. Detta är sannolikt en återspegling av FL:s förmåga att fånga mer . 46 Valideringsresultaten bekräftade att den globala modellen är robust, vilket stödjer vår hypotes att FL-utbildade modeller är generaliserbara över hälso- och sjukvårdssystem. De ger ett övertygande fall för användning av prediktiva algoritmer i COVID-19-patientvård, och användning av FL i modellskapande och testning. Genom att delta i denna studie fick klientwebbplatserna tillgång till EXAM, för att ytterligare valideras innan man söker efter regleringsgodkännande eller framtida införande i klinisk vård. samt på olika platser som inte var en del av examensutbildningen. 53 Över 200 prognosmodeller för att stödja beslutsfattande hos patienter med COVID-19 har publicerats Till skillnad från de flesta publikationer som fokuserade på diagnos av COVID-19 eller förutsägelse av dödlighet, förutspådde vi syrebehov som har konsekvenser för patienthantering. Vi använde också fall med okänd SARS-COV-2-status, och så kunde modellen ge inmatning till läkaren innan man fick ett resultat för PCR med omvänd transkription (RT-PCR), vilket gjorde det användbart för en verklig klinisk miljö. Modellens bildinmatning används i vanlig praxis, till skillnad från modeller som använder bröstkomputertomografi, en icke-konsensusdiagnostisk modalitet. Modellens design begränsades till objektiva prediktorer, till skillnad från många publicerade studier som utnyttjade subjektiva kliniska intryck. De insamlade uppgifterna återspeglar 19 Patientkohortidentifiering och dataharmonisering är inte nya frågor inom forskning och datavetenskap Förbättringar av kliniska informationssystem behövs för att effektivisera dataförberedelsen, vilket leder till bättre utnyttjande av ett nätverk av webbplatser som deltar i FL. Detta, i kombination med hyperparameterteknik, kan göra det möjligt för algoritmer att "lära" mer effektivt från större datasatser och anpassa modellparametrar till en viss webbplats för ytterligare personalisering – till exempel genom ytterligare finjustering på den platsen. Ett system som skulle möjliggöra sömlös, nära-till-realtid modell inferens och resultat bearbetning skulle också vara till nytta och skulle "stänga slingan" från utbildning till modellutveckling. 54 39 Eftersom data inte var centraliserade är de inte lättillgängliga. med tanke på detta är eventuell framtida analys av resultaten, utöver vad som härrör och samlas in, begränsad. Liksom andra maskininlärningsmodeller är EXAM begränsad av kvaliteten på utbildningsdata. Institutioner som är intresserade av att implementera denna algoritm för klinisk vård behöver förstå potentiella bias i utbildningen. Till exempel härrörde etiketterna som används som grundläggande sanningar i utbildningen av EXAM-modellen från 24- och 72-timmars syreförbrukning hos patienten; det antas att syre som levereras till patienten motsvarar syrebehovet. Men i den tidiga fasen av COVID-19-pandemin fick många patienter högflödessyre profylaktiskt oavsett deras syrebehov. Eftersom vår dataåtkomst var begränsad hade vi inte tillräckligt med tillgänglig information för att generera detaljerad statistik om orsaker till fel, post hoc, på de flesta platser.Men vi studerade fall av fel från den största oberoende testplatsen, CDH, och kunde generera hypoteser som vi kan testa i framtiden.För högpresterande platser verkar det som att de flesta fall av fel faller i en av två kategorier: (1) låg kvalitet på inmatningsdata – till exempel saknade data eller rörelse artefakt i CXR; eller (2) out-of-distribution data – till exempel en mycket ung patient. I framtiden har vi också för avsikt att undersöka potentialen för en ”populationsdrift” på grund av olika faser av sjukdomsprogression. En funktion som skulle förbättra dessa typer av samarbete i stor skala är möjligheten att förutsäga varje klientwebbplatss bidrag till att förbättra den globala FL-modellen.Detta kommer att bidra till att välja klientwebbplats och prioritera datainsamling och anteckningsinsatser.Det senare är särskilt viktigt med tanke på de höga kostnaderna och svåra logistiken för dessa stora konsortiuminsatser, och det kommer att göra det möjligt för dessa insatser att fånga mångfald snarare än den stora mängden dataprov. Framtida tillvägagångssätt kan inkludera automatiserad hyperparameter sökning Neural arkitektur sökning och annat automatiserat maskininlärning tillvägagångssätt för att hitta de optimala träningsparametrarna för varje klientwebbplats mer effektivt. 55 56 57 Kända problem med batch normalisering (BN) i FL motiverade oss att fixa vår basmodell för bildfunktionsextraktion Framtida arbete kan undersöka olika typer av normaliseringstekniker för att möjliggöra utbildning av AI-modeller i FL mer effektivt när klientdata är icke-oberoende och identiskt fördelade. 58 49 Det senaste arbetet med integritetsangrepp inom FL-inställningen har väckt oro för dataläckage under modellträning Samtidigt förblir skyddsalgoritmer underutforskade och begränsade av flera faktorer. , , visar bra skydd, de kan försvaga modellens prestanda. krypteringsalgoritmer, såsom homomorf kryptering Ett kvantifierbart sätt att mäta integritet skulle möjliggöra bättre val för att bestämma de minimiprivacyparametrar som behövs samtidigt som kliniskt acceptabla prestanda upprätthålls. , , . 59 36 48 49 60 36 48 49 Efter ytterligare validering förutser vi utbyggnaden av EXAM-modellen i ED-inställningen som ett sätt att utvärdera riskerna på både patient- och befolkningsnivå och för att ge kliniker en ytterligare referenspunkt när de gör den ofta svåra uppgiften att testa patienter.Vi förutser också att använda modellen som en mer känslig befolkningsnivåmetrik för att hjälpa till att balansera resurser mellan regioner, sjukhus och avdelningar. Metoder Etiskt godkännande Alla informerade hälsocenter i Kalifornien var informerade i enlighet med principerna för mänsklig experimentering enligt definitionen i Helsingforsdeklarationen och den internationella konferensen om harmonisering av riktlinjerna för god klinisk praxis för hälsa och godkänts av de relevanta institutionella granskningsnämnderna på följande valideringsplatser: CDH, MVH, NCH och på följande utbildningsplatser: MGB, Mass General Hospital (MGH), Brigham and Women’s Hospital, Newton-Wellesley Hospital, North Shore Public Medical Center och New Faulkner Hospital (alla åtta av dessa sjukhus omfattades av MGB:s etiska samtycke, nr. 2020P002673, och informerat samtycke upphävdes av institutionella granskningsnämnden (IRB). MI-CLAIM-riktlinjerna för rapportering av kliniska AI-modeller följdes (Tilläggsmeddelande ) 2 Studera Setting Studien omfattade data från 20 institutioner (Fig. ): MGB, MGH, Brigham and Women's Hospital, Newton-Wellesley Hospital, North Shore Medical Center och Faulkner Hospital; Children's National Hospital i Washington, DC; NIHR Cambridge Biomedical Research Centre; The Self-Defense Forces Central Hospital i Tokyo; National Taiwan University MeDA Lab och MAHC och Taiwan National Health Insurance Administration; Tri-Service General Hospital i Taiwan; Kyungpook National University Hospital i Sydkorea; Faculty of Medicine, Chulalongkorn University i Thailand; Diagnosticos da America SA i Brasilien; University of California, San Francisco; VA San Diego; University of Toronto; National Institutes of Health i Bethesda, Maryland; University of Wisconsin-Madison School of Medicine and Public Health i Taiwan; Memorial Sloan Kettering Cancer Center i New York; och , , Data från tre oberoende platser användes för oberoende validering: CDH, MVH och NCH, alla i Massachusetts, USA. Dessa tre sjukhus hade patientpopulationsegenskaper som skiljer sig från utbildningsplatserna. 1a 61 62 63 Data insamling De 20 klientwebbplatserna förberedde sammanlagt 16 148 fall (både positiva och negativa) för utbildning, validering och testning av modellen (Fig. Klientsidorna strävade efter att inkludera alla COVID-positiva fall från pandemins början i december 2019 och fram till den tid då de inledde lokal utbildning för EXAM-studien.All lokal utbildning hade börjat senast den 30 september 2020.Sidorna inkluderade också andra patienter under samma period med negativa RT-PCR-testresultat.Eftersom de flesta webbplatserna hade fler SARS-COV-2-negativa än -positiva patienter, begränsade vi antalet negativa patienter som ingick till högst 95% av de totala fallen på varje klientplats. 1b Ett ”fall” inkluderade en CXR och de nödvändiga datainmatningarna som tagits från patientens medicinska register. Fördelningen och mönstren för CXR-bildintensitet (pixelvärden) varierade kraftigt mellan platser på grund av en mängd patient- och platsspecifika faktorer, såsom olika enhetstillverkare och bildbehandlingsprotokoll, som visas i figuren. Patientålder och EMR-funktionsfördelning varierade kraftigt mellan platser, som förväntat på grund av olika demografier mellan globalt distribuerade sjukhus (Extended Data Fig. och ) 1b 1c och d 6 Kriterier för patientintegration Kriterierna för inkludering av patienter var: (1) patienten presenterades för sjukhusets ED eller motsvarande; (2) patienten hade ett RT-PCR-test utfört när som helst mellan presentationen till ED och utsläpp från sjukhuset; (3) patienten hade en CXR i ED; och (4) patientens register hade minst fem av EMR-värdena som beskrivs i tabellen. , alla erhållna i ED, och de relevanta resultaten fångade under sjukhusvistelse. av anmärkning, CXR, laboratorieresultat och vitals användes var de första tillgängliga för fångst under besöket till ED. Modellen inte innehöll några CXR, laboratorieresultat eller vitals förvärvade efter att ha lämnat ED. 1 Inmatningsmodell Totalt 21 EMR-funktioner användes som inmatning till modellen.Resultatet (dvs. grundläggande sanning) etiketter tilldelades baserat på patientens krav efter 24- och 72-timmars perioder från inledande antagning till ED. En detaljerad lista över de begärda EMR-funktioner och resultat kan ses i tabellen . 1 Fördelningen av syrebehandling med hjälp av olika enheter på olika klientplatser visas i Extended Data Fig. , som detaljerar enhetens användning vid antagning till ED och efter 24- och 72-timmarsperioder.Skillnaden i datasetdistribution mellan de största och minsta klientwebbplatserna kan ses i Extended Data Fig. . 7 8 Antalet positiva COVID-19-fall, som bekräftas av ett enda RT-PCR-test som erhållits när som helst mellan presentationen till ED och utskrivning från sjukhuset, anges i tilläggstabellen. Varje klientwebbplats uppmanades att slumpmässigt dela upp sin datamängd i tre delar: 70% för utbildning, 10% för validering och 20% för testning. För både 24- och 72-timmars utfallsprognosmodeller genererades slumpmässiga splitser för var och en av de tre upprepade lokala och FL-utbildnings- och utvärderingsförsök oberoende. 1 Exam modellutveckling Det finns stora variationer i den kliniska kursen hos patienter som presenteras på sjukhus med symtom på COVID-19, med vissa som upplever snabb försämring av andningsfunktionen som kräver olika ingrepp för att förebygga eller mildra hypoxemi. , Ett kritiskt beslut som fattas under utvärderingen av en patient vid utgångspunkten för vården, eller i ED, är om patienten sannolikt kommer att kräva mer invasiva eller resursbegränsade motåtgärder eller interventioner (t.ex. MV eller monoklonala antikroppar) och bör därför få en sällsynt men effektiv behandling, en behandling med ett smalt risk-nyttoförhållande på grund av biverkningar eller en högre nivå av vård, såsom antagning till intensivvården. Däremot kan en patient som är i lägre risk att kräva invasiv syrebehandling placeras i en mindre intensiv vårdinställning som en vanlig avdelning, eller till och med frigörs från ED för fortsatt självövervakning hemma. EXAM utvecklades för att hjälpa till att sortera sådana patienter. 62 63 64 65 Observera att modellen inte är godkänd av någon tillsynsmyndighet vid denna tidpunkt och bör endast användas för forskningsändamål. Examenspoäng EXAM utbildades med hjälp av FL; det ger en riskpoäng (kallad EXAM-poäng) som liknar CORISK (Extended Data Fig. Det motsvarar en patients syreunderstödskrav inom två fönster – 24 och 72 h – efter den första presentationen till ED. illustrerar hur CORISK och EXAM-poängen kan användas för patientklassning. 27 9a 9b Bröst X-ray-bilder förbehandlades för att välja den främre positionen bild och utesluta laterala visningsbilder, och sedan skalade till en upplösning av 224 × 224. , samlar modellen information från både EMR och CXR-funktioner (baserat på en modifierad ResNet34 med rumslig uppmärksamhet Pre-trained på CheXpert dataset) och Deep & Cross nätverket För att sammanfoga dessa olika datatyper extraherades en 512-dimensionell funktionvektor från varje CXR-bild med hjälp av en förtränad ResNet34, med rumslig uppmärksamhet, sedan sammankopplad med EMR-funktionerna som ingången för Deep & Cross-nätverket. Vi använde cross-entropy som förlustfunktion och ”Adam” som optimerare. Använda NVIDIA Clara Train SDK Den genomsnittliga AUC för klassificeringsuppgifterna (≥LFO, ≥HFO/NIV eller ≥MV) beräknades och användes som den slutliga utvärderingsmetriken, med normalisering till nollmedel och enhetsvarians. och ) 9a 66 67 68 9b 69 70 27 Funktionsimputation och normalisering En missförest algoritm Om en EMR-funktion saknades helt från en klientwebbplatsdataset, användes det genomsnittliga värdet av den funktionen, beräknat uteslutande på data från MGB-klientwebbplatser. 71 Detaljer om EMR-CXR-datafusion med Deep & Cross-nätverket För att modellera interaktionen mellan funktioner från EMR- och CXR-data på fallnivå användes ett djupfunktionsschema baserat på en Deep & Cross-nätverksarkitektur. Binära och kategoriska funktioner för EMR-inmatningar, liksom 512-dimensionella bildfunktioner i CXR, omvandlades till smälta täta vektorer av verkliga värden genom att bädda in och stapla lager. De transformerade täta vektorerna fungerade som inmatning till fusionskammaren, som specifikt använde ett korsningsnätverk för att genomdriva fusion mellan inmatningar från olika källor. Korsningsnätverket utförde uttryckliga korsningsfunktioner inom sina lager, genom att leda inre produkter mellan den ursprungliga inmatningsfunktionen och utmatningen från föregående lager, vilket ökade graden av interaktion mellan funktioner. Samtidigt utbildades två individuella klassiska djupa neurala nätverk med flera staplade, fullt anslutna feed-forward-lager. 68 FL detaljer Förmodligen den mest etablerade formen av FL är genomförandet av den federerade genomsnittliga algoritmen som föreslagits av McMahan et al. , eller variationer därav. Denna algoritm kan realiseras med hjälp av en klient-server-installation där varje deltagande webbplats fungerar som en klient. Man kan tänka på FL som en metod som syftar till att minimera en global förlustfunktion genom att minska en uppsättning lokala förlustfunktioner, som beräknas på varje webbplats. Genom att minimera varje klientwebbplats lokala förlust samtidigt synkronisera de lärda klientwebbplatsvikterna på en centraliserad aggregeringsserver, kan man minimera den globala förlusten utan att behöva komma åt hela dataset på en centraliserad plats. Varje klientwebbplats lär sig lokalt och delar modellviktuppdateringar med en central server som aggregerar bidrag med hjälp av säkra socketlager kryptering och kommunikationsprotokoll. Servern skickar sedan en uppdaterad och ) 72 9c En pseudoalgoritm för FL visas i kompletterande anmärkning I våra experiment har vi satt antalet federerade omgångar på = 200, med en lokal träningsperiod per omgång för varje kund. Antalet kunder, , var upp till 20 beroende på nätverksanslutning av klienter eller tillgängliga data för en specifik riktad utfallsperiod (24 eller 72 h). , beror på datamängden hos varje klient och används för att väga varje kunds bidrag när man aggregerar modellvikterna i federerat medelvärde. Under FL-utbildningen väljer varje klientwebbplats sin bästa lokala modell genom att spåra modellens prestanda på sin lokala valideringssats. Samtidigt bestämmer servern den bästa globala modellen baserat på de genomsnittliga valideringsresultaten som skickas från varje klientwebbplats till servern efter varje FL-runda. Efter FL-utbildningen avslutas, delas de bästa lokala modellerna och den bästa globala modellen automatiskt med alla klientwebbplatser och utvärderas på deras lokala testdata. 1 T t K Nk k Adam-optimeraren användes för både lokal träning och FL med en inledande inlärningsfrekvens på 5 × 10–5 och en stegvis inlärningsfrekvensförfall med en faktor 0,5 efter varje 40 epoker, vilket är viktigt för konvergens av federerade medelvärden. Slumpmässiga affina transformationer, inklusive rotation, översättningar, skärning, skalning och slumpmässiga intensitetsbuller och skift, tillämpas på bilderna för dataökning under träningen. 73 På grund av känsligheten hos BN-lager När vi hanterade olika kunder i en icke-oberoende och identiskt fördelad miljö fann vi att den bästa modellprestandan uppstod när man höll den förtränade ResNet34 med rumslig uppmärksamhet. parametrar som fastställts under FL-utbildningen (dvs. med en inlärningsfrekvens på noll för dessa lager).Deep & Cross-nätverket som kombinerar bildfunktioner med EMR-funktioner innehåller inte BN-lager och påverkades därför inte av BN-instabilitetsproblem. 58 47 I den här studien undersökte vi ett sekretessbevarande system som bara delar partiella modelluppdateringar mellan server och klientwebbplatser. Viktuppdateringarna rankades under varje iteration efter storlek på bidraget, och endast en viss andel av de största viktuppdateringarna delades med servern. t) (Extended Data Fig. ), som beräknades från alla icke-nollgradienter, Δ kan vara annorlunda för varje kund I varje runda Variationer av detta schema kan inkludera ytterligare klippning av stora gradienter eller differentiella sekretesssystem som lägger till slumpmässig buller till gradienterna, eller till och med till rådata, innan de matas in i nätverket . k 5 Vm(t) k t 49 51 Statistisk analys Vi utförde ett Wilcoxon signed-rank-test för att bekräfta betydelsen av den observerade förbättringen i prestanda mellan den lokalt utbildade modellen och FL-modellen för 24- och 72-timmars tidpunkter (Fig. och Extended Data Fig. Nollhypotesen förkastades med ensidig 1 × 10–3 i båda fallen. 2 1 P Pearsons korrelation användes för att bedöma generaliserbarheten (robusthet av det genomsnittliga AUC-värdet till andra klientwebbplatsers testdata) av lokalt utbildade modeller i förhållande till respektive lokal datamängd. är 0,43 = 0,035, frihetsgrader (df) = 17 för 24-timmarsmodellen och är 0,62 = 0,003, df = 16 för 72-h-modellen).Detta indikerar att datasetstorleken inte ensam är den enda faktorn som avgör hur robust en modell är mot osynliga data. r P r P För att jämföra ROC-kurvor från den globala FL-modellen och lokala modeller utbildade på olika platser (Extended Data Fig. Vi startade 1000 prover från data och beräknade de resulterande AUC-värdena. = (AUC1 och AUC2) och var är den standardiserade skillnaden, är standardavvikelsen för bootstrap-skillnaderna och AUC1 och AUC2 är motsvarande bootstrappade AUC-serier. med normal fördelning, fick vi den Värden illustrerade i kompletterande tabell Resultaten visar att nollhypotesen avvisades med mycket låg värden, vilket indikerar den statistiska signifikansen av överlägsenheten hos FL-resultaten. värden genomfördes i R med pROC-biblioteket . 3 D s D s D P 2 P P 74 Eftersom modellen förutsäger ett diskret resultat, en kontinuerlig poäng från 0 till 1, är en direkt kalibrering utvärdering som en qqplot inte möjlig. Vi utförde en envägsanalys av variation (ANOVA) tester för att jämföra lokala och FL modellpoäng mellan fyra grundläggande sanningskategorier (RA, LFO, HFO, MV). -statistisk, beräknad som variationen mellan provmedel dividerat med variation inom proverna och representerar graden av dispersion mellan olika grupper, användes för att kvantifiera modellerna. -värdena för fem olika lokala platser är 245.7, 253.4, 342.3, 389.8 och 634.8, medan värdena för FL-modellen är 843.5. -värden innebär att grupperna är mer separerbara, poängen från vår FL-modell visar tydligt en större dispersion mellan de fyra grundläggande sanningskategorierna. värdet av ANOVA-testet på FL-modellen är <2 × 10–16, vilket indikerar att FL-prediktionspoängen är statistiskt signifikant olika mellan de olika prediktionsklasserna. 10 F F F P Rapportering sammanfattning Ytterligare information om forskningsdesign finns i länkat till den här artikeln. Naturforskningsrapport sammanfattning Data tillgänglighet Dessa data användes för utbildning på var och en av de lokala platserna och delades inte med någon av de andra deltagande institutionerna eller med den federerade servern, och de är inte offentligt tillgängliga. Data från de oberoende valideringsplatserna upprätthålls av CAMCA, och åtkomst kan begäras genom att kontakta Q.L. Baserat på bestämning av CAMCA kan en datautbyte granskning och ändring av IRB för forskningsändamål utföras av MGB forskningsadministration och i enlighet med MGB IRB och policy. Kod tillgänglighet All kod och programvara som används i denna studie är tillgänglig för allmänheten på NGC. För att komma åt, logga in som gäst eller skapa en profil anger du en av URL:erna nedan. De utbildade modellerna, riktlinjerna för databeredning, koden för utbildning, valideringstestning av modellen, readme-filen, installationsguiden och licensfilerna finns tillgängliga för allmänheten på NVIDIA NGC och : Den federerade inlärningsprogramvaran är tillgänglig som en del av Clara Train SDK: Alternativt kan du använda det här kommandot för att ladda ner modellen "wget --content-disposition -O clara_train_covid19_exam_ehr_xray_1.zip”. 61 https://ngc.nvidia.com/catalog/models/nvidia:med:clara_train_covid19_exam_ehr_xray https://ngc.nvidia.com/catalog/containers/nvidia:clara-train-sdk https://api.ngc.nvidia.com/v2/models/nvidia/med/clara_train_covid19_exam_ehr_xray/versions/1/zip Referenser Budd, J. et al. Digital technologies in the public-health response to COVID-19. , 1183–1192 (2020). Nat. Med. 26 Moorthy, V., Henao Restrepo, A. M., Preziosi, M.-P. & Swaminathan, S. Data sharing for novel coronavirus (COVID-19). , 150 (2020). Bull. World Health Organ. 98 Chen, Q., Allot, A. & Lu, Z. Keep up with the latest coronavirus research. , 193 (2020). Nature 579 Fabbri, F., Bhatia, A., Mayer, A., Schlotter, B. & Kaiser, J. BCG IT spend pulse: how COVID-19 is shifting tech priorities. (2020). https://www.bcg.com/publications/2020/how-covid-19-is-shifting-big-it-spend Candelon, F., Reichert, T., Duranton, S., di Carlo, R. C. & De Bondt, M. The rise of the AI-powered company in the postcrisis world. (2020). https://www.bcg.com/en-gb/publications/2020/business-applications-artificial-intelligence-post-covid Chao, H. et al. Integrative analysis for COVID-19 patient outcome prediction. , 101844 (2021). Med. Image Anal. 67 Zhu, X. et al. Joint prediction and time estimation of COVID-19 developing severe symptoms using chest CT scan. , 101824 (2021). Med. Image Anal. 67 Yang, D. et al. Federated semi-supervised learning for Covid region segmentation in chest ct using multi-national data from China, Italy, Japan. , 101992 (2021). Med. Image Anal. 70 Minaee, S., Kafieh, R., Sonka, M., Yazdani, S. & Jamalipour Soufi, G. Deep-COVID: predicting COVID-19 from chest X-ray images using deep transfer learning. , 101794 (2020). Med. Image Anal. 65 COVID-19 Studies from the World Health Organization Database. (2020). https://clinicaltrials.gov/ct2/who_table ACTIV. (2020). https://www.nih.gov/research-training/medical-research-initiatives/activ Coronavirus Treatment Acceleration Program (CTAP). US Food and Drug Administration (2020). https://www.fda.gov/drugs/coronavirus-covid-19-drugs/coronavirus-treatment-acceleration-program-ctap Gleeson, P., Davison, A. P., Silver, R. A. & Ascoli, G. A. A commitment to open source in neuroscience. , 964–965 (2017). Neuron 96 Piwowar, H. et al. The state of OA: a large-scale analysis of the prevalence and impact of open access articles. , e4375 (2018). PeerJ. 6 European Society of Radiology (ESR). What the radiologist should know about artificial intelligence – an ESR white paper. , 44 (2019). Insights Imaging 10 Pesapane, F., Codari, M. & Sardanelli, F. Artificial intelligence in medical imaging: threat or opportunity? Radiologists again at the forefront of innovation in medicine. , 35 (2018). Eur. Radiol. Exp. 2 Price, W. N. 2nd & Cohen, I. G. Privacy in the age of medical big data. , 37–43 (2019). Nat. Med. 25 Liang, W. et al. Development and validation of a clinical risk score to predict the occurrence of critical illness in hospitalized patients with COVID-19. , 1081–1089 (2020). JAMA Intern. Med. 180 Wynants, L. et al. Prediction models for diagnosis and prognosis of covid-19 infection: systematic review and critical appraisal. , m1328 (2020). Brit. Med. J. 369 Zhang, L. et al. D-dimer levels on admission to predict in-hospital mortality in patients with Covid-19. , 1324–1329 (2020). J. Thromb. Haemost. 18 Sands, K. E. et al. Patient characteristics and admitting vital signs associated with coronavirus disease 2019 (COVID-19)-related mortality among patients admitted with noncritical illness. (2020). https://doi.org/10.1017/ice.2020.461 American College of Radiology. CR recommendations for the use of chest radiography and computed tomography (CT) for suspected COVID-19 infection. (2020). https://www.acr.org/Advocacy-and-Economics/ACR-Position-Statements/Recommendations-for-Chest-Radiography-and-CT-for-Suspected-COVID19-Infection Rubin, G. D. et al. The role of chest imaging in patient management during the COVID-19 pandemic: a multinational consensus statement from the Fleischner Society. , 172–180 (2020). Radiology 296 World Health Organization. Use of chest imaging in COVID-19. (2020). https://www.who.int/publications/i/item/use-of-chest-imaging-in-covid-19 Jamil, S. et al. Diagnosis and management of COVID-19 disease. , 10 (2020). Am. J. Respir. Crit. Care Med. 201 Redmond, C. E., Nicolaou, S., Berger, F. H., Sheikh, A. M. & Patlas, M. N. Emergency radiology during the COVID-19 pandemic: The Canadian Association of Radiologists Recommendations for Practice. , 425–430 (2020). Can. Assoc. Radiologists J. 71 Buch, V. et al. Development and validation of a deep learning model for prediction of severe outcomes in suspected COVID-19 Infection. Preprint at (2021). https://arxiv.org/abs/2103.11269 Lyons, C. & Callaghan, M. The use of high-flow nasal oxygen in COVID-19. , 843–847 (2020). Anaesthesia 75 Whittle, J. S., Pavlov, I., Sacchetti, A. D., Atwood, C. & Rosenberg, M. S. Respiratory support for adult patients with COVID-19. , 95–101 (2020). J. Am. Coll. Emerg. Physicians Open 1 Ai, J., Li, Y., Zhou, X. & Zhang, W. COVID-19: treating and managing severe cases. , 370–371 (2020). Cell Res. 30 Esteva, A. et al. A guide to deep learning in healthcare. , 24–29 (2019). Nat. Med. 25 Cahan, E. M., Hernandez-Boussard, T., Thadaney-Israni, S. & Rubin, D. L. Putting the data before the algorithm in big data addressing personalized healthcare. , 78 (2019). NPJ Digit. Med. 2 Thrall, J. H. et al. Artificial intelligence and machine learning in radiology: opportunities, challenges, pitfalls, and criteria for success. , 504–508 (2018). J. Am. Coll. Radiol. 15 Shilo, S., Rossman, H. & Segal, E. Axes of a revolution: challenges and promises of big data in healthcare. , 29–38 (2020). Nat. Med. 26 Gao, Y. & Cui, Y. Deep transfer learning for reducing health care disparities arising from biomedical data inequality. , 5131 (2020). Nat. Commun. 11 Rieke, N. et al. The future of digital health with federated learning. , 119 (2020). NPJ Dig. Med. 3 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. 10 Ma, C. et al. On safeguarding privacy and security in the framework of federated learning. , 242–248 (2020). IEEE Netw. 34 Brisimi, T. S. et al. Federated learning of predictive models from federated Electronic Health Records. , 59–67 (2018). Int. J. Med. Inform. 112 Roth, H. R. et al. Federated learning for breast density classification: a real-world implementation. In , (eds. Albarqouni, S. et al.) Vol. 12,444, 181–191 (Springer International Publishing, 2020). Proc. Second MICCAI Workshop, DART 2020 and First MICCAI Workshop, DCL 2020 Domain Adaptation and Representation Transfer, and Distributed and Collaborative Learning Sheller, M. J. et al. Federated learning in medicine: facilitating multi-institutional collaborations without sharing patient data. , 12598 (2020). Sci. Rep. 10 Remedios, S. W., Butman, J. A., Landman, B. A. & Pham, D. L. in (eds Remedios, S. W. et al.) (Springer, 2020). Federated Gradient Averaging for Multi-Site Training with Momentum-Based Optimizers Xu, Y. et al. A collaborative online AI engine for CT-based COVID-19 diagnosis. Preprint at (2020). https://www.medrxiv.org/content/10.1101/2020.05.10.20096073v2 Raisaro, J. L. et al. SCOR: A secure international informatics infrastructure to investigate COVID-19. , 1721–1726 (2020). J. Am. Med. Inform. Assoc. 27 Vaid, A. et al. Federated learning of electronic health records to improve mortality prediction in hospitalized patients with COVID-19: machine learning approach. , e24207 (2021). JMIR Med. Inform. 9 Nino, G. et al. Pediatric lung imaging features of COVID-19: a systematic review and meta-analysis. , 252–263 (2021). Pediatr. Pulmonol. 56 Fredrikson, M., Jha, S. & Ristenpart, T. Model inversion attacks that exploit confidence information and basic countermeasures. In 1322–1333, (2015). Proc. 22nd ACM SIGSAC Conference on Computer and Communications Security https://doi.org/10.1145/2810103.2813677 Zhu, L., Liu, Z. & Han, S. in (eds Wallach, H. et al.) 14774–14784 (Curran Associates, Inc., 2019). Advances in Neural Information Processing Systems 32 Kaissis, G. A., Makowski, M. R., Rückert, D. & Braren, R. F. Secure, privacy-preserving and federated machine learning in medical imaging. , 305–311 (2020). Nat. Mach. Intell. 2 Li, W. et al. in 133–141 (Springer, 2019). Privacy-Preserving Federated Brain Tumour Segmentation Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In (2015). Proc. 53rd Annual Allerton Conference on Communication, Control, and Computing (Allerton) https://doi.org/10.1109/allerton.2015.7447103 Li, X. et al. Multi-site fMRI analysis using privacy-preserving federated learning and domain adaptation: ABIDE results. , 101765 (2020). Med. Image Anal. 65 Estiri, H. et al. Predicting COVID-19 mortality with electronic medical records. , 15 (2021). NPJ Dig. Med. 4 Jiang, G. et al. Harmonization of detailed clinical models with clinical study data standards. , 65–74 (2015). Methods Inf. Med. 54 Yang, D. et al. in . (2019). Searching Learning Strategy with Reinforcement Learning for 3D Medical Image Segmentation https://doi.org/10.1007/978-3-030-32245-8_1 Elsken, T., Metzen, J. H. & Hutter, F. Neural architecture search: a survey. , 1–21 (2019). J. Mach. Learning Res. 20 Yao, Q. et al. Taking human out of learning applications: a survey on automated machine learning. Preprint at (2019). https://arxiv.org/abs/1810.13306 Ioffe, S. & Szegedy, C. Batch normalization: accelerating deep network training by reducing internal covariate shift. In , PMLR , 448–456 (2015). Proc. 32nd International Conf. Machine Learning 37 Kaufman, S., Rosset, S. & Perlich, C. Leakage in data mining: formulation, detection, and avoidance. In , 556–563 (2011). Proc. 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Zhang, C. et al. BatchCrypt: efficient homomorphic encryption for cross-silo federated learning. In , 493–506 (2020). Proc. 2020 USENIX Annual Technical Conference, ATC 2020 . (2020). Nvidia NGC Catalog: COVID-19 Related Models https://ngc.nvidia.com/catalog/models?orderBy=scoreDESC&pageNumber=0&query=covid&quickFilter=models&filters Marini, J. J. & Gattinoni, L. Management of COVID-19 respiratory distress. , 2329–2330 (2020). JAMA 323 Cook, T. M. et al. Consensus guidelines for managing the airway in patients with COVID-19: Guidelines from the Difficult Airway Society, the Association of Anaesthetists the Intensive Care Society, the Faculty of Intensive Care Medicine and the Royal College of Anaesthetist. , 785–799 (2020). Anaesthesia 75 Galloway, J. B. et al. A clinical risk score to identify patients with COVID-19 at high risk of critical care admission or death: an observational cohort study. , 282–288 (2020). J. Infect. 81 Kilaru, A. S. et al. Return hospital admissions among 1419 COVID-19 patients discharged from five U.S. emergency departments. , 1039–1042 (2020). Acad. Emerg. Med. 27 He, K., Zhang, X., Ren, S. & Sun, J. Deep residual learning for image recognition. In (2016). Proc. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) https://doi.org/10.1109/cvpr.2016.90 Irvin, J. et al. CheXpert: a large chest radiograph dataset with uncertainty labels and expert comparison. , 590–597 (2019). Proc. AAAI Conf. Artif. Intell. 33 Wang, R., Fu, B., Fu, G. & Wang, M. Deep & Cross network for Ad Click predictions. In Article no. 12 (2017). Proc. ADKDD’17 Abadi, M. et al. TensorFlow: asystem for large-scale machine learning. In , USENIX Association 265–283 (2016). 12th USENIX Symposium on Operating Systems Design and Implementation (OSDI 16) . (2020). NVIDIA Clara Imaging https://developer.nvidia.com/clara-medical-imaging Stekhoven, D. J. & Bühlmann, P. MissForest–non-parametric missing value imputation for mixed-type data. , 112–118 (2012). Bioinformatics 28 McMahan, H., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. (2017). http://proceedings.mlr.press/v54/mcmahan17a.html Hsieh, K., Phanishayee, A., Mutlu, O. & Gibbons, P. B. The non-IID data quagmire of decentralized machine learning. In PMLR 119 (2020). Proc. 37th International Conf. Machine Learning Robin, X. et al. pROC: an open-source package for R and S+ to analyze and compare ROC curves. , 77 (2011). BMC Bioinformatics 12 erkännande De åsikter som uttrycks i denna studie är de av författarna och inte nödvändigtvis de av NHS, NIHR, Department of Health and Social Care eller någon av de organisationer som är associerade med författarna. MGB tackar följande personer för deras stöd: J. Brink, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; M. Kalra, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; N. Neumark, Center for Clinical Data Science, Massachusetts General Brigham, Boston, MA; T. Schultz, Department of Radiology, Massachusetts General Hospital, Boston, MA; N. Guo, Center for Advanced Medical Computing and Analysis, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; J. K. Cramer, Director, QT Genom fakulteten för medicin, Chulalongkorn University tackar Ratchadapisek Sompoch Endowment Fund RA (PO) (nr 001/63) för insamling och hantering av COVID-19-relaterade kliniska data och biologiska prover för forskningsgruppen, fakulteten för medicin, Chulalongkorn University. NIHR Cambridge Biomedical Research Center tackar A. Priest, som stöds av NIHR (Cambridge Biomedical Research Centre på Cambridge University Hospitals NHS Foundation Trust). National Taiwan University MeDA Lab och MAHC och Taiwan National Health Insurance Administration tackar MOST Joint Research Center for AI technology, All Vista Healthcare National Health Administration, Taiwan, Ministry of Science and Technology, och Taiwan National Center for Theoretical Sciences Mathematics Division. National Institutes of Health (HNI) erkänner att https://data.ucsf.edu/covid19 Denna artikel är tillgänglig i naturen under CC by 4.0 Deed (Attribution 4.0 International) licens. Denna artikel är tillgänglig i naturen under CC by 4.0 Deed (Attribution 4.0 International) licens.