En ny privatlivs-første AI forudsiger COVID sværhedsgrad ved hjælp af røntgenstråler og medicinske optegnelser

Forfattere af: Ittai Dayan af Holger R. Roth af Aoxiao Zhong Ahmed Harouni Amilcare Gentili Anas Z. Abidin Andrew Liu Anthony Beardsworth Costa Bradford J. Wood Chien-Sung Tsaï af Chih-Hung Wang Chun-Nan Hsu C. K. Lee Peiying Ruan Daguang Xu Dufan Wu Eddie Huang af Felipe Campos Kitamura af Griffin Lacey Gustavo César af Antônio Corradi af Gustavo Nino Hao-Hsin Shin af Hirofumi Obinata Hui Ren af Jason C. Crane af Jesse Tetreault Jiahui Guan af John W. Garrett Joshua D. Kaggie Jung Gil Park af Keith Dreyer Krishna Juluru Kristopher Kersten Marcio Aloisio Bezerra Cavalcanti Rockenbach Marius George Linguraru af Masoom A. Haider af AbdelMaseeh af Nicola Rieke Pablo F. Damasceno af Pedro Mario Cruz e Silva Køge Wang Sheng Xu af Shuichi Kawano Sira Srisvasdi af Soo Young Park Thomas M. Grist Varun bog Watsamon Jantarabenjakul Læser Wang Vinder af Young Tak af Xiang Li Xihong Lin Young Joon Kwon Abood Quraini af Andrew Feng af Andrew N. Priest af Baris Turkbey Benjamin Glicksberg Bernardo Bizzo Søg efter Kim Carlos Tor-Díez Chia-Cheng Lee Chia-Jung Hsu Chin Lin Chiu-Ling Lai Christopher P. Hess Colin Kompas Deepeksha Bhatia Eric K. Oermann Evan Leibovitz Hisashi Sasaki af Hitoshi Mori af Isaac Yang Jae Ho søn Krishna Nand Keshava Murthy Li-Chen Fu Matheus Ribeiro Furtado de Mendonça Mike Fralick Min Kyu Kang Mohammad Adil Natalie Gangai Peerapon Vateekul Pierre Elnajjar Sarah Hickman Sharmila Majumdar Shelley L. McLeod af Sheridan Reed Stefan Gräf Stephanie Harmon Tatsuya Kodama Thanyawee Puthanakit Tony Mazzulli Vitor Lima af Arbejdet Yothin Rakvongthai af Yu Rim Lee Yuhong Wen af Fiona J. Gilbert Mona G. Flores Quanzheng Li Forfattere af: Læser Dayan af Holger R. Roth af Aoxiao Zhong af Ahmed Harouni Amilcare venlige af Anas Z. Abidin af Andrew Liu af Anthony Beardsworth Costa af Bradford J. Wood Chien-Sung Tsaï af Chih-Hung Wang Chun-Nan Hsu af C. K. Lee Køge Ruan Daguang Xu Dufan Wu af Eddie Huang af Felipe Campos Kitamura af Griffin Lacey Gustavo César af Antônio Corradi af Gustavo Nino Hao-Hsin Shin af Hirofumi Obinata Hui Ren af Jason C. Crane af Jesse Tetreault af Jiahui Guan af John W. Garrett af Joshua D. Kaggie af Jung Gil Park af Keith Dreyer Krishna Juluru Kristensen Kersten af Marcio Aloisio Bezerra Cavalcanti Rockenbach af Marius George Linguraru af Masoom A. Haider af AbdelMaseeh af Nicola Rieke af Pablo F. Damasceno af Pedro Mario Cruz e Silva Køge Wang af Sheng Xu af Shuichi Kawano Sira Srisvasdi af Soo Young Park af Thomas M. Grist Varun bog Spiseværelse Vatsamon Læser Wang Vinder af Young Tak af Xiang Li af Xihong Lin Unge Joon Kwon Kærlighed Quraini af Andrew Feng af Andrew N. Priest af Baris Turkbey af Benjamin Glicksberg af Bernardo Bizzo Søg efter Kim af Carlos Tor-Díez af Chia-Cheng Lee af Chia-Jung Hsu Kinesisk Lin Køge-Ling Lai af Christopher P. Hess Colin Kompas Deepeksha Bhatia af Eric K. Oermann af Evan Leibovitz af Hisashi Sasaki af Hitoshi Mori af Isaac Yang Jae Ho søn Krishna og Keshava Murthy Li-Chen Fø af Matheus Ribeiro Furtado de Mendonça af Mike Fralick Min Kyu Kang af Mohammad Adil af Natalie Gangai Peerapon Vateekul af Pierre Elnajjar af Sarah Hickman Sharmila Majumdar af Shelley L. McLeod af Sheridan Reed af Stefan Gräf af Stephanie Harmon af Tatsuya Kodama Løbehjælp af Tony Mazzulli Vitor Lima af Arbejdet Yothin Rakvongthai af Yu Rim Lee af Yuhong Wen af Fiona J. Gilbert Mona G. Blomster Kæmper Li Abstrakte Her brugte vi data fra 20 institutter over hele verden til at træne en FL-model, kaldet EXAM (Electronic Medical Record (EMR) chest X-ray AI-model), som forudsiger de fremtidige iltbehov hos symptomatiske patienter med COVID-19 ved hjælp af input af vitale tegn, laboratoriedata og bryst røntgenstråler. EXAM opnåede et gennemsnitligt område under kurven (AUC) >0.92 for at forudsige resultaterne på 24 og 72 timer fra tidspunktet for den første præsentation til beredskabsstuen, og det gav 16% forbedring i gennemsnitlig AUC målt på tværs af alle deltagende steder og en gennemsnitlig stigning i klinisk generalisering på 38% sammenlignet med specifikke modeller uddannet på et sted ved hjælp af webstedets data. For Hoved De videnskabelige, akademiske, medicinske og datalogiske samfund er kommet sammen i lyset af COVID-19 pandemisk krise for hurtigt at vurdere nye paradigmer inden for kunstig intelligens (AI), der er hurtige og sikre, og potentielt tilskynde til datadeling og modeluddannelse og test uden de sædvanlige privatlivets fred og data ejerskab hindringer af konventionelle samarbejder. , Sundhedsudbydere, forskere og industrien har vendt deres fokus til at imødekomme uopfyldte og kritiske kliniske behov skabt af krisen, med bemærkelsesværdige resultater. , , , , , , Rekruttering af kliniske forsøg er blevet fremskyndet og faciliteret af nationale tilsynsorganer og en international samarbejdsånd , , Dataanalyse og AI-discipliner har altid fremmet åbne og samarbejdende tilgange, der omfatter begreber som open-source-software, reproducerbar forskning, data repositories og gør tilgængelige anonymiserede datasæt offentligt. , Pandemien har understreget behovet for hurtigt at gennemføre data-samarbejde, der styrker de kliniske og videnskabelige samfund, når de reagerer på hurtigt udviklende og udbredte globale udfordringer. , , . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Et konkret eksempel på disse typer samarbejde er vores tidligere arbejde på en AI-baseret SARS-COV-2 kliniske beslutningsstøtte (CDS) model. Denne CDS-model blev udviklet på Mass General Brigham (MGB) og blev valideret over flere sundhedssystemers data. , , , CXR blev valgt som billedindgang, fordi det er bredt tilgængeligt og almindeligt angivet af retningslinjer som dem, der leveres af ACR Det Fleischner Selskab af WHO De nationale thoracic samfund , national sundhedsministerium COVID håndbøger og radiologi samfund over hele verden Udgangen af CDS-modellen var en score, kaldet CORISK , som svarer til behovet for iltstøtte, og som kunne hjælpe med at screene patienter af frontlinjeklinikere , , Sundhedsudbydere har været kendt for at foretrække modeller, der blev valideret på deres egne data Hidtil er de fleste AI-modeller, herunder den ovennævnte CDS-model, blevet trænet og valideret på "snævre" data, der ofte mangler mangfoldighed , , potentielt resulterer i overfitting og lavere generalisering. Dette kan afhjælpes ved træning med forskellige data fra flere steder uden centralisering af data Brug af metoder som f.eks. læring , FL er en metode, der anvendes til at træne AI-modeller på forskellige datakilder, uden at dataene transporteres eller udsættes uden for deres oprindelige placering. . 18 19 20 21 22 23 24 25 26 27 28 29 30 27 31 32 33 34 35 36 Federeret læring understøtter hurtig lancering af centralt orkestrerede eksperimenter med forbedret sporbarhed af data og vurdering af algoritmiske ændringer og virkninger En tilgang til FL, kaldet klient-server, sender en "untrained" model til andre servere ("noder"), der udfører delvise træningsopgaver, og sender i sin tur resultaterne tilbage til at blive fusioneret i den centrale ("federerede") server. . 37 36 Datastyring for FL opretholdes lokalt, hvilket lindrer bekymringer om privatlivets fred, med kun modelvægte eller gradienter kommunikeret mellem klientwebsteder og den fødererede server , FL har allerede vist løfte i nyere medicinske billeddannelsesapplikationer , , , Læs mere om Covid-19 , , Et bemærkelsesværdigt eksempel er en dødelighedsforudsigelsesmodel hos patienter inficeret med SARS-COV-2, der bruger kliniske egenskaber, omend begrænset i form af antal modaliteter og skala. . 38 39 40 41 42 43 8 44 45 46 Vores mål var at udvikle en robust, generaliserbar model, der kunne hjælpe med at triage patienter. Vi teoriserede, at CDS-modellen kunne fødereres med succes, da den anvendte dataindtastninger, der er relativt almindelige i klinisk praksis, og som ikke er stærkt afhængige af operatør-afhængige vurderinger af patientens tilstand (såsom kliniske indtryk eller rapporterede symptomer). I stedet blev laboratorieresultater, vitale tegn, en billeddannelsesundersøgelse og en almindeligt indfanget demografisk (dvs. alder) brugt. Vi omskolede derfor CDS-modellen med forskellige data ved hjælp af en klient-server FL-tilgang til at udvikle en ny global FL-model, som blev kaldt EXAM, ved at bruge CXR- og EMR-funktioner som input. Vores hypotese var, at EXAM ville fungere bedre end lokale modeller og ville generalisere bedre på tværs af sundhedssystemer. Resultater Den eksamens arkitektur EXAM-modellen er baseret på CDS-modellen nævnt ovenfor I alt blev 20 egenskaber (19 fra EMR og en CXR) anvendt som input til modellen. Resultatet (dvs. 'jordens sandhed') etiketter blev tildelt baseret på patientens iltbehandling efter 24- og 72-timers perioder fra første optagelse til nødafdelingen (ED). En detaljeret liste over de ønskede egenskaber og resultater kan ses i tabel . 27 1 Oxygenbehandlingskategorierne var henholdsvis rumluft (RA), lavt flow ilt (LFO), højt flow ilt (HFO)/noninvasiv ventilation (NIV) eller mekanisk ventilation (MV). Hvis patienten døde inden for forudsigelsesvinduet, blev resultatet mærket til 1. Dette resulterede i, at der i hvert tilfælde blev tildelt to etiketter i området 0-1 svarende til hver af forudsigelsesvinduet (dvs. 24 og 72 timer). For EMR-funktioner blev kun de første værdier, der blev indfanget i ED, anvendt, og dataforbehandling omfattede deidentifikation, manglende værdiimputation og normalisering til nul-medium og enhedsvarians. Modellen fusionerer derfor information fra både EMR og CXR-funktioner ved hjælp af et 34-lags konvolutionelt neuralt netværk (ResNet34) for at udtrække funktioner fra et CXR og et Deep & Cross-netværk for at sammenkæde funktionerne sammen med EMR-funktionerne (for mere udvidede detaljer, se Modeludgangen er en risiko score, kaldet EXAM score, som er en kontinuerlig værdi i området 0-1 for hver af de 24 og 72 timers forudsigelser, der svarer til de etiketter, der er beskrevet ovenfor. Metoder Føderation af modellen EXAM-modellen blev trænet ved hjælp af en kohorte på 16.148 tilfælde, hvilket gør den ikke kun blandt de første FL-modeller til COVID-19 men også et meget stort og flerkontinentalt udviklingsprojekt i klinisk relevant AI (Fig. Data mellem steder blev ikke harmoniseret før udvinding, og i lyset af virkelige kliniske informatik omstændigheder, en omhyggelig harmonisering af dataindtastningen blev ikke udført af forfatterne (Fig. ) af 1a og b 1 C og D , World map indicating the 20 different client sites contributing to the EXAM study. , Antallet af sager bidraget af hver institution eller websted (klient 1 repræsenterer det websted, der bidrager med det største antal sager). Bryst X-ray intensitetsfordeling på hver klient site. , Patienternes alder på hvert klientsted, der viser minimum og maksimumsalder (asterisker), gennemsnitsalder (triangler) og standardafvigelse (horisontale barer). . a b c d 1 Vi sammenlignede lokalt uddannede modeller med den globale FL-model på hver kundes testdata. Træning af modellen gennem FL resulterede i en betydelig forbedring af ydeevnen ( 1 × 10–3, Wilcoxon signeret-rang test) af 16% (som defineret ved gennemsnitlig AUC ved kørsel af modellen på de respektive lokale testsæt: fra 0,795 til 0,920, eller 12,5 procentpoint) (Fig. Det resulterede også i 38% forbedring i generaliserbarhed (som defineret ved gennemsnitlig AUC ved kørsel af modellen på alle testsæt: fra 0,667 til 0,920, eller 25,3 procentpoint) af den bedste globale model til forudsigelse af 24-timers iltbehandling sammenlignet med modeller, der kun blev trænet på et websteds egne data (Fig. For de forudsigelige resultater af 72-timers iltbehandling resulterede den bedste globale modeluddannelse i en gennemsnitlig ydeevneforbedring på 18% sammenlignet med lokalt uddannede modeller, mens generaliserbarheden af den globale model forbedrede sig i gennemsnit med 34% (Extended Data Fig. ) Stabiliteten af vores resultater blev valideret ved at gentage tre løb af lokal og FL træning på forskellige randomiserede data splits. P 2a 2b 1 , Ydeevne på hver kundes test indstillet i forudsigelse af 24-timers iltbehandling for modeller, der kun er uddannet på lokale data (Local) i forhold til den bedste globale model, der er tilgængelig på serveren (FL). , Generaliserbarhed (gennemsnitlig ydeevne på andre websteds testdata, som repræsenteret ved gennemsnitlig AUC) som en funktion af en kundes datasættestørrelse (ingen tilfælde). Den grønne horisontale linje angiver den generaliserbare ydeevne for den bedste globale model. ) og klient 14 havde tilfælde kun med RA-behandling, således at evalueringsmetrikken (af AUC) ikke var anvendelig i nogen af disse tilfælde ( Data for klient 14 blev også udelukket fra beregningen af gennemsnitlig generaliserbarhed i lokale modeller. a b 1 Metoder Lokale modeller, der blev uddannet ved hjælp af ubalancerede kohorter (f.eks. hovedsageligt milde tilfælde af COVID-19) gavn af FL-metoden, med en betydelig forbedring i forudsigelsesgennemsnitlig AUC-præstation for kategorier med kun få tilfælde. Dette var tydeligt på klientstedet 16 (et ubalanceret datasæt), med de fleste patienter, der oplevede mild sygdomssværdighed og med kun få alvorlige tilfælde. FL-modellen opnåede en højere sand-positive sats for de to positive (alvorlige) tilfælde og en markant lavere falsk-positive sats sammenlignet med den lokale model, både vist i modtagerens operative karakteristiske (ROC) plots og forvirrende matrisser (figur. og udvidede data. Vigtigere, generaliserbarheden af FL-modellen blev betydeligt øget over den lokalt uddannede model. 3a 2 , ROC at client site 16, with unbalanced data and mostly mild cases. , ROC of the local model at client site 12 (a small dataset), mean ROC of models trained on larger datasets corresponding to the five client sites in the Boston area (1, 4, 5, 6, 8) and ROC of the best global model in prediction of 72-h oxygen treatment for different thresholds of EXAM score (left, middle, right). The mean ROC is calculated based on five locally trained models while the gray area denotes the ROC standard deviation. ROCs for three different cutoff values ( ) of the EXAM risk score are shown. Pos and neg denote the number of positive and negative cases, respectively, as defined by this range of EXAM score. a b t In the case of client sites with relatively small datasets, the best FL model markedly outperformed not only the local model but also those trained on larger datasets from five client sites in the Boston area of the USA (Fig. ). 3b The global model performed well in predicting oxygen needs at 24/72 h in patients both COVID positive and negative (Extended Data Fig. ). 3 Validering på uafhængige websteder Following initial training, EXAM was subsequently tested at three independent validation sites: Cooley Dickinson Hospital (CDH), Martha’s Vineyard Hospital (MVH) and Nantucket Cottage Hospital (NCH), all in Massachusetts, USA. The model was not retrained at these sites and it was used only for validation purposes. The cohort size and model inference results are summarized in Table , og ROC-kurverne og forvirrelsesmatricerne for det største datasæt (fra CDH) er vist i figur. Operationspunktet blev indstillet til at skelne mellem ikke-mekanisk ventilation og mekanisk ventilation (MV) behandling (eller død). Den FL globale uddannede model, EXAM, opnåede en gennemsnitlig AUC på 0,944 og 0,924 for 24- og 72-timers forudsigelsesopgaver, henholdsvis (tabel ), which exceeded the average performance among sites used in training EXAM. For prediction of MV treatment (or death) at 24 h, EXAM achieved a sensitivity of 0.950 and specificity of 0.882 at CDH, and a sensitivity of 1.000 specificity of 0.934 at MVH. NCH did not have any cases with MV/death at 24 h. In regard to 72-h MV prediction, EXAM achieved a sensitivity of 0.929 and specificity of 0.880 at CDH, sensitivity of 1.000 and specificity of 0.976 at MVH and sensitivity of 1.000 and specificity of 0.929 at NCH. 2 4 2 , , Performance (ROC) (top) and confusion matrices (bottom) of the EXAM FL model on the CDH dataset for prediction of oxygen requirement at 24 h ( ) and 72 h ( ). ROCs for three different cutoff values ( ) of the EXAM risk score are shown. a b a b t For MV at CDH at 72 h, EXAM had a low false-negative rate of 7.1%. Representative failure cases are presented in Extended Data Fig. , viser to falsk-negative tilfælde fra CDH, hvor et tilfælde havde mange manglende EMR data funktioner og den anden havde en CXR med en bevægelse artefakt og nogle manglende EMR funktioner. 4 Use of differential privacy A primary motivation for healthcare institutes to use FL is to preserve the security and privacy of their data, as well as adherence to data compliance measures. For FL, there remains the potential risk of model ‘inversion’ eller endda rekonstruktionen af træningsbilleder fra modelgradienterne selv For at imødegå disse risici blev der anvendt sikkerhedsforstærkende foranstaltninger til at mindske risikoen i tilfælde af "aflytning" af data under kommunikation mellem websted og server. . We experimented with techniques to avoid interception of FL data, and added a security feature that we believe could encourage more institutions to use FL. We thus validated previous findings showing that partial weight sharing, and other differential privacy techniques, can successfully be applied in FL . Through investigation of a partial weight-sharing scheme , , , we showed that models can reach a comparable performance even when only 25% of weight updates are shared (Extended Data Fig. ) af 47 48 49 50 50 51 52 5 Discussion Denne undersøgelse indeholder en stor, real-world sundhedspleje FL-undersøgelse med hensyn til antallet af steder og antallet af datapunkter, der anvendes. Vi mener, at den giver et stærkt bevis-of-concept for gennemførligheden af at bruge FL til hurtig og samarbejdsudvikling af nødvendige AI-modeller i sundhedspleje. Vores undersøgelse involverede flere steder på tværs af fire kontinenter og under tilsyn af forskellige reguleringsorganer, og dermed holder løftet om at blive leveret til forskellige regulerede markeder på en accelereret måde. Den globale FL-model, EXAM, viste sig at være mere robust og opnået bedre resultater på individuelle steder end nogen model, der blev uddannet på kun lokale data. Vi mener, at en konsekvent forbedring blev opnået på grund af en større, men også mere forskellig For a client site with a relatively small dataset, two typical approaches could be used for fitting a useful model: one is to train locally with its own data, the other is to apply a model trained on a larger dataset. For sites with small datasets, it would have been virtually impossible to build a performant deep learning model using only their local data. The finding, that these two approaches were outperformed on all three prediction tasks by the global FL model, indicates that the benefit for client sites with small datasets arising from participation in FL collaborations is substantial. This is probaby a reflection of FL’s ability to capture more diversity than local training, and to mitigate the bias present in models trained on a homogenous population. An under-represented population or age group in one hospital/region might be highly represented in another region—such as children who might be differentially affected by COVID-19, including disease manifestations in lung imaging . 46 The validation results confirmed that the global model is robust, supporting our hypothesis that FL-trained models are generalizable across healthcare systems. They provide a compelling case for the use of predictive algorithms in COVID-19 patient care, and the use of FL in model creation and testing. By participating in this study the client sites received access to EXAM, to be further validated ahead of pursuing any regulatory approval or future introduction into clinical care. Plans are under way to validate EXAM prospectively in ‘production’ settings at MGB leveraging COVID-19 targeted resources , as well as at different sites that were not a part of the EXAM training. 53 Mere end 200 forudsigelsesmodeller til støtte for beslutningstagning hos patienter med COVID-19 er blevet offentliggjort . Unlike the majority of publications focused on diagnosis of COVID-19 or prediction of mortality, we predicted oxygen requirements that have implications for patient management. We also used cases with unknown SARS-COV-2 status, and so the model could provide input to the physician ahead of receiving a result for PCR with reverse transcription (RT–PCR), making it useful for a real-life clinical setting. The model’s imaging input is used in common practice, in contrast with models that use chest computed tomography, a nonconsensual diagnostic modality. The model’s design was constrained to objective predictors, unlike many published studies that leveraged subjective clinical impressions. The data collected reflect varied incidence rates, and thus the ‘population momentum’ we encountered is more diverse. This implies that the algorithm can be useful in populations with different incidence rates. 19 Patient cohort identification and data harmonization are not novel issues in research and data science , but are further complicated, when using FL, given the lack of visibility on other sites’ datasets. Improvements to clinical information systems are needed to streamline data preparation, leading to better leverage of a network of sites participating in FL. This, in conjunction with hyperparameter engineering, can allow algorithms to ‘learn’ more effectively from larger data batches and adapt model parameters to a particular site for further personalization—for example, through further fine-tuning on that site . A system that would allow seamless, close-to real-time model inference and results processing would also be of benefit and would ‘close the loop’ from training to model deployment. 54 39 Da dataene ikke blev centraliseret, er de ikke let tilgængelige.I betragtning heraf er enhver fremtidig analyse af resultaterne, ud over hvad der blev udledt og indsamlet, begrænset. Ligesom andre maskinlæringsmodeller er EXAM begrænset af kvaliteten af træningsdataene. Institutioner, der er interesseret i at implementere denne algoritme til klinisk pleje, skal forstå potentielle bias i træningen. For eksempel blev de etiketter, der anvendes som grundlæggende sandhed i træningen af EXAM-modellen, afledt af 24- og 72-timers iltforbrug hos patienten; det antages, at ilt, der leveres til patienten, svarer til iltbehovet. Men i den tidlige fase af COVID-19-pandemien blev mange patienter profylaktisk forsynet med højt iltflow uanset deres iltbehov. Since our data access was limited, we did not have sufficient available information for the generation of detailed statistics regarding failure causes, post hoc, at most sites. However, we did study failure cases from the largest independent test site, CDH, and were able to generate hypotheses that we can test in the future. For high-performing sites, it seems that most failure cases fall into one of two categories: (1) low quality of input data—for example, missing data or motion artifact in CXR; or (2) out-of-distribution data—for example a very young patient. In future, we also intend to investigate the potential for a ‘population drift’ due to different phases of disease progression. We believe that, owing to the diversity across the 20 sites, this risk may have been mitigated. En funktion, der vil forbedre disse typer af storskala samarbejde er evnen til at forudsige bidraget fra hver klient site til forbedring af den globale FL model. Dette vil hjælpe i klient site udvælgelse, og i prioritering af dataindsamling og annotation bestræbelser. sidstnævnte er især vigtigt i betragtning af de høje omkostninger og vanskelige logistik af disse store konsortium bestræbelser, og det vil gøre det muligt for disse bestræbelser at indfange mangfoldighed snarere end den rene mængde data stikprøver. Future approaches may incorporate automated hyperparameter searching , neural architecture search and other automated machine learning approaches to find the optimal training parameters for each client site more efficiently. 55 56 57 Kendte problemer med batch normalisering (BN) i FL har motiveret os til at fastsætte vores basismodel for billedfunktionekstraktion to reduce the divergence between unbalanced client sites. Future work might explore different types of normalization techniques to allow the training of AI models in FL more effectively when client data are nonindependent and identically distributed. 58 49 Recent works on privacy attacks within the FL setting have raised concerns on data leakage during model training I mellemtiden forbliver beskyttelsesalgoritmer underudforsket og begrænset af flere faktorer. , , viser god beskyttelse, kan de svække modelens ydeevne. krypteringsalgoritmer, såsom homomorfik kryptering En kvantificerbar måde at måle privatlivets fred på vil give bedre valg for at beslutte de minimale privatlivsparametre, der er nødvendige, samtidig med at der opretholdes klinisk acceptabel ydeevne. , , . 59 36 48 49 60 36 48 49 Following further validation, we envision deployment of the EXAM model in the ED setting as a way to evaluate risk at both the per-patient and population level, and to provide clinicians with an additional reference point when making the frequently difficult task of triaging patients. We also envision using the model as a more sensitive population-level metric to help balance resources between regions, hospitals and departments. Our hope is that similar FL efforts can break the data silos and allow for faster development of much-needed AI models in the near future. Methods Ethics approval All procedures were conducted in accordance with the principles for human experimentation as defined in the Declaration of Helsinki and International Conference on Harmonization Good Clinical Practice guidelines, and were approved by the relevant institutional review boards at the following validation sites: CDH, MVH, NCH and at the following training sites: MGB, Mass General Hospital (MGH), Brigham and Women’s Hospital, Newton-Wellesley Hospital, North Shore Medical Center and Faulkner Hospital (all eight of these hospitals were covered under MGB’s ethics board reference, no. 2020P002673, and informed consent was waived by the instititional review board (IRB). Similarly, participation of the remaining sites was approved by their respective relevant institutional review processes: Children’s National Hospital in Washington, DC (no. 00014310, IRB certified exempt); NIHR Cambridge Biomedical Research Centre (no. 20/SW/0140, informed consent waived); The Self-Defense Forces Central Hospital in Tokyo (no. 02-014, informed consent waived); National Taiwan University MeDA Lab and MAHC and Taiwan National Health Insurance Administration (no. 202108026 W, informed consent waived); Tri-Service General Hospital in Taiwan (no. B202105136, informed consent waived); Kyungpook National University Hospital in South Korea (no. KNUH 2020-05-022, informed consent waived); Faculty of Medicine, Chulalongkorn University in Thailand (nos. 490/63, 291/63, informed consent waived); Diagnosticos da America SA in Brazil (no. 26118819.3.0000.5505, informed consent waived); University of California, San Francisco (no. 20-30447, informed consent waived); VA San Diego (no. H200086, IRB certified exempt); University of Toronto (no. 20-0162-C, informed consent waived); National Institutes of Health in Bethesda, Maryland (no. 12-CC-0075, informed consent waived); University of Wisconsin-Madison School of Medicine and Public Health (no. 2016-0418, informed consent waived); Memorial Sloan Kettering Cancer Center in New York (no. 20-194, informed consent waived); and Mount Sinai Health System in New York (no. IRB-20-03271, informed consent waived). MI-CLAIM guidelines for reporting of clinical AI models were followed (Supplementary Note ) 2 Study setting The study included data from 20 institutions (Fig. ): MGB, MGH, Brigham and Women’s Hospital, Newton-Wellesley Hospital, North Shore Medical Center and Faulkner Hospital; Children’s National Hospital in Washington, DC; NIHR Cambridge Biomedical Research Centre; The Self-Defense Forces Central Hospital in Tokyo; National Taiwan University MeDA Lab and MAHC and Taiwan National Health Insurance Administration; Tri-Service General Hospital in Taiwan; Kyungpook National University Hospital in South Korea; Faculty of Medicine, Chulalongkorn University in Thailand; Diagnosticos da America SA in Brazil; University of California, San Francisco; VA San Diego; University of Toronto; National Institutes of Health in Bethesda, Maryland; University of Wisconsin-Madison School of Medicine and Public Health; Memorial Sloan Kettering Cancer Center in New York; and Mount Sinai Health System in New York. Institutions were recruited between March and May 2020. Dataset curation started in June 2020 and the final data cohort was added in September 2020. Between August and October 2020, 140 independent FL runs were conducted to develop the EXAM model and, by the end of October 2020, EXAM was made public on NVIDIA NGC , , . Data from three independent sites were used for independent validation: CDH, MVH and NCH, all in Massachusetts, USA. These three hospitals had patient population characteristics different from the training sites. The data used for the algorithm validation consisted of patients admitted to the ED at these sites between March 2020 and February 2021, and that satisfied the same inclusion criteria of the data used to train the FL model. 1a 61 62 63 Data collection The 20 client sites prepared a total of 16,148 cases (both positive and negative) for the purposes of training, validation and testing of the model (Fig. ). Medical data were accessed in relation to patients who satisfied the study inclusion criteria. Client sites strived to include all COVID-positive cases from the beginning of the pandemic in December 2019 and up to the time they started local training for the EXAM study. All local training had started by 30 September 2020. The sites also included other patients in the same period with negative RT–PCR test results. Since most of the sites had more SARS-COV-2-negative than -positive patients, we limited the number of negative patients included to, at most, 95% of the total cases at each client site. 1b A ‘case’ included a CXR and the requisite data inputs taken from the patient’s medical record. A breakdown of the cohort size of the dataset for each client site is shown in Fig. . The distribution and patterns of CXR image intensity (pixel values) varied greatly among sites owing to a multitude of patient- and site-specific factors, such as different device manufacturers and imaging protocols, as shown in Fig. . Patient age and EMR feature distribution varied greatly among sites, as expected owing to the differing demographics between globally distributed hospitals (Extended Data Fig. ) af 1B 1c,d 6 Patient inclusion criteria Patient inclusion criteria were: (1) patient presented to the hospital’s ED or equivalent; (2) patient had a RT–PCR test performed at any time between presentation to the ED and discharge from the hospital; (3) patient had a CXR in the ED; and (4) patient’s record had at least five of the EMR values detailed in Table , all obtained in the ED, and the relevant outcomes captured during hospitalization. Of note, The CXR, laboratory results and vitals used were the first available for capture during the visit to the ED. The model did not incorporate any CXR, laboratory results or vitals acquired after leaving the ED. 1 Model input I alt blev 21 EMR-funktioner anvendt som input til modellen.Resultatets (dvs. jordens sandhed) etiketter blev tildelt baseret på patientens behov efter 24- og 72-timers perioder fra indledende optagelse til ED. En detaljeret liste over de ønskede EMR-funktioner og resultater kan ses i tabel . 1 The distribution of oxygen treatment using different devices at different client sites is shown in Extended Data Fig. , som detaljerer enhedens brug ved optagelse til ED og efter 24- og 72-timers perioder. Forskellen i datasætfordelingen mellem de største og mindste klientwebsteder kan ses i Extended Data Fig. . 7 8 Antallet af positive tilfælde af COVID-19, som bekræftet ved en enkelt RT-PCR-test opnået på et hvilket som helst tidspunkt mellem præsentation til ED og udledning fra hospitalet, er anført i supplerende tabel. . Each client site was asked to randomly split its dataset into three parts: 70% for training, 10% for validation and 20% for testing. For both 24- and 72-h outcome prediction models, random splits for each of the three repeated local and FL training and evaluation experiments were independently generated. 1 EXAM model development Der er store variationer i det kliniske forløb af patienter, der er indlagt på hospitalet med symptomer på COVID-19, og nogle oplever hurtig forringelse af respiratorisk funktion, der kræver forskellige interventioner for at forebygge eller mindske hypoxæmi. , . A critical decision made during the evaluation of a patient at the initial point of care, or in the ED, is whether the patient is likely to require more invasive or resource-limited countermeasures or interventions (such as MV or monoclonal antibodies), and should therefore receive a scarce but effective therapy, a therapy with a narrow risk–benefit ratio due to side effects or a higher level of care, such as admittance to the intensive care unit . In contrast, a patient who is at lower risk of requiring invasive oxygen therapy may be placed in a less intensive care setting such as a regular ward, or even released from the ED for continuing self-monitoring at home EXAM blev udviklet for at hjælpe med at screene sådanne patienter. 62 63 64 65 Of note, the model is not approved by any regulatory agency at this time and it should be used only for research purposes. Prøve score EXAM was trained using FL; it outputs a risk score (termed EXAM score) similar to CORISK (Extended Data Fig. Det svarer til patientens iltunderstøttelsesbehov inden for to vinduer – 24 og 72 timer – efter første præsentation til ED. illustrerer, hvordan CORISK og eksamensresultatet kan anvendes til patientklassificering. 27 9a 9b Chest X-ray images were preprocessed to select the anterior position image and exclude lateral view images, and then scaled to a resolution of 224 × 224. As shown in Extended Data Fig. , modellen fusionerer oplysninger fra både EMR og CXR funktioner (baseret på en modificeret ResNet34 med rumlig opmærksomhed pretrained on the CheXpert dataset) Om Deep & Cross netværket For at konvergere disse forskellige datatyper blev en 512-dimensionel funktionsvektor udvundet fra hvert CXR-billede ved hjælp af en forudtrænet ResNet34, med rumlig opmærksomhed, og derefter sammenkoblet med EMR-funktionerne som input for Deep & Cross-netværket. . We used cross-entropy as the loss function and ‘Adam’ as the optimizer. The model was implemented in Tensorflow Brug af NVIDIA Clara Train SDK . The average AUC for the classification tasks (≥LFO, ≥HFO/NIV or ≥MV) was calculated and used as the final evaluation metric, with normalization to zero-mean and unit variance. CXR images were preprocessed to select the correct series and exclude lateral view images, then scaled to a resolution of 224 × 224 (ref. ) af 9a 66 67 68 9b 69 70 27 Feature imputation and normalization En misforest algoritme blev brugt til at impute EMR-funktioner, baseret på det lokale træningsdatasæt. Hvis en EMR-funktion var helt fraværende fra et datasæt på et klientsted, blev den gennemsnitlige værdi af denne funktion, beregnet udelukkende på data fra MGB-klientwebsteder, anvendt. 71 Oplysninger om EMR-CXR-datafusion ved hjælp af Deep & Cross-netværket For at modellere interaktionen mellem funktioner fra EMR- og CXR-data på case-niveau blev der anvendt et deep-feature-system baseret på en Deep & Cross-netværksarkitektur. . Binary and categorical features for the EMR inputs, as well as 512-dimensional image features in the CXR, were transformed into fused dense vectors of real values by embedding and stacking layers. The transformed dense vectors served as input to the fusion framework, which specifically employed a crossing network to enforce fusion among input from different sources. The crossing network performed explicit feature crossing within its layers, by conducting inner products between the original input feature and output from the previous layer, thus increasing the degree of interaction across features. At the same time, two individual classic deep neural networks with several stacked, fully connected feed-forward layers were trained. The final output of our framework was then derived from the concatenation of both classic and crossing networks. 68 FL details Den sandsynligvis mest etablerede form for FL er implementering af den fødererede gennemsnitlige algoritme som foreslået af McMahan et al. , eller variationer heraf. Denne algoritme kan realiseres ved hjælp af en klient-server opsætning, hvor hvert deltagende websted fungerer som en klient. Man kan tænke på FL som en metode, der sigter mod at minimere en global tabsfunktion ved at reducere et sæt lokale tabsfunktioner, som estimeres på hvert websted. Ved at minimere hvert klient-sites lokale tab samtidig med at synkronisere den lærte klient-sitesvægt på en centraliseret aggregationsserver, kan man minimere det globale tab uden at skulle få adgang til hele datasættet på et centraliseret sted. Hvert klient-websted lærer lokalt og deler modelvægt opdateringer med en central server, der aggregerer bidrag ved hjælp af sikre sockets lag kryptering og kommunikationsprotokoller. Serveren sender derefter et opdateret sæt af væ ). 72 9c En pseudoalgoritme af FL er vist i Supplementary Note I vores eksperimenter satte vi antallet af fødererede runder på = 200, med en lokal træningsperiode pr. runde For hver enkelt kunde er antallet af kunder , var op til 20 afhængigt af klienternes netværksforbindelse eller tilgængelige data for en bestemt målrettet resultatperiode (24 eller 72 timer). , depends on the dataset size at each client og bruges til at veje hver kundes bidrag, når man aggregerer modelvægten i fødereret gennemsnit. Under FL-træningsopgaven vælger hvert klientsted sin bedste lokale model ved at spore modellens ydeevne på sit lokale valideringssæt. På samme tid bestemmer serveren den bedste globale model baseret på de gennemsnitlige valideringsresultater, der sendes fra hvert klientsted til serveren efter hver FL-runde. Efter FL-træningens afslutning deles de bedste lokale modeller og den bedste globale model automatisk med alle klientwebsteder og evalueres på deres lokale testdata. 1 T t K NN k Adam-optimereren blev brugt til både lokal træning og FL med en indledende læringsfrekvens på 5 × 10–5 og en trinvis læringsfrekvensnedbrydning med en faktor 0,5 efter hver 40 epoker, hvilket er vigtigt for konvergens af fødereret gennemsnit. Random affine transformationer, herunder rotation, oversættelser, skære, skalering og tilfældig intensitet støj og skift, blev anvendt til billederne til dataforstørrelse under træningen. 73 På grund af følsomheden af BN lag when dealing with different clients in a nonindependent and identically distributed setting, we found the best model performance occurred when keeping the pretrained ResNet34 with spatial attention parameters fixed during FL training (that is, using a learning rate of zero for those layers). The Deep & Cross network that combines image features with EMR features does not contain BN layers and hence was not affected by BN instability issues. 58 47 In this study we investigated a privacy-preserving scheme that shares only partial model updates between server and client sites. The weight updates were ranked during each iteration by magnitude of contribution, and only a certain percentage of the largest weight updates was shared with the server. To be exact, weight updates (also known as gradients) were shared only if their absolute value was above a certain percentile threshold, (t) (Extended Data Fig. ), som blev beregnet fra alle ikke-nulgradienter, Δ , and could be different for each client in each FL round Variationer af denne ordning kan omfatte yderligere klipning af store gradienter eller differentielle privatlivsordninger som tilføjer tilfældig støj til gradienterne eller endda til de rå data, før de føres ind i netværket . k 5 Vg(t) k t 49 51 Statistisk analyse Vi gennemførte en Wilcoxon signed-rank-test for at bekræfte betydningen af den observerede forbedring i ydeevne mellem den lokalt uddannede model og FL-modellen for 24- og 72-timers tidspunkter (Fig. and Extended Data Fig. ). The null hypothesis was rejected with one-sided « 1 × 10–3 in both cases. 2 1 P Pearson’s correlation was used to assess the generalizability (robustness of the average AUC value to other client sites’ test data) of locally trained models in relation to respective local dataset size. Only a moderate correlation was observed ( = 0.43, = 0,035, frihedsgrader (df) = 17 for 24-timersmodellen og = 0.62, = 0,003, df = 16 for 72-h-modellen).Dette indikerer, at datasætstørrelsen alene ikke er den eneste faktor, der bestemmer, hvor robust en model er over for usynlige data. r P r P For at sammenligne ROC-kurver fra den globale FL-model og lokale modeller trænet på forskellige steder (Extended Data Fig. ), vi bootstrapped 1.000 prøver fra dataene og beregnet de resulterende AUCs. vi derefter beregnet forskellen mellem de to serier og standardiseret ved hjælp af formlen = (AUC1 og AUC2) Hvor hvor er den standardiserede forskel, er standardafvigelsen af bootstrap-forskellene, og AUC1 og AUC2 er de tilsvarende bootstrapped AUC-serier. Med den normale fordeling fik vi values illustrated in Supplementary Table Resultaterne viser, at nulhypotesen blev afvist med meget lav values, indicating the statistical significance of the superiority of FL outcomes. The computation of values was conducted in R with the pROC library . 3 D s D s D P 2 P P 74 Da modellen forudsiger et diskret resultat, en kontinuerlig score fra 0 til 1, er en simpel kalibreringsvurdering såsom en qqplot ikke mulig. Vi gennemførte en-vejs analyse af variation (ANOVA) test for at sammenligne lokale og FL model score mellem fire jord sandhed kategorier (RA, LFO, HFO, MV). -statistisk, beregnet som variationen mellem stikprøven betyder divideret med variation inden for stikprøven og repræsenterer graden af dispersion mellem forskellige grupper, blev brugt til at kvantificere modellerne. -værdier af fem forskellige lokale steder er 245.7, 253.4, 342.3, 389.8 og 634.8, mens den af FL-modellen er 843.5. -værdier betyder, at grupper er mere adskillelige, score fra vores FL model tydeligt viser en større spredning mellem de fire grundlæggende sandhed kategorier. værdien af ANOVA-testen på FL-modellen er <2 × 10-16, hvilket indikerer, at FL-forudsigelsesresultaterne er statistisk signifikant forskellige mellem de forskellige forudsigelsesklasser. 10 F F F P Reporting Summary Yderligere oplysninger om forskningsdesign findes i linket til denne artikel. Naturforskningsrapport Sammendrag Data tilgængelighed Disse data blev brugt til uddannelse på hvert af de lokale steder og blev ikke delt med nogen af de andre deltagende institutioner eller med den fødererede server, og de er ikke offentligt tilgængelige. Data fra de uafhængige valideringssteder vedligeholdes af CAMCA, og adgang kan anmodes om ved at kontakte Q.L. Baseret på bestemmelse af CAMCA, kan en data-deling gennemgang og ændring af IRB til forskningsformål udføres af MGB forskning administration og i overensstemmelse med MGB IRB og politik. Kode tilgængelighed Alle koder og software, der anvendes i denne undersøgelse, er offentligt tilgængelige på NGC. For at få adgang til, logge ind som gæst eller oprette en profil skal du indtaste en af nedenstående URL'er. De uddannede modeller, retningslinjer for dataforberedelse, koder til uddannelse, validering af test af modellen, readme-fil, installationsvejledning og licensfiler er offentligt tilgængelige på NVIDIA NGC : af The federated learning software is available as part of the Clara Train SDK: . Alternatively, use this command to download the model “wget --content-disposition -O clara_train_covid19_exam_ehr_xray_1.zip”. 61 https://ngc.nvidia.com/catalog/models/nvidia:med:clara_train_covid19_exam_ehr_xray https://ngc.nvidia.com/catalog/containers/nvidia:clara-train-sdk https://api.ngc.nvidia.com/v2/models/nvidia/med/clara_train_covid19_exam_ehr_xray/versions/1/zip Referencerne Budd, J. et al. Digital technologies in the public-health response to COVID-19. , 1183–1192 (2020). Nat. Med. 26 Moorthy, V., Henao Restrepo, A. M., Preziosi, M.-P. & Swaminathan, S. Data sharing for novel coronavirus (COVID-19). , 150 (2020). Bull. World Health Organ. 98 Chen, Q., Allot, A. & Lu, Z. Keep up with the latest coronavirus research. , 193 (2020). Nature 579 Fabbri, F., Bhatia, A., Mayer, A., Schlotter, B. & Kaiser, J. BCG IT spend pulse: how COVID-19 is shifting tech priorities. (2020). https://www.bcg.com/publications/2020/how-covid-19-is-shifting-big-it-spend Candelon, F., Reichert, T., Duranton, S., di Carlo, R. C. & De Bondt, M. The rise of the AI-powered company in the postcrisis world. (2020). https://www.bcg.com/en-gb/publications/2020/business-applications-artificial-intelligence-post-covid Chao, H. et al. Integrative analysis for COVID-19 patient outcome prediction. , 101844 (2021). Med. Image Anal. 67 Zhu, X. et al. Joint prediction and time estimation of COVID-19 developing severe symptoms using chest CT scan. , 101824 (2021). Med. Image Anal. 67 Yang, D. et al. Federated semi-supervised learning for Covid region segmentation in chest ct using multi-national data from China, Italy, Japan. , 101992 (2021). Med. Image Anal. 70 Minaee, S., Kafieh, R., Sonka, M., Yazdani, S. & Jamalipour Soufi, G. Deep-COVID: predicting COVID-19 from chest X-ray images using deep transfer learning. , 101794 (2020). Med. Image Anal. 65 COVID-19 Studies from the World Health Organization Database. (2020). https://clinicaltrials.gov/ct2/who_table ACTIV. (2020). https://www.nih.gov/research-training/medical-research-initiatives/activ Coronavirus Treatment Acceleration Program (CTAP). US Food and Drug Administration (2020). https://www.fda.gov/drugs/coronavirus-covid-19-drugs/coronavirus-treatment-acceleration-program-ctap Gleeson, P., Davison, A. P., Silver, R. A. & Ascoli, G. A. A commitment to open source in neuroscience. , 964–965 (2017). Neuron 96 Piwowar, H. et al. The state of OA: a large-scale analysis of the prevalence and impact of open access articles. , e4375 (2018). PeerJ. 6 European Society of Radiology (ESR). What the radiologist should know about artificial intelligence – an ESR white paper. , 44 (2019). Insights Imaging 10 Pesapane, F., Codari, M. & Sardanelli, F. Artificial intelligence in medical imaging: threat or opportunity? Radiologists again at the forefront of innovation in medicine. , 35 (2018). Eur. Radiol. Exp. 2 Price, W. N. 2nd & Cohen, I. G. Privacy in the age of medical big data. , 37–43 (2019). Nat. Med. 25 Liang, W. et al. Development and validation of a clinical risk score to predict the occurrence of critical illness in hospitalized patients with COVID-19. , 1081–1089 (2020). JAMA Intern. Med. 180 Wynants, L. et al. Prediction models for diagnosis and prognosis of covid-19 infection: systematic review and critical appraisal. , m1328 (2020). Brit. Med. J. 369 Zhang, L. et al. D-dimer levels on admission to predict in-hospital mortality in patients with Covid-19. , 1324–1329 (2020). J. Thromb. Haemost. 18 Sands, K. E. et al. Patient characteristics and admitting vital signs associated with coronavirus disease 2019 (COVID-19)-related mortality among patients admitted with noncritical illness. (2020). https://doi.org/10.1017/ice.2020.461 American College of Radiology. CR recommendations for the use of chest radiography and computed tomography (CT) for suspected COVID-19 infection. (2020). https://www.acr.org/Advocacy-and-Economics/ACR-Position-Statements/Recommendations-for-Chest-Radiography-and-CT-for-Suspected-COVID19-Infection Rubin, G. D. et al. The role of chest imaging in patient management during the COVID-19 pandemic: a multinational consensus statement from the Fleischner Society. , 172–180 (2020). Radiology 296 World Health Organization. Use of chest imaging in COVID-19. (2020). https://www.who.int/publications/i/item/use-of-chest-imaging-in-covid-19 Jamil, S. et al. Diagnosis and management of COVID-19 disease. , 10 (2020). Am. J. Respir. Crit. Care Med. 201 Redmond, C. E., Nicolaou, S., Berger, F. H., Sheikh, A. M. & Patlas, M. N. Emergency radiology during the COVID-19 pandemic: The Canadian Association of Radiologists Recommendations for Practice. , 425–430 (2020). Can. Assoc. Radiologists J. 71 Buch, V. et al. Development and validation of a deep learning model for prediction of severe outcomes in suspected COVID-19 Infection. Preprint at (2021). https://arxiv.org/abs/2103.11269 Lyons, C. & Callaghan, M. The use of high-flow nasal oxygen in COVID-19. , 843–847 (2020). Anaesthesia 75 Whittle, J. S., Pavlov, I., Sacchetti, A. D., Atwood, C. & Rosenberg, M. S. Respiratory support for adult patients with COVID-19. , 95–101 (2020). J. Am. Coll. Emerg. Physicians Open 1 Ai, J., Li, Y., Zhou, X. & Zhang, W. COVID-19: treating and managing severe cases. , 370–371 (2020). Cell Res. 30 Esteva, A. et al. A guide to deep learning in healthcare. , 24–29 (2019). Nat. Med. 25 Cahan, E. M., Hernandez-Boussard, T., Thadaney-Israni, S. & Rubin, D. L. Putting the data before the algorithm in big data addressing personalized healthcare. , 78 (2019). NPJ Digit. Med. 2 Thrall, J. H. et al. Artificial intelligence and machine learning in radiology: opportunities, challenges, pitfalls, and criteria for success. , 504–508 (2018). J. Am. Coll. Radiol. 15 Shilo, S., Rossman, H. & Segal, E. Axes of a revolution: challenges and promises of big data in healthcare. , 29–38 (2020). Nat. Med. 26 Gao, Y. & Cui, Y. Deep transfer learning for reducing health care disparities arising from biomedical data inequality. , 5131 (2020). Nat. Commun. 11 Rieke, N. et al. The future of digital health with federated learning. , 119 (2020). NPJ Dig. Med. 3 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. 10 Ma, C. et al. On safeguarding privacy and security in the framework of federated learning. , 242–248 (2020). IEEE Netw. 34 Brisimi, T. S. et al. Federated learning of predictive models from federated Electronic Health Records. , 59–67 (2018). Int. J. Med. Inform. 112 Roth, H. R. et al. Federated learning for breast density classification: a real-world implementation. In , (eds. Albarqouni, S. et al.) Vol. 12,444, 181–191 (Springer International Publishing, 2020). Proc. Second MICCAI Workshop, DART 2020 and First MICCAI Workshop, DCL 2020 Domain Adaptation and Representation Transfer, and Distributed and Collaborative Learning Sheller, M. J. et al. Federated learning in medicine: facilitating multi-institutional collaborations without sharing patient data. , 12598 (2020). Sci. Rep. 10 Remedios, S. W., Butman, J. A., Landman, B. A. & Pham, D. L. in (eds Remedios, S. W. et al.) (Springer, 2020). Federated Gradient Averaging for Multi-Site Training with Momentum-Based Optimizers Xu, Y. et al. A collaborative online AI engine for CT-based COVID-19 diagnosis. Preprint at (2020). https://www.medrxiv.org/content/10.1101/2020.05.10.20096073v2 Raisaro, J. L. et al. SCOR: A secure international informatics infrastructure to investigate COVID-19. , 1721–1726 (2020). J. Am. Med. Inform. Assoc. 27 Vaid, A. et al. Federated learning of electronic health records to improve mortality prediction in hospitalized patients with COVID-19: machine learning approach. , e24207 (2021). JMIR Med. Inform. 9 Nino, G. et al. Pediatric lung imaging features of COVID-19: a systematic review and meta-analysis. , 252–263 (2021). Pediatr. Pulmonol. 56 Fredrikson, M., Jha, S. & Ristenpart, T. Model inversion attacks that exploit confidence information and basic countermeasures. In 1322–1333, (2015). Proc. 22nd ACM SIGSAC Conference on Computer and Communications Security https://doi.org/10.1145/2810103.2813677 Zhu, L., Liu, Z. & Han, S. in (eds Wallach, H. et al.) 14774–14784 (Curran Associates, Inc., 2019). Advances in Neural Information Processing Systems 32 Kaissis, G. A., Makowski, M. R., Rückert, D. & Braren, R. F. Secure, privacy-preserving and federated machine learning in medical imaging. , 305–311 (2020). Nat. Mach. Intell. 2 Li, W. et al. in 133–141 (Springer, 2019). Privacy-Preserving Federated Brain Tumour Segmentation Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In (2015). Proc. 53rd Annual Allerton Conference on Communication, Control, and Computing (Allerton) https://doi.org/10.1109/allerton.2015.7447103 Li, X. et al. Multi-site fMRI analysis using privacy-preserving federated learning and domain adaptation: ABIDE results. , 101765 (2020). Med. Image Anal. 65 Estiri, H. et al. Predicting COVID-19 mortality with electronic medical records. , 15 (2021). NPJ Dig. Med. 4 Jiang, G. et al. Harmonization of detailed clinical models with clinical study data standards. , 65–74 (2015). Methods Inf. Med. 54 Yang, D. et al. in . (2019). Searching Learning Strategy with Reinforcement Learning for 3D Medical Image Segmentation https://doi.org/10.1007/978-3-030-32245-8_1 Elsken, T., Metzen, J. H. & Hutter, F. Neural architecture search: a survey. , 1–21 (2019). J. Mach. Learning Res. 20 Yao, Q. et al. Taking human out of learning applications: a survey on automated machine learning. Preprint at (2019). https://arxiv.org/abs/1810.13306 Ioffe, S. & Szegedy, C. Batch normalization: accelerating deep network training by reducing internal covariate shift. In , PMLR , 448–456 (2015). Proc. 32nd International Conf. Machine Learning 37 Kaufman, S., Rosset, S. & Perlich, C. Leakage in data mining: formulation, detection, and avoidance. In , 556–563 (2011). Proc. 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Zhang, C. et al. BatchCrypt: efficient homomorphic encryption for cross-silo federated learning. In , 493–506 (2020). Proc. 2020 USENIX Annual Technical Conference, ATC 2020 . (2020). Nvidia NGC Catalog: COVID-19 Related Models https://ngc.nvidia.com/catalog/models?orderBy=scoreDESC&pageNumber=0&query=covid&quickFilter=models&filters Marini, J. J. & Gattinoni, L. Management of COVID-19 respiratory distress. , 2329–2330 (2020). JAMA 323 Cook, T. M. et al. Consensus guidelines for managing the airway in patients with COVID-19: Guidelines from the Difficult Airway Society, the Association of Anaesthetists the Intensive Care Society, the Faculty of Intensive Care Medicine and the Royal College of Anaesthetist. , 785–799 (2020). Anaesthesia 75 Galloway, J. B. et al. A clinical risk score to identify patients with COVID-19 at high risk of critical care admission or death: an observational cohort study. , 282–288 (2020). J. Infect. 81 Kilaru, A. S. et al. Return hospital admissions among 1419 COVID-19 patients discharged from five U.S. emergency departments. , 1039–1042 (2020). Acad. Emerg. Med. 27 He, K., Zhang, X., Ren, S. & Sun, J. Deep residual learning for image recognition. In (2016). Proc. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) https://doi.org/10.1109/cvpr.2016.90 Irvin, J. et al. CheXpert: a large chest radiograph dataset with uncertainty labels and expert comparison. , 590–597 (2019). Proc. AAAI Conf. Artif. Intell. 33 Wang, R., Fu, B., Fu, G. & Wang, M. Deep & Cross network for Ad Click predictions. In Article no. 12 (2017). Proc. ADKDD’17 Abadi, M. et al. TensorFlow: asystem for large-scale machine learning. In , USENIX Association 265–283 (2016). 12th USENIX Symposium on Operating Systems Design and Implementation (OSDI 16) . (2020). NVIDIA Clara Imaging https://developer.nvidia.com/clara-medical-imaging Stekhoven, D. J. & Bühlmann, P. MissForest–non-parametric missing value imputation for mixed-type data. , 112–118 (2012). Bioinformatics 28 McMahan, H., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. (2017). http://proceedings.mlr.press/v54/mcmahan17a.html Hsieh, K., Phanishayee, A., Mutlu, O. & Gibbons, P. B. The non-IID data quagmire of decentralized machine learning. In PMLR 119 (2020). Proc. 37th International Conf. Machine Learning Robin, X. et al. pROC: an open-source package for R and S+ to analyze and compare ROC curves. , 77 (2011). BMC Bioinformatics 12 Anerkendelser The views expressed in this study are those of the authors and not necessarily those of the NHS, the NIHR, the Department of Health and Social Care or any of the organizations associated with the authors. MGB thank the following individuals for their support: J. Brink, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; M. Kalra, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; N. Neumark, Center for Clinical Data Science, Massachusetts General Brigham, Boston, MA; T. Schultz, Department of Radiology, Massachusetts General Hospital, Boston, MA; N. Guo, Center for Advanced Medical Computing and Analysis, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; J. K. Cramer, Director, QTIM lab at the Athinoula A. Martinos Center for Biomedical Imaging at MGH; S. Pomerantz, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; G. Boland, Department of Radiology, Brigham and Women’s Hospital, Harvard Medical School, Boston, MA; W. Mayo-Smith, Department of Radiology, Brigham and Women’s Hospital, Harvard Medical School, Boston, MA. UCSF thank P. B. Storey, J. Chan and J. Block for implementing the UCSF FL client infrastructure, and W. Tellis for providing the source imaging repository for this work. The UCSF EMR and clinical notes for this study were accessed via the COVID-19 Research Data Mart, Ved fakultetet for medicin takker Chulalongkorn University Ratchadapisek Sompoch Endowment Fund RA (PO) (nr. 001/63) for indsamling og forvaltning af COVID-19-relaterede kliniske data og biologiske prøver til forskningsarbejdsgruppen, fakultetet for medicin, Chulalongkorn University. NIHR Cambridge Biomedical Research Center takker A. Priest, som støttes af NIHR (Cambridge Biomedical Research Centre at Cambridge University Hospitals NHS Foundation Trust). National Taiwan University MeDA Lab og MAHC og Taiwan National Health Insurance Administration takker MOST Joint Research Center for AI-teknologi, All Vista Healthcare National Health Insurance Administration, Taiwan, Ministry of Science and Technology, og Taiwan National Center for Research for Theoretical Sciences Mathematics Division. National Institutes of Health https://data.ucsf.edu/covid19 Denne artikel er tilgængelig i naturen under CC by 4.0 Deed (Attribution 4.0 International) licens. Denne artikel er tilgængelig i naturen under CC by 4.0 Deed (Attribution 4.0 International) licens.