Nieuwe privacy-eerste AI voorspelt COVID-zwaartekracht met behulp van röntgenstralen en medische records

De auteurs: Het is Dayan door Holger R. Roth Aoxiao Zhong Ahmed Harouni Amilcare vriendelijk Anas Z. Abidin Andrew Liu met Anthony Beardsworth Costa Bradford J. Wood Chien-Sung Tsai van Chih-Hung Wang Chun-Nan Hsu van C. K. Lee Peijing Ruan Daguang Xu Dufan Wu van Eddie Huang - Felipe Campos Kitamura van Griffin Lacey Gustavo César van Antônio Corradi van Gustavo Nino Hao-Hsin Shin De Hirofumi Obinata Hui Ren met Jason C. Crane van Jesse Tetreault Jiahui Guan door John W. Garrett van Joshua D. Kaggie Het Jung Gil Park van Keith Dreyer Krishna Juluru Christoffer Kersten Marcio Aloisio Bezerra Cavalcanti Rockenbach van Marius George Linguraru Masoom A. Haider Meena AbdelMaseeh Nicola Rieke Pablo F. Damasceno van Pedro Mario Cruz e Silva Pochuan Wang Sheng Xu De Shuichi Kawano Sira Sriswasdi Jonge Soo Park Thomas M. Grist Varun Boek Watson Vakantiehuis Weichung Wang Winnaar Young Tak Xiang Li De Xihong Lin Jonge Joon Kwon Abood Quraini van Andrew Feng van Andrew N. Priest Baris Turkbey van Benjamin Glicksberg van Bernardo Bizzo Zoeken naar Kim van Carlos Tor-Díez Zie ook: Chia-Cheng Lee Chia-Jung Hsu De Chin Lin De Chiu-Ling Lai Christopher P. Hess Colin Compas Deepeksha Bhatia van Eric K. Oermann van Evan Leibovitz Hisashi Sasaki Hitoshi Mori Isaac Yang Jae Ho zoon Krishna Nand Keshava Murthy Li-Chen Fu Bezoek aan Matheus Ribeiro Furtado de Mendonça van Mike Fralick Min Kyu Kang Mohammad Adil met Natalie Gangai Peerapon Vateekul Pierre Elnajjar van Sarah Hickman Sharmila Majumdar door Shelley L. McLeod van Sheridan Reed Stefan Gräf Stephenie Harmon Tatsuya Kodama Zie ook: Thanyawee Puthanakit Tony Mazzulli Vitor Lima van het werk Yothin Rakvongthai Lees ook: Yu Rim Lee Yuhong Wen van Fiona J. Gilbert Mona G. Flores Hoewel Li De auteurs: Het is Dayan door Holger R. Roth Aoxiao Zhong Ahmed Harouni Amilcare vriendelijk Anas Z. Abidin Andrew Liu met Anthony Beardsworth Costa Bradford J. Wood Chien-Sung Tsai van Chih-Hung Wang Chun-Nan Hsu van C. K. Lee Peijing Ruan Daguang Xu Dufan Wu van Eddie Huang - Felipe Campos Kitamura van Griffin Lacey Gustavo César van Antônio Corradi van Gustavo Nino Hao-Hsin Shin De Hirofumi Obinata Hui Ren met Jason C. Crane van Jesse Tetreault Jiahui Guan door John W. Garrett van Joshua D. Kaggie Het Jung Gil Park van Keith Dreyer Krishna Juluru Christoffer Kersten Marcio Aloisio Bezerra Cavalcanti Rockenbach van Marius George Linguraru Masoom A. Haider Meena AbdelMaseeh Nicola Rieke Pablo F. Damasceno van Pedro Mario Cruz e Silva Pochuan Wang Sheng Xu De Shuichi Kawano Sira Sriswasdi Jonge Soo Park Thomas M. Grist Varun Boek Watson Vakantiehuis Weichung Wang Winnaar Young Tak Xiang Li De Xihong Lin Jonge Joon Kwon Abood Quraini van Andrew Feng van Andrew N. Priest Baris Turkbey van Benjamin Glicksberg van Bernardo Bizzo Zoeken naar Kim van Carlos Tor-Díez Zie ook: Chia-Cheng Lee Chia-Jung Hsu De Chin Lin De Chiu-Ling Lai van Christopher P. Hess Colin Compas Deepeksha Bhatia van Eric K. Oermann van Evan Leibovitz Hisashi Sasaki Hitoshi Mori Isaac Yang Jae Ho zoon Krishna Nand Keshava Murthy Lij-Chen Fu Bezoek aan Matheus Ribeiro Furtado de Mendonça van Mike Fralick Mijn Kyu Kang Mohammad Adil met Natalie Gangai Peerapon Vateekul Pierre Elnajjar van Sarah Hickman Sharmila Majumdar door Shelley L. McLeod van Sheridan Reed Stefan Graaf Stephenie Harmon Tatsuya Kodama Zie ook: Thanyawee Puthanakit van Tony Mazzulli Vitor Lima van het werk Yothin Rakvongthai Lees ook: Yu Rim Lee Yuhong Wen van Fiona J. Gilbert Mona G. Bloemen Hoewel Li Abstractie Federated learning setting (FL) is een methode die wordt gebruikt voor het trainen van modellen van kunstmatige intelligentie met gegevens uit meerdere bronnen terwijl gegevens anonimiteit behouden, waardoor veel barrières voor het delen van gegevens worden verwijderd. Hier gebruikten we gegevens van 20 instituten over de hele wereld om een FL-model te trainen, genaamd EXAM (Electronic Medical Record (EMR) chest X-ray AI-model), dat de toekomstige zuurstofbehoeften van symptomatische patiënten met COVID-19 voorspelt met behulp van inputs van vitale tekenen, laboratoriumgegevens en borst-X-stralen. EXAM behaalde een gemiddelde oppervlakte onder de curve (AUC) >0.92 voor het voorspellen van resultaten op 24 en 72 uur vanaf het moment van de eerste presentatie aan de Hoofd De wetenschappelijke, academische, medische en gegevenswetenschappelijke gemeenschappen hebben zich gecombineerd in het licht van de COVID-19-pandemische crisis om snel nieuwe paradigma's in kunstmatige intelligentie (AI) te beoordelen die snel en veilig zijn, en potentieel het delen van gegevens en modelopleiding en testen te stimuleren zonder de gebruikelijke privacy- en gegevensbezitbarrières van conventionele samenwerkingen. , Gezondheidszorgverleners, onderzoekers en de industrie hebben hun focus gericht op het aanpakken van onvervulde en kritieke klinische behoeften die door de crisis zijn gecreëerd, met opmerkelijke resultaten. , , , , , , De werving van klinische proeven is versneld en vergemakkelijkt door nationale regelgevende instanties en een internationale samenwerkingsgeest. , , De data-analyse- en AI-disciplines hebben altijd open en samenwerkende benaderingen bevorderd, waarbij concepten zoals open source-software, reproduceerbaar onderzoek, data repositories en het beschikbaar stellen van anonieme datasets voor het publiek worden omarmd. , De pandemie heeft de noodzaak benadrukt om snel data-collecties uit te voeren die de klinische en wetenschappelijke gemeenschappen in staat stellen om te reageren op snel evoluerende en wijdverspreide wereldwijde uitdagingen. , , . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Een concreet voorbeeld van deze soorten samenwerking is onze vorige werkzaamheden aan een op AI gebaseerde SARS-COV-2 klinische beslissingsondersteuning (CDS) model. Dit CDS-model werd ontwikkeld bij Mass General Brigham (MGB) en werd gevalideerd over meerdere gezondheidssystemen gegevens.De inputs naar het CDS-model waren borst X-ray (CXR) beelden, vitale tekenen, demografische gegevens en laboratoriumwaarden die in eerdere publicaties werden aangetoond om voorspellend te zijn voor de resultaten van patiënten met COVID-19 , , , CXR werd geselecteerd als beeldvormingsinvoer omdat het wijd beschikbaar is en algemeen wordt aangegeven door richtlijnen zoals die van ACR De Fleischner Society De WHO Nationale thoraciche samenlevingen , nationale ministerie van Volksgezondheid COVID handboeken en radiologische verenigingen over de hele wereld De output van het CDS-model was een score, genaamd CORISK , dat overeenkomt met zuurstofondersteuningsvereisten en dat zou kunnen helpen bij het screenen van patiënten door frontline-klinici , , Gezondheidszorgverleners zijn bekend dat ze voorkeur geven aan modellen die werden gevalideerd op hun eigen gegevens. Tot op heden zijn de meeste AI-modellen, waaronder het hierboven genoemde CDS-model, getraind en gevalideerd op 'nauwe' gegevens die vaak geen diversiteit hebben. , Dit kan worden verminderd door training met diverse gegevens van meerdere sites zonder datagecentralisatie met behulp van methoden zoals transfer learning , FL is een methode die wordt gebruikt om AI-modellen op verschillende gegevensbronnen te trainen, zonder dat de gegevens buiten hun oorspronkelijke locatie worden vervoerd of blootgesteld. . 18 19 20 21 22 23 24 25 26 27 28 29 30 27 31 32 33 34 35 36 Federated Learning ondersteunt de snelle lancering van centraal georkestreerde experimenten met verbeterde traceerbaarheid van gegevens en beoordeling van algoritmische veranderingen en impact Een benadering van FL, genaamd client-server, stuurt een ‘ontrained’ model naar andere servers (‘nodes’) die gedeeltelijke trainingstaken uitvoeren, waardoor de resultaten op hun beurt terug worden gestuurd om te worden samengevoegd in de centrale (‘federated’) server. . 37 36 Gegevensbeheersing voor FL wordt lokaal gehandhaafd, waardoor privacyproblemen worden verminderd, met alleen modelgewichten of gradiënten die worden gecommuniceerd tussen client sites en de federated server , FL heeft al veelbelovendheid getoond in recente medische beeldvormingsapplicaties , , , In de analyse van COVID-19 , , Een opmerkelijk voorbeeld is een sterftevoorspellingsmodel bij patiënten geïnfecteerd met SARS-COV-2 dat klinische kenmerken gebruikt, hoewel beperkt in termen van aantal modaliteiten en schaal. . 38 39 40 41 42 43 8 44 45 46 Ons doel was om een robuust, generaliserbaar model te ontwikkelen dat zou kunnen helpen bij het triagen van patiënten. We theoretiseren dat het CDS-model met succes kan worden gefederkeerd, gezien het gebruik van gegevensinputs die relatief vaak in de klinische praktijk worden gebruikt en die niet sterk afhankelijk zijn van operator-afhankelijke beoordelingen van de toestand van de patiënt (zoals klinische indrukken of gerapporteerde symptomen). In plaats daarvan werden laboratoriumresultaten, vitale tekenen, een beeldvormingsstudie en een algemeen vastgelegde demografische (dat wil zeggen leeftijd) gebruikt. We hebben daarom het CDS-model met diverse gegevens opnieuw getraind met behulp van een client-server FL-benadering om een nieuw globaal FL-model te ontwikkelen, dat Onze hypothese was dat EXAM beter zou presteren dan lokale modellen en beter zou generaliseren in gezondheidszorgsystemen. Resultaten Exam modelarchitectuur Het EXAM-model is gebaseerd op het hierboven genoemde CDS-model In totaal werden 20 kenmerken (19 van de EMR en één van de CXR) gebruikt als input voor het model.De uitkomst (dat wil zeggen, ‘grondwaarheid’) labels werden toegewezen op basis van patiënt zuurstoftherapie na 24 en 72 uur perioden vanaf de eerste toelating aan de noodafdeling (ED). Een gedetailleerde lijst van de gevraagde kenmerken en uitkomsten is te vinden in tabel . 27 1 De oxygentherapie categorieën waren, respectievelijk, kamerlucht (RA), lage zuurstofstroom (LFO), hoge zuurstofstroom (HFO)/non-invasieve ventilatie (NIV) of mechanische ventilatie (MV). Als de patiënt stierf binnen het voorspellingsvenster, werd het resultaatlabel ingesteld op 1. Voor EMR-functies werden alleen de eerste waarden gebruikt die in de ED werden vastgelegd en gegevenspreprocessing omvatte deidentificatie, ontbrekende waarde-imputatie en normalisatie tot nul-medium en eenheidsvariantie. Het model fuseert daarom informatie uit zowel EMR- als CXR-functies, met behulp van een 34-laag convolutionair neuronaal netwerk (ResNet34) om functies uit een CXR- en een Deep & Cross-netwerk te extraheren om de functies samen te voegen met de EMR-functies (voor meer uitgebreide details, zie De modeluitvoer is een risico score, genaamd de EXAM score, die een continue waarde is in het bereik 0-1 voor elk van de 24 en 72 uur voorspellingen die overeenkomen met de hierboven beschreven labels. Methoden Federatie van het model Het EXAM-model werd getraind met behulp van een cohort van 16.148 gevallen, waardoor het niet alleen een van de eerste FL-modellen voor COVID-19 was, maar ook een zeer groot en multicontinent ontwikkelingsproject in klinisch relevante AI (Fig. Gegevens tussen sites werden niet geharmoniseerd vóór extractie en, in het licht van real-life klinische informatica omstandigheden, een zorgvuldige harmonisatie van de gegevensinvoer werd niet uitgevoerd door de auteurs (Fig. ) van 1a en b 1C en D , Wereldkaart met de 20 verschillende client sites die bijdragen aan de EXAM-studie. , Aantal gevallen bijgedragen door elke instelling of site (client 1 vertegenwoordigt de site die het grootste aantal gevallen bijdraagt). , Borst X-ray intensiteit distributie op elke client site. , Leeftijd van patiënten op elke client site, met minimum- en maximumleeftijd (asterisken), gemiddelde leeftijd (driehoeken) en standaardafwijking (horizontale bars). . a b c d 1 We vergeleken lokaal getrainde modellen met het wereldwijde FL-model op de testgegevens van elke klant. « 1 × 10–3, Wilcoxon ondertekend-rang test) van 16% (zoals gedefinieerd door de gemiddelde AUC bij het uitvoeren van het model op de respectieve lokale test sets: van 0,795 tot 0,920, of 12,5 procentpunten) (Figuur. Het resulteerde ook in een verbetering van de veralgemeendheid van 38% (zoals gedefinieerd door de gemiddelde AUC bij het uitvoeren van het model op alle testset: van 0,667 tot 0,920, of 25,3 procentpunten) van het beste wereldwijde model voor de voorspelling van 24-uurs zuurstofbehandeling in vergelijking met modellen die alleen op de eigen gegevens van een site werden getraind (Figuur. Voor de voorspellingsresultaten van 72 uur zuurstofbehandeling resulteerde de beste wereldwijde modeltraining in een gemiddelde prestatieverbetering van 18% ten opzichte van lokaal getrainde modellen, terwijl de generaliserbaarheid van het wereldwijde model gemiddeld met 34% verbeterde (Extended Data Fig. De stabiliteit van onze resultaten werd geverifieerd door drie runs van lokale en FL-training te herhalen op verschillende gerandomiseerde data splits. P 2a 2b 1 , Prestaties op de test van elke klant worden ingesteld in de voorspelling van 24-uurs zuurstofbehandeling voor modellen die alleen op lokale gegevens zijn getraind (Local) versus die van het beste wereldwijde model dat beschikbaar is op de server (FL (zie best). , Generaliserbaarheid (gemiddelde prestaties op de testgegevens van andere sites, zoals weergegeven door de gemiddelde AUC) als een functie van de grootte van de dataset van een client (geen gevallen). De groene horizontale lijn geeft de generaliserbaarheid van het beste wereldwijde model aan. ) en de cliënt 14 had alleen gevallen met RA-behandeling, zodat de evaluatiemetrica (af AUC) in geen van deze gevallen van toepassing was ( Gegevens voor client 14 werden ook uitgesloten van de berekening van de gemiddelde generalisatie in lokale modellen. a b 1 Methoden Lokale modellen die werden getraind met behulp van onevenwichtige cohorten (bijvoorbeeld, meestal milde gevallen van COVID-19) merkbaar profiteren van de FL-benadering, met een aanzienlijke verbetering in de voorspelling gemiddelde AUC-prestaties voor categorieën met slechts een paar gevallen. Dit was duidelijk op client site 16 (een onevenwichtige dataset), met de meeste patiënten met milde ziekte ernstigheid en met slechts een paar ernstige gevallen. en Extended Data Fig. Belangrijker, de generaliserbaarheid van het FL-model werd aanzienlijk verhoogd ten opzichte van het lokaal getrainde model. 3a 2 , ROC op client site 16, met onevenwichtige gegevens en meestal milde gevallen. , ROC of the local model at client site 12 (a small dataset), mean ROC of models trained on larger datasets corresponding to the five client sites in the Boston area (1, 4, 5, 6, 8) and ROC of the best global model in prediction of 72-h oxygen treatment for different thresholds of EXAM score (left, middle, right). The mean ROC is calculated based on five locally trained models while the gray area denotes the ROC standard deviation. ROCs for three different cutoff values ( Pos en neg geven het aantal positieve en negatieve gevallen, respectievelijk, zoals gedefinieerd door dit bereik van EXAM score. a b t In the case of client sites with relatively small datasets, the best FL model markedly outperformed not only the local model but also those trained on larger datasets from five client sites in the Boston area of the USA (Fig. ) van 3b The global model performed well in predicting oxygen needs at 24/72 h in patients both COVID positive and negative (Extended Data Fig. ) van 3 Validatie op onafhankelijke sites Na de eerste training werd EXAM vervolgens getest op drie onafhankelijke validatie sites: Cooley Dickinson Hospital (CDH), Martha’s Vineyard Hospital (MVH) en Nantucket Cottage Hospital (NCH), allemaal in Massachusetts, USA. , en de ROC-curven en verwarringsmatrices voor de grootste dataset (van CDH) worden weergegeven in Figuur. . The operating point was set to discriminate between nonmechanical ventilation and mechanical ventilation (MV) treatment (or death). The FL global trained model, EXAM, achieved an average AUC of 0.944 and 0.924 for 24- and 72-h prediction tasks, respectively (Table ), which exceeded the average performance among sites used in training EXAM. For prediction of MV treatment (or death) at 24 h, EXAM achieved a sensitivity of 0.950 and specificity of 0.882 at CDH, and a sensitivity of 1.000 specificity of 0.934 at MVH. NCH did not have any cases with MV/death at 24 h. In regard to 72-h MV prediction, EXAM achieved a sensitivity of 0.929 and specificity of 0.880 at CDH, sensitivity of 1.000 and specificity of 0.976 at MVH and sensitivity of 1.000 and specificity of 0.929 at NCH. 2 4 2 , , Performance (ROC) (top) and confusion matrices (bottom) of the EXAM FL model on the CDH dataset for prediction of oxygen requirement at 24 h ( ) and 72 h ( ). ROCs for three different cutoff values ( ) van de examenrisico score worden weergegeven. a b a b t Voor MV bij CDH op 72 uur had EXAM een laag vals-negatief percentage van 7,1%. , waarin twee vals-negatieve gevallen van CDH worden getoond, waarbij een geval veel ontbrekende EMR-gegevensfuncties had en de andere een CXR had met een bewegingsartifact en enkele ontbrekende EMR-functies. 4 Gebruik van differentiële privacy A primary motivation for healthcare institutes to use FL is to preserve the security and privacy of their data, as well as adherence to data compliance measures. For FL, there remains the potential risk of model ‘inversion’ of zelfs de reconstructie van trainingsbeelden van de modelgradiënten zelf Om deze risico’s tegen te gaan, werden beveiligingsverbeterende maatregelen gebruikt om het risico te verminderen in het geval van gegevens ‘interceptie’ tijdens site-server communicatie. We hebben geëxperimenteerd met technieken om interceptie van FL-gegevens te voorkomen en een beveiligingsfunctie toegevoegd die volgens ons meer instellingen zou kunnen aanmoedigen om FL te gebruiken. Door het onderzoeken van een gedeeltelijk gewichtsverdelingssysteem , , , we showed that models can reach a comparable performance even when only 25% of weight updates are shared (Extended Data Fig. ) van 47 48 49 50 50 51 52 5 Discussion We geloven dat het een krachtige proof-of-concept van de haalbaarheid van het gebruik van FL voor de snelle en gezamenlijke ontwikkeling van de benodigde AI-modellen in de gezondheidszorg biedt. Onze studie omvatte meerdere sites over vier continenten en onder toezicht van verschillende regelgevende instanties, en houdt dus de belofte om op een versnelde manier aan verschillende gereglementeerde markten te worden verstrekt. Het wereldwijde FL-model, EXAM, bleek robuuster en behaalde betere resultaten op individuele sites dan elk model dat alleen op lokale gegevens werd getraind. We geloven dat consistente verbetering werd bereikt door een grotere, maar ook meer diverse dataset, het gebruik van data-inputs die kunnen worden gestandaardiseerd en het vermijden van klinische indrukken / gemelde symptomen. Voor een client-site met een relatief kleine dataset kunnen twee typische benaderingen worden gebruikt om een nuttig model te combineren: de ene is om lokaal te trainen met zijn eigen gegevens, de andere is om een model toe te passen dat is getraind op een grotere dataset. Voor sites met kleine datasets zou het praktisch onmogelijk zijn geweest om een efficiënt dieplerenmodel te bouwen met alleen hun lokale gegevens. De bevinding dat deze twee benaderingen op alle drie voorspellingsopdrachten door het wereldwijde FL-model beter presteren, geeft aan dat het voordeel voor client-sites met kleine datasets die voortvloeien uit de deelname aan FL-samenwerkingen aanzienlijk is. Dit is waarschijnlijk een weerspiegeling van het vermogen van FL om meer diversiteit te vangen dan lokale training, en . 46 De validatieresultaten bevestigden dat het wereldwijde model robuust is en ondersteunen onze hypothese dat FL-getrainde modellen over gezondheidszorgsystemen kunnen worden gegeneraliseerd. Ze bieden een overtuigend geval voor het gebruik van voorspellende algoritmen in COVID-19 patiëntenzorg, en het gebruik van FL in modelopstelling en testen. Door deel te nemen aan deze studie kregen de client sites toegang tot EXAM, om verder te worden gevalideerd voor het nastreven van eventuele regelgevende goedkeuring of toekomstige introductie in klinische zorg. , evenals op verschillende locaties die niet deel uitmaakten van de EXAM training. 53 Over 200 prediction models to support decision-making in patients with COVID-19 have been published . Unlike the majority of publications focused on diagnosis of COVID-19 or prediction of mortality, we predicted oxygen requirements that have implications for patient management. We also used cases with unknown SARS-COV-2 status, and so the model could provide input to the physician ahead of receiving a result for PCR with reverse transcription (RT–PCR), making it useful for a real-life clinical setting. The model’s imaging input is used in common practice, in contrast with models that use chest computed tomography, a nonconsensual diagnostic modality. The model’s design was constrained to objective predictors, unlike many published studies that leveraged subjective clinical impressions. The data collected reflect varied incidence rates, and thus the ‘population momentum’ we encountered is more diverse. This implies that the algorithm can be useful in populations with different incidence rates. 19 Patiëntcohort-identificatie en gegevensharmonisatie zijn geen nieuwe onderwerpen in onderzoek en data science Verbeteringen aan klinische informatiesystemen zijn nodig om de voorbereiding van gegevens te stroomlijnen, wat leidt tot een betere hefboomwerking van een netwerk van sites die deelnemen aan FL. Dit, in combinatie met hyperparameter engineering, kan algoritmen in staat stellen effectiever te ‘leren’ van grotere datasets en modelparameters aan te passen aan een bepaalde site voor verdere personalisatie – bijvoorbeeld door verdere fijne aanpassing op die site. Een systeem dat naadloze, close-to-real-time model inferentie en resultaatverwerking mogelijk zou maken, zou ook gunstig zijn en zou 'de loop sluiten' van training tot modelimplementatie. 54 39 Because data were not centralized they are not readily accessible. Given that, any future analysis of the results, beyond what was derived and collected, is limited. Net als andere machine learning modellen is EXAM beperkt door de kwaliteit van de trainingsgegevens. Instellingen die geïnteresseerd zijn in het implementeren van dit algoritme voor klinische zorg moeten potentiële vooroordelen in de training begrijpen. Bijvoorbeeld, de labels die als grondwaarheid worden gebruikt in de training van het EXAM-model zijn afgeleid van 24 en 72 uur zuurstofverbruik bij de patiënt; er wordt aangenomen dat zuurstof geleverd aan de patiënt gelijk is aan de zuurstofbehoefte. Echter, in de vroege fase van de COVID-19-pandemie, werden veel patiënten profylactisch voorzien van hoge zuurstofstroom, ongeacht hun zuurstofbehoefte. Aangezien onze toegang tot gegevens beperkt was, hadden we niet genoeg beschikbare informatie voor de generatie van gedetailleerde statistieken over de oorzaken van het falen, post-hoc, op de meeste sites. we hebben echter fouten van de grootste onafhankelijke test site, CDH, bestudeerd en waren in staat om hypothesen te genereren die we in de toekomst kunnen testen. In future, we also intend to investigate the potential for a ‘population drift’ due to different phases of disease progression. We believe that, owing to the diversity across the 20 sites, this risk may have been mitigated. Een kenmerk dat deze vormen van grootschalige samenwerking zou verbeteren, is de mogelijkheid om de bijdrage van elke client-site te voorspellen om het wereldwijde FL-model te verbeteren.Dit zal helpen bij de selectie van de client-site, en bij het prioriteren van gegevensverwerving en annotatie-inspanningen. Toekomstige benaderingen kunnen geautomatiseerde hyperparameterzoeking opnemen , neural architecture search and other automated machine learning benaderingen om de optimale trainingsparameters voor elke client site efficiënter te vinden. 55 56 57 Bekende problemen van batch normalisatie (BN) in FL motivated us to fix our base model for image feature extraction Toekomstige werkzaamheden kunnen verschillende soorten normalisatietechnieken onderzoeken om de training van AI-modellen in FL effectiever mogelijk te maken wanneer klantgegevens niet onafhankelijk en identiek worden verdeeld. 58 49 Recent works on privacy attacks within the FL setting have raised concerns on data leakage during model training Ondertussen blijven beschermingsalgoritmen onontdekt en beperkt door meerdere factoren. , , goede bescherming tonen, kunnen ze de prestaties van het model verzwakken. encryptie-algoritmen, zoals homomorfe encryptie , maintain performance but may substantially increase message size and training time. A quantifiable way to measure privacy would allow better choices for deciding the minimal privacy parameters necessary while maintaining clinically acceptable performance , , . 59 36 48 49 60 36 48 49 Na verdere validatie verwachten we de invoering van het EXAM-model in de ED-instelling als een manier om risico's zowel per patiënt als op bevolkingsniveau te evalueren en om clinici een extra referentiepunt te bieden bij het uitvoeren van de vaak moeilijke taak van het screenen van patiënten.We verwachten ook het gebruik van het model als een gevoeligere bevolkingsniveaumetric om middelen tussen regio's, ziekenhuizen en afdelingen in evenwicht te brengen. Methoden Ethische goedkeuring Alle geïnformeerde procedures van het Institut Canyland Health werden uitgevoerd in overeenstemming met de beginselen voor menselijke experimenten zoals gedefinieerd in de Verklaring van Helsinki en de International Conference on Harmonization Good Clinical Practice Guidelines, en werden goedgekeurd door de relevante institutionele beoordelingsbureaus van Beth Newkner Hospital in de volgende validatie sites: CDH, MVH, NCH en op de volgende training sites: MGB, Mass General Hospital (MGH), Brigham and Women’s Hospital, Newton-Wellesley Hospital, San Shore Public Medical Center en New Newkner Hospital (alle acht van deze ziekenhuizen werden gedekt onder de MGB’s ethics board referentie, no. 2020P002673, en geïnformeerde toestemming werd afgewezen door de institutionele beoordelingsbureau (IR De MI-CLAIM-richtsnoeren voor het rapporteren van klinische AI-modellen werden gevolgd (aanvullende opmerking) ) 2 Studeer setting De studie omvatte gegevens van 20 instellingen (Fig. ): MGB, MGH, Brigham and Women's Hospital, Newton-Wellesley Hospital, North Shore Medical Center en Faulkner Hospital; Children's National Hospital in Washington, DC; NIHR Cambridge Biomedical Research Centre; The Self-Defense Forces Central Hospital in Tokyo; National Taiwan University MeDA Lab en MAHC en Taiwan National Health Insurance Administration; Tri-Service General Hospital in Taiwan; Kyungpook National University Hospital in Zuid-Korea; Faculteit Geneeskunde, Chulalongkorn University in Thailand; Diagnosticos da America SA in Brazilië; University of California, San Francisco; VA San Diego; University of Toronto; National Institutes of Health in Bethesda, Maryland; University of Wisconsin-Madison School of Medicine and Public Health; Memorial Sloan Kettering Cancer Center in New York; , , . Data from three independent sites were used for independent validation: CDH, MVH and NCH, all in Massachusetts, USA. These three hospitals had patient population characteristics different from the training sites. The data used for the algorithm validation consisted of patients admitted to the ED at these sites between March 2020 and February 2021, and that satisfied the same inclusion criteria of the data used to train the FL model. 1a 61 62 63 Data collection The 20 client sites prepared a total of 16,148 cases (both positive and negative) for the purposes of training, validation and testing of the model (Fig. Medische gegevens werden toegankelijk gemaakt met betrekking tot patiënten die aan de criteria voor de opname in de studie voldoen. Cliënt sites streefden ernaar om alle COVID-positieve gevallen op te nemen vanaf het begin van de pandemie in december 2019 en totdat ze lokale training voor de EXAM-studie begonnen. Alle lokale training was begonnen tegen 30 september 2020. De sites omvatten ook andere patiënten in dezelfde periode met negatieve RT-PCR-testresultaten. Aangezien de meeste sites meer SARS-COV-2-negatieve dan -positieve patiënten hadden, beperkten we het aantal negatieve patiënten dat werd opgenomen tot maximaal 95% van de totale gevallen op elke client site. 1b Een ‘case’ omvatte een CXR en de vereiste gegevensinputs uit het medisch dossier van de patiënt. . The distribution and patterns of CXR image intensity (pixel values) varied greatly among sites owing to a multitude of patient- and site-specific factors, such as different device manufacturers and imaging protocols, as shown in Fig. Patiëntenleeftijd en EMR-functieverdeling variëren sterk tussen locaties, zoals verwacht als gevolg van de verschillen in demografie tussen wereldwijd verspreide ziekenhuizen (Extended Data Fig. ) van 1b 1C en D 6 Patient inclusion criteria De criteria voor de opname van patiënten waren: (1) de patiënt werd gepresenteerd aan de ED van het ziekenhuis of gelijkwaardig; (2) de patiënt had een RT-PCR-test uitgevoerd op elk moment tussen de presentatie aan de ED en de ontlading uit het ziekenhuis; (3) de patiënt had een CXR in de ED; en (4) de patiëntrecord had ten minste vijf van de EMR-waarden die in tabel worden gedetailleerd. , all obtained in the ED, and the relevant outcomes captured during hospitalization. Of note, The CXR, laboratory results and vitals used were the first available for capture during the visit to the ED. The model did not incorporate any CXR, laboratory results or vitals acquired after leaving the ED. 1 Model van input In totaal werden 21 EMR-functies gebruikt als input voor het model.De uitkomst (dat wil zeggen, grondwaarheid) labels werden toegewezen op basis van de behoeften van de patiënt na 24 en 72 uur van de eerste toelating tot de ED. Een gedetailleerde lijst van de gevraagde EMR-functies en -resultaten is te vinden in de tabel . 1 De distributie van zuurstofbehandeling met behulp van verschillende apparaten op verschillende clientlocaties wordt weergegeven in Extended Data Fig. , waarin het gebruik van het apparaat bij toelating tot de ED en na 24- en 72-uursperioden wordt gedetailleerd.Het verschil in datasetsverdeling tussen de grootste en kleinste client sites is te zien in Extended Data Fig. . 7 8 Het aantal positieve COVID-19-gevallen, zoals bevestigd door een enkele RT-PCR-test verkregen op elk moment tussen presentatie aan de ED en ontslag uit het ziekenhuis, wordt vermeld in de aanvullende tabel Elke client-site werd gevraagd om zijn dataset willekeurig in drie delen te splitsen: 70% voor training, 10% voor validatie en 20% voor testen. 1 Examen modelontwikkeling There is wide variation in the clinical course of patients who present to hospital with symptoms of COVID-19, with some experiencing rapid deterioration in respiratory function requiring different interventions to prevent or mitigate hypoxemia , Een kritieke beslissing die wordt genomen tijdens de evaluatie van een patiënt op het beginpunt van de zorg, of in de ED, is of de patiënt waarschijnlijk meer invasieve of middelen beperkte tegenmaatregelen of interventies (zoals MV of monoclonaal antilichamen) nodig heeft en daarom een schaarse maar effectieve therapie moet ontvangen, een therapie met een smalle risico-benefit ratio als gevolg van bijwerkingen of een hoger niveau van zorg, zoals toelating tot de intensive care-eenheid. Daarentegen kan een patiënt die een lager risico loopt op invasieve zuurstoftherapie worden geplaatst in een minder intensieve zorginstelling zoals een reguliere afdeling, of zelfs vrijgegeven van de ED voor voortdurende zelfmonitoring thuis. EXAM is ontwikkeld om dergelijke patiënten te helpen screenen. 62 63 64 65 Opgemerkt moet worden dat het model op dit moment niet door een regelgevende instantie is goedgekeurd en alleen voor onderzoeksdoeleinden moet worden gebruikt. Examen score EXAM was trained using FL; it outputs a risk score (termed EXAM score) similar to CORISK (Extended Data Fig. Het komt overeen met de zuurstofondersteuningsvereisten van een patiënt binnen twee ramen – 24 en 72 uur – na de eerste presentatie aan de ED. Hierin wordt geïllustreerd hoe CORISK en de EXAM-score kunnen worden gebruikt voor patiëntensortering. 27 9a 9b Röntgenfoto's van de borst werden vooraf verwerkt om de voorste positie afbeelding te selecteren en laterale weergave afbeeldingen uit te sluiten, en vervolgens geschaald tot een resolutie van 224 × 224. , het model combineert informatie van zowel EMR- als CXR-functies (gebaseerd op een gewijzigde ResNet34 met ruimtelijke aandacht) vooraf opgeleid op de CheXpert dataset) and the Deep & Cross network Om deze verschillende gegevenstypen te convergeren, werd een 512-dimensionale functievector uit elk CXR-beeld geëxtraheerd met behulp van een vooraf getrainde ResNet34, met ruimtelijke aandacht, en vervolgens samengevoegd met de EMR-functies als input voor het Deep & Cross-netwerk. We gebruikten cross-entropie als de verliesfunctie en ‘Adam’ als de optimizer. Gebruik de NVIDIA Clara Train SDK De gemiddelde AUC voor de classificatieopdrachten (≥LFO, ≥HFO/NIV of ≥MV) werd berekend en gebruikt als de definitieve evaluatiemetrica, met normalisatie tot nul gemiddelde en eenheidsvariantie. ) van 9a 66 67 68 9b 69 70 27 Feature imputatie en normalisatie Een misforest algoritme was used to impute EMR features, based on the local training dataset. If an EMR feature was completely missing from a client site dataset, the mean value of that feature, calculated exclusively on data from MGB client sites, was used. Then, EMR features were rescaled to zero-mean and unit variance based on statistics calculated on data from the MGB client sites. 71 Details van EMR-CXR-gegevensfusie met behulp van het Deep & Cross-netwerk To model the interactions of features from EMR and CXR data at the case level, a deep-feature scheme was used based on a Deep & Cross network architecture Binaire en categorische kenmerken voor de EMR-inputs, evenals 512-dimensionale beeldkenmerken in de CXR, werden omgezet in samengevoegde dichte vectoren van reële waarden door het invoegen en stapelen van lagen. De getransformeerde dichte vectoren dienden als input voor het fusieframework, dat specifiek een kruisingnetwerk gebruikte om de fusie tussen inputs uit verschillende bronnen uit te oefenen. Het kruisingnetwerk voerde expliciete functie kruising uit binnen zijn lagen, door interne producten te leiden tussen de oorspronkelijke inputfunctie en de output van de vorige laag, waardoor de mate van interactie tussen functies werd verhoogd. Tegelijkertijd werden twee individuele klassieke diepe neurale netwerken met verschillende gestapelde, volledig verbonden feed 68 FL details De meest gevestigde vorm van FL is waarschijnlijk de implementatie van het federale gemiddelde-algoritme zoals voorgesteld door McMahan et al. , of variaties daarvan. Dit algoritme kan worden gerealiseerd met behulp van een client-server setup waarbij elke deelnemende site als client handelt. Men kan FL beschouwen als een methode die tot doel heeft een globale verliesfunctie te minimaliseren door een reeks lokale verliesfuncties te verminderen, die op elke site worden geschat. Door het lokale verlies van elke client-site te minimaliseren en tegelijkertijd de geleerde client-site-gewichten op een gecentraliseerde aggregatie-server te synchroniseren, kan men het wereldwijde verlies minimaliseren zonder toegang te hebben tot de gehele dataset op een gecentraliseerde locatie. Elke client-site leert lokaal en deelt modelgewicht-updates met een centrale server die bijdragen aggregeert met behulp van beveiligde soc ) van 72 9c Een pseudo-algoritme van FL wordt weergegeven in Aanvullende Opmerking In onze experimenten stelden we het aantal federale rondes in = 200, met één lokaal trainingseizoen per ronde bij elke klant. het aantal klanten, , was tot 20 afhankelijk van de netwerkconnectiviteit van de cliënten of beschikbare gegevens voor een specifieke gerichte resultaatperiode (24 of 72 uur). , afhankelijk van de grootte van de dataset bij elke client en wordt gebruikt om de bijdragen van elke klant te wegen wanneer de modelgewichten worden geaggregeerd in federaal gemiddelde. Tijdens de FL training taak, kiest elke client site zijn beste lokale model door het bijhouden van de prestaties van het model op zijn lokale validatie set. Tegelijkertijd bepaalt de server het beste wereldwijde model op basis van de gemiddelde validatie scores verzonden van elke client site naar de server na elke FL ronde. Na FL training eindigt, worden de beste lokale modellen en het beste wereldwijde model automatisch gedeeld met alle client sites en geëvalueerd op hun lokale testgegevens. 1 T t K NK k De Adam optimizer werd gebruikt voor zowel lokale training als FL met een initiële leerpercentage van 5 × 10–5 en een stapsgewijze leerpercentagevermindering met een factor 0,5 na elke 40 epochen, wat belangrijk is voor de convergentie van de federale gemiddelden. Willekeurige affine transformaties, waaronder rotatie, vertalingen, snijden, scalen en willekeurige intensiteit lawaai en verschuivingen, werden toegepast op de afbeeldingen voor gegevensverhoging tijdens de training. 73 Vanwege de gevoeligheid van BN-lagen Bij het omgaan met verschillende klanten in een niet-onafhankelijke en identiek verdeelde omgeving, vonden we dat de beste modelprestaties plaatsvonden wanneer de vooraf getrainde ResNet34 met ruimtelijke aandacht werd gehouden. Het Deep & Cross-netwerk dat beeldfuncties combineert met EMR-functies bevat geen BN-lagen en werd dus niet beïnvloed door BN-instabiliteitsproblemen. 58 47 In deze studie onderzochten we een privacy-behoud schema dat slechts gedeeltelijke model updates tussen server en client sites. De gewicht updates werden gerangschikt tijdens elke iteratie door de omvang van de bijdrage, en slechts een bepaald percentage van de grootste gewicht updates werd gedeeld met de server. Om precies te zijn, gewicht updates (ook bekend als gradiënten) werden gedeeld alleen als hun absolute waarde boven een bepaalde percentiel drempel, t) (Extended Data Fig. ), die werd berekend uit alle niet-zero gradiënten, Δ , and could be different for each client In elke ronde Variaties van dit schema kunnen extra snijden van grote gradiënten of differentiële privacy schema's omvatten. die willekeurig lawaai toevoegen aan de gradiënten, of zelfs aan de ruwe gegevens, voordat het in het netwerk wordt gevoerd . k 5 Wk(t) k t 49 51 Statistische analyse We voerden een Wilcoxon signed-rank-test uit om de betekenis van de waargenomen verbetering van de prestaties tussen het lokaal getrainde model en het FL-model voor de 24- en 72-uurstijdpunten te bevestigen (Fig. and Extended Data Fig. De nullhypothese werd eenzijdig verworpen. 1 × 10–3 in beide gevallen. 2 1 P Pearson's correlatie werd gebruikt om de generaliserbaarheid (robuustheid van de gemiddelde AUC-waarde naar de testgegevens van andere client sites) van lokaal getrainde modellen in relatie tot de respectieve lokale datasetgrootte te beoordelen. = 0.43, = 0.035, graden van vrijheid (df) = 17 voor het 24-uursmodel en = 0.62, = 0,003, df = 16 voor het 72-h-model).Dit geeft aan dat alleen de grootte van de dataset niet de enige factor is die de robuustheid van een model bepaalt ten opzichte van onzichtbare gegevens. r P r P Om ROC-curven te vergelijken van het wereldwijde FL-model en lokale modellen die op verschillende locaties zijn getraind (Extended Data Fig. We bootstrappen 1.000 monsters uit de gegevens en berekenen de resulterende AUC's. = (AUC1 en AUC2) Waar waar is het standaard verschil, is de standaardafwijking van de bootstrap verschillen en AUC1 en AUC2 zijn de overeenkomstige bootstrapped AUC-serie. Met de normale verdeling kregen we de waarden geïllustreerd in aanvullende tabel . The results show that the null hypothesis was rejected with very low waarden, die de statistische betekenis van de superioriteit van de FL-resultaten aangeven. waarden werden uitgevoerd in R met de pROC-bibliotheek . 3 D s D s D P 2 P P 74 Aangezien het model een discreet resultaat voorspelt, een continue score van 0 tot 1, is een directe kalibratie-evaluatie zoals een qqplot niet mogelijk. We voerden een eenzijdige analyse van variatie (ANOVA) tests uit om lokale en FL-model scores te vergelijken tussen vier grondwaarheidskategorieën (RA, LFO, HFO, MV). -statistic, calculated as the variation between the sample means divided by variation within the samples and representing the degree of dispersion among different groups, was used to quantify the models. Our results show that the -waarden van vijf verschillende lokale sites zijn 245.7, 253.4, 342.3, 389.8 en 634.8, terwijl die van het FL-model 843.5 is. -waarden betekenen dat groepen meer gescheiden zijn, de scores uit ons FL-model tonen duidelijk een grotere dispersie tussen de vier grondwaarheidskategorieën. de waarde van de ANOVA-test op het FL-model is <2 × 10-16, wat aangeeft dat de FL-voorspellingspunten statistisch significant verschillen tussen de verschillende voorspellingsklassen. 10 F F F P Rapporteren Samenvatting Meer informatie over het onderzoeksontwerp is beschikbaar in de gelinkt aan dit artikel. Nature Research samenvatting Gegevens beschikbaarheid Deze gegevens werden gebruikt voor training op elk van de lokale locaties en werden niet gedeeld met een van de andere deelnemende instellingen of met de federated server, en ze zijn niet openbaar beschikbaar. Gegevens van de onafhankelijke validatie sites worden bijgehouden door CAMCA, en toegang kan worden aangevraagd door contact op te nemen met Q.L. Op basis van de vaststelling door CAMCA, kan een gegevens-deling beoordeling en wijziging van de IRB voor onderzoeksdoeleinden worden uitgevoerd door de MGB onderzoeksadministratie en in overeenstemming met de MGB IRB en beleid. Code availability Alle code en software die in deze studie worden gebruikt, zijn publiekelijk beschikbaar bij NGC. Om toegang te krijgen tot, in te loggen als gast of een profiel te maken, voer dan een van de onderstaande URL's in. De getrainde modellen, de richtlijnen voor gegevensvoorbereiding, de code voor training, het valideren van de test van het model, het readme-bestand, de richtlijnen voor installatie en de licentie-bestanden zijn publiekelijk beschikbaar bij NVIDIA NGC : van The federated learning software is available as part of the Clara Train SDK: . Alternatively, use this command to download the model “wget --content-disposition -O clara_train_covid19_exam_ehr_xray_1.zip”. 61 https://ngc.nvidia.com/catalog/models/nvidia:med:clara_train_covid19_exam_ehr_xray https://ngc.nvidia.com/catalog/containers/nvidia:clara-train-sdk https://api.ngc.nvidia.com/v2/models/nvidia/med/clara_train_covid19_exam_ehr_xray/versions/1/zip Referenties Budd, J. et al. Digital technologies in the public-health response to COVID-19. , 1183–1192 (2020). Nat. Med. 26 Moorthy, V., Henao Restrepo, A. M., Preziosi, M.-P. & Swaminathan, S. Data sharing for novel coronavirus (COVID-19). , 150 (2020). Bull. World Health Organ. 98 Chen, Q., Allot, A. & Lu, Z. Keep up with the latest coronavirus research. , 193 (2020). Nature 579 Fabbri, F., Bhatia, A., Mayer, A., Schlotter, B. & Kaiser, J. BCG IT spend pulse: how COVID-19 is shifting tech priorities. (2020). https://www.bcg.com/publications/2020/how-covid-19-is-shifting-big-it-spend Candelon, F., Reichert, T., Duranton, S., di Carlo, R. C. & De Bondt, M. The rise of the AI-powered company in the postcrisis world. (2020). https://www.bcg.com/en-gb/publications/2020/business-applications-artificial-intelligence-post-covid Chao, H. et al. Integrative analysis for COVID-19 patient outcome prediction. , 101844 (2021). Med. Image Anal. 67 Zhu, X. et al. Joint prediction and time estimation of COVID-19 developing severe symptoms using chest CT scan. , 101824 (2021). Med. Image Anal. 67 Yang, D. et al. Federated semi-supervised learning for Covid region segmentation in chest ct using multi-national data from China, Italy, Japan. , 101992 (2021). Med. Image Anal. 70 Minaee, S., Kafieh, R., Sonka, M., Yazdani, S. & Jamalipour Soufi, G. Deep-COVID: predicting COVID-19 from chest X-ray images using deep transfer learning. , 101794 (2020). Med. Image Anal. 65 COVID-19 Studies from the World Health Organization Database. (2020). https://clinicaltrials.gov/ct2/who_table ACTIV. (2020). https://www.nih.gov/research-training/medical-research-initiatives/activ Coronavirus Treatment Acceleration Program (CTAP). US Food and Drug Administration (2020). https://www.fda.gov/drugs/coronavirus-covid-19-drugs/coronavirus-treatment-acceleration-program-ctap Gleeson, P., Davison, A. P., Silver, R. A. & Ascoli, G. A. A commitment to open source in neuroscience. , 964–965 (2017). Neuron 96 Piwowar, H. et al. The state of OA: a large-scale analysis of the prevalence and impact of open access articles. , e4375 (2018). PeerJ. 6 European Society of Radiology (ESR). What the radiologist should know about artificial intelligence – an ESR white paper. , 44 (2019). Insights Imaging 10 Pesapane, F., Codari, M. & Sardanelli, F. Artificial intelligence in medical imaging: threat or opportunity? Radiologists again at the forefront of innovation in medicine. , 35 (2018). Eur. Radiol. Exp. 2 Price, W. N. 2nd & Cohen, I. G. Privacy in the age of medical big data. , 37–43 (2019). Nat. Med. 25 Liang, W. et al. Development and validation of a clinical risk score to predict the occurrence of critical illness in hospitalized patients with COVID-19. , 1081–1089 (2020). JAMA Intern. Med. 180 Wynants, L. et al. Prediction models for diagnosis and prognosis of covid-19 infection: systematic review and critical appraisal. , m1328 (2020). Brit. Med. J. 369 Zhang, L. et al. D-dimer levels on admission to predict in-hospital mortality in patients with Covid-19. , 1324–1329 (2020). J. Thromb. Haemost. 18 Sands, K. E. et al. Patient characteristics and admitting vital signs associated with coronavirus disease 2019 (COVID-19)-related mortality among patients admitted with noncritical illness. (2020). https://doi.org/10.1017/ice.2020.461 American College of Radiology. CR recommendations for the use of chest radiography and computed tomography (CT) for suspected COVID-19 infection. (2020). https://www.acr.org/Advocacy-and-Economics/ACR-Position-Statements/Recommendations-for-Chest-Radiography-and-CT-for-Suspected-COVID19-Infection Rubin, G. D. et al. The role of chest imaging in patient management during the COVID-19 pandemic: a multinational consensus statement from the Fleischner Society. , 172–180 (2020). Radiology 296 World Health Organization. Use of chest imaging in COVID-19. (2020). https://www.who.int/publications/i/item/use-of-chest-imaging-in-covid-19 Jamil, S. et al. Diagnosis and management of COVID-19 disease. , 10 (2020). Am. J. Respir. Crit. Care Med. 201 Redmond, C. E., Nicolaou, S., Berger, F. H., Sheikh, A. M. & Patlas, M. N. Emergency radiology during the COVID-19 pandemic: The Canadian Association of Radiologists Recommendations for Practice. , 425–430 (2020). Can. Assoc. Radiologists J. 71 Buch, V. et al. Development and validation of a deep learning model for prediction of severe outcomes in suspected COVID-19 Infection. Preprint at (2021). https://arxiv.org/abs/2103.11269 Lyons, C. & Callaghan, M. The use of high-flow nasal oxygen in COVID-19. , 843–847 (2020). Anaesthesia 75 Whittle, J. S., Pavlov, I., Sacchetti, A. D., Atwood, C. & Rosenberg, M. S. Respiratory support for adult patients with COVID-19. , 95–101 (2020). J. Am. Coll. Emerg. Physicians Open 1 Ai, J., Li, Y., Zhou, X. & Zhang, W. COVID-19: treating and managing severe cases. , 370–371 (2020). Cell Res. 30 Esteva, A. et al. A guide to deep learning in healthcare. , 24–29 (2019). Nat. Med. 25 Cahan, E. M., Hernandez-Boussard, T., Thadaney-Israni, S. & Rubin, D. L. Putting the data before the algorithm in big data addressing personalized healthcare. , 78 (2019). NPJ Digit. Med. 2 Thrall, J. H. et al. Artificial intelligence and machine learning in radiology: opportunities, challenges, pitfalls, and criteria for success. , 504–508 (2018). J. Am. Coll. Radiol. 15 Shilo, S., Rossman, H. & Segal, E. Axes of a revolution: challenges and promises of big data in healthcare. , 29–38 (2020). Nat. Med. 26 Gao, Y. & Cui, Y. Deep transfer learning for reducing health care disparities arising from biomedical data inequality. , 5131 (2020). Nat. Commun. 11 Rieke, N. et al. The future of digital health with federated learning. , 119 (2020). NPJ Dig. Med. 3 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. 10 Ma, C. et al. On safeguarding privacy and security in the framework of federated learning. , 242–248 (2020). IEEE Netw. 34 Brisimi, T. S. et al. Federated learning of predictive models from federated Electronic Health Records. , 59–67 (2018). Int. J. Med. Inform. 112 Roth, H. R. et al. Federated learning for breast density classification: a real-world implementation. In , (eds. Albarqouni, S. et al.) Vol. 12,444, 181–191 (Springer International Publishing, 2020). Proc. Second MICCAI Workshop, DART 2020 and First MICCAI Workshop, DCL 2020 Domain Adaptation and Representation Transfer, and Distributed and Collaborative Learning Sheller, M. J. et al. Federated learning in medicine: facilitating multi-institutional collaborations without sharing patient data. , 12598 (2020). Sci. Rep. 10 Remedios, S. W., Butman, J. A., Landman, B. A. & Pham, D. L. in (eds Remedios, S. W. et al.) (Springer, 2020). Federated Gradient Averaging for Multi-Site Training with Momentum-Based Optimizers Xu, Y. et al. A collaborative online AI engine for CT-based COVID-19 diagnosis. Preprint at (2020). https://www.medrxiv.org/content/10.1101/2020.05.10.20096073v2 Raisaro, J. L. et al. SCOR: A secure international informatics infrastructure to investigate COVID-19. , 1721–1726 (2020). J. Am. Med. Inform. Assoc. 27 Vaid, A. et al. Federated learning of electronic health records to improve mortality prediction in hospitalized patients with COVID-19: machine learning approach. , e24207 (2021). JMIR Med. Inform. 9 Nino, G. et al. Pediatric lung imaging features of COVID-19: a systematic review and meta-analysis. , 252–263 (2021). Pediatr. Pulmonol. 56 Fredrikson, M., Jha, S. & Ristenpart, T. Model inversion attacks that exploit confidence information and basic countermeasures. In 1322–1333, (2015). Proc. 22nd ACM SIGSAC Conference on Computer and Communications Security https://doi.org/10.1145/2810103.2813677 Zhu, L., Liu, Z. & Han, S. in (eds Wallach, H. et al.) 14774–14784 (Curran Associates, Inc., 2019). Advances in Neural Information Processing Systems 32 Kaissis, G. A., Makowski, M. R., Rückert, D. & Braren, R. F. Secure, privacy-preserving and federated machine learning in medical imaging. , 305–311 (2020). Nat. Mach. Intell. 2 Li, W. et al. in 133–141 (Springer, 2019). Privacy-Preserving Federated Brain Tumour Segmentation Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In (2015). Proc. 53rd Annual Allerton Conference on Communication, Control, and Computing (Allerton) https://doi.org/10.1109/allerton.2015.7447103 Li, X. et al. Multi-site fMRI analysis using privacy-preserving federated learning and domain adaptation: ABIDE results. , 101765 (2020). Med. Image Anal. 65 Estiri, H. et al. Predicting COVID-19 mortality with electronic medical records. , 15 (2021). NPJ Dig. Med. 4 Jiang, G. et al. Harmonization of detailed clinical models with clinical study data standards. , 65–74 (2015). Methods Inf. Med. 54 Yang, D. et al. in . (2019). Searching Learning Strategy with Reinforcement Learning for 3D Medical Image Segmentation https://doi.org/10.1007/978-3-030-32245-8_1 Elsken, T., Metzen, J. H. & Hutter, F. Neural architecture search: a survey. , 1–21 (2019). J. Mach. Learning Res. 20 Yao, Q. et al. Taking human out of learning applications: a survey on automated machine learning. Preprint at (2019). https://arxiv.org/abs/1810.13306 Ioffe, S. & Szegedy, C. Batch normalization: accelerating deep network training by reducing internal covariate shift. In , PMLR , 448–456 (2015). Proc. 32nd International Conf. Machine Learning 37 Kaufman, S., Rosset, S. & Perlich, C. Leakage in data mining: formulation, detection, and avoidance. In , 556–563 (2011). Proc. 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Zhang, C. et al. BatchCrypt: efficient homomorphic encryption for cross-silo federated learning. In , 493–506 (2020). Proc. 2020 USENIX Annual Technical Conference, ATC 2020 . (2020). Nvidia NGC Catalog: COVID-19 Related Models https://ngc.nvidia.com/catalog/models?orderBy=scoreDESC&pageNumber=0&query=covid&quickFilter=models&filters Marini, J. J. & Gattinoni, L. Management of COVID-19 respiratory distress. , 2329–2330 (2020). JAMA 323 Cook, T. M. et al. Consensus guidelines for managing the airway in patients with COVID-19: Guidelines from the Difficult Airway Society, the Association of Anaesthetists the Intensive Care Society, the Faculty of Intensive Care Medicine and the Royal College of Anaesthetist. , 785–799 (2020). Anaesthesia 75 Galloway, J. B. et al. A clinical risk score to identify patients with COVID-19 at high risk of critical care admission or death: an observational cohort study. , 282–288 (2020). J. Infect. 81 Kilaru, A. S. et al. Return hospital admissions among 1419 COVID-19 patients discharged from five U.S. emergency departments. , 1039–1042 (2020). Acad. Emerg. Med. 27 He, K., Zhang, X., Ren, S. & Sun, J. Deep residual learning for image recognition. In (2016). Proc. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) https://doi.org/10.1109/cvpr.2016.90 Irvin, J. et al. CheXpert: a large chest radiograph dataset with uncertainty labels and expert comparison. , 590–597 (2019). Proc. AAAI Conf. Artif. Intell. 33 Wang, R., Fu, B., Fu, G. & Wang, M. Deep & Cross network for Ad Click predictions. In Article no. 12 (2017). Proc. ADKDD’17 Abadi, M. et al. TensorFlow: asystem for large-scale machine learning. In , USENIX Association 265–283 (2016). 12th USENIX Symposium on Operating Systems Design and Implementation (OSDI 16) . (2020). NVIDIA Clara Imaging https://developer.nvidia.com/clara-medical-imaging Stekhoven, D. J. & Bühlmann, P. MissForest–non-parametric missing value imputation for mixed-type data. , 112–118 (2012). Bioinformatics 28 McMahan, H., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. (2017). http://proceedings.mlr.press/v54/mcmahan17a.html Hsieh, K., Phanishayee, A., Mutlu, O. & Gibbons, P. B. The non-IID data quagmire of decentralized machine learning. In PMLR 119 (2020). Proc. 37th International Conf. Machine Learning Robin, X. et al. pROC: an open-source package for R and S+ to analyze and compare ROC curves. , 77 (2011). BMC Bioinformatics 12 erkenningen De standpunten die in deze studie worden uitgedrukt, zijn die van de auteurs en niet noodzakelijkerwijs die van de NHS, de NIHR, het Department of Health and Social Care of een van de organisaties die met de auteurs zijn geassocieerd. MGB bedankt de volgende personen voor hun steun: J. Brink, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; M. Kalra, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; N. Neumark, Center for Clinical Data Science, Massachusetts General Brigham, Boston, MA; T. Schultz, Department of Radiology, Massachusetts General Hospital, Boston, MA; N. Guo, Center for Advanced Medical Computing and Analysis, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; J . The Faculty of Medicine, Chulalongkorn University thank the Ratchadapisek Sompoch Endowment Fund RA (PO) (no. 001/63) for the collection and management of COVID‐19-related clinical data and biological specimens for the Research Task Force, Faculty of Medicine, Chulalongkorn University. NIHR Cambridge Biomedical Research Centre thank A. Priest, who is supported by the NIHR (Cambridge Biomedical Research Centre at the Cambridge University Hospitals NHS Foundation Trust). National Taiwan University MeDA Lab and the MAHC and Taiwan National Health Insurance Administration thank the MOST Joint Research Center for AI technology, the All Vista Healthcare National Health Insurance Administration, Taiwan, the Ministry of Science and Technology, Taiwan and the National Center for Theoretical Sciences Mathematics Division. National Institutes of Health (NIH) acknowledge that the NIH Medical Research Scholars Program is a public–private partnership supported jointly by the NIH and by generous contributions to the Foundation for the NIH from the Doris Duke Charitable Foundation, the American Association for Dental Research, the Colgate-Palmolive Company, Genentech, alumni of student research programs and other individual supporters via contributions to the Foundation for the NIH. https://data.ucsf.edu/covid19 Dit document is verkrijgbaar onder de CC by 4.0 Deed (Attribution 4.0 International) licentie. Dit document is verkrijgbaar onder de CC by 4.0 Deed (Attribution 4.0 International) licentie.