A New Privacy-First AI Predicts COVID Severity Using X-Rays and Medical Records

Die skrywers: Ittai Dayan Holger R. Roth Aoxiao Zhong Ahmed Harouni Amilcare Gentili Anas Z. Abidin Andrew Liu Anthony Beardsworth Costa Bradford J. Wood Chien-Sung Tsai Chih-Hung Wang Chun-Nan Hsu C. K. Lee Peiying Ruan Daguang Xu Dufan Wu Eddie Huang Felipe Campos Kitamura Griffin Lacey Gustavo César de Antônio Corradi Gustavo Nino Hao-Hsin Shin Hirofumi Obinata Hui Ren Jason C. Crane Jesse Tetreault Jiahui Guan John W. Garrett Joshua D. Kaggie Jung Gil Park Keith Dreyer Krishna Juluru Kristopher Kersten Marcio Aloisio Bezerra Cavalcanti Rockenbach Marius George Linguraru Masoom A. Haider Meena AbdelMaseeh Nicola Rieke Pablo F. Damasceno Pedro Mario Cruz e Silva Pochuan Wang Sheng Xu Shuichi Kawano Sira Sriswasdi Soo Young Park Thomas M. Grist Varun Buch Watsamon Jantarabenjakul Weichung Wang Won Young Tak Xiang Li Xihong Lin Young Joon Kwon Abood Quraini Andrew Feng Andrew N. Priest Baris Turkbey Benjamin Glicksberg Bernardo Bizzo Byung Seok Kim Carlos Tor-Díez Chia-Cheng Lee Chia-Jung Hsu Chin Lin Chiu-Ling Lai Christopher P. Hess Colin Compas Deepeksha Bhatia Eric K. Oermann Evan Leibovitz Hisashi Sasaki Hitoshi Mori Isaac Yang Jae Ho Sohn Krishna Nand Keshava Murthy Li-Chen Fu Matheus Ribeiro Furtado de Mendonça Mike Fralick Min Kyu Kang Mohammad Adil Natalie Gangai Peerapon Vateekul Pierre Elnajjar Sarah Hickman Sharmila Majumdar Shelley L. McLeod Sheridan Reed Stefan Gräf Stephanie Harmon Tatsuya Kodama Thanyawee Puthanakit Tony Mazzulli Vitor Lima de Lavor Yothin Rakvongthai Yu Rim Lee Yuhong Wen Fiona J. Gilbert Mona G. Flores Quanzheng Li Die skrywers: Die dag van Dayan Holger R. Roth se werk Aoksiou Zhong Ahmed Harouni Amilcare vriendelik Anas Z. van Abidin Andrew Liu Geskryf deur Anthony Beardsworth Costa Bradford J. Woud Kies vir: Sing Tsai Hoofstuk van Chih-Hung Wang Chun-Nan Hsu C. K. Lee oor Die rooi rooi Daguang Xu Dufan Wu Eddie Huang Felipe Campos Kitaro Die Griffin Lacey Gustavo César van Antônio Corradi Gustav Nino Hoo-Hsin Shin Die Hirofumi Obinata Hui Ren Jason C. Crane se gesig Jesse Tetreault se Die Jiahui Guan deur John W. Garrett JOSHUA D. KAGGIE Die Jung Gil Park Keith Dreyer se lewe Krishna Juluru Christoffer Kersten Geskryf deur Marcio Aloisio Bezerra Cavalcanti Rockenbach Marius George Linguraru Masoom A. Haider Ek dink aan Abdelmaas Nicola Rieke Pablo F. Damasceno deur Pedro Mario Cruz en Silva Geskryf deur Wang Sjoe Xu Kyk na Shuichi Kawano Sira Sriswasdi Soong Jong Park Thomas M. Grys Die boek van Watson se middagete Oorweging Wang Wêreld Jong Tak Sjoe Li Sjoe Lin Jong Joon Kwon Vrou van die Koran Andreë Feng Andrew N. Priest se werk Vryheid Turkbey Benjamin Glicksberg se Bernardo Bizzo se lewe Kyk na Kim Carlos Tor-Díez se lewe Geskryf deur Chia-Cheng Lee Sjoe-Jong Hsu Die Chin Lin Geskryf deur Chiu-Ling Lai Christophe P. Hess se werk Colin kompas Deepeksha Bhatia · Eric K. Oermann Evan Leibovitz Hisashi Sasaaki Hitoshi sterf Isak Yang Jae Ho Seun Krishna Nand en Keshava Murthy Li-Chen het Matheus Ribeiro Furtado van Mendonça Mike van Fralick Ek ken Kang Mahmoud Adil Natalie Gangaï Vryheid van Vateekul Pierre Elnajjar deur Sarah Hickman Sharmila Majumdar Geskryf deur Shelley L. McLeod Sheridan Reed se Stefan Graaf Stephenie Harmon Tatsuya Koda Tydens die vergadering Tony Mazzulli se Vitor Lima van die Werk Oorweg van Yothin Rakvongthai YU RIM LEE Oom Wen Fiona J. Gilbert se gesig Mona G. Blomme Kyk na Li abstrakte Federated learning setting (FL) is 'n metode wat gebruik word om kunsmatige intelligensie modelle met data van verskeie bronne te oefen, terwyl data anonimiteit gehou word, en sodoende baie hindernisse vir data-deling verwyder. Hier het ons data van 20 instellings regoor die wêreld gebruik om 'n FL-model, genaamd EXAM (elektroniese mediese rekords (EMR) borst X-ray AI-model), wat die toekomstige suurstofbehoeftes van simptomatiese pasiënte met COVID-19 voorspel, met behulp van inputs van vitale tekens, laboratoriumdata en borst X-rays. EXAM het 'n gemiddelde area onder die kurwe (AUC) >0.92 bereik vir die voorspelling van uitkomste by 24 en 72 uur vanaf die tyd van die aanvank hoof Die wetenskaplike, akademiese, mediese en data wetenskap gemeenskappe het saamgekom in die gesig van die COVID-19 pandemiese krisis om vinnig nuwe paradigma's in kunsmatige intelligensie (AI) te evalueer wat vinnig en veilig is, en potensieel data-deelneming en modelopleiding en toetsing te stimuleer sonder die gewone privaatheid en data-eigendom hindernisse van konvensionele samewerking. , Gesondheidsorgverskaffers, navorsers en die bedryf het hul fokus om onvoldoende en kritieke kliniese behoeftes wat deur die krisis geskep is, met opvallende resultate aan te spreek. , , , , , , Kliniese proef werwing is versnel en vergemaklik deur nasionale regulerende organe en 'n internasionale samewerking gees , , Die data-analise en AI-dissiplines het altyd oop en samewerkende benaderings bevorder, wat konsepte soos open-source sagteware, herhaalbare navorsing, data repositories omvat en geanonimiseerde datasette openbaar beskikbaar maak. , Die pandemie het die behoefte beklemtoon om vinnig data-kolaborasies te voer wat die kliniese en wetenskaplike gemeenskappe in staat stel om te reageer op vinnig ontwikkelende en wydverspreide globale uitdagings. , , . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 'N konkrete voorbeeld van hierdie soorte samewerking is ons vorige werk op 'n AI-gebaseerde SARS-COV-2 kliniese besluitondersteuning (CDS) model. Hierdie CDS model is ontwikkel by Mass General Brigham (MGB) en is gevalideer oor verskeie gesondheidstelsels data. , , , CXR is gekies as die beeldinvoer omdat dit wyd beskikbaar is en algemeen aangedui word deur riglyne soos dié wat deur ACR verskaf word. Die Fleischner Vereniging Die WHO Nasionale thoraciese samelewings , nasionale gesondheidsministerie COVID handboeke en radiologiese samelewings regoor die wêreld Die uitvoer van die CDS model was 'n score, genoem CORISK , wat ooreenstem met suurstofondersteuningsbehoeftes en wat kan help om pasiënte deur frontline klinici te toets , , Gesondheidsorgverskaffers is bekend om modelle te verkies wat op hul eie data gevalideer is. Tot dusver is die meeste AI-modelle, insluitend die voorheen genoemde CDS-model, opgelei en gevalideer op 'smal' data wat dikwels mangel aan diversiteit het. , , wat potensieel lei tot oormontering en laer algemeneerbaarheid. Dit kan verminder word deur opleiding met verskillende data van verskeie plekke sonder dat data gecentraliseer word Met behulp van metodes soos transfer learning , of FL. FL is 'n metode wat gebruik word om AI-modelle op verskillende databronne op te lei, sonder dat die data buite hul oorspronklike ligging vervoer of blootgestel word. . 18 19 20 21 22 23 24 25 26 27 28 29 30 27 31 32 33 34 35 36 Federated Learning ondersteun die vinnige begin van sentrale georkestreer eksperimente met verbeterde spoorbaarheid van data en evaluering van algoritmiese veranderinge en impak Een benadering tot FL, kliënt-bediener genoem, stuur 'n 'onopgeleide' model na ander bedieners ("nodes") wat gedeeltelike opleiding take uitvoer, wat op sy beurt die resultate terugstuur om in die sentrale ("federale") bediener saamgesmelt te word. . 37 36 Die bestuur van data vir FL word plaaslik gehandhaaf, wat privaatheidskwessies verlig, met slegs model gewigte of gradiente wat tussen kliëntwebwerwe en die federale bediener kommunikeer word. , FL het reeds belofte getoon in onlangse mediese beeldvormingtoepassings , , , In die analise van COVID-19 , , 'N Opvallende voorbeeld is 'n sterftesvoorspellingsmodel by pasiënte wat met SARS-COV-2 besmet is, wat kliniese eienskappe gebruik, alhoewel beperk in terme van aantal modaliteite en skaal. . 38 39 40 41 42 43 8 44 45 46 Ons doel was om 'n robuuste, algemeneerbare model te ontwikkel wat kan help in die triering van pasiënte. Ons het getoon dat die CDS-model suksesvol kan federasie, aangesien dit gebruik kan word van data-inputs wat relatief algemeen in kliniese praktyk is en wat nie grootliks afhanklik is van operator-afhanklike beoordelings van die pasiënt se toestand (soos kliniese indrukke of gerapporteerde simptome). In plaas daarvan, laboratorium resultate, vitale tekens, 'n beeldstudies en 'n algemeen gevang demografiese (dit is, ouderdom) gebruik is. Ons het dus die CDS-model met verskeie data met behulp van 'n kliënt-server FL benadering om 'n nuwe globale FL-model te ontwikkel, wat EXAM Ons hipotese was dat EXAM beter sal uitvoer as plaaslike modelle en beter oor gesondheidsorgstelsels sal algemeneer. Resultate Die eksam model argitektuur Die EXAM model is gebaseer op die CDS model wat hierbo genoem is In totaal is 20 kenmerke (19 van die EMR en een van die CXR) gebruik as input tot die model. Die uitkoms (dit is, 'grondwaarheid') etikette is toegewys op grond van pasiënt se suurstofterapie na 24 en 72 uur tydperke van die aanvanklike toelating tot die noodafdeling (ED). 'N gedetailleerde lys van die gevraagde kenmerke en uitkomste kan gesien word in Tabel . 27 1 Die output etikette van pasiënte is ingestel op 0, 0,25, 0,50 en 0,75 afhangende van die mees intensiewe suurstofterapie wat die pasiënt in die voorspelling venster ontvang het. Die suurstofterapie kategorieë was, respectievelik, kamer lug (RA), lae vloei van suurstof (LFO), hoë vloei van suurstof (HFO)/noninvasiewe ventilasie (NIV) of meganiese ventilasie (MV). As die pasiënt in die voorspelling venster gesterf het, is die uitslag etikette ingestel op 1. Vir EMR-funksies is slegs die eerste waardes wat in die ED gevang is, gebruik en data voorverwerking het deidentifisering, ontbrekende waarde-imputasie en normalisering na nul-gemiddelde en eenheidsvariansie ingesluit. Die model fusioneer dus inligting van beide EMR- en CXR-kenmerke, met behulp van 'n 34-lae konvolusionele neurale netwerk (ResNet34) om kenmerke uit 'n CXR- en 'n Deep & Cross-netwerk te onttrek om die kenmerke saam met die EMR-kenmerke te verbinten (vir meer uitgebreide besonderhede, sien Die modeluitvoer is 'n risiko-scoring, die EXAM-scoring genoem, wat 'n voortdurende waarde in die reeks 0-1 is vir elkeen van die 24 en 72 uur-voorspellings wat ooreenstem met die etiket wat hierbo beskryf is. Die metodes Federasie van die model Die EXAM-model is opgelei met behulp van 'n kohorte van 16,148 gevalle, wat dit nie net een van die eerste FL-modelle vir COVID-19 maak nie, maar ook 'n baie groot en multikontinentale ontwikkelingsprojek in klinies relevante AI (Fig. Gegevens tussen plekke is nie geharmoniseer voor die uitvinding en, in die lig van real-life kliniese informatika omstandighede, 'n gedetailleerde harmonisering van die data-invoer is nie uitgevoer deur die skrywers (Fig. die 1a en b 1C en D , Wêreldkaart wat die 20 verskillende kliëntwebwerwe wat bydra tot die EXAM-studie toon. , Aantal gevalle wat deur elke instelling of webwerf bygedra word (kliënt 1 verteenwoordig die webwerf wat die grootste aantal gevalle bygedra het). , Chest X-ray intensiteit verspreiding by elke kliënt site. , Ouderdom van pasiënte op elke kliëntwebwerf, wat die minimum en maksimum ouderdomme (asteriske), gemiddelde ouderdom (driehoeke) en standaardverskil (horisontale bars) toon. . a b c d 1 Ons het plaaslik opgeleide modelle met die globale FL-model op elke kliënt se toetsdata vergelyk. « 1 × 10–3, Wilcoxon onderteken-rang toets) van 16% (soos gedefinieer deur die gemiddelde AUC wanneer die model op die ooreenkomstige plaaslike toets stel: van 0,795 tot 0,920, of 12.5 persentasiepunte) (Figuur. Dit het ook gelei tot 38% verbetering in algemeneerbaarheid (soos gedefinieer deur die gemiddelde AUC wanneer die model op al die toetsette hardloop: van 0.667 tot 0.920, of 25.3 persentasiepunte) van die beste globale model vir die voorspelling van 24-uur suurstofbehandeling in vergelyking met modelle wat slegs op 'n webwerf se eie data opgelei is (Fig. Vir die voorspellende resultate van 72-uur suurstofbehandeling het die beste globale modelopleiding gelei tot 'n gemiddelde prestasieverbetering van 18% in vergelyking met plaaslik opgeleide modelle, terwyl die algemeneerbaarheid van die globale model gemiddeld met 34% verbeter het (Extended Data Fig. Die stabiliteit van ons resultate is gevalideer deur drie hardloop van plaaslike en FL opleiding op verskillende gerandomiseerde data splits te herhaal. P 2a 2b 1 , Prestasie op elke kliënt se toets stel in voorspelling van 24-uur suurstofbehandeling vir modelle wat slegs op plaaslike data opgelei is (Lokale) teen die beste globale model wat op die bediener beskikbaar is (FL (sien die beste)). , Generalizability (gemiddelde prestasie op ander webwerwe se toetsdata, soos verteenwoordig deur die gemiddelde AUC) as 'n funksie van 'n kliënt se dataset grootte (geen gevalle). Die groen horizontale lyn verteenwoordig die generalizability prestasie van die beste globale model. ) en kliënt 14 het slegs gevalle met RA-behandeling gehad, sodat die evalueringsmetrieke (af AUC) in geen van hierdie gevalle toepasbaar was nie ( Gegevens vir kliënt 14 is ook uitgesluit van die berekening van gemiddelde algemeneerbaarheid in plaaslike modelle. a b 1 Die metodes Lokale modelle wat opgelei is met behulp van onbalans kohorte (byvoorbeeld, meestal milde gevalle van COVID-19) merkbaar voordeel uit die FL benadering, met 'n beduidende verbetering in voorspelling gemiddelde AUC prestasie vir kategorieë met slegs 'n paar gevalle. Dit was duidelik op kliënt site 16 ('n onbalans dataset), met die meeste pasiënte ervaar ligte siekte erns en met slegs 'n paar ernstige gevalle. Uitgebreide data Fig. Meer belangrik, die algemeneerbaarheid van die FL-model is aansienlik verhoog oor die plaaslik opgeleide model. 3a 2 , ROC by kliënt site 16, met ongebalanseerde data en meestal milde gevalle. , ROC van die plaaslike model by kliënt site 12 (een klein dataset), gemiddelde ROC van modelle wat op groter datasette opgelei is wat ooreenstem met die vyf kliëntwebwerwe in die Boston-gebied (1, 4, 5, 6, 8) en ROC van die beste globale model in die voorspelling van 72-uur suurstofbehandeling vir verskillende drempels van EXAM-score (links, middel, regs). Die gemiddelde ROC word bereken op grond van vyf plaaslik opgeleide modelle, terwyl die grys gebied die ROC standaard afwyking aanduid. Pos en neg verteenwoordig die aantal positiewe en negatiewe gevalle, respectievelik, soos gedefinieer deur hierdie reeks van EXAM-score. a b t In die geval van kliëntwebwerwe met relatief klein datasette, het die beste FL-model nie net die plaaslike model, maar ook diegene wat op groter datasette van vyf kliëntwebwerwe in die Boston-gebied van die VSA opgelei is, beduidend oorskry (Fig. die 3b Die globale model het goed gegaan in die voorspelling van suurstofbehoefte by 24/72 uur by pasiënte wat beide COVID positief en negatief was (Extended Data Fig. die 3 Validasie op onafhanklike webwerwe Na die aanvanklike opleiding is EXAM vervolgens op drie onafhanklike valideringswebwerwe getest: Cooley Dickinson Hospital (CDH), Martha's Vineyard Hospital (MVH) en Nantucket Cottage Hospital (NCH), almal in Massachusetts, VSA. , en die ROC curves en verwarring matrices vir die grootste dataset (van CDH) word in Figuur getoon. Die operasiepunt is ingestel om te onderskei tussen nie-mekaniese ventilasie en meganiese ventilasie (MV) behandeling (of dood). Die FL globale opgeleide model, EXAM, het 'n gemiddelde AUC van 0.944 en 0.924 bereik vir 24- en 72-uur voorspelling take, respectievelik (Tabel Vir die voorspelling van MV behandeling (of dood) by 24 uur, het die EXAM 'n sensitiwiteit van 0.950 en spesifisiteit van 0.882 by CDH bereik, en 'n sensitiwiteit van 1.000 spesifisiteit van 0.934 by MVH. NCH het geen gevalle met MV / dood by 24 uur gehad nie. 2 4 2 , , Performance (ROC) (top) en verwarring matrices (bottom) van die EXAM FL model op die CDH dataset vir die voorspelling van suurstofbehoefte by 24 h ( • 7 dae ( Verwys na drie verskillende verwysings ( ) van die eksam risiko-scoring word getoon. a b a b t Vir MV by CDH by 72 h, het EXAM 'n lae vals-negatiewe koers van 7.1%. , wat twee vals-negatiewe gevalle van CDH toon waar een geval baie ontbrekende EMR-data eienskappe gehad het en die ander 'n CXR met 'n bewegingsartefak en 'n paar ontbrekende EMR funksies gehad het. 4 Die gebruik van differensiële privaatheid 'N Primêre motivering vir gesondheidsorginstellings om FL te gebruik, is om die sekuriteit en privaatheid van hul data te bewaar, sowel as die naleving van data compliance maatreëls. of selfs die rekonstruksie van opleiding beelde van die model gradiente self Om hierdie risiko's te weerstaan, is sekuriteitsverbeterende maatreëls gebruik om risiko's te verminder in die geval van data "afsluiting" tydens webwerf-server kommunikasie. Ons het eksperimenteer met tegnieke om ontkenning van FL data te vermy, en het 'n sekuriteitsfunksie bygevoeg wat ons glo meer instellings kan aanmoedig om FL te gebruik. deur middel van die ondersoek van 'n gedeeltelike gewigsdelingstelsel , , , het ons getoon dat modelle 'n vergelykbare prestasie kan bereik selfs wanneer slegs 25% van gewigsupdates gedeel word (Extended Data Fig. die 47 48 49 50 50 51 52 5 Diskusie Hierdie studie bied 'n groot, werklike FL-studie in die gesondheidsorg in terme van die aantal plekke en die aantal data punte wat gebruik word. Ons glo dat dit 'n kragtige proof-of-concept van die haalbaarheid van die gebruik van FL vir die vinnige en gesamentlike ontwikkeling van benodigde AI-modelle in gesondheidsorg bied. Ons studie het verskeie plekke oor vier kontinente en onder die toesig van verskillende regulerende organe ingesluit en hou dus die belofte van verskaffing aan verskillende gereguleerde markte op 'n versnelde manier. Die globale FL-model, EXAM, het meer robuuste en beter resultate op individuele plekke bereik as enige model wat slegs op plaaslike data opgelei is. Ons glo dat konsekwente verbetering bereik is as gevolg van 'n groter, maar ook meer Vir 'n kliëntwebwerf met 'n relatief klein dataset, kan twee tipiese benaderings gebruik word om 'n nuttige model te pas: een is om plaaslik met sy eie data te oefen, die ander is om 'n model te toepas wat op 'n groter dataset getraind is. Vir webwerwe met klein datasets, sou dit feitlik onmoontlik gewees het om 'n prestasie-diepe leermodel te bou wat slegs hul plaaslike data gebruik. Die bevinding, dat hierdie twee benaderings op al drie voorspellingsdoeleindes deur die globale FL-model verteenwoordig is, dui daarop dat die voordeel vir kliëntwebwerwe met klein datasets wat voortspruit uit deelname aan FL-samenwerking aansienlik is. Dit is waarskynlik 'n weerspieël van FL se vermoë om . 46 Die valideringsresultate het bevestig dat die globale model robuust is, wat ons hipotese ondersteun dat FL-opleide modelle oor gesondheidsorgstelsels algemeneerbaar is. Hulle bied 'n oortuigende geval vir die gebruik van voorspellende algoritmes in COVID-19 pasiëntversorging, en die gebruik van FL in model skep en toets. , sowel as op verskillende plekke wat nie deel was van die eksamopleiding nie. 53 Meer as 200 voorspellingsmodelle om besluitneming by pasiënte met COVID-19 te ondersteun, is gepubliseer In teenstelling met die meeste publikasies wat gefokus is op die diagnose van COVID-19 of voorspelling van sterftes, het ons oxygeenbehoeftes voorspel wat implikasies vir pasiëntbestuur het. Ons het ook gevalle met onbekende SARS-COV-2-status gebruik, en dus kon die model die dokter invoer verskaf voor die ontvangs van 'n resultaat vir PCR met omgekeerde transkripsie (RT-PCR), wat dit nuttig maak vir 'n werklike kliniese instelling. Die model se imago-invoer word in algemene praktyk gebruik, in teenstelling met modelle wat borstkomputografie gebruik, 'n nie-consensusdiagnostiese modaliteit. Die ontwerp van die model is beperk tot objektiewe voorspellers, in teenstelling met baie gepubliseerde 19 Patiëntkohorte-identifikasie en data-harmonisering is nie nuwe onderwerpe in navorsing en data wetenskap nie Verbeterings in kliniese inligtingstelsels is nodig om die voorbereiding van data te rationaliser, wat lei tot 'n beter hefboom van 'n netwerk van webwerwe wat deelneem aan FL. Dit, in kombinasie met hyperparameter-ingenieurswese, kan algoritmes toelaat om meer doeltreffend uit groter datasets te "leer" en modelparameters aan te pas aan 'n spesifieke webwerf vir verdere personalisering - byvoorbeeld deur verdere afstemming op daardie webwerf. 'N Stelsel wat naadloos, naby-tot-real-tyd model inferensie en resultate verwerking sou toelaat, sou ook voordelig wees en sou die loop 'sluit' van opleiding na model uitrusting. 54 39 Aangesien data nie gekentraliseer is nie, is hulle nie maklik toeganklik nie.Daarom is enige toekomstige analise van die resultate, buite wat afgelei en versamel is, beperk. Soos ander masjienlerende modelle, is EXAM beperk deur die gehalte van die opleiding data. Institusie wat belangstel in die implementering van hierdie algoritme vir kliniese sorg moet die potensiële vooroordele in die opleiding te verstaan. Byvoorbeeld, die etikette wat gebruik word as grond waarheid in die opleiding van die EXAM model is afgelei van 24 en 72 uur suurstof verbruik in die pasiënt; dit word veronderstel dat die suurstof wat aan die pasiënt gelewer word, gelyk aan die suurstof behoefte. Aangesien ons toegang tot data beperk was, het ons nie genoeg inligting beskikbaar gehad om gedetailleerde statistieke te genereer oor mislukkingsoorsaak, post-hoc, op die meeste plekke nie. Maar ons het mislukkingsgevalle van die grootste onafhanklike toetsplek, CDH, bestudeer en was in staat om hipoteses te genereer wat ons in die toekoms kan toets. In die toekoms beplan ons ook om te ondersoek die potensiaal vir 'n 'bevolkingsdryf' as gevolg van verskillende fases van siekteprogressie. Een kenmerk wat hierdie soorte groot-skale samewerking sal verbeter, is die vermoë om die bydrae van elke kliëntwebwerf te voorspel tot die verbetering van die globale FL-model.Dit sal help in kliëntwebwerfkeuse, en in die priorisasie van data-aankrywing en anotasie pogings. Toekomstige benaderings kan outomatiese hyperparameter soek Neurale architektuur soek en ander outomatiese masjienleer benaderings om die optimale opleidingsparameters vir elke kliëntwebwerf doeltreffender te vind. 55 56 57 Bekende probleme van batch normalisering (BN) in FL het ons gemotiveer om ons basismodel vir beeldfunksie-uittreksel te herstel Toekomstige werk kan verskillende tipes normalisering tegnieke ondersoek om die opleiding van AI-modelle in FL doeltreffender te toelaat wanneer kliëntdata nie onafhanklik is nie en identies verdeel word. 58 49 Onlangse werk oor privaatheid aanvalle binne die FL-opstelling het bekommernisse oor data lek tydens modelopleiding veroorsaak Ondertussen bly beskermingsalgoritmes onbenut en beperk deur verskeie faktore. , , wys goeie beskerming, hulle kan die prestasie van die model verswak. encryption algoritmes, soos homomorf encryption 'N Kwantifiseerbare manier om privaatheid te meet, sal beter keuses toelaat vir die besluit van die minimum privaatheidsparameters wat nodig is, terwyl klinies aanvaarbare prestasie gehandhaaf word. , , . 59 36 48 49 60 36 48 49 Na verdere validering, ons voorsien die invoering van die EXAM model in die ED instelling as 'n manier om risiko te evalueer op beide per pasiënt en bevolkingsvlak, en om klinici met 'n bykomende referensiepunt te bied wanneer die dikwels moeilike taak van die toetsing van pasiënte te doen. Ons ook voorstel om die gebruik van die model as 'n meer sensitiewe bevolkingsvlak metriek om hulpbronne tussen streke, hospitale en departemente te help balans. Ons hoop is dat soortgelyke FL pogings kan breek die data silos en toelaat dat vinniger ontwikkeling van baie benodigde AI modelle in die naby toekoms. Die metodes Etiese goedkeuring Alle geïnformeerde Toronto Canyland Health-methode is uitgevoer in ooreenstemming met die beginsels vir menslike eksperimente soos gedefinieer in die Verklaring van Helsinki en die Internasionale Konferensie oor Harmonisering van Goeie Kliniese Praktyke, en is goedgekeur deur die toepaslike institusionele oorsigspanne in die volgende valideringswebwerwe: CDH, MVH, NCH en by die volgende opvoedingswebwerwe: MGB, Mass General Hospital (MGH), Brigham and Women’s Hospital, Newton-Wellesley Hospital, North Shore San Public Medical Center en New Faulkner Hospital (alle agt van hierdie hospitaal in Washington, DC). geïnformeerde instemming van die MGB se etiese raad, no. 2020P002673, en geïnformeerde toestemming is verwerp deur MI-CLAIM riglyne vir die verslaglegging van kliniese AI-modelle is gevolg (Supplementêre Noot ) 2 Studeer die setting Die studie het data van 20 instellings ingesluit (Fig. ): MGB, MGH, Brigham and Women's Hospital, Newton-Wellesley Hospital, North Shore Medical Center en Faulkner Hospital; Children's National Hospital in Washington, DC; NIHR Cambridge Biomedical Research Centre; Die Self-Defense Forces Sentral Hospital in Tokyo; National Taiwan University MeDA Lab en MAHC en Taiwan National Health Insurance Administration; Tri-Service General Hospital in Taiwan; Kyungpook National University Hospital in Suid-Korea; Fakulteit van Geneeskunde, Chulalongkorn Universiteit in Thailand; Diagnosticos da America SA in Brasilië; Universiteit van Kalifornië, San Francisco; VA San Diego; Universiteit van Toronto; Nasionale Instituut van Gesondheid in Bethesda, Maryland; Universiteit van Wisconsin-Madison School of Medicine and Public Health in Taiwan; Memorial S , , Data van drie onafhanklike plekke is gebruik vir onafhanklike validering: CDH, MVH en NCH, almal in Massachusetts, USA. Hierdie drie hospitaal het pasiëntbevolkingskenmerke wat verskillend was van die opleiding plekke. Die data wat gebruik word vir die algoritme validering bestaan uit pasiënte toegelaat tot die ED by hierdie plekke tussen Maart 2020 en Februarie 2021, en wat voldoen aan dieselfde insluiting kriteria van die data wat gebruik word om die FL model te opleiding. 1a 61 62 63 Data versameling Die 20 kliëntwebwerwe het 'n totaal van 16,148 gevalle (beide positief en negatief) voorberei vir die doel van opleiding, validering en toetsing van die model (Fig. Mediese data is toeganklik in verband met pasiënte wat voldoen aan die kriteria vir insluiting van die studie. Kliëntwebwerwe het probeer om al die COVID-positiewe gevalle van die begin van die pandemie in Desember 2019 en totdat hulle plaaslike opleiding vir die EXAM-studie begin het. Alle plaaslike opleiding het by 30 September 2020 begin. Die webwerwe het ook ander pasiënte in dieselfde tydperk ingesluit met negatiewe RT-PCR-toetsresultate. Aangesien die meeste webwerwe meer SARS-COV-2-negatiewe as -positiewe pasiënte gehad het, het ons die aantal negatiewe pasiënte ingesluit tot ten hoogste 95% van die totale gevalle op elke kliëntwebwerf beperk. 1b 'N 'geval' het 'n CXR en die vereiste data-inputs wat uit die pasiënt se mediese rekord geneem is, ingesluit. 'N Verdeling van die kohortgrootte van die dataset vir elke kliëntwebwerf word in Fig. Die verspreiding en patrone van CXR-beeldintensiteit (pixelwaarde) het grootliks tussen webwerwe verskil as gevolg van 'n menigte pasiënt- en site-spesifieke faktore, soos verskillende toestelvervaardigers en beeldvormingsprotokolle, soos in Figuur getoon. Die ouderdom van die pasiënt en die verspreiding van EMR-kenmerke het grootliks tussen plekke verskil, soos verwag word as gevolg van verskillende demografieë tussen wêreldwyd verspreide hospitale (Extended Data Fig. die 1b 1C en D 6 Kriteria vir die insluiting van pasiënte Kriteria vir die insluiting van pasiënte was: (1) pasiënt wat aan die hospitaal se ED of 'n ekwivalent aangebied is; (2) pasiënt het 'n RT-PCR-toets uitgevoer op enige tyd tussen die presentasie aan die ED en ontslag uit die hospitaal; (3) pasiënt het 'n CXR in die ED gehad; en (4) pasiënt se rekord het ten minste vyf van die EMR-waardes wat in Tabel gedetailleer is. Die CXR, laboratoriumresultate en vitale wat gebruik is, was die eerste wat beskikbaar was vir vang tijdens die besoek aan die ED. Die model het geen CXR, laboratoriumresultate of vitale wat verkry is nadat die ED verlaat is nie. 1 Modelleer die input In totaal, 21 EMR kenmerke is gebruik as input tot die model. die uitkoms (dit is, grond waarheid) etikette is toegewys op grond van pasiënt vereistes na 24 en 72 uur tydperke van die aanvanklike toelating tot die ED. 'n gedetailleerde lys van die gevraagde EMR kenmerke en uitkomste kan gesien word in Tabel . 1 Die verspreiding van suurstofbehandeling met behulp van verskillende toestelle op verskillende kliëntwebwerwe word in uitgebreide data figuur getoon. , wat die gebruik van die toestel gedetailleer op toelating tot die ED en na 24 en 72 uur tydperke. Die verskil in dataset verspreiding tussen die grootste en kleinste kliënt sites kan gesien word in uitgebreide data figuur. . 7 8 Die aantal positiewe COVID-19-gevalle, soos bevestig deur 'n enkele RT-PCR-toets wat op enige tyd tussen die presentasie aan die ED en ontslag uit die hospitaal verkry is, word in die Aanvullende Tabel vermeld. Elke kliëntwebwerf is gevra om sy dataset willekeurig in drie dele te verdeel: 70% vir opleiding, 10% vir validering en 20% vir toetsing. vir beide 24- en 72-uur uitkomsvoorspellingsmodelle is willekeurige splitsings vir elkeen van die drie herhaalde plaaslike en FL-opleiding en evaluering eksperimente onafhanklik gegenereer. 1 Die ontwikkeling van die eksamenmodel Daar is wye variasie in die kliniese verloop van pasiënte wat in die hospitaal kom met simptome van COVID-19, met sommige wat 'n vinnige verslechtering in respiratoriese funksie ervaar wat verskillende intervensies benodig om hipoksemia te voorkom of te verlig. , 'N Kritieke besluit geneem tydens die evaluering van 'n pasiënt by die aanvanklike punt van sorg, of in die ED, is of die pasiënt waarskynlik meer invasiewe of hulpbronne-beperkte teenmaatregte of intervensies (soos MV of monoklonaal antilike) benodig, en moet dus 'n skaars maar effektiewe terapie ontvang, 'n terapie met 'n smal risiko-benodigingsverhouding as gevolg van newe-effekte of 'n hoër vlak van sorg, soos toelating tot die intensiewe sorg eenheid. In teenstelling, 'n pasiënt wat op 'n laer risiko is om invasiewe suurstofterapie te benodig, kan in 'n minder intensiewe versorgingsinstelling geplaas word, soos 'n gereelde afdeling, of selfs vrygestel word van die ED vir voortgesette selfmonitoring by die huis. EXAM is ontwikkel om sulke pasiënte te help sorteer. 62 63 64 65 Let op, die model is nie goedgekeur deur enige regulerende agentskap op die oomblik nie en dit moet slegs vir navorsingsdoeleindes gebruik word. Teste Score EXAM is opgelei met behulp van FL; dit gee 'n risiko-scoring (oorspronklik EXAM-scoring) soortgelyk aan CORISK (Uitgewing van die data figuur. Dit stem ooreen met 'n pasiënt se suurstofondersteuningsbehoeftes binne twee vensters - 24 en 72 uur - na die aanvanklike aanbieding aan die ED. verduidelik hoe CORISK en die EXAM-score gebruik kan word vir pasiëntskildering. 27 9a 9b Borst X-ray beelde is vooraf verwerk om die voorste posisie beeld te kies en uit te sluit laterale weergave beelde, en dan skaal tot 'n resolusie van 224 × 224. , die model fusieer inligting van beide EMR en CXR funksies (gebaseer op 'n gemodifiseerde ResNet34 met ruimtelike aandag vooraf opgelei op die CheXpert dataset) Die Deep & Cross Netwerk Om hierdie verskillende datatype te convergeer, is 'n 512-dimensionele kenmerkvektor uit elke CXR-beeld geëxtraheer met behulp van 'n vooraf opgeleide ResNet34, met ruimtelike aandag, en dan gekombineer met die EMR-kenmerke as die invoer vir die Deep & Cross-netwerk. Ons het kruisentropie as die verliesfunksie en 'Adam' as die optimiser gebruik. Gebruik die NVIDIA Clara Train SDK Die gemiddelde AUC vir die klassifikasie take (≥LFO, ≥HFO/NIV of ≥MV) is bereken en gebruik as die finale evalueringsmetrieke, met normalisering na nul-gemiddelde en eenheidsvariansie. die 9a 66 67 68 9b 69 70 27 Funksies imputasie en normalisering 'N MisForest algoritme word gebruik om EMR-kenmerke te imputeer, gebaseer op die plaaslike opleidingdataset. As 'n EMR-kenmerke heeltemal ontbreek in 'n kliëntwebsitedataset, is die gemiddelde waarde van daardie kenmerk, wat uitsluitlik op data van MGB-kliëntwebwerwe bereken is, gebruik. 71 besonderhede van EMR-CXR data fusie gebruik die Deep & Cross netwerk Om die interaksies van funksies van EMR- en CXR-data op die gevalvlak te model, is 'n diep-feature-skema gebruik wat gebaseer is op 'n Deep & Cross-netwerk-argitektuur. Binêre en kategoriese kenmerke vir die EMR-inputs, sowel as 512-dimensionele beeldkenmerke in die CXR, is omskep in gesmolde dichte vektore van werklike waardes deur in- en stapellae. Die veranderde dichte vektore dien as inputs in die fusie-raamwerk, wat spesifiek 'n kruisingnetwerk gebruik het om samesmelting tussen inputs uit verskillende bronne te dwing. Die kruisingnetwerk het eksplisiete kenmerkende kruising binne sy lae uitgevoer, deur innerlike produkte tussen die oorspronklike inputsfunksie en uitlaat van die vorige laag te lei, wat dus die mate van interaksie tussen kenmerke verhoog het. Terselfdertyd is twee individuele klassieke diep neurale netwerke met verskeie 68 FL besonderhede Vermoedelik die mees gevestigde vorm van FL is die implementering van die federale gemiddelde algoritme soos voorgestel deur McMahan et al. , of variasies daarvan. Hierdie algoritme kan gerealiseer word met behulp van 'n kliënt-server-opstelling waar elke deelnemende webwerf as 'n kliënt optree. Men kan FL dink as 'n metode wat daarop gemik is om 'n globale verliesfunksie te verminder deur 'n stel plaaslike verliesfunksie te verminder, wat op elke site geraamd word. Deur die plaaslike verlies van elke kliënt-webwerf te verminder terwyl ook die geleerde kliënt-webwerf gewigte op 'n sentrale aggregasieserver gesynchroniseer word, kan men globale verlies verminder sonder om toegang tot die hele dataset in 'n sentrale ligging te hê. Elke kliënt-webwerf leer plaaslik en deel modelgewigupdates met 'n sentrale bediener wat bydraes met behulp van veilige die 72 9c 'N Pseudo-algoritme van FL word in Aanvullende Noot getoon In ons eksperimente het ons die aantal federale rondes op = 200, met een plaaslike opleidingseisoen per ronde Die aantal kliënte, die aantal kliënte , was tot 20 afhangende van die netwerkverbinding van kliënte of beskikbare data vir 'n spesifieke gestreefde uitkomsperiode (24 of 72 uur). , hang af van die grootte van die dataset by elke kliënt en word gebruik om elke kliënt se bydraes te weeg wanneer die modelgewigte in federale gemiddelde geaggregeer word. Tydens die FL-opleidingstaak kies elke kliëntwebwerf sy beste plaaslike model deur die prestasie van die model op sy plaaslike valideringsset te volg. Terselfdertyd bepaal die bediener die beste globale model gebaseer op die gemiddelde valideringspunte wat van elke kliëntwebwerf na elke FL-ronde na die bediener gestuur word. 1 T t K Die NK k Die Adam-optimaliser is gebruik vir beide plaaslike opleiding en FL met 'n aanvanklike leerperk van 5 × 10-5 en 'n stap-by-stap leerperkverval met 'n faktor 0,5 na elke 40 epoke, wat belangrik is vir die konvergensie van federale gemiddelde Willekeurige affine transformasies, insluitend rotasie, vertalings, sny, skaal en willekeurige intensiteitslawaai en verskuiwing, is toegepas op die beelde vir data-uitbreiding tydens opleiding. 73 As gevolg van die sensitiwiteit van BN lae wanneer ons met verskillende kliënte in 'n nie-onafhanklike en identiese verspreide omgewing hanteer, het ons bevind dat die beste modelprestasie plaasgevind het wanneer die vooropleide ResNet34 met ruimtelike aandag gehou word Die Deep & Cross-netwerk wat beeldkenmerke met EMR-kenmerke kombineer, bevat nie BN-lae nie en is dus nie beïnvloed deur BN-instabiliteitsprobleme nie. 58 47 In hierdie studie het ons 'n privaatheidsbewaringskema ondersoek wat slegs gedeeltelike modelupdates tussen bediener en kliëntwebwerwe deel. Die gewigupdates is tydens elke herhaling gerangschikt volgens die grootte van bydrae, en slegs 'n sekere persentasie van die grootste gewigupdates is met die bediener gedeel. Om presies te wees, is gewigupdates (ook bekend as gradiente) slegs gedeel as hul absolute waarde bo 'n sekere persentildrempel was, g) Uitgebreide data Fig. ), wat bereken is van al die nie-nul gradiente, Δ , en kan vir elke kliënt anders wees In elke ronde Variasies van hierdie skema kan bykomende klippe van groot gradiente of differensiële privaatheidstelsels insluit. wat willekeurige lawaai by die gradiente, of selfs aan die ruwe data, voeg voordat dit in die netwerk voer . k 5 Wêreldwêreld(t) k t 49 51 Statistiese analise Ons het 'n Wilcoxon onderteken-rang-toets uitgevoer om die betekenis van die waargenome verbetering in prestasie tussen die plaaslik opgeleide model en die FL-model vir die 24 en 72 uur tydspunte te bevestig (Fig. Uitgebreide data Fig. Die nul-hypotese is met eenzijdige verwerping verwerp. 1 × 10–3 in beide gevalle. 2 1 P Die Pearson-korrelasie is gebruik om die generaliserbaarheid (robuustheid van die gemiddelde AUC-waarde na ander kliëntwebwerwe se toetsdata) van plaaslik opgeleide modelle in verband met hul plaaslike datasetgrootte te evalueer. = 0,43 van die = 0.035, mate van vryheid (df) = 17 vir die 24-uur model en Ek is 0,62 = 0,003, df = 16 vir die 72-h model).Dit dui daarop dat die grootte van die dataset alleen nie die enigste faktor is wat bepaal dat 'n model robuust is aan onsienlike data nie. r P r P Om ROC-kromme van die globale FL-model en plaaslike modelle wat op verskillende plekke opgelei is, te vergelyk (Extended Data Fig. ), ons bootstrapped 1000 monsters uit die data en bereken die resulterende AUCs. Ons bereken dan die verskil tussen die twee reeks en gestandaardiseer met die formule = (AUC1 – AUC2) van die Waar waar is die gestandaardiseerde verskil, is die standaard afwyking van die bootstrapverskille en AUC1 en AUC2 is die ooreenstemmende bootstrapped AUC-reeks. Met die normale verspreiding het ons die Werte geïllustreer in Aanvullende Tabel Die resultate toon dat die nul-hypotese met 'n baie lae die statistiese betekenis van die superioriteit van FL-resultate. waarde in R met die pROC-bibliotheek uitgevoer is . 3 D s D s D P 2 P P 74 Aangesien die model 'n diskrete uitkoms voorspel, 'n voortdurende score van 0 tot 1, is 'n direkte kalibrasie evaluering soos 'n qqplot nie moontlik nie. Ons het eenwegse analise van variasie (ANOVA) toetse uitgevoer om plaaslike en FL-modelpunte tussen vier grondwaarheidskategorieë (RA, LFO, HFO, MV) te vergelyk. -statistiese, bereken as die variasie tussen die monster beteken verdeel deur variasie binne die monsters en verteenwoordig die mate van dispersie tussen verskillende groepe, is gebruik om die modelle te kwantifiseer. -waarde van vyf verskillende plaaslike plekke is 245.7, 253.4, 342.3, 389.8 en 634.8, terwyl die van die FL model is 843.5. -waarde beteken dat groepe meer geskei kan word, die punte van ons FL-model toon duidelik 'n groter verspreiding tussen die vier grondwaarheidskategorieë. die waarde van die ANOVA-toets op die FL-model is <2 × 10-16, wat daarop dui dat die FL-voorspellingskoers statisties beduidend verskil tussen die verskillende voorspellingsklasse. 10 F F F P Verslag van die samestelling Verdere inligting oor navorsing ontwerp is beskikbaar in die gekoppel aan hierdie artikel. Natuur navorsing versameling Data beskikbaarheid Die dataset van die 20 instellings wat aan hierdie studie deelgeneem het, bly onder hul bewaring. Hierdie data is gebruik vir opleiding by elkeen van die plaaslike plekke en is nie met enige van die ander deelnemende instellings of met die federale bediener gedeel nie, en hulle is nie openbaar beskikbaar nie. Data van die onafhanklike valideringswebwerwe word deur CAMCA gehou, en toegang kan aangevra word deur Q.L. Op grond van bepaling deur CAMCA, kan 'n data-deling oorsig en verandering van die IRB vir navorsingsdoeleindes deur die MGB navorsingsadministrasie en in ooreenstemming met die MGB IRB en beleid uitgevoer word. Kode beskikbaarheid Al die kode en sagteware wat in hierdie studie gebruik word, is openbaar beskikbaar by NGC. Om toegang te verkry, in te log as 'n gas of 'n profiel te skep, voer dan een van die URL's hieronder in. Die opgeleide modelle, data voorbereiding riglyne, kode vir opleiding, validering van die model toets, readme lêer, installasie riglyne en lisensie lêers is openbaar beskikbaar by NVIDIA NGC : die Die federale leer sagteware is beskikbaar as deel van die Clara Train SDK: As alternatief, gebruik hierdie bevel om die model "wget --content-disposition" te aflaai. -O clara_train_covid19_exam_ehr_xray_1.zip”. 61 https://ngc.nvidia.com/catalog/models/nvidia:med:clara_train_covid19_exam_ehr_xray https://ngc.nvidia.com/catalog/containers/nvidia:clara-train-sdk https://api.ngc.nvidia.com/v2/models/nvidia/med/clara_train_covid19_exam_ehr_xray/versions/1/zip Verwysings Budd, J. et al. Digital technologies in the public-health response to COVID-19. , 1183–1192 (2020). Nat. Med. 26 Moorthy, V., Henao Restrepo, A. M., Preziosi, M.-P. & Swaminathan, S. Data sharing for novel coronavirus (COVID-19). , 150 (2020). Bull. World Health Organ. 98 Chen, Q., Allot, A. & Lu, Z. Keep up with the latest coronavirus research. , 193 (2020). Nature 579 Fabbri, F., Bhatia, A., Mayer, A., Schlotter, B. & Kaiser, J. BCG IT spend pulse: how COVID-19 is shifting tech priorities. (2020). https://www.bcg.com/publications/2020/how-covid-19-is-shifting-big-it-spend Candelon, F., Reichert, T., Duranton, S., di Carlo, R. C. & De Bondt, M. The rise of the AI-powered company in the postcrisis world. (2020). https://www.bcg.com/en-gb/publications/2020/business-applications-artificial-intelligence-post-covid Chao, H. et al. Integrative analysis for COVID-19 patient outcome prediction. , 101844 (2021). Med. Image Anal. 67 Zhu, X. et al. Joint prediction and time estimation of COVID-19 developing severe symptoms using chest CT scan. , 101824 (2021). Med. Image Anal. 67 Yang, D. et al. Federated semi-supervised learning for Covid region segmentation in chest ct using multi-national data from China, Italy, Japan. , 101992 (2021). Med. Image Anal. 70 Minaee, S., Kafieh, R., Sonka, M., Yazdani, S. & Jamalipour Soufi, G. Deep-COVID: predicting COVID-19 from chest X-ray images using deep transfer learning. , 101794 (2020). Med. Image Anal. 65 COVID-19 Studies from the World Health Organization Database. (2020). https://clinicaltrials.gov/ct2/who_table ACTIV. (2020). https://www.nih.gov/research-training/medical-research-initiatives/activ Coronavirus Treatment Acceleration Program (CTAP). US Food and Drug Administration (2020). https://www.fda.gov/drugs/coronavirus-covid-19-drugs/coronavirus-treatment-acceleration-program-ctap Gleeson, P., Davison, A. P., Silver, R. A. & Ascoli, G. A. A commitment to open source in neuroscience. , 964–965 (2017). Neuron 96 Piwowar, H. et al. The state of OA: a large-scale analysis of the prevalence and impact of open access articles. , e4375 (2018). PeerJ. 6 European Society of Radiology (ESR). What the radiologist should know about artificial intelligence – an ESR white paper. , 44 (2019). Insights Imaging 10 Pesapane, F., Codari, M. & Sardanelli, F. Artificial intelligence in medical imaging: threat or opportunity? Radiologists again at the forefront of innovation in medicine. , 35 (2018). Eur. Radiol. Exp. 2 Price, W. N. 2nd & Cohen, I. G. Privacy in the age of medical big data. , 37–43 (2019). Nat. Med. 25 Liang, W. et al. Development and validation of a clinical risk score to predict the occurrence of critical illness in hospitalized patients with COVID-19. , 1081–1089 (2020). JAMA Intern. Med. 180 Wynants, L. et al. Prediction models for diagnosis and prognosis of covid-19 infection: systematic review and critical appraisal. , m1328 (2020). Brit. Med. J. 369 Zhang, L. et al. D-dimer levels on admission to predict in-hospital mortality in patients with Covid-19. , 1324–1329 (2020). J. Thromb. Haemost. 18 Sands, K. E. et al. Patient characteristics and admitting vital signs associated with coronavirus disease 2019 (COVID-19)-related mortality among patients admitted with noncritical illness. (2020). https://doi.org/10.1017/ice.2020.461 American College of Radiology. CR recommendations for the use of chest radiography and computed tomography (CT) for suspected COVID-19 infection. (2020). https://www.acr.org/Advocacy-and-Economics/ACR-Position-Statements/Recommendations-for-Chest-Radiography-and-CT-for-Suspected-COVID19-Infection Rubin, G. D. et al. The role of chest imaging in patient management during the COVID-19 pandemic: a multinational consensus statement from the Fleischner Society. , 172–180 (2020). Radiology 296 World Health Organization. Use of chest imaging in COVID-19. (2020). https://www.who.int/publications/i/item/use-of-chest-imaging-in-covid-19 Jamil, S. et al. Diagnosis and management of COVID-19 disease. , 10 (2020). Am. J. Respir. Crit. Care Med. 201 Redmond, C. E., Nicolaou, S., Berger, F. H., Sheikh, A. M. & Patlas, M. N. Emergency radiology during the COVID-19 pandemic: The Canadian Association of Radiologists Recommendations for Practice. , 425–430 (2020). Can. Assoc. Radiologists J. 71 Buch, V. et al. Development and validation of a deep learning model for prediction of severe outcomes in suspected COVID-19 Infection. Preprint at (2021). https://arxiv.org/abs/2103.11269 Lyons, C. & Callaghan, M. The use of high-flow nasal oxygen in COVID-19. , 843–847 (2020). Anaesthesia 75 Whittle, J. S., Pavlov, I., Sacchetti, A. D., Atwood, C. & Rosenberg, M. S. Respiratory support for adult patients with COVID-19. , 95–101 (2020). J. Am. Coll. Emerg. Physicians Open 1 Ai, J., Li, Y., Zhou, X. & Zhang, W. COVID-19: treating and managing severe cases. , 370–371 (2020). Cell Res. 30 Esteva, A. et al. A guide to deep learning in healthcare. , 24–29 (2019). Nat. Med. 25 Cahan, E. M., Hernandez-Boussard, T., Thadaney-Israni, S. & Rubin, D. L. Putting the data before the algorithm in big data addressing personalized healthcare. , 78 (2019). NPJ Digit. Med. 2 Thrall, J. H. et al. Artificial intelligence and machine learning in radiology: opportunities, challenges, pitfalls, and criteria for success. , 504–508 (2018). J. Am. Coll. Radiol. 15 Shilo, S., Rossman, H. & Segal, E. Axes of a revolution: challenges and promises of big data in healthcare. , 29–38 (2020). Nat. Med. 26 Gao, Y. & Cui, Y. Deep transfer learning for reducing health care disparities arising from biomedical data inequality. , 5131 (2020). Nat. Commun. 11 Rieke, N. et al. The future of digital health with federated learning. , 119 (2020). NPJ Dig. Med. 3 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. 10 Ma, C. et al. On safeguarding privacy and security in the framework of federated learning. , 242–248 (2020). IEEE Netw. 34 Brisimi, T. S. et al. Federated learning of predictive models from federated Electronic Health Records. , 59–67 (2018). Int. J. Med. Inform. 112 Roth, H. R. et al. Federated learning for breast density classification: a real-world implementation. In , (eds. Albarqouni, S. et al.) Vol. 12,444, 181–191 (Springer International Publishing, 2020). Proc. Second MICCAI Workshop, DART 2020 and First MICCAI Workshop, DCL 2020 Domain Adaptation and Representation Transfer, and Distributed and Collaborative Learning Sheller, M. J. et al. Federated learning in medicine: facilitating multi-institutional collaborations without sharing patient data. , 12598 (2020). Sci. Rep. 10 Remedios, S. W., Butman, J. A., Landman, B. A. & Pham, D. L. in (eds Remedios, S. W. et al.) (Springer, 2020). Federated Gradient Averaging for Multi-Site Training with Momentum-Based Optimizers Xu, Y. et al. A collaborative online AI engine for CT-based COVID-19 diagnosis. Preprint at (2020). https://www.medrxiv.org/content/10.1101/2020.05.10.20096073v2 Raisaro, J. L. et al. SCOR: A secure international informatics infrastructure to investigate COVID-19. , 1721–1726 (2020). J. Am. Med. Inform. Assoc. 27 Vaid, A. et al. Federated learning of electronic health records to improve mortality prediction in hospitalized patients with COVID-19: machine learning approach. , e24207 (2021). JMIR Med. Inform. 9 Nino, G. et al. Pediatric lung imaging features of COVID-19: a systematic review and meta-analysis. , 252–263 (2021). Pediatr. Pulmonol. 56 Fredrikson, M., Jha, S. & Ristenpart, T. Model inversion attacks that exploit confidence information and basic countermeasures. In 1322–1333, (2015). Proc. 22nd ACM SIGSAC Conference on Computer and Communications Security https://doi.org/10.1145/2810103.2813677 Zhu, L., Liu, Z. & Han, S. in (eds Wallach, H. et al.) 14774–14784 (Curran Associates, Inc., 2019). Advances in Neural Information Processing Systems 32 Kaissis, G. A., Makowski, M. R., Rückert, D. & Braren, R. F. Secure, privacy-preserving and federated machine learning in medical imaging. , 305–311 (2020). Nat. Mach. Intell. 2 Li, W. et al. in 133–141 (Springer, 2019). Privacy-Preserving Federated Brain Tumour Segmentation Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In (2015). Proc. 53rd Annual Allerton Conference on Communication, Control, and Computing (Allerton) https://doi.org/10.1109/allerton.2015.7447103 Li, X. et al. Multi-site fMRI analysis using privacy-preserving federated learning and domain adaptation: ABIDE results. , 101765 (2020). Med. Image Anal. 65 Estiri, H. et al. Predicting COVID-19 mortality with electronic medical records. , 15 (2021). NPJ Dig. Med. 4 Jiang, G. et al. Harmonization of detailed clinical models with clinical study data standards. , 65–74 (2015). Methods Inf. Med. 54 Yang, D. et al. in . (2019). Searching Learning Strategy with Reinforcement Learning for 3D Medical Image Segmentation https://doi.org/10.1007/978-3-030-32245-8_1 Elsken, T., Metzen, J. H. & Hutter, F. Neural architecture search: a survey. , 1–21 (2019). J. Mach. Learning Res. 20 Yao, Q. et al. Taking human out of learning applications: a survey on automated machine learning. Preprint at (2019). https://arxiv.org/abs/1810.13306 Ioffe, S. & Szegedy, C. Batch normalization: accelerating deep network training by reducing internal covariate shift. In , PMLR , 448–456 (2015). Proc. 32nd International Conf. Machine Learning 37 Kaufman, S., Rosset, S. & Perlich, C. Leakage in data mining: formulation, detection, and avoidance. In , 556–563 (2011). Proc. 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Zhang, C. et al. BatchCrypt: efficient homomorphic encryption for cross-silo federated learning. In , 493–506 (2020). Proc. 2020 USENIX Annual Technical Conference, ATC 2020 . (2020). Nvidia NGC Catalog: COVID-19 Related Models https://ngc.nvidia.com/catalog/models?orderBy=scoreDESC&pageNumber=0&query=covid&quickFilter=models&filters Marini, J. J. & Gattinoni, L. Management of COVID-19 respiratory distress. , 2329–2330 (2020). JAMA 323 Cook, T. M. et al. Consensus guidelines for managing the airway in patients with COVID-19: Guidelines from the Difficult Airway Society, the Association of Anaesthetists the Intensive Care Society, the Faculty of Intensive Care Medicine and the Royal College of Anaesthetist. , 785–799 (2020). Anaesthesia 75 Galloway, J. B. et al. A clinical risk score to identify patients with COVID-19 at high risk of critical care admission or death: an observational cohort study. , 282–288 (2020). J. Infect. 81 Kilaru, A. S. et al. Return hospital admissions among 1419 COVID-19 patients discharged from five U.S. emergency departments. , 1039–1042 (2020). Acad. Emerg. Med. 27 He, K., Zhang, X., Ren, S. & Sun, J. Deep residual learning for image recognition. In (2016). Proc. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) https://doi.org/10.1109/cvpr.2016.90 Irvin, J. et al. CheXpert: a large chest radiograph dataset with uncertainty labels and expert comparison. , 590–597 (2019). Proc. AAAI Conf. Artif. Intell. 33 Wang, R., Fu, B., Fu, G. & Wang, M. Deep & Cross network for Ad Click predictions. In Article no. 12 (2017). Proc. ADKDD’17 Abadi, M. et al. TensorFlow: asystem for large-scale machine learning. In , USENIX Association 265–283 (2016). 12th USENIX Symposium on Operating Systems Design and Implementation (OSDI 16) . (2020). NVIDIA Clara Imaging https://developer.nvidia.com/clara-medical-imaging Stekhoven, D. J. & Bühlmann, P. MissForest–non-parametric missing value imputation for mixed-type data. , 112–118 (2012). Bioinformatics 28 McMahan, H., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. (2017). http://proceedings.mlr.press/v54/mcmahan17a.html Hsieh, K., Phanishayee, A., Mutlu, O. & Gibbons, P. B. The non-IID data quagmire of decentralized machine learning. In PMLR 119 (2020). Proc. 37th International Conf. Machine Learning Robin, X. et al. pROC: an open-source package for R and S+ to analyze and compare ROC curves. , 77 (2011). BMC Bioinformatics 12 erkennings Die standpunte wat in hierdie studie uitgedruk word, is die van die skrywers en nie noodwendig die van die NHS, die NIHR, die Departement van Gesondheids- en Sosiale Sorg of enige van die organisasies wat met die skrywers verband hou. MGB bedank die volgende individue vir hul ondersteuning: J. Brink, Departement van Radiologie, Massachusetts Algemene Hospitaal, Harvard Mediese Skool, Boston, MA; M. Kalra, Departement van Radiologie, Massachusetts Algemene Hospitaal, Harvard Mediese Skool, Boston, MA; N. Neumark, Sentrum vir Kliniese Data Wetenskap, Massachusetts Algemene Brigham, Boston, MA; T. Schultz, Departement van Radiologie, Massachusetts Algemene Hospitaal, Boston, MA; N. Guo, Sentrum vir Geavanceerde deur die Fakulté van Geneeskunde, Chulalongkorn Universiteit bedank die Ratchadapisek Sompoch Endowment Fund RA (PO) (no. 001/63) vir die versameling en bestuur van COVID-19-verwante kliniese data en biologiese monsters vir die Navorsing Task Force, Fakulté van Geneeskunde, Chulalongkorn Universiteit. NIHR Cambridge Biomedical Research Centre bedank A. Priest, wat deur die NIHR (Cambridge Biomedical Research Centre by Cambridge University Hospitals NHS Foundation Trust) ondersteun word. Nasionale Taiwan Universiteit MeDA Lab en die MAHC en Taiwan Nasionale Gesondheidsversekering Administratie bedank die MOST Joint Research Center for AI technology, die All Vista Gesondheidsversekering Nasionale Administratie, Taiwan, die Ministerie https://data.ucsf.edu/covid19 Hierdie artikel is beskikbaar in die natuur onder CC by 4.0 Deed (Attribution 4.0 International) lisensie. Hierdie artikel is beskikbaar in die natuur onder CC by 4.0 Deed (Attribution 4.0 International) lisensie.