A New Privacy-First AI Predicts COVID Severity Using X-ray at Medical Records

ang mga author: Ittai Dayan Holger R. Roth Aoxiao Zhong Ahmed Harouni Amilcare ang mga gentiles Anas Z. Abidin Andrew Liu Anthony Beardsworth Costa Bradford J. Wood Chien-Sung Tsai Chih-Hung Wang Chun-Nan Hsu C. K. Lee Peiying Ruan Daguang Xu Dufan Wu ang si Eddie Huang Felipe Campos Kitamura Griffin Lacey Gustavo César de Antônio Corradi Gustavo Nino Hao-Hsin Shin Hirofumi Obinata Hui Ren Jason C. Crane Jesse Tetreault Jiahui Guan Mga pahinang tumuturo sa John W. Garrett Joshua D. Kaggie Tungkol sa Jung Gil Park Keith Dreyer Krishna Juluru Si Kristo ang Marcio Aloisio Bezerra Cavalcanti Rockenbach Marius George Linguraru Masoom A. Haider Meena AbdelMaseeh Nicola Rieke Pablo F. Damasceno Pedro Mario Cruz e Silva Pochuan Wang Sheng Xu Shuichi Kawano Sira Sriswasdi Soo Young Park Thomas M. Grist Varun Buch Watsamon Jantarabenjakul Weichung Wang Won Young Tak Xiang Li Xihong Lin Young Joon Kwon Abood Quraini Andrew Feng Andrew N. Priest Baris Turkbey Benjamin Glicksberg Bernardo Bizzo Byung Seok Kim Carlos Tor-Díez Chia-Cheng Lee Chia-Jung Hsu Chin Lin Chiu-Ling Lai Christopher P. Hess Colin Compas Deepeksha Bhatia Eric K. Oermann Evan Leibovitz Hisashi Sasaki Hitoshi Mori Isaac Yang Jae Ho Sohn Krishna Nand Keshava Murthy Li-Chen Fu Matheus Ribeiro Furtado de Mendonça Mike Fralick Min Kyu Kang Mohammad Adil Natalie Gangai Peerapon Vateekul Pierre Elnajjar Sarah Hickman Sharmila Majumdar Shelley L. McLeod Sheridan Reed Stefan Gräf Stephanie Harmon Tatsuya Kodama Thanyawee Puthanakit Tony Mazzulli Vitor Lima de Lavor Yothin Rakvongthai Yu Rim Lee Yuhong Wen Fiona J. Gilbert Mona G. Flores Quanzheng Li ang mga author: Ikaw ang Dayan Mga pahinang tumuturo sa Holger R. Roth ang napili ng mga taga Mga pahinang tumuturo Amilcare ang mga gentiles Si Anas Z. Abidin ang si Andrew Liu ang napili ng mga taga-hanga: Anthony Beardsworth Costa Mga pahinang tumuturo sa Bradford J. Wood Mga pahinang tumuturo ang napili ng mga taga-hanga Pumili ng mga tao Mga pahinang tumuturo Paglalarawan ng Ruan Mga pahinang Dufan Wu ang si Eddie Huang Mga pahinang tumuturo sa pamamagitan ng Griffin Lacey ang napili ng mga taga-hanga: Gustavo César de Antonio Corradi Sobrang ni Nino ang napili ng mga taga ang napili ng mga taga-hanga Ikaw ang Ren Mga pahinang tumuturo sa Jason C. Crane Mga pahinang tumuturo Mga pahinang tumuturo Mga pahinang tumuturo sa John W. Garrett ang napili ng mga taga-hanga: Joshua D. Kaggie Tungkol sa Jung Gil Park Mga pahinang tumuturo Krishna Juluru sa pamamagitan ng Si Kristo ang ang napili ng mga taga-hanga: Marcio Aloisio Bezerra Cavalcanti Si Marius George Linguraru Mga pahinang tumuturo A. Haider Ipinanganak si AbdelMaseeh si Nicole Rieke Si Pablo F. Damasceno ang napili ng mga taga-hanga: Pedro Mario Cruz e Silva Mga pahinang Wang Sino ang Mga pahinang tumuturo Sira Sriswasdi Tungkol sa Young Park Si Thomas M. Grist ang Mga pahinang Mga pahinang tumuturo Mga pahinang Wang Ipinanganak ang Young Tak Si Xiang Li Mga pahinang tumuturo ang napili ng mga taga-hanga: Young Joon Kwon Mga pahinang tumuturo Si Andrew Feng ang Mga pahinang tumuturo sa Andrew N. Priest Mga pahinang tumuturo sa pamamagitan ng Benjamin Glicksberg Si Bernardo Bizzo ang Nakita ko si Kim. Mga pahinang tumuturo Mga pahinang tumuturo Mga pahinang tumuturo ang linya Mga pahinang tumuturo Mga pahinang tumuturo sa Christopher P. Hess Mga kompas Mga pahinang tumuturo ang napili ng mga taga-hanga: Eric Oermann sa pamamagitan ng Evan Leibovitz Mga pahinang tumuturo Mga pahinang tumuturo Isaac ang ang anak ko ang napili ng mga taga-hanga: Krishna Keshava Murthy ang napili ng mga taga-hanga Matheus Ribeiro Furtado de Mendonça Si Mike Fralick ang Mga pahinang tumuturo Mahal na Adil Natalie Gangai Mga pahinang tumuturo Si Pierre Elnajjar sa pamamagitan ng Sarah Hickman Sharmila Majumdar ang napili ng mga taga-hanga: Shelley L. McLeod Si Sheridan Reed ang Stefan Gräf Mga pahinang tumuturo Tatsuya Kodama Mga pahinang tumuturo Si Tony Mazzulli ang Mga pahinang tumuturo sa Lima Mga pahinang tumuturo Mga pahinang tumuturo Mga pahina ng Wen Mga pahinang tumuturo sa Fiona J. Gilbert Mga pahinang tumuturo sa Mona G. Flores Mga pahinang ito abstrak ang Ang federated learning setting (FL) ay isang paraan na ginagamit para sa pagsasanay ng mga modelo ng artificial intelligence na may data mula sa ilang mga source habang nagbibigay ang anonimidad ng data, sa gayon ay binubuo ng maraming mga barya sa pag-share ng data. Iyon ay ginagamit namin ang data mula sa 20 institutos sa buong mundo upang i-train ang isang modelo ng FL, na tinatawag na EXAM (electronic medical record (EMR) chest X-ray AI model), na inihayag ang mga future oxygen requirements ng mga sintomas na pasyente na may COVID-19 gamit ang mga input ng mga katangian, laboratory data at chest X-rays. EXAM nakuha ang isang average na lugar sa ilalim ng curve (AUC) >0.92 para sa paghahatid ng mga resulta sa 24 at 72 oras mula ang main Ang mga komunidad ng pananaliksik, akademiko, medikal at data science ay nakipagtulungan sa buhay ng COVID-19 pandemic crisis upang mabilis na i-evaluate ang mga bagong paradigma sa artificial intelligence (AI) na mabilis at mahigpit, at posibleng i-incentivize ang pag-share ng data at model training at pag-testing nang walang ang karaniwang privacy at data ownership barrier ng conventional collaborations. , . Healthcare providers, researchers and industry have pivoted their focus to address unmet and critical clinical needs created by the crisis, with remarkable results , , , , , , . Clinical trial recruitment has been expedited and facilitated by national regulatory bodies and an international cooperative spirit , , Ang mga disiplina ng data analytics at AI ay patuloy na nagbibigay-daan ng open at collaborative approaches, na sumali ng mga konsepto tulad ng open-source software, reproductible research, data repositories at magagamit ng anonim na datasets para sa publiko. , Ang pandemic ay nag-aalok ng pangangailangan ng mabilis na pagganap ng data collaborations na magbigay ng kapangyarihan sa mga klinikal at siyentipiko na komunidad kapag tumugon sa mga mabilis na-evolve at karaniwang global challenges. Data sharing ay may mga etikal, regulatory at legal na kompleksidad na ay subalit, at maaaring medyo malamang, sa pamamagitan ng nakalipas na pagdating ng malaking teknolohiya ng mga kumpanya sa mundo ng healthcare data. , , . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Ang isang konkretong halimbawa ng mga uri ng kolaborasyon na ito ay ang aming kamakailanang trabaho sa isang AI-based SARS-COV-2 clinical decision support (CDS) model. Ang CDS model na ito ay binuo sa Mass General Brigham (MGB) at ay validated sa pagitan ng mga data ng ilang mga sistema ng kalusugan. Ang mga input sa CDS modelo ay mga imahe ng chest X-ray (CXR), mga tanda ng buhay, mga data ng demographics at mga halaga ng laboratory na ipinapakita sa mga nakaraang mga publikasyon na predictive ng mga resulta ng mga pasyente na may COVID-19 , , , Ang CXR ay pinili bilang input ng imahe dahil ito ay karaniwang magagamit at karaniwang inihayag ng mga guidelines tulad ng mga na ibinigay ng ACR sa pamamagitan ng Fleischner Society Dahil sa WHO Mga Toracic Societies , National Ministry of Health COVID manual at radiology societies sa buong mundo Ang output ng modelo ng CDS ay isang score, na tinatawag na CORISK , na katumbas sa mga kinakailangan ng suporta ng oxygen at na maaaring makatulong sa pag-trialing ng mga pasyente sa pamamagitan ng frontline clinicians , , Ang mga nag-aalok ng kalusugan ay kilala na mas gusto ng mga modelo na ay validated sa kanilang sarili na data Sa katunayan, ang karamihan ng mga modelo ng AI, kabilang ang ibig sabihin na CDS modelo, ay nag-trained at na-validated sa mga ‘short’ data na karaniwang walang diversity. , Ang mga ito ay posible na magiging sanhi ng overfitting at mas mababang generalizability. Ito ay maaaring mababago sa pamamagitan ng pag-training sa iba't-ibang data mula sa maraming mga site nang walang centralization ng data Paggamit ng mga paraan tulad ng transfer learning , o FL. FL ay isang pamamaraan na ginagamit upang i-train ang mga modelo ng AI sa iba't ibang mga source ng data, nang hindi ang data ay naka-transport o i-expose sa labas ng kanilang orihinal na lokasyon. Nang may application sa maraming industriya, FL ay kamakailan ay inihayag para sa cross-institutional healthcare research . 18 19 20 21 22 23 24 25 26 27 28 29 30 27 31 32 33 34 35 36 Federated learning ay sumusuporta sa mabilis na pag-unlad ng centrally orchestrated mga eksperimento na may mas mahusay na traceability ng data at pag-evaluation ng algorithmic mga pagbabago at epekto Ang isang paraan para sa FL, na tinatawag na client-server, ay nagpadala ng isang "untrained" modelo sa iba pang mga server ("nodes") na binuo ng partial training tasks, sa gayon ay nagpadala ang mga resulta upang i-fusion sa central ("federated") server. . 37 36 Ang pag-uugali ng data para sa FL ay itinatag sa lokal na lugar, pag-aalis ng mga pangangailangan ng privacy, na may lamang mga modelo na timbang o gradients na ibinigay sa pagitan ng mga client sites at ang federated server , Ang FL ay nangangahulugan sa mga nakaraang mga application ng medical imaging. , , , Ang pag-aaral ng COVID-19 , , Ang isang mahusay na halimbawa ay isang modelo ng prediction ng mortality sa mga pasyente na nakakaalam sa SARS-COV-2 na gumagamit ng mga clinical characteristics, kahit na limitado sa bilang ng mga modalities at scale. . 38 39 40 41 42 43 8 44 45 46 Ang aming target ay upang bumuo ng isang malakas, generalizable model na maaaring makatulong sa trialing mga pasyente. Nagsasalita namin na ang modelo ng CDS ay maaaring mag-federate nangangahulugang ang paggamit ng data input na may karaniwang karaniwang karaniwang karaniwang sa clinical practice at na hindi nangangahulugang tumutulong sa operator-dependent assessments ng sakit (tulad ng clinical impressions o report symptoms). Sa halip, mga resulta ng laboratory, mga katangian ng buhay, isang pag-imaging pag-aaral at isang karaniwang na-capture demographic (si, edad), ay ginagamit. Dahil dito, inilunsad namin ang CDS model na may iba't ibang mga data gamit ang isang client-server FL approach upang bumuo ng isang bagong global FL model, na tinatawag Ang aming hipotesis ay na ang EXAM ay magkaroon ng mas mahusay na pagganap kaysa sa lokal na mga modelo at ay mas mahusay na generalize sa lahat ng mga sistema ng kalusugan. mga resulta ang exam model architecture Ang modelo ng EXAM ay batay sa modelo ng CDS na ibinigay sa itaas Sa kabuuan, 20 mga tampok (19 mula sa EMR at isa sa CXR) ay ginagamit bilang input sa modelo. Ang mga resulta (ya ay, ‘ground truth’) label ay ibinibigay batay sa mga pasyente ng oxygen therapy pagkatapos ng 24 at 72 oras na mga panahon mula sa unang admissions sa emergency department (ED). Ang isang detalyadong listahan ng mga kinakailangan na tampok at mga resulta ay maaaring makita sa Table . 27 1 Ang mga kategorya ng oxygen therapy ay, respectively, room air (RA), low-flow oxygen (LFO), high-flow oxygen (HFO)/noninvasive ventilation (NIV) o mechanical ventilation (MV). Kung ang pasyente ay namatay sa ilalim ng prediction window, ang outcome label ay naka-set sa 1. Para sa mga tampok ng EMR, ginamit lamang ang unang mga halaga na naka-capture sa ED at ang data preprocessing ay naglalaman ng deidentification, missing value imputation at normalization sa zero-mean at unit variance. Para sa mga imahe ng CXR, ginagamit lamang ang unang na nakuha sa ED. Ang modelo ay sumali ng impormasyon mula sa parehong EMR at CXR mga tampok, gamit ang isang 34-layer convolutional neural network (ResNet34) upang i-extract ang mga tampok mula sa isang CXR at isang Deep & Cross network upang i-concatenate ang mga tampok kasama ang mga tampok ng EMR (para sa karagdagang detalye, tingnan ang Ang output ng modelo ay isang risk score, na tinatawag na ang EXAM score, na kung saan ay isang continuous na halaga sa antas ng 0-1 para sa bawat isa sa 24 at 72 oras na prediction na katumbas sa mga label na narinig sa itaas. Mga Method Federasyon ng modelo The EXAM model was trained using a cohort of 16,148 cases, making it not only among the first FL models for COVID-19 but also a very large and multicontinent development project in clinically relevant AI (Fig. Ang data sa pagitan ng mga site ay hindi harmonized bago ang pag-extraction at, dahil sa real-life clinical informatics circumstances, isang meticulous harmonization ng data input ay hindi ginawa ng mga awtor (Fig. ang mga ito) 1A at B 1c at d , World map na nagpapakita ng mga 20 iba't ibang mga client sites na sumusunod sa EXAM study. , Ang bilang ng mga kaso na ibinibigay ng bawat institusyon o site (client 1 ay nagpapakita ng site na ibinibigay ng pinakamalaking bilang ng mga kaso). , Chest X-ray intensity distribution sa bawat client site. , Ang edad ng mga pasyente sa bawat client site, na nagpapakita ng minimum at maximum na edad (asterisks), average na edad (triangles) at standard deviation (horizontal bars). Ang bilang ng sample ng bawat client site ay nagpapakita sa Supplementary Table . a b c d 1 Ipinapakita namin ang mga modelo ng lokal na-trained sa global FL model sa data test ng bawat kliyente. Pag-training ang modelo sa pamamagitan ng FL ay nagdadala ng isang malaking pagbutihin sa pagganap ( « 1 × 10–3, Wilcoxon signed-ranking test) ng 16% (na defined sa average AUC kapag gumagana ang modelo sa respective local test sets: mula sa 0.795 hanggang 0.920, o 12.5 percentage points) (Fig. Ito rin ay nagdadala sa 38% generalizability pagbuo (na defined sa average AUC kapag gumagana ang modelo sa lahat ng mga test sets: mula sa 0.667 sa 0.920, o 25.3 percentage points) ng pinakamahusay na global na modelo para sa pag-aralan ng 24-hour oxygen treatment compared sa mga modelo na nagtrabaho lamang sa mga data ng isang site (Fig. Para sa mga resulta ng prediction ng 72-hour oxygen treatment, ang pinakamahusay na global model training ay nangangahulugan sa isang average na pagbutihin sa pagganap ng 18% sa pagitan ng lokal na-trained na mga modelo, habang ang generalizability ng global na modelo ay naabutin sa isang average ng 34% (Extended Data Fig. Ang stability ng aming mga resulta ay na-validate sa pamamagitan ng pag-repeating ng tatlong mga run ng local at FL training sa iba't ibang randomized data splits. P 2a ang 2b ang 1 , Performance sa bawat client's test set sa prediction ng 24-hour oxygen treatment para sa mga modelo na nagtrabaho sa mga lokal na data lamang (Local) laban sa ang pinakamahusay na global na modelo na magagamit sa server (fl. best). , Generalizability (mga average na pagganap sa mga data test ng iba pang mga site, na ibinigay sa average na AUC) bilang isang function ng size ng dataset ng isang client (no. ng mga kaso). Ang green horizontal line ay nagpapakita ng generalizability na pagganap ng pinakamahusay na global na modelo. Ang pagganap para sa 18 ng 20 client ay inilarawan, dahil ang client 12 ay may mga resulta lamang para sa 72-hour oxygen (Extended Data Fig. ) at ang kliyente 14 ay may mga kaso lamang na may RA treatment, kaya ang metric ng pag-evaluation (sa pamamagitan ng AUC) ay hindi gumagamit sa anumang mga kaso ( Ang data para sa client 14 ay din na-excluded mula sa calculation ng average generalizability sa local models. a b 1 Mga Method Ang mga lokal na mga modelo na nagtrabaho gamit ang mga unbalanced cohorts (mga halimbawa, karamihan ng mild na mga kaso ng COVID-19) ay nangangahulugan na may kapaki-pakinabang mula sa FL approach, na may isang pangunahing pagbutihin sa prediction average AUC performance para sa mga kategorya na may lamang ilang mga kaso. Ito ay nakikita sa client site 16 (ang isang unbalanced dataset), na may karamihan ng mga pasyente na nagkakaroon ng mild na sakit pangkaraniwang at sa lamang ng ilang mga malubhang mga kaso. Ang FL model ay nakuha ng isang mas mataas na true-positive rate para sa dalawang positibong (malubhang) mga kaso at isang mas mababang false-positive rate kaysa sa lokal na modelo, ang parehong na nakikita sa receiver operating At ang extended data Fig. Higit pa, ang generalizability ng modelo ng FL ay mas mataas nang mas mataas kaysa sa locally trained model. 3a 2 , ROC at client site 16, with unbalanced data and mostly mild cases. , ROC of the local model at client site 12 (a small dataset), mean ROC of models trained on larger datasets corresponding to the five client sites in the Boston area (1, 4, 5, 6, 8) and ROC of the best global model in prediction of 72-h oxygen treatment for different thresholds of EXAM score (left, middle, right). The mean ROC is calculated based on five locally trained models while the gray area denotes the ROC standard deviation. ROCs for three different cutoff values ( ) of the EXAM risk score are shown. Pos and neg denote the number of positive and negative cases, respectively, as defined by this range of EXAM score. a b t Sa kaso ng mga site ng client na may relatibong maliit na datasets, ang pinakamahusay na modelo ng FL ay nangangahulugang mas mataas na hindi lamang ang lokal na modelo ngunit din ang mga na-trained sa mas mataas na datasets mula sa limang site ng client sa Boston area ng USA (Fig. ). 3b ang The global model performed well in predicting oxygen needs at 24/72 h in patients both COVID positive and negative (Extended Data Fig. ). 3 Validation sa mga independiyenteng site Pagkatapos ng unang pagsasanay, ang EXAM ay subsequently na-tested sa tatlong independent validation sites: Cooley Dickinson Hospital (CDH), Martha's Vineyard Hospital (MVH) at Nantucket Cottage Hospital (NCH), lahat sa Massachusetts, USA. Ang modelo ay hindi re-trained sa mga site na ito at ito ay ginagamit lamang para sa mga propesyonal na pag-validation. , at ang mga ROC curves at confusion matrices para sa pinakamalaking dataset ( mula sa CDH) ay ipinapakita sa Fig. Ang operating point ay itinatag upang i-differentiate sa pagitan ng nonmechanical ventilation at mechanical ventilation (MV) treatment (or death). Ang FL global trained model, EXAM, ay nakuha ng isang average AUC ng 0.944 at 0.924 para sa 24- at 72-h prediction tasks, respectively (Tabula ), which exceeded the average performance among sites used in training EXAM. For prediction of MV treatment (or death) at 24 h, EXAM achieved a sensitivity of 0.950 and specificity of 0.882 at CDH, and a sensitivity of 1.000 specificity of 0.934 at MVH. NCH did not have any cases with MV/death at 24 h. In regard to 72-h MV prediction, EXAM achieved a sensitivity of 0.929 and specificity of 0.880 at CDH, sensitivity of 1.000 and specificity of 0.976 at MVH and sensitivity of 1.000 and specificity of 0.929 at NCH. 2 4 2 , , Performance (ROC) (top) and confusion matrices (bottom) of the EXAM FL model on the CDH dataset for prediction of oxygen requirement at 24 h ( ) and 72 h ( ). ROCs for three different cutoff values ( Ang mga resulta ng risk test ay inilarawan. a b a b t For MV at CDH at 72 h, EXAM had a low false-negative rate of 7.1%. Representative failure cases are presented in Extended Data Fig. , na nagpapakita ng dalawang false-negative kaso mula sa CDH kung saan ang isa ng kaso ay may maraming nangangailangan EMR data features at ang isa ay may isang CXR na may isang motion artefact at ilang nangangailangan EMR features. 4 Paggamit ng Differential Privacy Ang isang pangunahing motivasyon para sa mga institusyon ng kalusugan upang gamitin ang FL ay ang paghahatid ng seguridad at privacy ng kanilang mga data, pati na rin ang pag-iisip sa data compliance measures. Para sa FL, may potensyal na risk ng model 'inversion' or even the reconstruction of training images from the model gradients themselves Upang maiwasan ang mga risgo na ito, ginamit ang mga pamamaraan ng pagbuo ng seguridad upang i-minimize ang risk sa kaso ng data 'interception' sa panahon ng komunikasyon site-server Nag-eksperimento kami sa mga teknolohiya upang maiwasan ang pag-interception ng mga data ng FL, at idinagdag ng isang security feature na tinatanggap namin na maaaring i-incentivize ang higit pa ng mga institusyon upang gamitin ang FL. Iyon ay tinatanggap namin ang mga nakaraan na nagpapakita na ang partial weight sharing, at iba pang diferensial na teknolohiya ng privacy, ay maaaring ma-apply sa FL. . Through investigation of a partial weight-sharing scheme , , , natuklasan namin na ang mga modelo ay maaaring makakuha ng comparable performance kahit na lamang 25% ng mga update ng timbang ay ibahagi (Extended Data Fig. ). 47 48 49 50 50 51 52 5 Diskusiya Ang pananaliksik na ito ay naglalaman ng isang malaking, real-world healthcare FL study sa halaga ng bilang ng mga site at ang bilang ng mga data points na ginagamit. Kami ay naniniwala na ito ay nagbibigay ng isang malakas na proof-of-concept ng kakayahan ng paggamit ng FL para sa mabilis at collaborative pag-unlad ng kinakailangang mga modelo ng AI sa kalusugan. Ang aming pananaliksik ay naglalaman ng maraming mga site sa tatlong mga kontinente at sa ilalim ng pangangailangan ng iba't-ibang mga regulatory bodies, at kaya nagtatagumpay ang paghahatid ng paghahatid sa iba't-ibang mga regulated markets sa isang accelerated na paraan. Ang global FL model, EXAM, ay natagpuan na mas malakas at nakuha ng mas mahusay na mga resulta sa mga Para sa isang client site na may isang relatibong maliit na dataset, dalawang tipikal na paraan ay maaaring gamitin upang matugunan ang isang useful model: ang isa ay magtraining locally sa pamamagitan ng kanyang mga data, ang isa ay upang gamitin ang isang modelo na matugunan sa isang mas mataas na dataset. Para sa mga site na may maliit na dataset, ito ay karaniwang hindi maaaring lumikha ng isang malakas na modelo ng deep learning na gumagamit lamang ng kanilang mga lokal na data. Ang paghahanap, na ang dalawang ito ay mas mahusay sa lahat ng tatlong mga task prediction sa pamamagitan ng global FL model, ay nagpapakita na ang karaniwang karanasan para sa client sites na may maliit na datasets na lumikha mula sa pag-participate sa FL collaborations ay malaki. Ito ay maaaring maging isang pag-reflection ng FL's kakayahang mak . 46 Ang mga resulta ng pag-validasyon ay sumulat na ang global model ay matatagpuan, sumusuportahan ang aming hipotesis na ang FL-trained models ay generalizable sa buong mga sistema ng kalusugan. Ang mga ito ay nagbibigay ng isang mahigpit na kaso para sa paggamit ng predictive algorithms sa COVID-19 patient care, at paggamit ng FL sa model creation at testing. Sa pamamagitan ng pag-participation sa pananaliksik na ito ang mga site ng kliyente ay nakuha access sa EXAM, para sa karagdagang pag-validate bago ang paghahanap ng anumang regulatory approval o future introduction sa clinical care. , tulad ng sa iba't ibang mga site na hindi bahagi ng pagsasanay ng EXAM. 53 Over 200 prediction models to support decision-making in patients with COVID-19 have been published . Unlike the majority of publications focused on diagnosis of COVID-19 or prediction of mortality, we predicted oxygen requirements that have implications for patient management. We also used cases with unknown SARS-COV-2 status, and so the model could provide input to the physician ahead of receiving a result for PCR with reverse transcription (RT–PCR), making it useful for a real-life clinical setting. The model’s imaging input is used in common practice, in contrast with models that use chest computed tomography, a nonconsensual diagnostic modality. The model’s design was constrained to objective predictors, unlike many published studies that leveraged subjective clinical impressions. The data collected reflect varied incidence rates, and thus the ‘population momentum’ we encountered is more diverse. This implies that the algorithm can be useful in populations with different incidence rates. 19 Patient cohort identification at data harmonization ay hindi bagong mga problema sa pananaliksik at data science Ang mga pagbabago sa mga klinikal na sistema ng impormasyon ay kinakailangan upang i-raise ang paghahatid ng data, na nangangahulugan sa mas mahusay na pagbabago ng isang network ng mga site na gumagamit sa FL. Ang mga ito, kasama ang hyperparameter engineering, ay maaaring magbigay ng mga algorithm upang 'mahalaga' sa mas malaking batch ng data at i-adjust ang mga parameter ng modelo sa isang anumang site para sa karagdagang personalization - halimbawa, sa pamamagitan ng karagdagang pag-tuning sa site na ito. . A system that would allow seamless, close-to real-time model inference and results processing would also be of benefit and would ‘close the loop’ from training to model deployment. 54 39 Because data were not centralized they are not readily accessible. Given that, any future analysis of the results, beyond what was derived and collected, is limited. Similar to other machine learning models, EXAM is limited by the quality of the training data. Institutions interested in deploying this algorithm for clinical care need to understand potential biases in the training. For example, the labels used as ground truth in the training of the EXAM model were derived from 24- and 72-h oxygen consumption in the patient; it is assumed that oxygen delivered to the patient equates the oxygen need. However, in the early phase of the COVID-19 pandemic, many patients were provided high-flow oxygen prophylactically regardless of their oxygen need. Such clinical practice could skew the predictions made by this model. Since our data access was limited, we did not have sufficient available information for the generation of detailed statistics regarding failure causes, post hoc, at most sites. However, we did study failure cases from the largest independent test site, CDH, and were able to generate hypotheses that we can test in the future. For high-performing sites, it seems that most failure cases fall into one of two categories: (1) low quality of input data—for example, missing data or motion artifact in CXR; or (2) out-of-distribution data—for example a very young patient. In future, we also intend to investigate the potential for a ‘population drift’ due to different phases of disease progression. We believe that, owing to the diversity across the 20 sites, this risk may have been mitigated. Ang isa sa mga tampok na nagpapahintulot sa mga uri ng malalaking kolaborasyon ay ang pagkakataon upang predict ang kontribusyon ng bawat client site sa pagbutihin ang global FL model. Ito ay makakatulong sa client site selection, at sa pag-prioritize ng data acquisition at annotation efforts. Ang ikalawang ito ay lalo na mahalaga dahil sa mataas na gastos at napaka-logistics ng mga malalaking consortium na mga pagsasanay, at ito ay nagbibigay-daan sa mga pagsasanay na ito upang i-capture diversity hindi ang ganap na halaga ng sample ng data. Ang mga future approaches ay maaaring magbigay ng automated hyperparameter search , neural architecture search at iba pang automated machine learning approaches to find the optimal training parameters for each client site more efficiently. 55 56 57 Mga Problema sa Batch Normalization (BN) sa FL motivated kami upang i-fix ang aming pangunahing modelo para sa image feature extraction to reduce the divergence between unbalanced client sites. Future work might explore different types of normalization techniques to allow the training of AI models in FL more effectively when client data are nonindependent and identically distributed. 58 49 Recent works on privacy attacks within the FL setting have raised concerns on data leakage during model training Samakatuwid, ang mga algorithm ng proteksiyon ay hindi na-explored at na-limited sa pamamagitan ng maraming mga faktor. , , may magandang proteksiyon, ang mga ito ay maaaring mabawasan ang pagganap ng modelo. encryption algorithms, tulad ng homomorphic encryption , maintain performance but may substantially increase message size and training time. A quantifiable way to measure privacy would allow better choices for deciding the minimal privacy parameters necessary while maintaining clinically acceptable performance , , . 59 36 48 49 60 36 48 49 Pagkatapos ng karagdagang pag-validasyon, inihahanda namin ang pag-implementasyon ng modelo ng EXAM sa setting ng ED bilang isang paraan upang i-evaluate ang risk sa parehong per-patient at populasyon na antas, at upang magbigay sa mga clinicers ng isang karagdagang punto ng pag-reference sa pagganap ng ang karaniwang mahirap na trabaho ng pag-trialing ng mga pasyente. Kami din inihahanda na gamitin ang modelo bilang isang mas sensitibo population-level metric upang makatulong sa balanse ng mga resource sa pagitan ng mga rehiyon, ospital at department. Ang aming pananampalataya ay na ang parehong mga pag-implementasyon ng FL ay maaaring mabawasan ang data silos at magbigay ng mas mabilis na pag-unlad ng mahalagang mga modelo ng AI sa Mga Method Ang etiquette ay Ang lahat ng mga proseso na inilathala ng Institut Canyland Health ay inilathala sa ilalim ng mga pangunahing prinsipyo para sa pag-experimentasyon ng tao na tinatawag na sa Declaration of Helsinki at International Conference on Harmonization Good Clinical Practice Guidelines, at ay inilathala sa pamamagitan ng mga pangunahing institusyonal na review boards sa mga sumusunod na mga site ng pag-validation: CDH, MVH, NCH at sa mga sumusunod na mga site ng pagsasanay: MGB, Mass General Hospital (MGH), Brigham and Women's Hospital, Newton-Wellesley Hospital, North Shore San Public Medical Center at New Faulkner Hospital (ang lahat ng 8 na mga ito ay naka-approved sa ilalim ng MGB's ethics board reference, no. 2020P0026 MI-CLAIM guidelines for reporting of clinical AI models were followed (Supplementary Note ) 2 Pag-aaral ng setting The study included data from 20 institutions (Fig. ): MGB, MGH, Brigham at Women's Hospital, Newton-Wellesley Hospital, North Shore Medical Center at Faulkner Hospital; Children's National Hospital sa Washington, DC; NIHR Cambridge Biomedical Research Centre; The Self-Defense Forces Central Hospital sa Tokyo; National Taiwan University MeDA Lab at MAHC at Taiwan National Health Insurance Administration; Tri-Service General Hospital sa Taiwan; Kyungpook National University Hospital sa South Korea; Faculty of Medicine, Chulalongkorn University sa Thailand; Diagnosticos da America SA sa Brazil; University of California, San Francisco; VA San Diego; University of Toronto; National Institutes of Health sa Bethesda, Maryland; University of Wisconsin-Madison School of Medicine and Public Health; Memorial Sloan Kettering Cancer Center sa New York; at Mount Sinai Health , , Ang data mula sa tatlong independiyenteng mga site ay ginagamit para sa independiyenteng pag-validation: CDH, MVH at NCH, lahat sa Massachusetts, USA. Ang tatlong mga ospital na ito ay may mga katangian ng populasyon ng pasyente na iba sa mga site ng pag-aaral. Ang data na ginagamit para sa pag-validasyon ng algorithm ay binubuo ng mga pasyente na inilagay sa ED sa mga site na ito sa pagitan ng Marso 2020 at Pebrero 2021, at na sumusuporta sa parehong mga criteria ng pag-inklusion ng mga data na ginagamit upang i-train ang modelo ng FL. 1a ang 61 62 63 Data collection The 20 client sites prepared a total of 16,148 cases (both positive and negative) for the purposes of training, validation and testing of the model (Fig. Ang mga data ng medikal ay na-access sa pagitan ng mga pasyente na nakatuon sa mga criteria ng pagsasama sa pananaliksik. Ang mga site ng kliyente ay nagtatagumpay sa paghahatid ng lahat ng mga kaso na positibong sa COVID mula sa simula ng pandemic sa Disyembre 2019 at hanggang sa oras na nagsimula ng lokal na pagsasanay para sa EXAM na pananaliksik. Ang lahat ng lokal na pagsasanay ay nagsimula sa 30 Setyembre 2020. Ang mga site ay din naghahatid ng iba pang mga pasyente sa parehong panahon na may negatibong RT-PCR test results. Dahil ang karamihan ng mga site ay may higit sa SARS-COV-2-negatibong mga pasyente kaysa sa -positibong mga pasyente, limitasyon namin ang bilang ng 1b ang Ang isang ‘caso’ ay naglalaman ng isang CXR at ang mga kinakailangan na impormasyon ng data na inilapat mula sa sakit ng pasyente. Ang isang paghahatid ng size ng cohort ng dataset para sa bawat client site ay ipinapakita sa Fig. . The distribution and patterns of CXR image intensity (pixel values) varied greatly among sites owing to a multitude of patient- and site-specific factors, such as different device manufacturers and imaging protocols, as shown in Fig. . Patient age and EMR feature distribution varied greatly among sites, as expected owing to the differing demographics between globally distributed hospitals (Extended Data Fig. ). 1b ang 1c,d 6 Mga criteria ng integration ng mga pasyente Ang mga criteria para sa paghahatid ng mga pasyente ay: (1) ang pasyente ay inilabas sa ospital na ED o katumbas; (2) ang pasyente ay may isang RT-PCR test na ginawa sa anumang oras sa pagitan ng paghahatid sa ED at pag-aalala mula sa ospital; (3) ang pasyente ay may isang CXR sa ED; at (4) ang pasyente's record ay may hindi bababa sa limang ng mga halaga ng EMR na inilabas sa Table. Ang CXR, mga resulta ng laboratoryo at mga vital na ginagamit ay ang unang magagamit para sa pag-capture sa panahon ng pagbisita sa ED. Ang modelo ay hindi naglalaman ng anumang CXR, mga resulta ng laboratoryo o mga vital na nakuha pagkatapos ng pag-iisa sa ED. 1 Mga input Sa kabuuan, 21 mga tampok ng EMR ay ginagamit bilang input sa modelo. Ang mga resulta (i.e., ground truth) labels ay ibinigay batay sa mga kinakailangan ng pasyente pagkatapos ng 24- at 72-hour na mga panahon mula sa unang pagsusuri sa ED. Ang isang detalyadong listahan ng mga tampok ng EMR na kinakailangan at mga resulta ay maaaring makita sa Table . 1 Ang paghahatid ng oxygen treatment gamit ang iba't ibang mga aparato sa iba't ibang mga site ng client ay ipinapakita sa Extended Data Fig. , na detalyado ang paggamit ng device sa admission sa ED at pagkatapos ng 24- at 72-h periods. Ang pagkakaiba sa paghahatid ng dataset sa pagitan ng pinakamalaking at pinakamalaking client sites ay maaaring makita sa Extended Data Fig. . 7 8 Ang bilang ng mga positibong mga kaso ng COVID-19, na tinatanggap sa pamamagitan ng isang single RT-PCR test na ibinigay sa anumang oras sa pagitan ng paghahatid sa ED at pag-aalok mula sa ospital, ay itinatag sa Supplementary Table Ang bawat client site ay nangangailangan upang i-split ang kanyang dataset sa tatlong bahagi: 70% para sa training, 10% para sa validation at 20% para sa pagsubok. Para sa parehong 24- at 72-h outcome prediction models, random splits para sa bawat isa sa tatlong repetitive local at FL training at evaluation experiments ay itinatag na itinatag. 1 EXAM model development Ang klinikal na kurso ng mga pasyente na inilabas sa ospital na may mga sintomas ng COVID-19, ay may mga mamamayan na nagkaroon ng mabilis na pagbabago sa function ng respiratory na nangangailangan ng iba't ibang pag-interventions upang pag-aayos o mapagkukunan ng hypoxemia , . A critical decision made during the evaluation of a patient at the initial point of care, or in the ED, is whether the patient is likely to require more invasive or resource-limited countermeasures or interventions (such as MV or monoclonal antibodies), and should therefore receive a scarce but effective therapy, a therapy with a narrow risk–benefit ratio due to side effects or a higher level of care, such as admittance to the intensive care unit Sa katunayan, ang isang pasyente na may mas mababang resiko na kailangan ng invasive oxygen therapy ay maaaring ibinibigay sa isang mas mababang intensive care setting tulad ng isang regular ward, o kahit na ibinigay mula sa ED para sa pag-update ng self-monitoring sa bahay. . EXAM was developed to help triage such patients. 62 63 64 65 Of note, the model is not approved by any regulatory agency at this time and it should be used only for research purposes. Test para sa Score EXAM ay nagtrabaho gamit ang FL; ito ay nagpapakita ng isang risk score (ang tinatawag na EXAM score) tulad ng CORISK (Extended Data Fig. Ito ay katumbas sa mga kinakailangan ng suporta ng oxygen ng isang pasyente sa loob ng dalawang window - 24 at 72 h - pagkatapos ng unang paghahatid sa ED. Extended Data Fig. ilustrado kung paano ang CORISK at ang EXAM score ay maaaring gamitin para sa pag-trial ng pasyente. 27 9a 9b ang Ang mga imahe ng chest X-ray ay preprocessed upang piliin ang front position image at i-exclude ang lateral view images, at pagkatapos na-scale sa isang resolusyon ng 224 × 224. , ang modelo ay binubuo ng impormasyon mula sa parehong EMR at CXR mga tampok (base sa isang modified ResNet34 na may spatial attention Pre-trained sa CheXpert dataset) Sa loob ng Deep & Cross Network Upang i-converge ang mga iba't-ibang uri ng data, isang 512-dimensional na feature vector ay inilathala mula sa bawat CXR imahe gamit ang isang pre-trained ResNet34, na may spatial attention, pagkatapos ay konkatenado sa mga EMR features bilang input para sa Deep & Cross network. Ang katapusan na output ay isang continuous na halaga sa range 0-1 para sa parehong 24- at 72-h predictions, na katumbas sa mga label na narinig sa itaas, tulad ng ipinapakita sa Extended Data Fig. . We used cross-entropy as the loss function and ‘Adam’ as the optimizer. The model was implemented in Tensorflow I-install ang NVIDIA Clara Train SDK Ang average na AUC para sa mga trabaho ng klasisasyon (≥LFO, ≥HFO/NIV o ≥MV) ay inilagay at ginagamit bilang final evaluation metric, na may normalization sa zero-mean at unit variance. Ang mga imahe ng CXR ay preprocessed upang piliin ang parehong serye at i-exclude ang mga imahe ng lateral view, pagkatapos ay na-scale sa isang resolusyon ng 224 × 224 (ref. ang mga ito) 9a 66 67 68 9b ang 69 70 27 Feature imputation and normalization Ang isang misforest algorithm Ito ay ginagamit upang i-impute ang mga tampok ng EMR, batay sa local training dataset. Kung ang isang tampok ng EMR ay ganap na nangangailangan mula sa isang dataset ng client site, ang average na halaga ng mga tampok na ito, na ibinigay eksklusibong sa data mula sa MGB client sites, ay ginagamit. Pagkatapos, ang tampok ng EMR ay re-scale sa zero-mean at unit variance batay sa mga statistikal na ibinigay sa data mula sa MGB client sites. 71 Mga detalye ng EMR-CXR data fusion gamit ang Deep & Cross network Upang model ang mga interaksiyon ng mga tampok mula sa data ng EMR at CXR sa antas ng kaso, isang deep-feature scheme ay ginagamit batay sa isang Deep & Cross network architecture . Binary and categorical features for the EMR inputs, as well as 512-dimensional image features in the CXR, were transformed into fused dense vectors of real values by embedding and stacking layers. The transformed dense vectors served as input to the fusion framework, which specifically employed a crossing network to enforce fusion among input from different sources. The crossing network performed explicit feature crossing within its layers, by conducting inner products between the original input feature and output from the previous layer, thus increasing the degree of interaction across features. At the same time, two individual classic deep neural networks with several stacked, fully connected feed-forward layers were trained. The final output of our framework was then derived from the concatenation of both classic and crossing networks. 68 Mga detalye ng FL Siguro ang pinaka-stable na uri ng FL ay ang paghahatid ng federated averaging algorithm tulad ng inilagay ni McMahan et al. , or variations thereof. This algorithm can be realized using a client-server setup where each participating site acts as a client. One can think of FL as a method aiming to minimize a global loss function by reducing a set of local loss functions, which are estimated at each site. By minimizing each client site’s local loss while also synchronizing the learned client site weights on a centralized aggregation server, one can minimize global loss without needing to access the entire dataset in a centralized location. Each client site learns locally, and shares model weight updates with a central server that aggregates contributions using secure sockets layer encryption and communication protocols. The server then sends an updated set of weights to each client site after aggregation, and sites resume training locally. The server and client site iterate back and forth until the model converges (Extended Data Fig. ang mga ito) 72 9c ang A pseudoalgorithm of FL is shown in Supplementary Note Sa aming mga eksperimento, inilagay namin ang bilang ng mga federated rounds sa = 200, with one local training epoch per round sa bawat customer. ang bilang ng mga customer, , ay hanggang sa 20 depending sa network connectivity ng mga client o available data para sa isang tiyak na targeted outcome period (24 o 72 h). , depends on the dataset size at each client at ginagamit upang i-weight ang mga kontribusyon ng bawat kliyente sa pag-aggregate ng mga modelo sa federated averages. Sa panahon ng FL training task, ang bawat client site ay piliin ang kanyang pinakamahusay na lokal na modelo sa pamamagitan ng pag-tracking ang pagganap ng modelo sa kanyang lokal na pag-validation set. Samakatuwid, ang server ay tinatanggap ang pinakamahusay na global na modelo batay sa average ng pag-validation score na ibinigay mula sa bawat client site sa server pagkatapos ng bawat FL round. Pagkatapos ng FL training ay dumating, ang pinakamahusay na lokal na modelo at ang pinakamahusay na global na modelo ay automatically ibahagi sa lahat ng client sites at tinatanggap sa kanilang lokal na test data. 1 T t K nk k Sa pagsasanay sa locally data lamang (ang baseline), i-set ang numero ng epoke sa 200. Ang Adam optimizer ay ginagamit para sa parehong local training at FL na may isang unang rate ng pag-aaral ng 5 × 10-5 at isang step-by-step learning rate decay na may isang factor 0.5 pagkatapos ng bawat 40 epoke, na importante para sa convergence ng federated average. Ang random affine transformations, kabilang ang rotation, translations, shear, scaling at random intensity noise at shifts, ay ginagamit sa mga imahe para sa data augmentation sa panahon ng training. 73 Dahil sa sensitivity ng mga layers ng BN Kapag nagtatrabaho sa iba't ibang mga kliyente sa isang non-independent at identically-distributed setting, natagpuan namin na ang pinakamahusay na pagganap ng modelo ay natagpuan kapag nagtatrabaho ang pre-trained ResNet34 na may spatial na pangangailangan Ang Deep & Cross network na naghahatid ng mga tampok ng imahe sa mga tampok ng EMR ay hindi naglalaman ng mga layer ng BN at dahil dito ay hindi nakakaapekto sa mga problema ng instability ng BN. 58 47 Sa pananaliksik na ito, inilathala namin ang isang scheme na nagbibigay ng privacy na nagbibigay lamang ng partial na mga update ng modelo sa pagitan ng server at mga site ng client. Ang mga update ng timbang ay nag-order sa panahon ng bawat iterasyon sa pamamagitan ng magnitudo ng kontribusyon, at lamang isang anumang porsyento ng pinakamalaking update ng timbang ay ibahagi sa server. Para sa katunayan, ang mga update ng timbang (na kilala rin bilang gradients) ay ibahagi lamang kung ang kanilang absolute na halaga ay higit sa isang anumang percentile threshold, (t) (Extended Data Fig. ), which was computed from all non-zero gradients, Δ , at maaaring maging iba't ibang para sa bawat customer sa lahat ng mga round . Variations of this scheme could include additional clipping of large gradients or differential privacy schemes na magdagdag ng random noise sa gradients, o kahit na sa raw data, bago ang paghahatid sa network . k 5 Mga pahinang tumuturo k t 49 51 Statistical Analysis ang Ipinakilala namin ang isang Wilcoxon signed-ranking test upang i-confirm ang karaniwang pag-iisip ng pagbuo sa pagganap sa pagitan ng lokal na-trained model at ang FL model para sa 24- at 72-h time points (Fig. At ang extended data Fig. Ang null hypothesis ay inihayag sa isang unilateral « 1 × 10–3 in both cases. 2 1 P Ang Pearson correlation ay ginagamit upang i-evaluate ang generalizability (robuzeness ng average na halaga ng AUC sa mga data ng test ng iba pang mga client sites) ng mga lokal na-trained na mga modelo sa pagitan ng respective local dataset size. sa pamamagitan ng 0.43 = 0.035, degrees of freedom (df) = 17 para sa 24-h modelo at sa pamamagitan ng 0.62 = 0.003, df = 16 para sa modelo ng 72-h). Ito ay nagpapakita na ang size ng dataset lamang ay hindi ang isa pang faktor na nagtatagumpay na ang isang modelo ay matatagpuan sa unseen data. r P r P Para sa pagitan ng mga curves ng ROC mula sa global na modelo ng FL at lokal na mga modelo na nagtrabaho sa iba't ibang mga site (Extended Data Fig. ), nag-bootstrapped kami ng 1,000 sample mula sa data at inilathala ang mga resulting AUCs. Pagkatapos ay inilathala namin ang pagkakaiba sa pagitan ng dalawang serye at standardized gamit ang formula = (AUC1 – AUC2)/ Nasaan ang is the standardized difference, ang standard deviation ng bootstrap differences at ang AUC1 at AUC2 ay ang corresponding bootstrapped AUC series. Pagkatapos ng normal na paghahatid, natagpuan ang Ang mga halimbawa ay inilarawan sa Supplementary Table Ang mga resulta ay nagpapakita na ang null hypothesis ay inihayag sa isang maliit na Ang maliliit na negosyo sa mga sumusunod na sektor ay kinakailangan: pagproseso ng produktong agrikultural ( ang mga halaga ay itinatag sa R sa pROC library . 3 D s D s D P 2 P P 74 Since the model predicts a discrete outcome, a continuous score from 0 to 1, a straightforward calibration evaluation such as a qqplot is not possible. Hence, for a quantified estimate of calibration we quantified discrimination (Extended Data Fig. ). We conducted one-way analysis of variation (ANOVA) tests to compare local and FL model scores among four ground truth categories (RA, LFO, HFO, MV). The -statistics, na inihayag bilang ang variation sa pagitan ng sample ay ibahagi ng variation sa loob ng sample at nagpapakita ng antas ng dispersion sa pagitan ng iba't ibang mga grupo, ay ginagamit upang maiwasan ang mga modelo. Ang aming mga resulta ay nagpapakita na ang -values of five different local sites are 245.7, 253.4, 342.3, 389.8 and 634.8, while that of the FL model is 843.5. Given that larger -values mean that groups are more separable, ang mga score mula sa aming FL model ay malinaw na nagpapakita ng isang mas mataas na dispersion sa pagitan ng mga katapusan ng ground truth. value of the ANOVA test on the FL model is <2 × 10–16, indicating that the FL prediction scores are statistically significantly different among the different prediction classes. 10 F F F P Tungkol sa Summary Further information on research design is available in the linked to this article. Nature Research Summary ng mga pananaliksik Availability ng Data Ang dataset mula sa mga 20 institutos na nag-participate sa pananaliksik na ito ay matatagpuan sa kanilang custody. Ang data na ito ay ginagamit para sa pag-training sa bawat isa sa mga lokal na site at hindi na ibinigay sa anumang iba pang mga institusyon na nag-participate o sa federated server, at ang mga ito ay hindi magagamit sa publiko. Ang data mula sa mga independiyenteng site ng pag-validation ay itinatag ng CAMCA, at ang access ay maaaring inihayag sa pamamagitan ng contact Q.L. Basahin sa pag-determination ng CAMCA, isang data-sharing review at pagbabago ng IRB para sa pananaliksik ay maaaring gaganapin sa pamamagitan ng MGB research administration at ayon sa MGB IRB at policy. Code availability Ang lahat ng code at software na ginagamit sa pananaliksik na ito ay magagamit sa NGC. Upang i-access, i-login bilang isang guest o i-create a profile pagkatapos ay i-enter ang isa sa mga URL sa ibaba. Ang mga training na mga modelo, data preparation guidelines, code para sa training, validating testing ng modelo, readme file, installation guideline at license files ay magagamit sa publiko sa NVIDIA NGC ang : Ang federated learning software ay magagamit bilang bahagi ng Clara Train SDK: Alternatibo, gamitin ang komento na ito upang i-download ang modelo "wget --content-disposition" -O clara_train_covid19_exam_ehr_xray_1.zip”. 61 https://ngc.nvidia.com/catalog/models/nvidia:med:clara_train_covid19_exam_ehr_xray https://ngc.nvidia.com/catalog/containers/nvidia:clara-train-sdk https://api.ngc.nvidia.com/v2/models/nvidia/med/clara_train_covid19_exam_ehr_xray/versions/1/zip ang reference Budd, J. et al. Digital technologies in the public-health response to COVID-19. , 1183–1192 (2020). Nat. Med. 26 Moorthy, V., Henao Restrepo, A. M., Preziosi, M.-P. & Swaminathan, S. Data sharing for novel coronavirus (COVID-19). , 150 (2020). Bull. World Health Organ. 98 Chen, Q., Allot, A. & Lu, Z. Keep up with the latest coronavirus research. , 193 (2020). Nature 579 Fabbri, F., Bhatia, A., Mayer, A., Schlotter, B. & Kaiser, J. BCG IT spend pulse: how COVID-19 is shifting tech priorities. (2020). https://www.bcg.com/publications/2020/how-covid-19-is-shifting-big-it-spend Candelon, F., Reichert, T., Duranton, S., di Carlo, R. C. & De Bondt, M. The rise of the AI-powered company in the postcrisis world. (2020). https://www.bcg.com/en-gb/publications/2020/business-applications-artificial-intelligence-post-covid Chao, H. et al. Integrative analysis for COVID-19 patient outcome prediction. , 101844 (2021). Med. Image Anal. 67 Zhu, X. et al. Joint prediction and time estimation of COVID-19 developing severe symptoms using chest CT scan. , 101824 (2021). Med. Image Anal. 67 Yang, D. et al. Federated semi-supervised learning for Covid region segmentation in chest ct using multi-national data from China, Italy, Japan. , 101992 (2021). Med. Image Anal. 70 Minaee, S., Kafieh, R., Sonka, M., Yazdani, S. & Jamalipour Soufi, G. Deep-COVID: predicting COVID-19 from chest X-ray images using deep transfer learning. , 101794 (2020). Med. Image Anal. 65 COVID-19 Studies from the World Health Organization Database. (2020). https://clinicaltrials.gov/ct2/who_table ACTIV. (2020). https://www.nih.gov/research-training/medical-research-initiatives/activ Coronavirus Treatment Acceleration Program (CTAP). US Food and Drug Administration (2020). https://www.fda.gov/drugs/coronavirus-covid-19-drugs/coronavirus-treatment-acceleration-program-ctap Gleeson, P., Davison, A. P., Silver, R. A. & Ascoli, G. A. A commitment to open source in neuroscience. , 964–965 (2017). Neuron 96 Piwowar, H. et al. The state of OA: a large-scale analysis of the prevalence and impact of open access articles. , e4375 (2018). PeerJ. 6 European Society of Radiology (ESR). What the radiologist should know about artificial intelligence – an ESR white paper. , 44 (2019). Insights Imaging 10 Pesapane, F., Codari, M. & Sardanelli, F. Artificial intelligence in medical imaging: threat or opportunity? Radiologists again at the forefront of innovation in medicine. , 35 (2018). Eur. Radiol. Exp. 2 Price, W. N. 2nd & Cohen, I. G. Privacy in the age of medical big data. , 37–43 (2019). Nat. Med. 25 Liang, W. et al. Development and validation of a clinical risk score to predict the occurrence of critical illness in hospitalized patients with COVID-19. , 1081–1089 (2020). JAMA Intern. Med. 180 Wynants, L. et al. Prediction models for diagnosis and prognosis of covid-19 infection: systematic review and critical appraisal. , m1328 (2020). Brit. Med. J. 369 Zhang, L. et al. D-dimer levels on admission to predict in-hospital mortality in patients with Covid-19. , 1324–1329 (2020). J. Thromb. Haemost. 18 Sands, K. E. et al. Patient characteristics and admitting vital signs associated with coronavirus disease 2019 (COVID-19)-related mortality among patients admitted with noncritical illness. (2020). https://doi.org/10.1017/ice.2020.461 American College of Radiology. CR recommendations for the use of chest radiography and computed tomography (CT) for suspected COVID-19 infection. (2020). https://www.acr.org/Advocacy-and-Economics/ACR-Position-Statements/Recommendations-for-Chest-Radiography-and-CT-for-Suspected-COVID19-Infection Rubin, G. D. et al. The role of chest imaging in patient management during the COVID-19 pandemic: a multinational consensus statement from the Fleischner Society. , 172–180 (2020). Radiology 296 World Health Organization. Use of chest imaging in COVID-19. (2020). https://www.who.int/publications/i/item/use-of-chest-imaging-in-covid-19 Jamil, S. et al. Diagnosis and management of COVID-19 disease. , 10 (2020). Am. J. Respir. Crit. Care Med. 201 Redmond, C. E., Nicolaou, S., Berger, F. H., Sheikh, A. M. & Patlas, M. N. Emergency radiology during the COVID-19 pandemic: The Canadian Association of Radiologists Recommendations for Practice. , 425–430 (2020). Can. Assoc. Radiologists J. 71 Buch, V. et al. Development and validation of a deep learning model for prediction of severe outcomes in suspected COVID-19 Infection. Preprint at (2021). https://arxiv.org/abs/2103.11269 Lyons, C. & Callaghan, M. The use of high-flow nasal oxygen in COVID-19. , 843–847 (2020). Anaesthesia 75 Whittle, J. S., Pavlov, I., Sacchetti, A. D., Atwood, C. & Rosenberg, M. S. Respiratory support for adult patients with COVID-19. , 95–101 (2020). J. Am. Coll. Emerg. Physicians Open 1 Ai, J., Li, Y., Zhou, X. & Zhang, W. COVID-19: treating and managing severe cases. , 370–371 (2020). Cell Res. 30 Esteva, A. et al. A guide to deep learning in healthcare. , 24–29 (2019). Nat. Med. 25 Cahan, E. M., Hernandez-Boussard, T., Thadaney-Israni, S. & Rubin, D. L. Putting the data before the algorithm in big data addressing personalized healthcare. , 78 (2019). NPJ Digit. Med. 2 Thrall, J. H. et al. Artificial intelligence and machine learning in radiology: opportunities, challenges, pitfalls, and criteria for success. , 504–508 (2018). J. Am. Coll. Radiol. 15 Shilo, S., Rossman, H. & Segal, E. Axes of a revolution: challenges and promises of big data in healthcare. , 29–38 (2020). Nat. Med. 26 Gao, Y. & Cui, Y. Deep transfer learning for reducing health care disparities arising from biomedical data inequality. , 5131 (2020). Nat. Commun. 11 Rieke, N. et al. The future of digital health with federated learning. , 119 (2020). NPJ Dig. Med. 3 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. 10 Ma, C. et al. On safeguarding privacy and security in the framework of federated learning. , 242–248 (2020). IEEE Netw. 34 Brisimi, T. S. et al. Federated learning of predictive models from federated Electronic Health Records. , 59–67 (2018). Int. J. Med. Inform. 112 Roth, H. R. et al. Federated learning for breast density classification: a real-world implementation. In , (eds. Albarqouni, S. et al.) Vol. 12,444, 181–191 (Springer International Publishing, 2020). Proc. Second MICCAI Workshop, DART 2020 and First MICCAI Workshop, DCL 2020 Domain Adaptation and Representation Transfer, and Distributed and Collaborative Learning Sheller, M. J. et al. Federated learning in medicine: facilitating multi-institutional collaborations without sharing patient data. , 12598 (2020). Sci. Rep. 10 Remedios, S. W., Butman, J. A., Landman, B. A. & Pham, D. L. in (eds Remedios, S. W. et al.) (Springer, 2020). Federated Gradient Averaging for Multi-Site Training with Momentum-Based Optimizers Xu, Y. et al. A collaborative online AI engine for CT-based COVID-19 diagnosis. Preprint at (2020). https://www.medrxiv.org/content/10.1101/2020.05.10.20096073v2 Raisaro, J. L. et al. SCOR: A secure international informatics infrastructure to investigate COVID-19. , 1721–1726 (2020). J. Am. Med. Inform. Assoc. 27 Vaid, A. et al. Federated learning of electronic health records to improve mortality prediction in hospitalized patients with COVID-19: machine learning approach. , e24207 (2021). JMIR Med. Inform. 9 Nino, G. et al. Pediatric lung imaging features of COVID-19: a systematic review and meta-analysis. , 252–263 (2021). Pediatr. Pulmonol. 56 Fredrikson, M., Jha, S. & Ristenpart, T. Model inversion attacks that exploit confidence information and basic countermeasures. In 1322–1333, (2015). Proc. 22nd ACM SIGSAC Conference on Computer and Communications Security https://doi.org/10.1145/2810103.2813677 Zhu, L., Liu, Z. & Han, S. in (eds Wallach, H. et al.) 14774–14784 (Curran Associates, Inc., 2019). Advances in Neural Information Processing Systems 32 Kaissis, G. A., Makowski, M. R., Rückert, D. & Braren, R. F. Secure, privacy-preserving and federated machine learning in medical imaging. , 305–311 (2020). Nat. Mach. Intell. 2 Li, W. et al. in 133–141 (Springer, 2019). Privacy-Preserving Federated Brain Tumour Segmentation Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In (2015). Proc. 53rd Annual Allerton Conference on Communication, Control, and Computing (Allerton) https://doi.org/10.1109/allerton.2015.7447103 Li, X. et al. Multi-site fMRI analysis using privacy-preserving federated learning and domain adaptation: ABIDE results. , 101765 (2020). Med. Image Anal. 65 Estiri, H. et al. Predicting COVID-19 mortality with electronic medical records. , 15 (2021). NPJ Dig. Med. 4 Jiang, G. et al. Harmonization of detailed clinical models with clinical study data standards. , 65–74 (2015). Methods Inf. Med. 54 Yang, D. et al. in . (2019). Searching Learning Strategy with Reinforcement Learning for 3D Medical Image Segmentation https://doi.org/10.1007/978-3-030-32245-8_1 Elsken, T., Metzen, J. H. & Hutter, F. Neural architecture search: a survey. , 1–21 (2019). J. Mach. Learning Res. 20 Yao, Q. et al. Taking human out of learning applications: a survey on automated machine learning. Preprint at (2019). https://arxiv.org/abs/1810.13306 Ioffe, S. & Szegedy, C. Batch normalization: accelerating deep network training by reducing internal covariate shift. In , PMLR , 448–456 (2015). Proc. 32nd International Conf. Machine Learning 37 Kaufman, S., Rosset, S. & Perlich, C. Leakage in data mining: formulation, detection, and avoidance. In , 556–563 (2011). Proc. 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Zhang, C. et al. BatchCrypt: efficient homomorphic encryption for cross-silo federated learning. In , 493–506 (2020). Proc. 2020 USENIX Annual Technical Conference, ATC 2020 . (2020). Nvidia NGC Catalog: COVID-19 Related Models https://ngc.nvidia.com/catalog/models?orderBy=scoreDESC&pageNumber=0&query=covid&quickFilter=models&filters Marini, J. J. & Gattinoni, L. Management of COVID-19 respiratory distress. , 2329–2330 (2020). JAMA 323 Cook, T. M. et al. Consensus guidelines for managing the airway in patients with COVID-19: Guidelines from the Difficult Airway Society, the Association of Anaesthetists the Intensive Care Society, the Faculty of Intensive Care Medicine and the Royal College of Anaesthetist. , 785–799 (2020). Anaesthesia 75 Galloway, J. B. et al. A clinical risk score to identify patients with COVID-19 at high risk of critical care admission or death: an observational cohort study. , 282–288 (2020). J. Infect. 81 Kilaru, A. S. et al. Return hospital admissions among 1419 COVID-19 patients discharged from five U.S. emergency departments. , 1039–1042 (2020). Acad. Emerg. Med. 27 He, K., Zhang, X., Ren, S. & Sun, J. Deep residual learning for image recognition. In (2016). Proc. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) https://doi.org/10.1109/cvpr.2016.90 Irvin, J. et al. CheXpert: a large chest radiograph dataset with uncertainty labels and expert comparison. , 590–597 (2019). Proc. AAAI Conf. Artif. Intell. 33 Wang, R., Fu, B., Fu, G. & Wang, M. Deep & Cross network for Ad Click predictions. In Article no. 12 (2017). Proc. ADKDD’17 Abadi, M. et al. TensorFlow: asystem for large-scale machine learning. In , USENIX Association 265–283 (2016). 12th USENIX Symposium on Operating Systems Design and Implementation (OSDI 16) . (2020). NVIDIA Clara Imaging https://developer.nvidia.com/clara-medical-imaging Stekhoven, D. J. & Bühlmann, P. MissForest–non-parametric missing value imputation for mixed-type data. , 112–118 (2012). Bioinformatics 28 McMahan, H., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. (2017). http://proceedings.mlr.press/v54/mcmahan17a.html Hsieh, K., Phanishayee, A., Mutlu, O. & Gibbons, P. B. The non-IID data quagmire of decentralized machine learning. In PMLR 119 (2020). Proc. 37th International Conf. Machine Learning Robin, X. et al. pROC: an open-source package for R and S+ to analyze and compare ROC curves. , 77 (2011). BMC Bioinformatics 12 ang recognition The views expressed in this study are those of the authors and not necessarily those of the NHS, the NIHR, the Department of Health and Social Care or any of the organizations associated with the authors. MGB thank the following individuals for their support: J. Brink, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; M. Kalra, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; N. Neumark, Center for Clinical Data Science, Massachusetts General Brigham, Boston, MA; T. Schultz, Department of Radiology, Massachusetts General Hospital, Boston, MA; N. Guo, Center for Advanced Medical Computing and Analysis, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; J. K. Cramer, Director, QTIM lab at the Athinoula A. Martinos Center for Biomedical Imaging at MGH; S. Pomerantz, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; G. Boland, Department of Radiology, Brigham and Women’s Hospital, Harvard Medical School, Boston, MA; W. Mayo-Smith, Department of Radiology, Brigham and Women’s Hospital, Harvard Medical School, Boston, MA. UCSF thank P. B. Storey, J. Chan and J. Block for implementing the UCSF FL client infrastructure, and W. Tellis for providing the source imaging repository for this work. The UCSF EMR and clinical notes for this study were accessed via the COVID-19 Research Data Mart, Sa pamamagitan ng Faculty of Medicine, Chulalongkorn University, salamat ang Ratchadapisek Sompoch Endowment Fund RA (PO) (no. 001/63) para sa pagkolekta at pag-manage ng COVID-19-related clinical data at biological samples para sa Research Task Force, Faculty of Medicine, Chulalongkorn University. salamat ang NIHR Cambridge Biomedical Research Center, Taiwan, Ministry of Science and Technology, at Taiwan National Center for Theoretical Sciences Mathematics Foundation Trust. National Taiwan University MeDA Lab at ang MAHC at Taiwan National Health Insurance Administration salamat ang MOST Joint Research Center para sa AI technology, ang All Vista Healthcare National Health Insurance Administration, Taiwan, Ministry of Science and Technology, at Taiwan National Research Center para sa Theoretical Sciences Mathematics Division. National Institutes https://data.ucsf.edu/covid19 Ang artikulong ito ay magagamit sa alam sa ilalim ng lisensya ng CC by 4.0 Deed (Attribution 4.0 International). Ang artikulong ito ay magagamit sa alam sa ilalim ng lisensya ng CC by 4.0 Deed (Attribution 4.0 International).