Nová prvá AI predpovedá závažnosť COVID pomocou röntgenových lúčov a lekárskych záznamov

Autori : Ittai Dayan Holger R. Roth Aoxiao Zhong Ahmed Harúni Amilcare Gentili Anas Z. Abidin Andrew Liu Anthony Beardsworth Costa Bradford J. Wood Chien-Sung Tsai Chih-Hung Wang Chun-Nan Hsu C. K. Lee Peiying Ruan Daguang Xu Dufan Wu Eddie Huang Felipe Campos Kitamura Griffin Lacey Gustavo César de Antônio Corradi Gustavo Nino Hao-Hsin Shin Hirofumi Obinata Hui Ren Jason C. Crane Jesse Tetreault Jiahui Guan John W. Garrett Joshua D. Kaggie Jung Gil Park Keith Dreyer Krishna Juluru Kristopher Kersten Marcio Aloisio Bezerra Cavalcanti Rockenbach Marius George Linguraru Masoom A. Haider Meena AbdelMaseeh Nicola Rieke Pablo F. Damasceno Pedro Mario Cruz e Silva Pochuan Wang Šeng Xu Shuichi Kawano Sira Sriswasdi Soo Young Park Thomas M. Grist Varun Buch Watsamon Jantarabenjakul Weichung Wang Won Young Tak Xiang Li Xihong Lin Young Joon Kwon Abood Quraini Andrew Feng Andrew N. Priest Baris Turkbey Benjamin Glicksberg Bernardo Bizzo Byung Seok Kim Carlos Tor-Díez Chia-Cheng Lee Chia-Jung Hsu Chin Lin Chiu-Ling Lai Christopher P. Hess Colin Compas Deepeksha Bhatia Eric K. Oermann Evan Leibovitz Hisashi Sasaki Hitoshi Mori Isaac Yang Jae Ho Sohn Krishna Nand Keshava Murthy Li-Chen Fu Matheus Ribeiro Furtado de Mendonça Mike Fralick Min Kyu Kang Mohammad Adil Natalie Gangai Peerapon Vateekul Pierre Elnajjar Sarah Hickman Sharmila Majumdar Shelley L. McLeod Sheridan Reed Stefan Gräf Stephanie Harmon Tatsuya Kodama Thanyawee Puthanakit Tony Mazzulli Vitor Lima de Lavor Yothin Rakvongthai Yu Rim Lee Yuhong Wen Fiona J. Gilbert Mona G. Flores Quanzheng Li Autori : Týždeň Dayan Holger R. Rothová Aoxiao Zhong Ahmed Harúni Amilcare láskavý Anas Z. Abidinová Andrej Liu Ďalšie: Anthony Beardsworth Costa Bradford J. Woodová Číňan-Sung Tsai Čich-Hung Wangová Čun-Nan Hsu C. K. Leeová Peťo Ružová Daguang Xu Dufan Wu Eddie Huangová Felipe Campos Kitamuraová Názov Griffin Lacey Gustavo César z Antônia Corradiho Gustavo Nino Hao-Hsin Shin Hirofumi Obinata Zľavy Ren Názov: Jason C Crane Jesse Tetreaultová Jiahui Guan John W. Garrettová Joshua D. Kaggieová Park Jung Gil Keith Dreyerová Krishna Juluruová Kristýna Kerstenová Názov: Marcio Aloisio Bezerra Cavalcanti Rockenbach Názov: Marius George Linguraru Masoom A. Haiderová Meena AbdelMaseehová Nikolaj Rieke Pavol F. Damasceno Pedro Mario Cruz a Silva Pochuan Wang Šeng Xu Šuichi Kawano Sira Sriswasdiová Ďalšie: Soo Young Park Thomas M. Gristová Varun kniha Vatikánska večera Vyšetrovateľ Wang Víťaz Young Tak Xiang Liová Čižmín Lin Mladý Joon Kwon Abood Kuraini Andrej Feng Režisér Andrew N. Priest Baris Turkménsko Názov: Benjamin Glicksberg Názov Bernardo Bizzo Hľadá sa Kim Carlos Tor-Díezová Názov: Chia-Cheng Lee Čia-Jung Hsu Čínsky Lin Ľubomír Ľubomír Názov Christopher P. Hess Kolín Kompas Hlboká Bhatia Názov: Eric K. Oermann Evan Leibovitz Hisashi Sasaki Hitoshi Mori Isaac Yang Jae Ho syn Krishna Nand Keshava Murthyová Li-Čen Fú Názov: Matheus Ribeiro Furtado de Mendonça Mike Fralicková Názov: Kyu Kang Mohameda Adila Natalie Gangaiová Peerapon Vateekul Pierre Elnajjar Sarah Hickmanová Šarmila Majumdarová Názov: Shelley L. McLeod Sheridan Reedová Štefan Gräf Stephanie Harmonová Tatsuya Kodamaová ZľavyZľavyZľavyZľavyZľavy Názov: Tony Mazzulli Vitor Lima z práce Yothin Rakvongthai Názov: Yu Rim Lee Yuhong Wenová Fiona J. Gilbertová Mona G. Floresová Kúpiť Li abstraktné Federated learning setting (FL) je metóda používaná na výcvik modelov umelej inteligencie s údajmi z viacerých zdrojov pri zachovaní anonymity údajov, čím sa odstránia mnohé prekážky pri zdieľaní údajov. Tu sme použili údaje z 20 inštitútov po celom svete na výcvik modelu FL, nazývaného EXAM (elektronický lekársky záznam (EMR) model hrudníka X-ray AI), ktorý predpovedá budúce požiadavky na kyslík symptomatických pacientov s COVID-19 pomocou vstupov životných znakov, laboratórnych údajov a hrudných röntgenových lúčov. EXAM dosiahol priemernú plochu pod krivkou (AUC) > 0,92 na predpovedanie výsledkov v 24 a 72 hodinách od času počiatočnej prezentácie do pohotovost hlavné Vedecké, akademické, lekárske a dátové vedecké komunity sa spojili v reakcii na pandemickú krízu COVID-19 s cieľom rýchlo posúdiť nové paradigmy v oblasti umelej inteligencie (AI), ktoré sú rýchle a bezpečné, a potenciálne povzbudiť zdieľanie dát a školenie modelov a testovanie bez obvyklých prekážok súkromia a vlastníctva údajov z konvenčnej spolupráce. , Poskytovatelia zdravotnej starostlivosti, výskumníci a priemysel sa zamerali na riešenie nesplnených a kritických klinických potrieb vytvorených krízou s pozoruhodnými výsledkami. , , , , , , Nábor klinických štúdií bol urýchlený a uľahčený vnútroštátnymi regulačnými orgánmi a medzinárodným duchom spolupráce , , Disciplíny dátovej analýzy a umelej inteligencie vždy podporovali otvorené a spolupracujúce prístupy, ktoré zahŕňajú koncepty, ako je softvér s otvoreným zdrojovým kódom, reprodukovateľný výskum, úložiská údajov a sprístupnenie anonymných dátových súborov verejnosti. , Pandémia zdôraznila potrebu rýchleho vykonávania dátových kolaborácií, ktoré posilňujú klinické a vedecké komunity pri reagovaní na rýchlo sa vyvíjajúce a rozšírené globálne výzvy. zdieľanie údajov má etické, regulačné a právne zložitosti, ktoré sú zdôraznené, a možno trochu komplikované, nedávnym vstupom veľkých technologických spoločností do sveta zdravotníckych údajov. , , . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Konkrétnym príkladom týchto typov spolupráce je naša predchádzajúca práca na modeli podpory klinického rozhodovania (CDS) SARS-COV-2 založenom na AI. Tento model CDS bol vyvinutý v spoločnosti Mass General Brigham (MGB) a bol validovaný v rámci údajov viacerých zdravotníckych systémov.Vstupom do modelu CDS boli röntgenové snímky hrudníka (CXR), životné znaky, demografické údaje a laboratórne hodnoty, ktoré boli preukázané v predchádzajúcich publikáciách, že predpovedajú výsledky pacientov s COVID-19 , , , CXR bol vybraný ako vstup pre zobrazovanie, pretože je široko dostupný a bežne označovaný smernicami, ako sú tie, ktoré poskytuje ACR. Spoločnosť Fleischner Podľa WHO Národné thoracické spoločnosti Národné ministerstvo zdravotníctva COVID príručky a radiologické spoločnosti po celom svete Výstup modelu CDS bol skóre, nazývané CORISK , ktorý zodpovedá požiadavkám na podporu kyslíka a ktorý by mohol pomôcť pri triedení pacientov prednými lekármi , , Je známe, že poskytovatelia zdravotnej starostlivosti uprednostňujú modely, ktoré boli validované na základe vlastných údajov. K dnešnému dňu väčšina modelov AI, vrátane vyššie uvedeného modelu CDS, bola vyškolená a validovaná na „úzkych“ údajoch, ktoré často chýbajú rôznorodosti. , To môže byť zmiernené školením s rôznymi údajmi z viacerých lokalít bez centralizácie údajov Metódy, ako je napríklad transfer learning , alebo FL. FL je metóda používaná na výcvik modelov umelej inteligencie na rozdielnych zdrojoch údajov, bez toho, aby boli údaje prenášané alebo vystavené mimo ich pôvodného umiestnenia. . 18 19 20 21 22 23 24 25 26 27 28 29 30 27 31 32 33 34 35 36 Federované učenie podporuje rýchle spustenie centrálne orchesterovaných experimentov so zlepšenou vysledovateľnosťou údajov a posúdením algoritmických zmien a vplyvu Jeden prístup k FL, nazývaný klient-server, posiela „neškolený“ model na iné servery („uzly“), ktoré vykonávajú čiastočné tréningové úlohy, čím posiela výsledky späť na zlúčenie do centrálneho („federovaného“) servera. . 37 36 Riadenie údajov pre FL sa udržiava lokálne, čo zmierňuje obavy o súkromie, pričom medzi klientskymi lokalitami a federovaným serverom sa komunikujú iba modelové váhy alebo gradienty , FL už preukázala sľub v nedávnych aplikáciách lekárskeho zobrazovania , , , Analýza COVID-19 , , Pozoruhodným príkladom je model predpovedania úmrtnosti u pacientov infikovaných SARS-COV-2, ktorý využíva klinické charakteristiky, hoci obmedzené z hľadiska počtu modalít a rozsahu. . 38 39 40 41 42 43 8 44 45 46 Naším cieľom bolo vyvinúť robustný, zovšeobecniteľný model, ktorý by mohol pomôcť pri testovaní pacientov. Teoretizovali sme, že model CDS možno úspešne federovať vzhľadom na jeho použitie dátových vstupov, ktoré sú v klinickej praxi relatívne bežné a ktoré sa vo veľkej miere nespoliehajú na operátorovo závislé posúdenia stavu pacienta (ako sú klinické dojmy alebo hlásené príznaky). Namiesto toho boli použité laboratórne výsledky, životné znaky, obrazová štúdia a bežne zachytená demografia (t. j. vek). Preto sme preškolili model CDS s rôznorodými údajmi pomocou prístupu klient-server FL, aby sme vyvinuli nový globálny model FL, ktorý bol nazývaný EXAM, Naša hypotéza bola, že EXAM by fungoval lepšie ako miestne modely a lepšie by sa zovšeobecňoval v systémoch zdravotnej starostlivosti. Výsledky Architektúra skúšobného modelu Model EXAM je založený na modeli CDS uvedenom vyššie Celkovo bolo použitých 20 znakov (19 z EMR a jeden z CXR) ako vstup do modelu. Výsledky (t. j. „pôvodná pravda“) boli priradené na základe pacientovej kyslíkovej terapie po 24 a 72 hodinových obdobiach od počiatočného prijatia na oddelenie núdzových situácií (ED). Podrobný zoznam požadovaných znakov a výsledkov nájdete v tabuľke . 27 1 Výsledné štítky pacientov boli nastavené na 0, 0,25, 0,50 a 0,75 v závislosti od najintenzívnejšej kyslíkovej terapie, ktorú pacient dostal v predikčnom okne. Kategórie kyslíkovej terapie boli, resp. izbový vzduch (RA), nízky prietok kyslíka (LFO), vysoký prietok kyslíka (HFO)/noninvazívna ventilácia (NIV) alebo mechanická ventilácia (MV). Ak pacient zomrel v predikčnom okne, výsledná štítka bola nastavená na 1. Pre funkcie EMR boli použité iba prvé hodnoty zachytené v ED a predbežné spracovanie údajov zahŕňalo deidentifikáciu, imputáciu chýbajúcich hodnôt a normalizáciu na nulovú strednú hodnotu a jednotkovú varianciu. Model preto spája informácie z funkcií EMR a CXR, pomocou 34-vrstvovej konvolučnej neurálnej siete (ResNet34) na extrahovanie funkcií z CXR a siete Deep & Cross na spojenie funkcií spolu s funkciami EMR (pre viac detailov, pozri Výstup modelu je skóre rizika, nazývané skóre EXAM, čo je kontinuálna hodnota v rozsahu 0 – 1 pre každú z 24-hodinových a 72-hodinových prognóz zodpovedajúcich vyššie uvedeným štítkom. Metódy Federácia modelu Model EXAM bol vyškolený s použitím kohorty 16,148 prípadov, čo z neho robí nielen jeden z prvých modelov FL pre COVID-19 ale aj veľmi veľký a multikontinentálny vývojový projekt v klinicky relevantnej AI (Obr. Údaje medzi lokalitami neboli pred extrakciou harmonizované a vzhľadom na okolnosti klinickej informatiky v reálnom živote autorom nebola vykonaná dôkladná harmonizácia dátového vstupu (obr. 1). ) sa 1a a b 1 C, D Mapa sveta ukazujúca 20 rôznych klientskych lokalít, ktoré prispievajú k štúdii EXAM. , Počet prípadov prispených každou inštitúciou alebo lokalitou (klient 1 predstavuje lokalitu prispievajúcu najväčší počet prípadov). Rozdelenie hrudnej röntgenovej intenzity na každom mieste klienta. , Vek pacientov na každom klientskom mieste, zobrazujúci minimálny a maximálny vek (asteríky), priemerný vek (triangle) a štandardnú odchýlku (horizontálne tyče). . a b c d 1 Na základe výsledkov skúšobných testov sme porovnali lokálne vyškolené modely s globálnym modelom FL. Výcvik modelu cez FL viedol k významnému zlepšeniu výkonu ( 1 × 10–3, Wilcoxon podpísaný test) 16% (ako je definované priemernou AUC pri spustení modelu na príslušných miestnych skúšobných súboroch: od 0,795 do 0,920, alebo 12,5 percentuálneho bodu) (Obr. Výsledkom bolo tiež 38% zlepšenie zovšeobecnenosti (ako je definované priemernou AUC pri spustení modelu na všetkých testovacích súboroch: od 0,667 do 0,920, alebo 25,3 percentuálneho bodu) najlepšieho globálneho modelu na predpovedanie 24-hodinovej ošetrenia kyslíkom v porovnaní s modelmi vyškolenými iba na vlastných údajoch lokality (Obr. Pre predikčné výsledky 72-hodinovej ošetrenia kyslíkom, najlepší globálny modelový tréning viedol k priemernému zlepšeniu výkonu o 18% v porovnaní s lokálne vyškolenými modelmi, zatiaľ čo zovšeobecniteľnosť globálneho modelu sa zlepšila v priemere o 34% (rozšírené údaje na obrázku. Stabilita našich výsledkov bola potvrdená opakovaním troch kurzov miestneho a FL tréningu na rôznych randomizovaných dátových splitoch. P 2a 2B 1 , Výkon na každom teste klienta nastavený na predpovedanie 24-hodinovej ošetrenia kyslíkom pre modely vyškolené len na lokálnych údajoch (Local) v porovnaní s najlepším globálnym modelom dostupným na serveri (FL (pozri najlepšie). , Generalizovateľnosť (priemerná výkonnosť na testovacích údajoch iných lokalít, ako je reprezentovaná priemernou AUC) ako funkcia veľkosti dátového súboru klienta (bez prípadov).Zelená horizontálna čiara označuje výkonnosť generalizovateľnosti najlepšieho globálneho modelu. ) and client 14 had cases only with RA treatment, such that the evaluation metric (av. AUC) was not applicable in either of these cases ( Údaje pre klienta 14 boli tiež vylúčené z výpočtu priemerného zovšeobecnenia v lokálnych modeloch. a b 1 Metódy Miestne modely, ktoré boli vyškolené s použitím nevyvážených kohort (napríklad väčšinou miernych prípadov COVID-19) výrazne profitovali z prístupu FL, s podstatným zlepšením v predikčnom priemernom výkone AUC pre kategórie s iba niekoľkými prípadmi.To bolo zrejmé na klientskom mieste 16 (nevyvážený súbor údajov), pričom väčšina pacientov zažívala miernu závažnosť ochorenia a len s niekoľkými závažnými prípadmi.Model FL dosiahol vyššiu pravdivo-pozitívnu mieru pre dva pozitívne (závažné) prípady a výrazne nižšiu mieru falošného pozitívneho v porovnaní s miestnym modelom, ako je znázornené v receptorových operatívnych charakteristických (ROC) Rozšírené dáta Fig. Dôležitejšie je, že generalizovateľnosť modelu FL sa výrazne zvýšila v porovnaní s lokálne vyškoleným modelom. 3a 2 , ROC na klientskom mieste 16, s nevyváženými údajmi a väčšinou miernymi prípadmi. , ROC miestneho modelu na klientskom mieste 12 (malá databáza), priemerný ROC modelov vyškolených na väčších databázach zodpovedajúcich piatim klientskym lokalitám v oblasti Boston (1, 4, 5, 6, 8) a ROC najlepšieho globálneho modelu v predpovedi kyslíkového spracovania 72 hodín pre rôzne prahové hodnoty EXAM (ľava, stredná, pravá). ) of the EXAM risk score are shown. Pos and neg denote the number of positive and negative cases, respectively, as defined by this range of EXAM score. a b t V prípade klientskych lokalít s relatívne malými dátovými súbormi najlepší model FL výrazne prekonal nielen lokálny model, ale aj tie, ktoré boli vyškolené na väčších dátových súboroch z piatich klientskych lokalít v oblasti Bostonu v USA (Obr. ). 3b The global model performed well in predicting oxygen needs at 24/72 h in patients both COVID positive and negative (Extended Data Fig. ). 3 Validation at independent sites Po počiatočnom výcviku bola skúška EXAM následne testovaná na troch nezávislých overovacích miestach: Cooley Dickinson Hospital (CDH), Martha’s Vineyard Hospital (MVH) a Nantucket Cottage Hospital (NCH), všetky v štáte Massachusetts, USA. Model nebol na týchto miestach opätovne školený a bol použitý iba na účely validácie. , a krivky ROC a matice zmätku pre najväčšiu databázu (z CDH) sú znázornené na obrázku. . The operating point was set to discriminate between nonmechanical ventilation and mechanical ventilation (MV) treatment (or death). The FL global trained model, EXAM, achieved an average AUC of 0.944 and 0.924 for 24- and 72-h prediction tasks, respectively (Table Pre predpovedanie MV liečby (alebo smrti) v 24 h, EXAM dosiahol citlivosť 0,950 a špecifickosť 0,882 na CDH, a citlivosť 1000 špecifickosť 0,934 na MVH. NCH nemal žiadne prípady s MV / smrť v 24 h. Pokiaľ ide o 72-h MV predpoveď, EXAM dosiahol citlivosť 0,929 a špecifickosť 0,880 na CDH, citlivosť 1000 a špecifickosť 0,976 na MVH a citlivosť 1000 a špecifickosť 0,929 na NCH. 2 4 2 , , Performance (ROC) (top) and confusion matrices (bottom) of the EXAM FL model on the CDH dataset for prediction of oxygen requirement at 24 h ( ) and 72 h ( ) ROC pre tri rôzne hodnoty rezania ( ) of the EXAM risk score are shown. a b a b t Pre MV v CDH v 72 h, EXAM mal nízku mieru falošného negatívneho 7,1%. , ukazujúce dva falošne negatívne prípady z CDH, kde jeden prípad mal veľa chýbajúcich funkcií údajov EMR a druhý mal CXR s pohybovým artefaktom a niektorými chýbajúcimi funkciami EMR. 4 Použitie diferenciálneho súkromia A primary motivation for healthcare institutes to use FL is to preserve the security and privacy of their data, as well as adherence to data compliance measures. For FL, there remains the potential risk of model ‘inversion’ or even the reconstruction of training images from the model gradients themselves . To counter these risks, security-enhancing measures were used to mitigate risk in the event of data ‘interception’ during site-server communication . We experimented with techniques to avoid interception of FL data, and added a security feature that we believe could encourage more institutions to use FL. We thus validated previous findings showing that partial weight sharing, and other differential privacy techniques, can successfully be applied in FL . Through investigation of a partial weight-sharing scheme , , , we showed that models can reach a comparable performance even when only 25% of weight updates are shared (Extended Data Fig. ). 47 48 49 50 50 51 52 5 Discussion This study features a large, real-world healthcare FL study in terms of number of sites and number of data points used. We believe that it provides a powerful proof-of-concept of the feasibility of using FL for fast and collaborative development of needed AI models in healthcare. Our study involved multiple sites across four continents and under the oversight of different regulatory bodies, and thus holds the promise of being provided to different regulated markets in an expedited way. The global FL model, EXAM, proved to be more robust and achieved better results at individual sites than any model trained on only local data. We believe that consistent improvement was achieved owing to a larger, but also a more diverse, dataset, the use of data inputs that can be standardized and avoidance of clinical impressions/reported symptoms. These factors played an important part in increasing the benefits from this FL approach and its impact on performance, generalizability and, ultimately, the model’s usability. Pre klientsku lokalitu s relatívne malou databázou by sa mohli použiť dva typické prístupy na prispôsobenie užitočného modelu: jeden je tréning lokálne s vlastnými údajmi, druhý je aplikácia modelu vyškoleného na väčšiu databázu. Pre lokality s malými databázami by bolo prakticky nemožné vybudovať výkonný model hlbokého učenia pomocou iba ich lokálnych údajov. Zistenie, že tieto dva prístupy boli na všetkých troch predikčných úlohách globálnym modelom FL lepší, naznačuje, že prínos pre klientske lokality s malými databázami vyplývajúcimi z účasti na spolupráci FL je značný. To je pravdepodobne odrazom schopnosti FL zachytiť viac rozmanitosti ako miestne školenie a zmierniť predsudky prítomné v modelo . 46 The validation results confirmed that the global model is robust, supporting our hypothesis that FL-trained models are generalizable across healthcare systems. They provide a compelling case for the use of predictive algorithms in COVID-19 patient care, and the use of FL in model creation and testing. By participating in this study the client sites received access to EXAM, to be further validated ahead of pursuing any regulatory approval or future introduction into clinical care. Plans are under way to validate EXAM prospectively in ‘production’ settings at MGB leveraging COVID-19 targeted resources , ako aj na rôznych miestach, ktoré neboli súčasťou školenia EXAM. 53 Viac ako 200 predikčných modelov na podporu rozhodovania u pacientov s COVID-19 bolo publikovaných . Unlike the majority of publications focused on diagnosis of COVID-19 or prediction of mortality, we predicted oxygen requirements that have implications for patient management. We also used cases with unknown SARS-COV-2 status, and so the model could provide input to the physician ahead of receiving a result for PCR with reverse transcription (RT–PCR), making it useful for a real-life clinical setting. The model’s imaging input is used in common practice, in contrast with models that use chest computed tomography, a nonconsensual diagnostic modality. The model’s design was constrained to objective predictors, unlike many published studies that leveraged subjective clinical impressions. The data collected reflect varied incidence rates, and thus the ‘population momentum’ we encountered is more diverse. This implies that the algorithm can be useful in populations with different incidence rates. 19 Patient cohort identification and data harmonization are not novel issues in research and data science , but are further complicated, when using FL, given the lack of visibility on other sites’ datasets. Improvements to clinical information systems are needed to streamline data preparation, leading to better leverage of a network of sites participating in FL. This, in conjunction with hyperparameter engineering, can allow algorithms to ‘learn’ more effectively from larger data batches and adapt model parameters to a particular site for further personalization—for example, through further fine-tuning on that site Systém, ktorý by umožnil bezproblémové, takmer v reálnom čase modelové odvodenie a spracovanie výsledkov, by bol tiež prospešný a "zatvoril kruh" od školenia po nasadenie modelu. 54 39 Because data were not centralized they are not readily accessible. Given that, any future analysis of the results, beyond what was derived and collected, is limited. Similar to other machine learning models, EXAM is limited by the quality of the training data. Institutions interested in deploying this algorithm for clinical care need to understand potential biases in the training. For example, the labels used as ground truth in the training of the EXAM model were derived from 24- and 72-h oxygen consumption in the patient; it is assumed that oxygen delivered to the patient equates the oxygen need. However, in the early phase of the COVID-19 pandemic, many patients were provided high-flow oxygen prophylactically regardless of their oxygen need. Such clinical practice could skew the predictions made by this model. Since our data access was limited, we did not have sufficient available information for the generation of detailed statistics regarding failure causes, post hoc, at most sites. However, we did study failure cases from the largest independent test site, CDH, and were able to generate hypotheses that we can test in the future. For high-performing sites, it seems that most failure cases fall into one of two categories: (1) low quality of input data—for example, missing data or motion artifact in CXR; or (2) out-of-distribution data—for example a very young patient. V budúcnosti plánujeme tiež preskúmať potenciál pre „populačný drift“ v dôsledku rôznych fáz progresie ochorenia. A feature that would enhance these kinds of large-scale collaboration is the ability to predict the contribution of each client site towards improving the global FL model. This will help in client site selection, and in prioritization of data acquisition and annotation efforts. The latter is especially important given the high costs and difficult logistics of these large-consortia endeavors, and it will enable these endeavors to capture diversity rather than the sheer quantity of data samples. Budúce prístupy môžu zahŕňať automatizované vyhľadávanie hyperparametrov , neural architecture search a ďalšie automatizované strojové učenie prístupy na nájdenie optimálnych tréningových parametrov pre každú klientsku stránku efektívnejšie. 55 56 57 Known issues of batch normalization (BN) in FL motivovali nás opraviť náš základný model pre extrakciu obrazových funkcií Budúca práca by mohla preskúmať rôzne typy techník normalizácie, ktoré umožnia školenie modelov AI vo FL efektívnejšie, keď sú dáta klientov nezávislé a rovnomerne rozdelené. 58 49 Recent works on privacy attacks within the FL setting have raised concerns on data leakage during model training Medzitým ochranné algoritmy zostávajú nepreskúmané a obmedzené viacerými faktormi. , , vykazujú dobrú ochranu, môžu oslabiť výkon modelu. šifrovacie algoritmy, ako je homomorfné šifrovanie Kvantifikovateľný spôsob merania súkromia by umožnil lepšie voľby pre rozhodovanie o minimálnych parametroch súkromia potrebných pri zachovaní klinicky prijateľného výkonu , , . 59 36 48 49 60 36 48 49 Following further validation, we envision deployment of the EXAM model in the ED setting as a way to evaluate risk at both the per-patient and population level, and to provide clinicians with an additional reference point when making the frequently difficult task of triaging patients. We also envision using the model as a more sensitive population-level metric to help balance resources between regions, hospitals and departments. Our hope is that similar FL efforts can break the data silos and allow for faster development of much-needed AI models in the near future. Metódy Ethics approval All procedures were conducted in accordance with the principles for human experimentation as defined in the Declaration of Helsinki and International Conference on Harmonization Good Clinical Practice guidelines, and were approved by the relevant institutional review boards at the following validation sites: CDH, MVH, NCH and at the following training sites: MGB, Mass General Hospital (MGH), Brigham and Women’s Hospital, Newton-Wellesley Hospital, North Shore Medical Center and Faulkner Hospital (all eight of these hospitals were covered under MGB’s ethics board reference, no. 2020P002673, and informed consent was waived by the instititional review board (IRB). Similarly, participation of the remaining sites was approved by their respective relevant institutional review processes: Children’s National Hospital in Washington, DC (no. 00014310, IRB certified exempt); NIHR Cambridge Biomedical Research Centre (no. 20/SW/0140, informed consent waived); The Self-Defense Forces Central Hospital in Tokyo (no. 02-014, informed consent waived); National Taiwan University MeDA Lab and MAHC and Taiwan National Health Insurance Administration (no. 202108026 W, informed consent waived); Tri-Service General Hospital in Taiwan (no. B202105136, informed consent waived); Kyungpook National University Hospital in South Korea (no. KNUH 2020-05-022, informed consent waived); Faculty of Medicine, Chulalongkorn University in Thailand (nos. 490/63, 291/63, informed consent waived); Diagnosticos da America SA in Brazil (no. 26118819.3.0000.5505, informed consent waived); University of California, San Francisco (no. 20-30447, informed consent waived); VA San Diego (no. H200086, IRB certified exempt); University of Toronto (no. 20-0162-C, informed consent waived); National Institutes of Health in Bethesda, Maryland (no. 12-CC-0075, informed consent waived); University of Wisconsin-Madison School of Medicine and Public Health (no. 2016-0418, informed consent waived); Memorial Sloan Kettering Cancer Center in New York (no. 20-194, informed consent waived); and Mount Sinai Health System in New York (no. IRB-20-03271, informed consent waived). MI-CLAIM guidelines for reporting of clinical AI models were followed (Supplementary Note ) 2 Štúdium Setting The study included data from 20 institutions (Fig. ): MGB, MGH, Brigham and Women’s Hospital, Newton-Wellesley Hospital, North Shore Medical Center and Faulkner Hospital; Children’s National Hospital in Washington, DC; NIHR Cambridge Biomedical Research Centre; The Self-Defense Forces Central Hospital in Tokyo; National Taiwan University MeDA Lab and MAHC and Taiwan National Health Insurance Administration; Tri-Service General Hospital in Taiwan; Kyungpook National University Hospital in South Korea; Faculty of Medicine, Chulalongkorn University in Thailand; Diagnosticos da America SA in Brazil; University of California, San Francisco; VA San Diego; University of Toronto; National Institutes of Health in Bethesda, Maryland; University of Wisconsin-Madison School of Medicine and Public Health; Memorial Sloan Kettering Cancer Center in New York; and Mount Sinai Health System in New York. Institutions were recruited between March and May 2020. Dataset curation started in June 2020 and the final data cohort was added in September 2020. Between August and October 2020, 140 independent FL runs were conducted to develop the EXAM model and, by the end of October 2020, EXAM was made public on NVIDIA NGC , , Údaje z troch nezávislých lokalít boli použité na nezávislé overenie: CDH, MVH a NCH, všetky v Massachusetts, USA. Tieto tri nemocnice mali charakteristiky populácie pacientov odlišné od miest výcviku. Údaje použité na algoritmickú validáciu pozostávali z pacientov prijatých na ED na týchto miestach medzi marcom 2020 a februárom 2021, ktoré spĺňali rovnaké kritériá začlenenia ako údaje použité na výcvik modelu FL. 1a 61 62 63 Zber dát 20 klientskych lokalít pripravilo celkovo 16 148 prípadov (pozitívnych aj negatívnych) na účely výcviku, validácie a testovania modelu (Obr. Lekárske údaje boli prístupné vo vzťahu k pacientom, ktorí spĺňali kritériá zahrnutia do štúdie. Klienti sa snažili zahrnúť všetky prípady COVID-pozitívne od začiatku pandémie v decembri 2019 až do času, keď začali miestne školenia pre štúdiu EXAM. Všetky miestne školenia začali 30. septembra 2020. Na stránkach boli zahrnutí aj iní pacienti v rovnakom období s negatívnymi výsledkami RT-PCR testov. Keďže väčšina stránok mala viac pacientov s SARS-COV-2 negatívnymi ako -pozitívnymi, počet negatívnych pacientov zahrnutých sme obmedzili na maximálne 95% z celkových prípadov na každom klientskom mieste. 1B A ‘case’ included a CXR and the requisite data inputs taken from the patient’s medical record. A breakdown of the cohort size of the dataset for each client site is shown in Fig. Rozloženie a vzory intenzity obrazu CXR (hodnoty pixelov) sa medzi lokalitami značne líšili v dôsledku množstva faktorov špecifických pre pacienta a lokalitu, ako sú napríklad rôzni výrobcovia zariadení a zobrazovacie protokoly, ako je znázornené na obrázku. . Patient age and EMR feature distribution varied greatly among sites, as expected owing to the differing demographics between globally distributed hospitals (Extended Data Fig. ) sa 1B 1 C, D 6 Kritériá začlenenia pacientov Kritériá zahrnutia pacientov boli: (1) pacient bol predložený do nemocnice ED alebo ekvivalentný; (2) pacient mal RT-PCR test vykonaný kedykoľvek medzi predložením ED a vypúšťaním z nemocnice; (3) pacient mal CXR v ED; a (4) záznam pacienta mal najmenej päť hodnôt EMR uvedených v tabuľke. , všetky získané v ED, a príslušné výsledky zachytené počas hospitalizácie. Poznámka, CXR, laboratórne výsledky a použité životné údaje boli prvé k dispozícii na zachytenie počas návštevy ED. Model nezahŕňal žiadne CXR, laboratórne výsledky alebo životné údaje získané po opustení ED. 1 Model input In total, 21 EMR features were used as input to the model. The outcome (that is, ground truth) labels were assigned based on patient requirements after 24- and 72-h periods from initial admission to the ED. A detailed list of the requested EMR features and outcomes can be seen in Table . 1 Distribúcia spracovania kyslíka pomocou rôznych zariadení na rôznych klientskych lokalitách je znázornená v rozšírenej dátovej tabuľke. , which details the device usage at admission to the ED and after 24- and 72-h periods. The difference in dataset distribution between the largest and smallest client sites can be seen in Extended Data Fig. . 7 8 Počet pozitívnych prípadov COVID-19, potvrdený jedným RT-PCR testom získaným kedykoľvek medzi predložením ED a vypúšťaním z nemocnice, je uvedený v doplnkovej tabuľke Každý klientsky web bol požiadaný, aby náhodne rozdelil svoju databázu do troch častí: 70% pre školenie, 10% pre validáciu a 20% pre testovanie.Pre modely predpovedania výsledkov 24 a 72 hodín boli nezávisle generované náhodné rozdelenia pre každý z troch opakovaných miestnych a FL školiacich a hodnotiacich experimentov. 1 Vývoj skúšobného modelu There is wide variation in the clinical course of patients who present to hospital with symptoms of COVID-19, with some experiencing rapid deterioration in respiratory function requiring different interventions to prevent or mitigate hypoxemia , . A critical decision made during the evaluation of a patient at the initial point of care, or in the ED, is whether the patient is likely to require more invasive or resource-limited countermeasures or interventions (such as MV or monoclonal antibodies), and should therefore receive a scarce but effective therapy, a therapy with a narrow risk–benefit ratio due to side effects or a higher level of care, such as admittance to the intensive care unit . In contrast, a patient who is at lower risk of requiring invasive oxygen therapy may be placed in a less intensive care setting such as a regular ward, or even released from the ED for continuing self-monitoring at home . EXAM was developed to help triage such patients. 62 63 64 65 Je potrebné poznamenať, že model nie je v súčasnosti schválený žiadnou regulačnou agentúrou a mal by sa používať iba na výskumné účely. Skúška skóre EXAM bol vyškolený pomocou FL; produkuje rizikové skóre (tzv. skóre EXAM) podobné CORISK (Extended Data Fig. ) and can be used in the same way to triage patients. It corresponds to a patient’s oxygen support requirements within two windows—24 and 72 h—after initial presentation to the ED. Extended Data Fig. illustrates how CORISK and the EXAM score can be used for patient triage. 27 9a 9b Chest X-ray images were preprocessed to select the anterior position image and exclude lateral view images, and then scaled to a resolution of 224 × 224. As shown in Extended Data Fig. , model spája informácie z funkcií EMR a CXR (na základe modifikovaného ResNet34 s priestorovou pozornosťou predtrénované na databáze CheXpert) and the Deep & Cross network Na zosúladenie týchto rôznych typov údajov bol z každého obrazu CXR extrahovaný 512-dimenzionálny vektor funkcie pomocou predtrénovaného ResNet34, s priestorovou pozornosťou, potom spojený s funkciami EMR ako vstupom pre sieť Deep & Cross. Konečný výstup bol kontinuálna hodnota v rozsahu 0-1 pre predpovede 24 a 72 hodín, zodpovedajúce štítkom opísaným vyššie, ako je znázornené na obrázku Rozšírené údaje. . We used cross-entropy as the loss function and ‘Adam’ as the optimizer. The model was implemented in Tensorflow using the NVIDIA Clara Train SDK . The average AUC for the classification tasks (≥LFO, ≥HFO/NIV or ≥MV) was calculated and used as the final evaluation metric, with normalization to zero-mean and unit variance. CXR images were preprocessed to select the correct series and exclude lateral view images, then scaled to a resolution of 224 × 224 (ref. ). 9a 66 67 68 9b 69 70 27 Funkcia imputácie a normalizácie Algoritmus zlyhania was used to impute EMR features, based on the local training dataset. If an EMR feature was completely missing from a client site dataset, the mean value of that feature, calculated exclusively on data from MGB client sites, was used. Then, EMR features were rescaled to zero-mean and unit variance based on statistics calculated on data from the MGB client sites. 71 Podrobnosti o fúzii údajov EMR-CXR pomocou siete Deep & Cross Na modelovanie interakcií funkcií z údajov EMR a CXR na úrovni prípadu sa použila schéma hlbokých funkcií založená na sieťovej architektúre Deep & Cross. Binárne a kategorické funkcie pre vstupy EMR, ako aj 512-dimenzionálne obrazové funkcie v CXR, boli premenené na zlúčené husté vektory reálnych hodnôt vložením a stohovaním vrstiev. Transformované husté vektory slúžili ako vstupy do rámca fúzie, ktorý špecificky využíval križovatkovú sieť na vynútenie fúzie medzi vstupmi z rôznych zdrojov. Križovatková sieť vykonávala explicitné križovanie funkcií v rámci svojich vrstiev, vedením vnútorných produktov medzi pôvodnou vstupnou funkciou a výstupom z predchádzajúcej vrstvy, čím sa zvýšil stupeň interakcie medzi funkciami. Zároveň boli vyškolené dve samostatné klasické hlboké neurálne siete s niekoľkými 68 FL Podrobnosti Pravdepodobne najvyspelejšou formou FL je implementácia federovaného priemerného algoritmu, ako navrhol McMahan et al. , alebo jeho variácie. Tento algoritmus možno realizovať pomocou nastavenia klient-server, kde každá zúčastnená lokalita koná ako klient. FL možno považovať za metódu zameranú na minimalizáciu globálnej stratovej funkcie znížením množstva lokálnych stratových funkcií, ktoré sa odhadujú na každom mieste. Minimalizáciou lokálnej straty každej klientskej lokality a zároveň synchronizáciou učených váh klientskej lokality na centralizovanom agregácii servera, možno minimalizovať globálnu stratu bez toho, aby sa muselo pristupovať k celej databáze v centralizovanom umiestnení. Každá klientska lokalita sa učí lokálne a zdieľa aktualizácie hmotnosti modelu s centrálnym serverom, ktorý agreguje príspevky pomocou zabezpečených šifrovacích vrstiev zásuviek a ) sa 72 9c Pseudoalgoritmus FL je uvedený v doplnkovej poznámke . In our experiments, we set the number of federated rounds at = 200, with one local training epoch per round at each client. The number of clients, , bolo až 20 v závislosti od sieťovej konektivity klientov alebo dostupných údajov pre konkrétne cielené obdobie výsledkov (24 alebo 72 hodín). , depends on the dataset size at each client a používa sa na zváženie príspevkov každého klienta pri agregácii modelových váh v federovanom priemere. Počas tréningovej úlohy FL každá klientska lokalita vyberá svoj najlepší lokálny model sledovaním výkonu modelu na svojej lokálnej validácii. Zároveň server určuje najlepší globálny model na základe priemerných výsledkov validácie odoslaných z každej klientskej lokality na server po každom kole FL. Po ukončení tréningu FL sa najlepšie lokálne modely a najlepší globálny model automaticky zdieľajú so všetkými klientskymi lokalitami a vyhodnocujú sa na ich lokálnych testovacích údajoch. 1 T t K nk k When training on local data only (the baseline), we set the epoch number to 200. The Adam optimizer was used for both local training and FL with an initial learning rate of 5 × 10–5 and a stepwise learning rate decay with a factor 0.5 after every 40 epochs, which is important for the convergence of federated averaging . Random affine transformations, including rotation, translations, shear, scaling and random intensity noise and shifts, were applied to the images for data augmentation during training. 73 Owing to the sensitivity of BN layers pri zaobchádzaní s rôznymi klientmi v nezávislom a identicky distribuovanom prostredí sme zistili, že najlepší modelový výkon sa vyskytol pri udržiavaní predtrénovaného ResNet34 s priestorovou pozornosťou parameters fixed during FL training (that is, using a learning rate of zero for those layers). The Deep & Cross network that combines image features with EMR features does not contain BN layers and hence was not affected by BN instability issues. 58 47 V tejto štúdii sme preskúmali schému ochrany súkromia, ktorá zdieľa iba čiastočné aktualizácie modelu medzi serverom a klientskymi lokalitami. Aktualizácie hmotnosti boli počas každej iterácie zoradené podľa veľkosti príspevku a iba určité percento najväčších aktualizácií hmotnosti bolo zdieľaných so serverom. f) Rozšírené údaje na obrázku. ), ktorý bol vypočítaný zo všetkých non-zero gradientov, Δ , a môže byť pre každého klienta iný V každom okruhu Variácie tejto schémy môžu zahŕňať dodatočné prerezávanie veľkých gradientov alebo diferenciálne schémy ochrany osobných údajov. ktoré pridávajú náhodný hluk k gradientom alebo dokonca k surovým údajom pred vstupom do siete . k 5 Kľúčové slovo(t) k t 49 51 Štatistická analýza We conducted a Wilcoxon signed-rank test to confirm the significance of the observed improvement in performance between the locally trained model and the FL model for the 24- and 72-h time points (Fig. Rozšírené dáta Fig. Nulová hypotéza bola jednostranne zamietnutá. 1 × 10–3 v oboch prípadoch. 2 1 P Pearsonova korelácia bola použitá na posúdenie zovšeobecniteľnosti (robustnosť priemerných hodnôt AUC k testovacím údajom iných klientskych lokalít) lokálne vyškolených modelov vo vzťahu k veľkosti miestnej databázy. = 0,43 alebo = 0,035, stupne slobody (df) = 17 pre 24-hodinový model a = 0,62 alebo = 0,003, df = 16 pre model 72-h).To naznačuje, že veľkosť súboru údajov samotná nie je jediným faktorom určujúcim robustnosť modelu voči neviditeľným údajom. r P r P Pre porovnanie kriviek ROC z globálneho modelu FL a miestnych modelov vyškolených na rôznych miestach (rozšírené údaje na obrázku. ), vyskúšali sme 1000 vzoriek z údajov a vypočítali výsledné AUC. Potom sme vypočítali rozdiel medzi dvoma sériami a štandardizovali pomocou vzorca = (AUC1 – AUC2) alebo Kde kde je štandardizovaný rozdiel, je štandardná odchýlka rozdielov bootstrap a AUC1 a AUC2 sú zodpovedajúce série bootstrapped AUC. s normálnym rozdelením sme získali values illustrated in Supplementary Table Výsledky ukazujú, že nulová hypotéza bola odmietnutá s veľmi nízkou hodnoty, ktoré naznačujú štatistický význam nadradenosti výsledkov FL. Výpočet hodnoty boli vykonané v R s knižnicou pROC . 3 D s D s D P 2 P P 74 Keďže model predpovedá diskrétny výsledok, kontinuálne skóre od 0 do 1, nie je možné jednoduché kalibračné hodnotenie, ako je qqplot. Vykonali sme jednosmernú analýzu variácie (ANOVA) testy na porovnanie miestnych a FL modelových skóre medzi štyrmi kategóriami pozemnej pravdy (RA, LFO, HFO, MV). - štatistický, vypočítaný ako variabilita medzi vzorkou znamená rozdelená na variabilitu vo vnútri vzorky a predstavujúca stupeň disperzie medzi rôznymi skupinami, bol použitý na kvantifikáciu modelov. -hodnoty piatich rôznych lokálnych lokalít sú 245.7, 253.4, 342.3, 389.8 a 634.8, zatiaľ čo hodnota modelu FL je 843.5. -hodnoty znamenajú, že skupiny sú oddeliteľnejšie, skóre z nášho modelu FL jasne ukazujú väčšie rozptýlenie medzi štyrmi kategóriami základnej pravdy. hodnota testu ANOVA na modeli FL je <2 × 10–16, čo naznačuje, že skóre predikcie FL sa medzi rôznymi triedami predikcie štatisticky významne líšia. 10 F F F P Zhrnutie správy Ďalšie informácie o výskume sú k dispozícii v linked to this article. Zhrnutie výskumu v prírode Dostupnosť údajov Tieto údaje boli použité na školenia na každej z miestnych lokalít a neboli zdieľané s žiadnou z ostatných zúčastnených inštitúcií alebo s federovaným serverom, a nie sú verejne dostupné. Údaje z nezávislých validácie lokalít sú udržiavané CAMCA, a prístup možno požiadať kontaktovaním Q.L. Na základe rozhodnutia CAMCA, preskúmanie zdieľania údajov a úpravy IRB na výskumné účely môže byť vykonaná MGB výskumnej správy a v súlade s MGB IRB a politiky. Kód dostupnosti Všetok kód a softvér použitý v tejto štúdii sú verejne dostupné na NGC. Ak chcete získať prístup, prihlásiť sa ako hosť alebo vytvoriť profil, zadajte jednu z nižšie uvedených adresárov URL. Školené modely, pokyny na prípravu údajov, kód na školenie, overenie testovania modelu, súbor readme, pokyny na inštaláciu a licenčné súbory sú verejne dostupné na NVIDIA NGC : → Federovaný vzdelávací softvér je k dispozícii ako súčasť Clara Train SDK: Prípadne použite tento príkaz na stiahnutie modelu „wget --content-disposition -O clara_train_covid19_exam_ehr_xray_1.zip“. 61 https://ngc.nvidia.com/catalog/models/nvidia:med:clara_train_covid19_exam_ehr_xray https://ngc.nvidia.com/catalog/containers/nvidia:clara-train-sdk https://api.ngc.nvidia.com/v2/models/nvidia/med/clara_train_covid19_exam_ehr_xray/versions/1/zip Referencie Budd, J. et al. Digital technologies in the public-health response to COVID-19. , 1183–1192 (2020). Nat. Med. 26 Moorthy, V., Henao Restrepo, A. M., Preziosi, M.-P. & Swaminathan, S. Data sharing for novel coronavirus (COVID-19). , 150 (2020). Bull. World Health Organ. 98 Chen, Q., Allot, A. & Lu, Z. Keep up with the latest coronavirus research. , 193 (2020). Nature 579 Fabbri, F., Bhatia, A., Mayer, A., Schlotter, B. & Kaiser, J. BCG IT spend pulse: how COVID-19 is shifting tech priorities. (2020). https://www.bcg.com/publications/2020/how-covid-19-is-shifting-big-it-spend Candelon, F., Reichert, T., Duranton, S., di Carlo, R. C. & De Bondt, M. The rise of the AI-powered company in the postcrisis world. (2020). https://www.bcg.com/en-gb/publications/2020/business-applications-artificial-intelligence-post-covid Chao, H. et al. Integrative analysis for COVID-19 patient outcome prediction. , 101844 (2021). Med. Image Anal. 67 Zhu, X. et al. Joint prediction and time estimation of COVID-19 developing severe symptoms using chest CT scan. , 101824 (2021). Med. Image Anal. 67 Yang, D. et al. Federated semi-supervised learning for Covid region segmentation in chest ct using multi-national data from China, Italy, Japan. , 101992 (2021). Med. Image Anal. 70 Minaee, S., Kafieh, R., Sonka, M., Yazdani, S. & Jamalipour Soufi, G. Deep-COVID: predicting COVID-19 from chest X-ray images using deep transfer learning. , 101794 (2020). Med. Image Anal. 65 COVID-19 Studies from the World Health Organization Database. (2020). https://clinicaltrials.gov/ct2/who_table ACTIV. (2020). https://www.nih.gov/research-training/medical-research-initiatives/activ Coronavirus Treatment Acceleration Program (CTAP). US Food and Drug Administration (2020). https://www.fda.gov/drugs/coronavirus-covid-19-drugs/coronavirus-treatment-acceleration-program-ctap Gleeson, P., Davison, A. P., Silver, R. A. & Ascoli, G. A. A commitment to open source in neuroscience. , 964–965 (2017). Neuron 96 Piwowar, H. et al. The state of OA: a large-scale analysis of the prevalence and impact of open access articles. , e4375 (2018). PeerJ. 6 European Society of Radiology (ESR). What the radiologist should know about artificial intelligence – an ESR white paper. , 44 (2019). Insights Imaging 10 Pesapane, F., Codari, M. & Sardanelli, F. Artificial intelligence in medical imaging: threat or opportunity? Radiologists again at the forefront of innovation in medicine. , 35 (2018). Eur. Radiol. Exp. 2 Price, W. N. 2nd & Cohen, I. G. Privacy in the age of medical big data. , 37–43 (2019). Nat. Med. 25 Liang, W. et al. Development and validation of a clinical risk score to predict the occurrence of critical illness in hospitalized patients with COVID-19. , 1081–1089 (2020). JAMA Intern. Med. 180 Wynants, L. et al. Prediction models for diagnosis and prognosis of covid-19 infection: systematic review and critical appraisal. , m1328 (2020). Brit. Med. J. 369 Zhang, L. et al. D-dimer levels on admission to predict in-hospital mortality in patients with Covid-19. , 1324–1329 (2020). J. Thromb. Haemost. 18 Sands, K. E. et al. Patient characteristics and admitting vital signs associated with coronavirus disease 2019 (COVID-19)-related mortality among patients admitted with noncritical illness. (2020). https://doi.org/10.1017/ice.2020.461 American College of Radiology. CR recommendations for the use of chest radiography and computed tomography (CT) for suspected COVID-19 infection. (2020). https://www.acr.org/Advocacy-and-Economics/ACR-Position-Statements/Recommendations-for-Chest-Radiography-and-CT-for-Suspected-COVID19-Infection Rubin, G. D. et al. The role of chest imaging in patient management during the COVID-19 pandemic: a multinational consensus statement from the Fleischner Society. , 172–180 (2020). Radiology 296 World Health Organization. Use of chest imaging in COVID-19. (2020). https://www.who.int/publications/i/item/use-of-chest-imaging-in-covid-19 Jamil, S. et al. Diagnosis and management of COVID-19 disease. , 10 (2020). Am. J. Respir. Crit. Care Med. 201 Redmond, C. E., Nicolaou, S., Berger, F. H., Sheikh, A. M. & Patlas, M. N. Emergency radiology during the COVID-19 pandemic: The Canadian Association of Radiologists Recommendations for Practice. , 425–430 (2020). Can. Assoc. Radiologists J. 71 Buch, V. et al. Development and validation of a deep learning model for prediction of severe outcomes in suspected COVID-19 Infection. Preprint at (2021). https://arxiv.org/abs/2103.11269 Lyons, C. & Callaghan, M. The use of high-flow nasal oxygen in COVID-19. , 843–847 (2020). Anaesthesia 75 Whittle, J. S., Pavlov, I., Sacchetti, A. D., Atwood, C. & Rosenberg, M. S. Respiratory support for adult patients with COVID-19. , 95–101 (2020). J. Am. Coll. Emerg. Physicians Open 1 Ai, J., Li, Y., Zhou, X. & Zhang, W. COVID-19: treating and managing severe cases. , 370–371 (2020). Cell Res. 30 Esteva, A. et al. A guide to deep learning in healthcare. , 24–29 (2019). Nat. Med. 25 Cahan, E. M., Hernandez-Boussard, T., Thadaney-Israni, S. & Rubin, D. L. Putting the data before the algorithm in big data addressing personalized healthcare. , 78 (2019). NPJ Digit. Med. 2 Thrall, J. H. et al. Artificial intelligence and machine learning in radiology: opportunities, challenges, pitfalls, and criteria for success. , 504–508 (2018). J. Am. Coll. Radiol. 15 Shilo, S., Rossman, H. & Segal, E. Axes of a revolution: challenges and promises of big data in healthcare. , 29–38 (2020). Nat. Med. 26 Gao, Y. & Cui, Y. Deep transfer learning for reducing health care disparities arising from biomedical data inequality. , 5131 (2020). Nat. Commun. 11 Rieke, N. et al. The future of digital health with federated learning. , 119 (2020). NPJ Dig. Med. 3 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. 10 Ma, C. et al. On safeguarding privacy and security in the framework of federated learning. , 242–248 (2020). IEEE Netw. 34 Brisimi, T. S. et al. Federated learning of predictive models from federated Electronic Health Records. , 59–67 (2018). Int. J. Med. Inform. 112 Roth, H. R. et al. Federated learning for breast density classification: a real-world implementation. In , (eds. Albarqouni, S. et al.) Vol. 12,444, 181–191 (Springer International Publishing, 2020). Proc. Second MICCAI Workshop, DART 2020 and First MICCAI Workshop, DCL 2020 Domain Adaptation and Representation Transfer, and Distributed and Collaborative Learning Sheller, M. J. et al. Federated learning in medicine: facilitating multi-institutional collaborations without sharing patient data. , 12598 (2020). Sci. Rep. 10 Remedios, S. W., Butman, J. A., Landman, B. A. & Pham, D. L. in (eds Remedios, S. W. et al.) (Springer, 2020). Federated Gradient Averaging for Multi-Site Training with Momentum-Based Optimizers Xu, Y. et al. A collaborative online AI engine for CT-based COVID-19 diagnosis. Preprint at (2020). https://www.medrxiv.org/content/10.1101/2020.05.10.20096073v2 Raisaro, J. L. et al. SCOR: A secure international informatics infrastructure to investigate COVID-19. , 1721–1726 (2020). J. Am. Med. Inform. Assoc. 27 Vaid, A. et al. Federated learning of electronic health records to improve mortality prediction in hospitalized patients with COVID-19: machine learning approach. , e24207 (2021). JMIR Med. Inform. 9 Nino, G. et al. Pediatric lung imaging features of COVID-19: a systematic review and meta-analysis. , 252–263 (2021). Pediatr. Pulmonol. 56 Fredrikson, M., Jha, S. & Ristenpart, T. Model inversion attacks that exploit confidence information and basic countermeasures. In 1322–1333, (2015). Proc. 22nd ACM SIGSAC Conference on Computer and Communications Security https://doi.org/10.1145/2810103.2813677 Zhu, L., Liu, Z. & Han, S. in (eds Wallach, H. et al.) 14774–14784 (Curran Associates, Inc., 2019). Advances in Neural Information Processing Systems 32 Kaissis, G. A., Makowski, M. R., Rückert, D. & Braren, R. F. Secure, privacy-preserving and federated machine learning in medical imaging. , 305–311 (2020). Nat. Mach. Intell. 2 Li, W. et al. in 133–141 (Springer, 2019). Privacy-Preserving Federated Brain Tumour Segmentation Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In (2015). Proc. 53rd Annual Allerton Conference on Communication, Control, and Computing (Allerton) https://doi.org/10.1109/allerton.2015.7447103 Li, X. et al. Multi-site fMRI analysis using privacy-preserving federated learning and domain adaptation: ABIDE results. , 101765 (2020). Med. Image Anal. 65 Estiri, H. et al. Predicting COVID-19 mortality with electronic medical records. , 15 (2021). NPJ Dig. Med. 4 Jiang, G. et al. Harmonization of detailed clinical models with clinical study data standards. , 65–74 (2015). Methods Inf. Med. 54 Yang, D. et al. in . (2019). Searching Learning Strategy with Reinforcement Learning for 3D Medical Image Segmentation https://doi.org/10.1007/978-3-030-32245-8_1 Elsken, T., Metzen, J. H. & Hutter, F. Neural architecture search: a survey. , 1–21 (2019). J. Mach. Learning Res. 20 Yao, Q. et al. Taking human out of learning applications: a survey on automated machine learning. Preprint at (2019). https://arxiv.org/abs/1810.13306 Ioffe, S. & Szegedy, C. Batch normalization: accelerating deep network training by reducing internal covariate shift. In , PMLR , 448–456 (2015). Proc. 32nd International Conf. Machine Learning 37 Kaufman, S., Rosset, S. & Perlich, C. Leakage in data mining: formulation, detection, and avoidance. In , 556–563 (2011). Proc. 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Zhang, C. et al. BatchCrypt: efficient homomorphic encryption for cross-silo federated learning. In , 493–506 (2020). Proc. 2020 USENIX Annual Technical Conference, ATC 2020 . (2020). Nvidia NGC Catalog: COVID-19 Related Models https://ngc.nvidia.com/catalog/models?orderBy=scoreDESC&pageNumber=0&query=covid&quickFilter=models&filters Marini, J. J. & Gattinoni, L. Management of COVID-19 respiratory distress. , 2329–2330 (2020). JAMA 323 Cook, T. M. et al. Consensus guidelines for managing the airway in patients with COVID-19: Guidelines from the Difficult Airway Society, the Association of Anaesthetists the Intensive Care Society, the Faculty of Intensive Care Medicine and the Royal College of Anaesthetist. , 785–799 (2020). Anaesthesia 75 Galloway, J. B. et al. A clinical risk score to identify patients with COVID-19 at high risk of critical care admission or death: an observational cohort study. , 282–288 (2020). J. Infect. 81 Kilaru, A. S. et al. Return hospital admissions among 1419 COVID-19 patients discharged from five U.S. emergency departments. , 1039–1042 (2020). Acad. Emerg. Med. 27 He, K., Zhang, X., Ren, S. & Sun, J. Deep residual learning for image recognition. In (2016). Proc. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) https://doi.org/10.1109/cvpr.2016.90 Irvin, J. et al. CheXpert: a large chest radiograph dataset with uncertainty labels and expert comparison. , 590–597 (2019). Proc. AAAI Conf. Artif. Intell. 33 Wang, R., Fu, B., Fu, G. & Wang, M. Deep & Cross network for Ad Click predictions. In Article no. 12 (2017). Proc. ADKDD’17 Abadi, M. et al. TensorFlow: asystem for large-scale machine learning. In , USENIX Association 265–283 (2016). 12th USENIX Symposium on Operating Systems Design and Implementation (OSDI 16) . (2020). NVIDIA Clara Imaging https://developer.nvidia.com/clara-medical-imaging Stekhoven, D. J. & Bühlmann, P. MissForest–non-parametric missing value imputation for mixed-type data. , 112–118 (2012). Bioinformatics 28 McMahan, H., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. (2017). http://proceedings.mlr.press/v54/mcmahan17a.html Hsieh, K., Phanishayee, A., Mutlu, O. & Gibbons, P. B. The non-IID data quagmire of decentralized machine learning. In PMLR 119 (2020). Proc. 37th International Conf. Machine Learning Robin, X. et al. pROC: an open-source package for R and S+ to analyze and compare ROC curves. , 77 (2011). BMC Bioinformatics 12 uznanie MGB ďakuje nasledujúcim jednotlivcom za ich podporu: J. Brink, Oddelenie rádiológie, Massachusetts General Hospital, Boston, MA; N. Guo, Center for Advanced Medical Computing and Analysis, Department of Radiology, Massachusetts General Hospital, Department of Radiology, Massachusetts General Medical School, Harvard Medical School, Boston, MA; MA; MA; J. K. Cramer, riaditeľ Centra pre klinickú vedu údajov, Massachusetts General Brigham, Boston, MA; T. Schultz, Center for Biomic Imaging at MGH; S. Pomantz, Department of Radiology, Storing General Hospital, U.S. Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston; MA J. K. Cramer, riaditeľ tohto výskumu, QTIM laboratórium v Harvarde. Prostredníctvom Lekárskej fakulty Chulalongkorn University ďakujeme Ratchadapisek Sompoch Endowment Fund RA (PO) (č. 001/63) za zhromažďovanie a správu klinických údajov a biologických vzoriek súvisiacich s COVID-19 pre Výskumnú pracovnú skupinu, Lekársku fakultu, Chulalongkorn University. NIHR Cambridge Biomedical Research Center ďakuje A. Priestovi, ktorý je podporovaný NIHR (Cambridge Biomedical Research Centre at Cambridge University Hospitals NHS Foundation Trust). Národná tajvanská univerzita MeDA Lab a MAHC a Taiwanská národná zdravotná poisťovňa ďakujú MOST Spoločnému výskumnému centru pre technológiu AI, Národnej zdravotnej poisťovne All Vista, Taiwanu, Ministerstvu vedy a https://data.ucsf.edu/covid19 Tento dokument je k dispozícii v prírode pod licenciou CC by 4.0 Deed (Attribution 4.0 International). Tento papier je Podlieha licencii CC by 4.0 Deed (Attribution 4.0 International). K dispozícii v prírode