A New Privacy-First AI Predicts COVID Severity Using X-Rays and Medical Records

Autoři : Ittai Dayan Holger R. Roth Aoxiao Zhong Ahmed Harouni Amilcare Gentili Anas Z. Abidin Andrew Liu Anthony Beardsworth Costa Bradford J. Wood Chien-Sung Tsai Chih-Hung Wang Chun-Nan Hsu C. K. Lee Peiying Ruan Daguang Xu Dufan Wu Eddie Huang Felipe Campos Kitamura Griffin Lacey Gustavo César de Antônio Corradi Gustavo Nino Hao-Hsin Shin Hirofumi Obinata Hui Ren Jason C. Crane Jesse Tetreault Jiahui Guan John W. Garrett Joshua D. Kaggie Jung Gil Park Keith Dreyer Krishna Juluru Kristopher Kersten Marcio Aloisio Bezerra Cavalcanti Rockenbach Marius George Linguraru Masoom A. Haider Meena AbdelMaseeh Nicola Rieke Pablo F. Damasceno Pedro Mario Cruz e Silva Pochuan Wang Sheng Xu Shuichi Kawano Sira Sriswasdi Soo Young Park Thomas M. Grist Varun Buch Watsamon Jantarabenjakul Weichung Wang Won Young Tak Xiang Li Xihong Lin Young Joon Kwon Abood Quraini Andrew Feng Andrew N. Priest Baris Turkbey Benjamin Glicksberg Bernardo Bizzo Byung Seok Kim Carlos Tor-Díez Chia-Cheng Lee Chia-Jung Hsu Chin Lin Chiu-Ling Lai Christopher P. Hess Colin Compas Deepeksha Bhatia Eric K. Oermannová Evan Leibovitz Hisashi Sasaki Hitoshi Mori Isaac Yang Jae Ho Sohn Krishna Nand Keshava Murthy Li-Chen Fu Matheus Ribeiro Furtado de Mendonça Mike Fralick Min Kyu Kang Mohammad Adil Natalie Gangai Peerapon Vateekul Pierre Elnajjar Sarah Hickman Sharmila Majumdar Shelley L. McLeod Sheridan Reed Stefan Gräf Stephanie Harmon Tatsuya Kodama Thanyawee Puthanakit Tony Mazzulli Vitor Lima de Lavor Yothin Rakvongthai Yu Rim Lee Yuhong Wen Fiona J. Gilbert Mona G. Flores Quanzheng Li Autoři : Jiří Dayan Holger R. Rothová Aoxiao Zhongová Ahmed Harouni Amilcare laskavé Anas Z. Abidinová Andrej Liu Anthony Beardsworth Costaová Bradford J. Woodová Číňan-Sung Tsai Čih-Hung Wangová Čun-Nan Hsu C. K. Leeová Štěpán Ruan Daguang Xu Dufan Wu Eddie Huangová Felipe Campos Kitamuraová Griffin Laceyová Gustavo César de Antônio Corradi Gustavo Nino Hao-Hsin Shin Hirofumi Obinata Hui Ren Jason C. Craneová Jesse Tetreaultová Jiahui Guanová John W. Garrettová Joshua D. Kaggieová Park Jung Gil Keith Dreyerová Krishna Juluruová Kristýna Kerstenová Marcio Aloisio Bezerra Cavalcanti Rockenbach Marius George Linguraru Masoom A. Haiderová Meena AbdelMaseehová Nicola Riekeová Pablo F. Damasceno Pedro Mario Cruz a Silva Pochuan Wang Šeng Xu Šuichi Kawano Sira Štěpánková Jihočeský Young Park Thomas M. Gristová Varun Kniha Jídelníček Watsamon Štěpán Wang Vítězství Young Tak Jiří Li Jiří Lin Mladý Joon Kwon Abood Kuraini Andrej Feng Andrew N. Priestová Baris Turkbeyová Benjamín Glicksberg Bernardo Bizzo Hledá se Kim Karel Tor-Díez Chia-Cheng Leeová Chia-Jung Hsu Čínská Lin Čiu-Ling Lai Christopher P. Hessová Kolín Kompas Deepeksha Bhatiaová Eric K. Oermannová Evan Leibovitz Hisashi Sasaki Hitoshi Mori Isaac Yang Jáe Ho syn Krishna Nand Keshava Murthyová Li-čen Fu Matheus Ribeiro - Furtado de Mendonça Mike Fralicková Min Kyu Kang Mohammád Adil Natalie Gangaiová Peerapon Vateekul Pierre Elnajjar Sarah Hickmanová Šarmila Majumdarová Shelley L. McLeodová Sheridan Reedová Stefan Hrabě Stephanie Harmonová Tatsuya Kodamaová Štěpánka Štěpánková Tony Mazzulli Vitor Lima z práce Yothin Rakvongthai Jiří Rim Lee Jiří Wen Fiona J. Gilbertová Mona G. Floresová Květen Li Abstraktní Federated learning setting (FL) je metoda používaná k výcviku modelů umělé inteligence s daty z více zdrojů při zachování anonymity dat, čímž se odstraní mnoho překážek pro sdílení dat. Zde jsme použili data z 20 institutů po celém světě k výcviku modelu FL, nazvaného EXAM (elektronický lékařský záznam (EMR) model hrudníku X-ray AI), který předpovídá budoucí požadavky na kyslík symptomatických pacientů s COVID-19 pomocí vstupů životně důležitých znaků, laboratorních dat a hrudních rentgenových paprsků. EXAM dosáhl průměrné plochy pod křivkou (AUC) > 0,92 pro předpovídání výsledků v 24 a 72 hodinách od okamžiku počáteční prezentace do poh hlavní Vědecké, akademické, lékařské a datové vědecké komunity se spojily tváří v tvář pandemické krizi COVID-19, aby rychle posoudily nové paradigmata v oblasti umělé inteligence (AI), které jsou rychlé a bezpečné, a potenciálně podpořily sdílení dat a modelování školení a testování bez obvyklých překážek soukromí a vlastnictví dat z konvenčních kolaborací. , Poskytovatelé zdravotní péče, výzkumníci a průmysl se zaměřili na řešení nevyřešených a kritických klinických potřeb vytvořených krizí s pozoruhodnými výsledky. , , , , , , Nábor do klinických studií byl zrychlen a usnadněn vnitrostátními regulačními orgány a mezinárodním duchem spolupráce. , , Disciplíny datové analýzy a umělé inteligence vždy podporovaly otevřené a kolaborativní přístupy, které zahrnují koncepty, jako je open-source software, reprodukovatelný výzkum, datové úložiště a zpřístupňování anonymních datových souborů veřejnosti. , Pandemie zdůraznila potřebu urychleně provádět datové spolupráce, které posilují klinické a vědecké komunity při reakci na rychle se vyvíjející a rozšířené globální výzvy. sdílení dat má etické, regulační a právní složitosti, které jsou zdůrazněny, a možná poněkud komplikované, nedávným vstupem velkých technologických společností do světa zdravotnických dat , , . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Konkrétním příkladem těchto typů spolupráce je naše předchozí práce na modelu klinické podpory rozhodování (CDS) SARS-COV-2 založeném na umělé inteligenci. Tento model CDS byl vyvinut v Mass General Brigham (MGB) a byl validován přes data více zdravotnických systémů. vstupy do modelu CDS byly hrudní rentgenové (CXR) obrazy, životně důležité znaky, demografické údaje a laboratorní hodnoty, které byly prokázány v předchozích publikacích jako předvídatelné výsledků pacientů s COVID-19 , , , CXR byl vybrán jako vstup pro zobrazování, protože je široce dostupný a běžně označován pokyny, jako jsou ty, které poskytuje ACR Společnost Fleischner Podle WHO Národní thoracické společnosti , národní ministerstvo zdravotnictví COVID příručky a radiologické společnosti po celém světě Výstup modelu CDS byl skóre, zvané CORISK , které odpovídá požadavkům na podporu kyslíku a které by mohly pomoci při vyšetřování pacientů předními lékaři , , Je známo, že poskytovatelé zdravotní péče dávají přednost modelům, které byly validovány na základě jejich vlastních údajů. K dnešnímu dni většina modelů AI, včetně výše uvedeného modelu CDS, byla vyškolena a validována na „úzkých“ datech, které často postrádají rozmanitost. , To může být zmírněno školením s různými daty z více míst bez centralizace dat Použití metod, jako je transfer učení , FL je metoda používaná k výcviku modelů umělé inteligence na různých zdrojích dat, aniž by data byla přepravována nebo vystavena mimo jejich původní umístění. . 18 19 20 21 22 23 24 25 26 27 28 29 30 27 31 32 33 34 35 36 Federované učení podporuje rychlé zahájení centrálně orchestrovaných experimentů se zlepšenou vysledovatelností dat a hodnocením algoritmických změn a dopadů Jeden přístup k FL, nazývaný klient-server, odesílá „neškolený“ model na jiné servery („uzly“), které provádějí částečné vzdělávací úkoly, a zase odesílá výsledky zpět, aby byly sloučeny do centrálního („federovaného“) serveru. . 37 36 Správa dat pro FL je udržována lokálně, což zmírňuje obavy o ochranu soukromí, přičemž mezi klientskými stránkami a federovaným serverem jsou komunikovány pouze modelové váhy nebo gradienty , FL již prokázala slibnost v nedávných aplikacích lékařského zobrazování , , , Analýza COVID-19 , , Pozoruhodným příkladem je model predikce úmrtnosti u pacientů infikovaných SARS-COV-2, který používá klinické rysy, i když omezené z hlediska počtu modalit a rozsahu. . 38 39 40 41 42 43 8 44 45 46 Naším cílem bylo vyvinout robustní, generalizovatelný model, který by mohl pomoci při vyšetřování pacientů. Teoretizovali jsme, že model CDS může být úspěšně federován vzhledem k použití datových vstupů, které jsou v klinické praxi poměrně běžné a které se do značné míry nespoléhají na operátorem závislé posouzení stavu pacienta (jako jsou klinické dojmy nebo hlášené příznaky). Místo toho byly použity laboratorní výsledky, životně důležité znaky, obrazová studie a běžně zachycená demografická data (tj. věk). Proto jsme přetrénovali model CDS s různými daty pomocí přístupu klient-server FL k vývoji nového globálního modelu FL, který byl pojmenován EXAM, s využitím funkcí C Naše hypotéza spočívala v tom, že EXAM by fungoval lépe než místní modely a lépe by generalizoval systémy zdravotní péče. Výsledky Architektura modelu EXAM Model EXAM je založen na modelu CDS uvedeném výše Celkem bylo použito 20 znaků (19 z EMR a jednoho z CXR) jako vstup do modelu. Výsledky (tj. „původní pravda“) byly přiřazeny na základě léčby pacienta kyslíkem po 24 a 72 hodinách od počátečního přijetí do pohotovostního oddělení (ED). Podrobný seznam požadovaných znaků a výsledků naleznete v tabulce . 27 1 Výsledkové štítky pacientů byly nastaveny na 0, 0,25, 0,50 a 0,75 v závislosti na nejintenzivnější kyslíkové terapii, kterou pacient obdržel v předpovědním okně. Kategorie kyslíkové terapie byly vnitřní vzduch (RA), nízký průtok kyslíku (LFO), vysoký průtok kyslíku (HFO)/neinvazivní ventilace (NIV) nebo mechanická ventilace (MV). Pokud pacient zemřel v předpovědním okně, výsledná štítka byla nastavená na 1. U funkcí EMR byly použity pouze první hodnoty zachycené v ED a předběžné zpracování dat zahrnovalo deidentifikaci, imputaci chybějících hodnot a normalizaci na nulový průměr a jednotkovou varianci. Model proto sloučí informace z obou funkcí EMR a CXR, pomocí 34vrstvové konvoluční neurální sítě (ResNet34) k extrahování funkcí z CXR a Deep & Cross sítě ke spojení funkcí spolu s funkcemi EMR (pro více detailů viz Výstup modelu je skóre rizika, nazývané skóre EXAM, což je nepřetržitá hodnota v rozmezí 0–1 pro každou z 24 a 72hodinových předpovědí odpovídajících výše popsaným štítkům. Metody Federace modelu Model EXAM byl vyškolen pomocí kohorty 16,148 případů, což z něj činí nejen jeden z prvních modelů FL pro COVID-19 ale také velmi velký a multikontinentální vývojový projekt v klinicky relevantní AI (obr. 1). Údaje mezi lokalitami nebyly před extrakcí harmonizovány a vzhledem k okolnostem klinické informatiky v reálném životě autory provádět podrobnou harmonizaci datových vstupů neprovedli. ) se 1A, B 1 C, D Světová mapa ukazující 20 různých klientských stránek, které přispívají ke studiu EXAM. , Počet případů přispějících každou institucí nebo lokalitou (klient 1 představuje lokalitu přispívající největší počet případů). Chest X-ray intenzita distribuce na každém klientském místě. , Věk pacientů na každém klientském místě, ukazující minimální a maximální věk (asterisky), průměrný věk (trojúhelníky) a standardní odchylku (horizontální pruhy). . a b c d 1 Na základě výsledků zkušebních testů jsme porovnali lokálně vyškolené modely s globálním modelem FL na základě testovacích údajů každého klienta. 1 × 10–3, Wilcoxon podepsaný test) 16% (jak je definováno průměrnou AUC při spuštění modelu na příslušných místních zkušebních souborech: od 0,795 do 0,920, nebo 12,5 procentního bodu) (obr. To také vedlo k 38% zlepšení generalizovatelnosti (jak je definováno průměrnou AUC při spuštění modelu na všech testovacích sadách: od 0,667 do 0,920, nebo 25,3 procentního bodu) nejlepšího globálního modelu pro předpověď 24-hodinové ošetření kyslíkem ve srovnání s modely, které byly vyškoleny pouze na vlastních datech místa (obr. 1). Pro předvídatelné výsledky 72hodinové ošetření kyslíkem vedlo nejlepší globální modelové školení k průměrnému zlepšení výkonu o 18% ve srovnání s lokálně vyškolenými modely, zatímco generalizovatelnost globálního modelu se zlepšila v průměru o 34% (Extended Data Fig. Stabilita našich výsledků byla ověřena opakováním tří kurzů místního a FL tréninku na různých randomizovaných datových splitech. P 2a 2b 1 , Výkon na každém zkušebním nastavení klienta v předpovědi 24-hodinové ošetření kyslíkem pro modely vyškolené pouze na lokálních datech (Local) ve srovnání s nejlepším globálním modelem dostupným na serveru (FL). , Generalizovatelnost (průměrný výkon na zkušebních údajích jiných stránek, reprezentovaný průměrnou AUC) jako funkce velikosti datového souboru klienta (číslo případů).Zelená horizontální čára označuje výkonnost generalizovatelnosti nejlepšího globálního modelu. ) a klient 14 měl případy pouze s léčbou RA, takže hodnocení metriky (AUC) nebylo použitelné v žádném z těchto případů ( Údaje pro klient 14 byly také vyloučeny z výpočtu průměrné generalizovatelnosti v lokálních modelech. a b 1 Metody Lokální modely, které byly vyškoleny pomocí nevyvážených kohort (například většinou mírné případy COVID-19) výrazně těžit z FL přístupu, se podstatným zlepšením v předpovídání průměrné AUC výkonu pro kategorie s pouhými několika případy.To bylo zřejmé na klientském místě 16 (vyvážený datový soubor), s většinou pacientů zažívají mírnou závažnost onemocnění a pouze s několika těžkými případy.Model FL dosáhl vyšší pravdivé-pozitivní míru pro dva pozitivní (závažné) případy a výrazně nižší falešně-pozitivní míru ve srovnání s místním modelem, a to jak zobrazeny v receptor operating characteristic (ROC) plotů a matice zmatek Rozšířené údaje Fig. Důležitější je, že generalizovatelnost modelu FL byla výrazně zvýšena nad místně vyškoleným modelem. 3a 2 , ROC at client site 16, with unbalanced data and mostly mild cases. , ROC místního modelu na klientském místě 12 (malý datový soubor), průměrný ROC modelů vyškolených na větších datových souborech odpovídajících pěti klientským lokalitám v oblasti Boston (1, 4, 5, 6, 8) a ROC nejlepšího globálního modelu v předpovědi ošetření kyslíkem 72 hodin pro různé prahové hodnoty EXAM (vlevo, střední, vpravo). Pos a neg označují počet pozitivních a negativních případů, respektive, jak je definováno tímto rozsahem skóre EXAM. a b t V případě klientských stránek s relativně malými datovými sadami nejlepší model FL výrazně předčil nejen lokální model, ale také ty, které byly vyškoleny na větších datových sadách z pěti klientských lokalit v oblasti Bostonu v USA (obr. 1). ). 3b Globální model dobře předpovídal potřebu kyslíku 24/72 hodin u pacientů s COVID pozitivní i negativní (Extended Data Fig. ) se 3 Validation at independent sites Following initial training, EXAM was subsequently tested at three independent validation sites: Cooley Dickinson Hospital (CDH), Martha’s Vineyard Hospital (MVH) and Nantucket Cottage Hospital (NCH), all in Massachusetts, USA. The model was not retrained at these sites and it was used only for validation purposes. The cohort size and model inference results are summarized in Table , a křivky ROC a matice zmatku pro největší datový soubor (z CDH) jsou zobrazeny na obrázku. Operační bod byl nastaven tak, aby rozlišoval mezi nemechanickou ventilací a mechanickou ventilací (MV) léčbou (nebo smrtí). globální model FL, EXAM, dosáhl průměrné AUC 0,944 a 0,924 pro úkoly předpovídání 24 a 72 hodin (tabulka). Pro předpověď léčby MV (nebo úmrtí) v 24 hodinách dosáhl EXAM citlivosti 0,950 a specificity 0,882 u CDH, a citlivosti 1000 specificity 0,934 u MVH. NCH neměl žádné případy s MV/smrtí v 24 hodinách. 2 4 2 , , Výkon (ROC) (vrchní) a matice zmatku (spodní) modelu EXAM FL na databázi CDH pro předpověď požadavku na kyslík v 24 hodinách ( ) and 72 h ( ) ROC pro tři různé hodnoty řezání ( ) of the EXAM risk score are shown. a b a b t Pro MV na CDH v 72 hodin, EXAM měl nízkou falešně-negativní míru 7,1%. , ukazující dva falešně negativní případy z CDH, kde jeden případ měl mnoho chybějících funkcí dat EMR a druhý měl CXR s pohybovým artefaktem a některými chybějícími funkcemi EMR. 4 Použití diferenciálního soukromí Primární motivací pro zdravotnické instituce k používání FL je zachování bezpečnosti a soukromí svých údajů, jakož i dodržování opatření pro dodržování údajů. or even the reconstruction of training images from the model gradients themselves . To counter these risks, security-enhancing measures were used to mitigate risk in the event of data ‘interception’ during site-server communication Experimentovali jsme s technikami, abychom se vyhnuli zachycení dat FL, a přidali jsme bezpečnostní funkci, která by podle našeho názoru mohla povzbudit více institucí k používání FL. . Through investigation of a partial weight-sharing scheme , , , we showed that models can reach a comparable performance even when only 25% of weight updates are shared (Extended Data Fig. ) se 47 48 49 50 50 51 52 5 diskuze This study features a large, real-world healthcare FL study in terms of number of sites and number of data points used. We believe that it provides a powerful proof-of-concept of the feasibility of using FL for fast and collaborative development of needed AI models in healthcare. Our study involved multiple sites across four continents and under the oversight of different regulatory bodies, and thus holds the promise of being provided to different regulated markets in an expedited way. The global FL model, EXAM, proved to be more robust and achieved better results at individual sites than any model trained on only local data. We believe that consistent improvement was achieved owing to a larger, but also a more diverse, dataset, the use of data inputs that can be standardized and avoidance of clinical impressions/reported symptoms. These factors played an important part in increasing the benefits from this FL approach and its impact on performance, generalizability and, ultimately, the model’s usability. For a client site with a relatively small dataset, two typical approaches could be used for fitting a useful model: one is to train locally with its own data, the other is to apply a model trained on a larger dataset. For sites with small datasets, it would have been virtually impossible to build a performant deep learning model using only their local data. The finding, that these two approaches were outperformed on all three prediction tasks by the global FL model, indicates that the benefit for client sites with small datasets arising from participation in FL collaborations is substantial. This is probaby a reflection of FL’s ability to capture more diversity than local training, and to mitigate the bias present in models trained on a homogenous population. An under-represented population or age group in one hospital/region might be highly represented in another region—such as children who might be differentially affected by COVID-19, including disease manifestations in lung imaging . 46 Výsledky validace potvrdily, že globální model je robustní, což podporuje naši hypotézu, že modely s odbornou přípravou FL jsou generalizovatelné ve všech systémech zdravotní péče. Poskytují přesvědčivý případ pro použití prediktivních algoritmů v péči o pacienty COVID-19 a použití FL při vytváření modelů a testování. Účastí v této studii získaly klientské stránky přístup k EXAM, aby byly dále validovány před sledováním jakéhokoli regulačního schválení nebo budoucího zavedení do klinické péče. , as well as at different sites that were not a part of the EXAM training. 53 Over 200 prediction models to support decision-making in patients with COVID-19 have been published Na rozdíl od většiny publikací zaměřených na diagnózu COVID-19 nebo předpověď úmrtnosti jsme předpověděli požadavky na kyslík, které mají důsledky pro řízení pacientů. Použili jsme také případy s neznámým stavem SARS-COV-2, a tak model mohl poskytnout lékaři vstup před obdržením výsledku pro PCR s reverzní transkripcí (RT-PCR), což je užitečné pro klinické prostředí v reálném životě. V běžné praxi se používá vstup obrazového modelu, na rozdíl od modelů, které používají hrudní počítačovou tomografii, nonconsensual diagnostickou modalitu. Návrh modelu byl omezen na objektivní prediktory, na rozdíl od mnoha publikovaných studií, které využívají subjektivní klinické 19 Identifikace kohorty pacientů a harmonizace dat nejsou novinkou ve výzkumu a datové vědě , but are further complicated, when using FL, given the lack of visibility on other sites’ datasets. Improvements to clinical information systems are needed to streamline data preparation, leading to better leverage of a network of sites participating in FL. This, in conjunction with hyperparameter engineering, can allow algorithms to ‘learn’ more effectively from larger data batches and adapt model parameters to a particular site for further personalization—for example, through further fine-tuning on that site Systém, který by umožnil bezproblémové, téměř v reálném čase modelové závěry a zpracování výsledků, by byl také prospěšný a „zavřel by kruh“ od školení k nasazení modelu. 54 39 Vzhledem k tomu, jakákoli budoucí analýza výsledků, nad rámec toho, co bylo odvozeno a shromážděno, je omezená. Podobně jako ostatní modely strojového učení je EXAM omezena kvalitou vzdělávacích dat. Instituce, které se zajímají o nasazení tohoto algoritmu pro klinickou péči, potřebují pochopit potenciální předsudky ve výcviku. Například štítky používané jako základní pravda ve výcviku modelu EXAM byly odvozeny od spotřeby kyslíku 24 a 72 hodin u pacienta; předpokládá se, že kyslík dodaný pacientovi odpovídá potřebě kyslíku. Nicméně v rané fázi pandemie COVID-19 bylo mnoha pacientům poskytnuto profylakticky kyslík s vysokým průtokem bez ohledu na jejich potřebu kyslíku. Since our data access was limited, we did not have sufficient available information for the generation of detailed statistics regarding failure causes, post hoc, at most sites. However, we did study failure cases from the largest independent test site, CDH, and were able to generate hypotheses that we can test in the future. For high-performing sites, it seems that most failure cases fall into one of two categories: (1) low quality of input data—for example, missing data or motion artifact in CXR; or (2) out-of-distribution data—for example a very young patient. V budoucnu plánujeme také prozkoumat potenciál „populačního driftu“ v důsledku různých fází progrese onemocnění. Jednou z funkcí, která by tyto druhy rozsáhlé spolupráce zvýšila, je schopnost předvídat příspěvek každého klientského webu ke zlepšení globálního modelu FL. To pomůže při výběru klientského webu a při upřednostňování akvizice dat a anotace úsilí.Toto je obzvláště důležité vzhledem k vysokým nákladům a obtížné logistice těchto velkých konsorcia úsilí, a umožní těmto snahám zachytit rozmanitost spíše než čisté množství vzorků dat. Budoucí přístupy mohou zahrnovat automatizované hyperparametrické vyhledávání , neural architecture search a další automatizované strojové učení přístupy k nalezení optimálních tréninkových parametrů pro jednotlivé klientské stránky efektivněji. 55 56 57 Známé problémy normalizace dávek (BN) v FL motivoval nás, abychom opravili náš základní model pro extrakci obrazových funkcí Budoucí práce by mohla prozkoumat různé typy technik normalizace, které umožní školení modelů AI ve FL efektivněji, když jsou data klienta nezávislá a stejným způsobem rozložena. 58 49 Nedávné práce na útocích na soukromí v rámci nastavení FL vyvolaly obavy o úniky dat během školení modelů . Meanwhile, protection algorithms remain underexplored and constrained by multiple factors. While differential privacy algorithms , , vykazují dobrou ochranu, mohou oslabit výkon modelu. šifrovací algoritmy, jako je homomorfní šifrování Kvantifikovatelný způsob měření soukromí by umožnil lepší volby pro rozhodování o minimálních parametrech soukromí potřebných při zachování klinicky přijatelného výkonu , , . 59 36 48 49 60 36 48 49 Following further validation, we envision deployment of the EXAM model in the ED setting as a way to evaluate risk at both the per-patient and population level, and to provide clinicians with an additional reference point when making the frequently difficult task of triaging patients. We also envision using the model as a more sensitive population-level metric to help balance resources between regions, hospitals and departments. Our hope is that similar FL efforts can break the data silos and allow for faster development of much-needed AI models in the near future. Metody Etické schválení All procedures were conducted in accordance with the principles for human experimentation as defined in the Declaration of Helsinki and International Conference on Harmonization Good Clinical Practice guidelines, and were approved by the relevant institutional review boards at the following validation sites: CDH, MVH, NCH and at the following training sites: MGB, Mass General Hospital (MGH), Brigham and Women’s Hospital, Newton-Wellesley Hospital, North Shore Medical Center and Faulkner Hospital (all eight of these hospitals were covered under MGB’s ethics board reference, no. 2020P002673, and informed consent was waived by the instititional review board (IRB). Similarly, participation of the remaining sites was approved by their respective relevant institutional review processes: Children’s National Hospital in Washington, DC (no. 00014310, IRB certified exempt); NIHR Cambridge Biomedical Research Centre (no. 20/SW/0140, informed consent waived); The Self-Defense Forces Central Hospital in Tokyo (no. 02-014, informed consent waived); National Taiwan University MeDA Lab and MAHC and Taiwan National Health Insurance Administration (no. 202108026 W, informed consent waived); Tri-Service General Hospital in Taiwan (no. B202105136, informed consent waived); Kyungpook National University Hospital in South Korea (no. KNUH 2020-05-022, informed consent waived); Faculty of Medicine, Chulalongkorn University in Thailand (nos. 490/63, 291/63, informed consent waived); Diagnosticos da America SA in Brazil (no. 26118819.3.0000.5505, informed consent waived); University of California, San Francisco (no. 20-30447, informed consent waived); VA San Diego (no. H200086, IRB certified exempt); University of Toronto (no. 20-0162-C, informed consent waived); National Institutes of Health in Bethesda, Maryland (no. 12-CC-0075, informed consent waived); University of Wisconsin-Madison School of Medicine and Public Health (no. 2016-0418, informed consent waived); Memorial Sloan Kettering Cancer Center in New York (no. 20-194, informed consent waived); and Mount Sinai Health System in New York (no. IRB-20-03271, informed consent waived). Pokyny MI-CLAIM pro hlášení klinických modelů umělé inteligence byly dodržovány (Doplňující poznámka ) 2 Studium nastavení Studie zahrnovala údaje z 20 institucí (obr. MGB, MGH, Brigham and Women's Hospital, Newton-Wellesley Hospital, North Shore Medical Center a Faulkner Hospital; Dětská národní nemocnice ve Washingtonu DC; NIHR Cambridge Biomedical Research Centre; The Self-Defense Forces Central Hospital v Tokiu; National Taiwan University MeDA Lab a MAHC a Taiwan National Health Insurance Administration; Tri-Service General Hospital v Taiwanu; Kyungpook National University Hospital v Jižní Koreji; Fakulta medicíny, Chulalongkorn University v Thajsku; Diagnosticos da America SA v Brazílii; University of California, San Francisco; VA San Diego; University of Toronto; National Institutes of Health v Bethesda, Maryland; University of Wisconsin-Madison School of Medicine and Public Health; Memorial Sloan Kettering Cancer Center v , , Údaje ze tří nezávislých lokalit byly použity pro nezávislé ověření: CDH, MVH a NCH, všechny v Massachusetts, USA. Tyto tři nemocnice měly charakteristiky populace pacientů odlišné od lokalit školení. Údaje použité pro ověření algoritmu se skládaly z pacientů přijatých k ED na těchto lokalitách mezi březnem 2020 a únorem 2021, a které splňovaly stejná kritéria začlenění jako data použitá k výcviku modelu FL. 1a 61 62 63 Data collection 20 klientských lokalit připravilo celkem 16 148 případů (pozitivních i negativních) pro účely školení, validace a testování modelu (obr. 1). Klinické stránky se snažily zahrnout všechny případy COVID-pozitivní od začátku pandemie v prosinci 2019 až do doby, kdy zahájily místní školení pro studium EXAM. Všechny místní školení začaly do 30. září 2020. Lokality zahrnovaly také další pacienty ve stejném období s negativními výsledky RT-PCR. Jelikož většina lokalit měla více pacientů s SARS-COV-2 negativními než pozitivními, omezili jsme počet negativních pacientů zahrnutých na nejvýše 95 % celkových případů na každém klientském místě. 1b Jeden „případ“ zahrnoval CXR a požadované vstupy dat získané z lékařské dokumentace pacienta. Rozložení a vzory intenzity obrazu CXR (hodnoty pixelů) se mezi lokalitami značně lišily v důsledku množství faktorů specifických pro pacienta a lokalitu, jako jsou různí výrobci zařízení a protokoly zobrazování, jak je znázorněno na obrázku. Věk pacientů a distribuce EMR se mezi lokalitami značně lišily, jak se očekávalo v důsledku rozdílů v demografii mezi globálně distribuovanými nemocnicemi (Extended Data Fig. ) se 1b 1 C, D 6 Patient inclusion criteria Kritéria pro začlenění pacientů byla: (1) pacient byl předložen nemocničnímu ED nebo jeho ekvivalentu; (2) pacient měl RT-PCR test provedený kdykoliv mezi předložením ED a propuštěním z nemocnice; (3) pacient měl CXR v ED; a (4) záznam pacienta měl nejméně pět hodnot EMR uvedených v tabulce. , všechny získané v ED, a příslušné výsledky zachycené během hospitalizace. Poznámka: CXR, laboratorní výsledky a použité vitals byly první dostupné pro zachycení během návštěvy ED. Model nezahrnoval žádné CXR, laboratorní výsledky nebo vitals získané po opuštění ED. 1 Model vstupu Výsledkové (tj. pravdivé) štítky byly přiřazeny na základě požadavků pacientů po 24 a 72 hodinách od počátečního přijetí do ED. . 1 Distribuce ošetření kyslíkem pomocí různých zařízení na různých místech klienta je znázorněna v rozšířené údajové tabulce. , which details the device usage at admission to the ED and after 24- and 72-h periods. The difference in dataset distribution between the largest and smallest client sites can be seen in Extended Data Fig. . 7 8 Počet pozitivních případů COVID-19, potvrzený jediným RT-PCR testem získaným kdykoliv mezi předložením ED a propuštěním z nemocnice, je uveden v Doplňkové tabulce Každý klientský web byl požádán, aby náhodně rozdělil svůj datový soubor do tří částí: 70% pro školení, 10% pro validaci a 20% pro testování. 1 Vývoj modelové zkoušky Existuje široká variabilita v klinickém průběhu pacientů, kteří jsou hospitalizováni s příznaky COVID-19, přičemž někteří zažívají rychlé zhoršení respirační funkce vyžadující různé intervence k prevenci nebo zmírnění hypoxémie. , Kritickým rozhodnutím přijatým během hodnocení pacienta v počátečním bodě péče nebo v ED je, zda je pravděpodobné, že pacient bude vyžadovat invazivnější nebo omezené protiopatření nebo intervence (jako jsou MV nebo monoklonální protilátky), a proto by měl dostávat vzácnou, ale účinnou terapii, terapii s úzkým poměrem rizika a přínosu v důsledku vedlejších účinků nebo vyšší úroveň péče, jako je přijetí do jednotky intenzivní péče. . In contrast, a patient who is at lower risk of requiring invasive oxygen therapy may be placed in a less intensive care setting such as a regular ward, or even released from the ED for continuing self-monitoring at home . EXAM was developed to help triage such patients. 62 63 64 65 Model není v současné době schválen žádnou regulační agenturou a měl by být používán pouze pro výzkumné účely. EXAM score EXAM was trained using FL; it outputs a risk score (termed EXAM score) similar to CORISK (Extended Data Fig. To odpovídá požadavkům pacienta na podporu kyslíku ve dvou oknech – 24 a 72 hodin – po počáteční prezentaci na ED. ilustruje, jak může být CORISK a skóre EXAM použity pro třídění pacientů. 27 9a 9b Röntgenové snímky hrudníku byly předběžně zpracovány tak, aby vybraly přední poziční obraz a vyloučily boční snímky, a poté byly škálovány na rozlišení 224 × 224. , model sloučí informace z funkcí EMR a CXR (na základě modifikovaného ResNet34 s prostorovou pozorností předškolení na databázi CheXpert) and the Deep & Cross network . To converge these different data types, a 512-dimensional feature vector was extracted from each CXR image using a pretrained ResNet34, with spatial attention, then concatenated with the EMR features as the input for the Deep & Cross network. The final output was a continuous value in the range 0–1 for both 24- and 72-h predictions, corresponding to the labels described above, as shown in Extended Data Fig. . We used cross-entropy as the loss function and ‘Adam’ as the optimizer. The model was implemented in Tensorflow Jak používat NVIDIA Clara Train SDK Průměrná AUC pro klasifikační úkoly (≥LFO, ≥HFO/NIV nebo ≥MV) byla vypočtena a použita jako konečná měřítka hodnocení, s normalizací na nulový průměr a jednotkovou odchylku. ) se 9a 66 67 68 9b 69 70 27 Funkce imputace a normalizace Algoritmus ztráty byl použit k impute EMR funkce, na základě místní vzdělávací datové sady. Pokud funkce EMR byla zcela chybí z datové sady klientského webu, byla použita průměrná hodnota této funkce, vypočtená výhradně na data z MGB klientských stránek. pak, EMR funkce byly přepracovány na nulové průměrné a jednotkové odchylky na základě statistik vypočtených na data z MGB klientských stránek. 71 Podrobnosti o fúzi dat EMR-CXR pomocí sítě Deep & Cross Pro modelování interakcí funkcí z dat EMR a CXR na úrovni případu byla použita schéma hlubokých funkcí založená na síťové architektuře Deep & Cross. Binární a kategorické funkce pro vstupy EMR, stejně jako 512-dimenzionální obrazové funkce v CXR, byly přeměněny na sloučené husté vektory reálných hodnot vložením a stohováním vrstev. Transformované husté vektory sloužily jako vstupy do rámce fúze, který speciálně používal křížovou síť k vynucení fúze mezi vstupy z různých zdrojů. Křížová síť prováděla explicitní křížovou funkci v rámci svých vrstev, a to vedením vnitřních produktů mezi původní vstupní funkcí a výstupem z předchozí vrstvy, čímž se zvýšil stupeň interakce mezi funkcemi. Současně byly vyškoleny dvě jednotlivé klasické hluboké neurální s 68 FL podrobnosti Pravděpodobně nejvíce zavedenou formou FL je implementace federovaného průměrného algoritmu, jak navrhl McMahan et al. Tento algoritmus lze realizovat pomocí nastavení klient-server, kde každá zúčastněná stránka působí jako klient. FL lze považovat za metodu zaměřenou na minimalizaci globální ztrátové funkce snížením souboru lokálních ztrátových funkcí, které jsou odhadovány na každém místě. Minimalizováním místní ztráty na každém klientském místě a zároveň synchronizováním učení závaží klientských stránek na centralizovaném agregátorském serveru lze minimalizovat globální ztráty bez nutnosti přístupu k celé databázi v centralizovaném umístění. Každá klientská stránka se učí lokálně a sdílí aktualizaci hmotnosti modelu s centrálním serverem, který agreguje příspěvky pomocí zabezpečených protokolů šifrování socketových vrstev a komunikace. Server pak ) se 72 9c Pseudoalgoritmus FL je zobrazen v Dodatečné poznámce V našich experimentech jsme nastavili počet federovaných kol na = 200, s jednou místní tréninkovou dobou na kolo na každém zákazníkovi. počet zákazníků, , was up to 20 depending on the network connectivity of clients or available data for a specific targeted outcome period (24 or 72 h). The number of local training iterations, , depends on the dataset size at each client a používá se k vážení příspěvků každého klienta při agregování modelových váh v federovaném průměru. Během tréninkového úkolu FL každá klientská stránka vybere svůj nejlepší místní model sledováním výkonu modelu na své místní validační sadě. Současně server určuje nejlepší globální model na základě průměrných výsledků validace odeslaných z každého klientského webu na server po každém kole FL. Po ukončení tréninku FL jsou nejlepší místní modely a nejlepší globální model automaticky sdíleny se všemi klientskými stránkami a vyhodnoceny na jejich místních testovacích datech. 1 T t K NK k Optimalizátor Adam byl použit jak pro místní školení, tak pro FL s počáteční rychlostí učení 5 × 10–5 a postupným poklesem rychlosti učení s faktorem 0,5 po každých 40 epochách, což je důležité pro konvergenci federovaného průměru. Náhodné affinní transformace, včetně rotace, překladů, řezání, škálování a náhodné intenzity hluku a posunů, byly aplikovány na obrazy pro zvýšení dat během tréninku. 73 Vzhledem k citlivosti vrstev BN při jednání s různými klienty v nezávislém a identicky distribuovaném prostředí jsme zjistili, že nejlepší modelový výkon nastal při udržování předškolení ResNet34 s prostorovou pozorností Parametry fixované během výcviku FL (tj. s použitím učební míry nuly pro tyto vrstvy).Síť Deep & Cross, která kombinuje funkce obrazu s funkcemi EMR, neobsahuje vrstvy BN a proto nebyla ovlivněna problémy s nestabilitou BN. 58 47 V této studii jsme zkoumali schéma zachování soukromí, které sdílí pouze částečné aktualizace modelu mezi serverem a klientskými lokalitami. Aktualizace hmotnosti byly zařazeny během každé iterace podle velikosti příspěvku a pouze určité procento největších aktualizací hmotnosti bylo sdíleno se serverem. (Extended Data Fig. , který byl vypočten ze všech non-zero gradientů, Δ a může být pro každého zákazníka jiná V každém kole FL Varianty tohoto schématu mohou zahrnovat dodatečné řezání velkých gradientů nebo diferenciálních schémat soukromí. které přidávají náhodný hluk k gradientům nebo dokonce k surovým datům před vstupem do sítě . k 5 Členské státy(t) k t 49 51 Statistická analýza Provedli jsme test podepsaného hodnocení Wilcoxonu, abychom potvrdili význam pozorovaného zlepšení výkonu mezi lokálně vycvičeným modelem a modelem FL pro časové body 24 a 72 hodin (Obr. Rozšířené údaje Fig. Nulová hypotéza byla jednostranně zamítnuta. 1 × 10–3 v obou případech. 2 1 P Pearsonova korelace byla použita k posouzení generalizovatelnosti (robustnost průměrné hodnoty AUC k testovacím údajům jiných klientských stránek) lokálně vyškolených modelů ve vztahu k příslušné místní velikosti datových souborů. = 0,43 Kč = 0,035, stupně svobody (df) = 17 pro model 24 hodin a Je to 0,62 = 0,003, df = 16 pro model 72h).To naznačuje, že velikost datových souborů sama o sobě není jediným faktorem určujícím robustnost modelu vůči neviditelným datům. r P r P Pro srovnání křivek ROC z globálního modelu FL a místních modelů vyškolených na různých místech (Extended Data Fig. ), jsme z dat vybrali 1000 vzorků a vypočítali výsledné AUC. Potom jsme vypočítali rozdíl mezi dvěma sériemi a standardizovali pomocí vzorce = (AUC1 – AUC2) nebo Kde kde je standardizovaný rozdíl, je standardní odchylka rozdílů bootstrap a AUC1 a AUC2 jsou odpovídající série bootstrapped AUC. s normálním rozdělením jsme získali hodnoty znázorněné v doplňkové tabulce Výsledky ukazují, že nulová hypotéza byla odmítnuta s velmi nízkým hodnoty, které ukazují statistickou významnost nadřazenosti výsledků FL. hodnoty byly provedeny v R s knihovnou pROC . 3 D s D s D P 2 P P 74 Vzhledem k tomu, že model předpovídá diskrétní výsledek, kontinuální skóre od 0 do 1, není možné provést jednoduché kalibrační hodnocení, jako je qqplot. Provedli jsme jednosměrnou analýzu variace (ANOVA) testy s cílem porovnat místní a FL modelové skóre mezi čtyřmi kategoriemi pozemní pravdy (RA, LFO, HFO, MV). -statistický, vypočtený jako variabilita mezi vzorky znamená rozdělená na variabilitu uvnitř vzorku a představující stupeň disperze mezi různými skupinami, byl použit k kvantifikaci modelů. -hodnoty pěti různých lokálních lokalit jsou 245.7, 253.4, 342.3, 389.8 a 634.8, zatímco hodnota modelu FL je 843.5. -hodnoty znamenají, že skupiny jsou více oddělitelné, skóre z našeho modelu FL jasně ukazují větší rozptyl mezi čtyřmi kategoriemi základních pravd. hodnota testu ANOVA na modelu FL je <2 × 10–16, což naznačuje, že skóre předpovědi FL se mezi různými třídami předpovědi statisticky významně liší. 10 F F F P Zpráva Shrnutí Další informace o výzkumu jsou k dispozici na připojený k tomuto článku. Přehled výzkumů v přírodě Dostupnost dat Tyto údaje byly použity pro školení na každém z místních lokalit a nebyly sdíleny s žádnou z ostatních zúčastněných institucí nebo s federovaným serverem, a nejsou veřejně dostupné. Údaje z nezávislých validace lokalit jsou udržovány CAMCA, a přístup lze požádat kontaktováním Q.L. Na základě rozhodnutí CAMCA, přezkum sdílení dat a změnu IRB pro výzkumné účely může být proveden MGB výzkumné správy a v souladu s MGB IRB a politiky. Kódová dostupnost Veškerý kód a software používaný v této studii jsou veřejně dostupné na NGC. Pro přístup, přihlášení jako host nebo vytvoření profilu zadejte jednu z níže uvedených adres URL. Vyškolené modely, pokyny pro přípravu dat, kód pro školení, ověřování testování modelu, soubor Readme, pokyny pro instalaci a licenční soubory jsou veřejně dostupné na NVIDIA NGC • : Federovaný vzdělávací software je k dispozici jako součást Clara Train SDK: Alternativně použijte tento příkaz ke stažení modelu „wget --content-disposition -O clara_train_covid19_exam_ehr_xray_1.zip“. 61 https://ngc.nvidia.com/catalog/models/nvidia:med:clara_train_covid19_exam_ehr_xray https://ngc.nvidia.com/catalog/containers/nvidia:clara-train-sdk https://api.ngc.nvidia.com/v2/models/nvidia/med/clara_train_covid19_exam_ehr_xray/versions/1/zip Reference Budd, J. et al. Digital technologies in the public-health response to COVID-19. , 1183–1192 (2020). Nat. Med. 26 Moorthy, V., Henao Restrepo, A. M., Preziosi, M.-P. & Swaminathan, S. Data sharing for novel coronavirus (COVID-19). , 150 (2020). Bull. World Health Organ. 98 Chen, Q., Allot, A. & Lu, Z. Keep up with the latest coronavirus research. , 193 (2020). Nature 579 Fabbri, F., Bhatia, A., Mayer, A., Schlotter, B. & Kaiser, J. BCG IT spend pulse: how COVID-19 is shifting tech priorities. (2020). https://www.bcg.com/publications/2020/how-covid-19-is-shifting-big-it-spend Candelon, F., Reichert, T., Duranton, S., di Carlo, R. C. & De Bondt, M. The rise of the AI-powered company in the postcrisis world. (2020). https://www.bcg.com/en-gb/publications/2020/business-applications-artificial-intelligence-post-covid Chao, H. et al. Integrative analysis for COVID-19 patient outcome prediction. , 101844 (2021). Med. Image Anal. 67 Zhu, X. et al. Joint prediction and time estimation of COVID-19 developing severe symptoms using chest CT scan. , 101824 (2021). Med. Image Anal. 67 Yang, D. et al. Federated semi-supervised learning for Covid region segmentation in chest ct using multi-national data from China, Italy, Japan. , 101992 (2021). Med. Image Anal. 70 Minaee, S., Kafieh, R., Sonka, M., Yazdani, S. & Jamalipour Soufi, G. Deep-COVID: predicting COVID-19 from chest X-ray images using deep transfer learning. , 101794 (2020). Med. Image Anal. 65 COVID-19 Studies from the World Health Organization Database. (2020). https://clinicaltrials.gov/ct2/who_table ACTIV. (2020). https://www.nih.gov/research-training/medical-research-initiatives/activ Coronavirus Treatment Acceleration Program (CTAP). US Food and Drug Administration (2020). https://www.fda.gov/drugs/coronavirus-covid-19-drugs/coronavirus-treatment-acceleration-program-ctap Gleeson, P., Davison, A. P., Silver, R. A. & Ascoli, G. A. A commitment to open source in neuroscience. , 964–965 (2017). Neuron 96 Piwowar, H. et al. The state of OA: a large-scale analysis of the prevalence and impact of open access articles. , e4375 (2018). PeerJ. 6 European Society of Radiology (ESR). What the radiologist should know about artificial intelligence – an ESR white paper. , 44 (2019). Insights Imaging 10 Pesapane, F., Codari, M. & Sardanelli, F. Artificial intelligence in medical imaging: threat or opportunity? Radiologists again at the forefront of innovation in medicine. , 35 (2018). Eur. Radiol. Exp. 2 Price, W. N. 2nd & Cohen, I. G. Privacy in the age of medical big data. , 37–43 (2019). Nat. Med. 25 Liang, W. et al. Development and validation of a clinical risk score to predict the occurrence of critical illness in hospitalized patients with COVID-19. , 1081–1089 (2020). JAMA Intern. Med. 180 Wynants, L. et al. Prediction models for diagnosis and prognosis of covid-19 infection: systematic review and critical appraisal. , m1328 (2020). Brit. Med. J. 369 Zhang, L. et al. D-dimer levels on admission to predict in-hospital mortality in patients with Covid-19. , 1324–1329 (2020). J. Thromb. Haemost. 18 Sands, K. E. et al. Patient characteristics and admitting vital signs associated with coronavirus disease 2019 (COVID-19)-related mortality among patients admitted with noncritical illness. (2020). https://doi.org/10.1017/ice.2020.461 American College of Radiology. CR recommendations for the use of chest radiography and computed tomography (CT) for suspected COVID-19 infection. (2020). https://www.acr.org/Advocacy-and-Economics/ACR-Position-Statements/Recommendations-for-Chest-Radiography-and-CT-for-Suspected-COVID19-Infection Rubin, G. D. et al. The role of chest imaging in patient management during the COVID-19 pandemic: a multinational consensus statement from the Fleischner Society. , 172–180 (2020). Radiology 296 World Health Organization. Use of chest imaging in COVID-19. (2020). https://www.who.int/publications/i/item/use-of-chest-imaging-in-covid-19 Jamil, S. et al. Diagnosis and management of COVID-19 disease. , 10 (2020). Am. J. Respir. Crit. Care Med. 201 Redmond, C. E., Nicolaou, S., Berger, F. H., Sheikh, A. M. & Patlas, M. N. Emergency radiology during the COVID-19 pandemic: The Canadian Association of Radiologists Recommendations for Practice. , 425–430 (2020). Can. Assoc. Radiologists J. 71 Buch, V. et al. Development and validation of a deep learning model for prediction of severe outcomes in suspected COVID-19 Infection. Preprint at (2021). https://arxiv.org/abs/2103.11269 Lyons, C. & Callaghan, M. The use of high-flow nasal oxygen in COVID-19. , 843–847 (2020). Anaesthesia 75 Whittle, J. S., Pavlov, I., Sacchetti, A. D., Atwood, C. & Rosenberg, M. S. Respiratory support for adult patients with COVID-19. , 95–101 (2020). J. Am. Coll. Emerg. Physicians Open 1 Ai, J., Li, Y., Zhou, X. & Zhang, W. COVID-19: treating and managing severe cases. , 370–371 (2020). Cell Res. 30 Esteva, A. et al. A guide to deep learning in healthcare. , 24–29 (2019). Nat. Med. 25 Cahan, E. M., Hernandez-Boussard, T., Thadaney-Israni, S. & Rubin, D. L. Putting the data before the algorithm in big data addressing personalized healthcare. , 78 (2019). NPJ Digit. Med. 2 Thrall, J. H. et al. Artificial intelligence and machine learning in radiology: opportunities, challenges, pitfalls, and criteria for success. , 504–508 (2018). J. Am. Coll. Radiol. 15 Shilo, S., Rossman, H. & Segal, E. Axes of a revolution: challenges and promises of big data in healthcare. , 29–38 (2020). Nat. Med. 26 Gao, Y. & Cui, Y. Deep transfer learning for reducing health care disparities arising from biomedical data inequality. , 5131 (2020). Nat. Commun. 11 Rieke, N. et al. The future of digital health with federated learning. , 119 (2020). NPJ Dig. Med. 3 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. 10 Ma, C. et al. On safeguarding privacy and security in the framework of federated learning. , 242–248 (2020). IEEE Netw. 34 Brisimi, T. S. et al. Federated learning of predictive models from federated Electronic Health Records. , 59–67 (2018). Int. J. Med. Inform. 112 Roth, H. R. et al. Federated learning for breast density classification: a real-world implementation. In , (eds. Albarqouni, S. et al.) Vol. 12,444, 181–191 (Springer International Publishing, 2020). Proc. Second MICCAI Workshop, DART 2020 and First MICCAI Workshop, DCL 2020 Domain Adaptation and Representation Transfer, and Distributed and Collaborative Learning Sheller, M. J. et al. Federated learning in medicine: facilitating multi-institutional collaborations without sharing patient data. , 12598 (2020). Sci. Rep. 10 Remedios, S. W., Butman, J. A., Landman, B. A. & Pham, D. L. in (eds Remedios, S. W. et al.) (Springer, 2020). Federated Gradient Averaging for Multi-Site Training with Momentum-Based Optimizers Xu, Y. et al. A collaborative online AI engine for CT-based COVID-19 diagnosis. Preprint at (2020). https://www.medrxiv.org/content/10.1101/2020.05.10.20096073v2 Raisaro, J. L. et al. SCOR: A secure international informatics infrastructure to investigate COVID-19. , 1721–1726 (2020). J. Am. Med. Inform. Assoc. 27 Vaid, A. et al. Federated learning of electronic health records to improve mortality prediction in hospitalized patients with COVID-19: machine learning approach. , e24207 (2021). JMIR Med. Inform. 9 Nino, G. et al. Pediatric lung imaging features of COVID-19: a systematic review and meta-analysis. , 252–263 (2021). Pediatr. Pulmonol. 56 Fredrikson, M., Jha, S. & Ristenpart, T. Model inversion attacks that exploit confidence information and basic countermeasures. In 1322–1333, (2015). Proc. 22nd ACM SIGSAC Conference on Computer and Communications Security https://doi.org/10.1145/2810103.2813677 Zhu, L., Liu, Z. & Han, S. in (eds Wallach, H. et al.) 14774–14784 (Curran Associates, Inc., 2019). Advances in Neural Information Processing Systems 32 Kaissis, G. A., Makowski, M. R., Rückert, D. & Braren, R. F. Secure, privacy-preserving and federated machine learning in medical imaging. , 305–311 (2020). Nat. Mach. Intell. 2 Li, W. et al. in 133–141 (Springer, 2019). Privacy-Preserving Federated Brain Tumour Segmentation Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In (2015). Proc. 53rd Annual Allerton Conference on Communication, Control, and Computing (Allerton) https://doi.org/10.1109/allerton.2015.7447103 Li, X. et al. Multi-site fMRI analysis using privacy-preserving federated learning and domain adaptation: ABIDE results. , 101765 (2020). Med. Image Anal. 65 Estiri, H. et al. Predicting COVID-19 mortality with electronic medical records. , 15 (2021). NPJ Dig. Med. 4 Jiang, G. et al. Harmonization of detailed clinical models with clinical study data standards. , 65–74 (2015). Methods Inf. Med. 54 Yang, D. et al. in . (2019). Searching Learning Strategy with Reinforcement Learning for 3D Medical Image Segmentation https://doi.org/10.1007/978-3-030-32245-8_1 Elsken, T., Metzen, J. H. & Hutter, F. Neural architecture search: a survey. , 1–21 (2019). J. Mach. Learning Res. 20 Yao, Q. et al. Taking human out of learning applications: a survey on automated machine learning. Preprint at (2019). https://arxiv.org/abs/1810.13306 Ioffe, S. & Szegedy, C. Batch normalization: accelerating deep network training by reducing internal covariate shift. In , PMLR , 448–456 (2015). Proc. 32nd International Conf. Machine Learning 37 Kaufman, S., Rosset, S. & Perlich, C. Leakage in data mining: formulation, detection, and avoidance. In , 556–563 (2011). Proc. 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Zhang, C. et al. BatchCrypt: efficient homomorphic encryption for cross-silo federated learning. In , 493–506 (2020). Proc. 2020 USENIX Annual Technical Conference, ATC 2020 . (2020). Nvidia NGC Catalog: COVID-19 Related Models https://ngc.nvidia.com/catalog/models?orderBy=scoreDESC&pageNumber=0&query=covid&quickFilter=models&filters Marini, J. J. & Gattinoni, L. Management of COVID-19 respiratory distress. , 2329–2330 (2020). JAMA 323 Cook, T. M. et al. Consensus guidelines for managing the airway in patients with COVID-19: Guidelines from the Difficult Airway Society, the Association of Anaesthetists the Intensive Care Society, the Faculty of Intensive Care Medicine and the Royal College of Anaesthetist. , 785–799 (2020). Anaesthesia 75 Galloway, J. B. et al. A clinical risk score to identify patients with COVID-19 at high risk of critical care admission or death: an observational cohort study. , 282–288 (2020). J. Infect. 81 Kilaru, A. S. et al. Return hospital admissions among 1419 COVID-19 patients discharged from five U.S. emergency departments. , 1039–1042 (2020). Acad. Emerg. Med. 27 He, K., Zhang, X., Ren, S. & Sun, J. Deep residual learning for image recognition. In (2016). Proc. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) https://doi.org/10.1109/cvpr.2016.90 Irvin, J. et al. CheXpert: a large chest radiograph dataset with uncertainty labels and expert comparison. , 590–597 (2019). Proc. AAAI Conf. Artif. Intell. 33 Wang, R., Fu, B., Fu, G. & Wang, M. Deep & Cross network for Ad Click predictions. In Article no. 12 (2017). Proc. ADKDD’17 Abadi, M. et al. TensorFlow: asystem for large-scale machine learning. In , USENIX Association 265–283 (2016). 12th USENIX Symposium on Operating Systems Design and Implementation (OSDI 16) . (2020). NVIDIA Clara Imaging https://developer.nvidia.com/clara-medical-imaging Stekhoven, D. J. & Bühlmann, P. MissForest–non-parametric missing value imputation for mixed-type data. , 112–118 (2012). Bioinformatics 28 McMahan, H., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. (2017). http://proceedings.mlr.press/v54/mcmahan17a.html Hsieh, K., Phanishayee, A., Mutlu, O. & Gibbons, P. B. The non-IID data quagmire of decentralized machine learning. In PMLR 119 (2020). Proc. 37th International Conf. Machine Learning Robin, X. et al. pROC: an open-source package for R and S+ to analyze and compare ROC curves. , 77 (2011). BMC Bioinformatics 12 uznání MGB děkuje následujícím osobám za jejich podporu: J. Brink, Oddělení radiologie, Massachusetts General Hospital, Harvard Medical School, Boston, MA; N. Guo, Center for Advanced Medical Computing and Analysis, Department of Radiology, Massachusetts General Hospital, Harvard General Medical School, Harvard Medical School, Boston, MA; MA; J. K. Cramer, ředitel Centra pro klinické vědy o datech, Massachusetts General Brigham, Boston, MA; T. Schultz, Center for Biomic Imaging, Massachusetts General Hospital, Boston, MA; N. Guo, Center for Advanced Medical Computing and Analysis, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; MA. prostřednictvím Lékařské fakulty, Univerzita Chulalongkorn děkuje Ratchadapisek Sompoch Endowment Fund RA (PO) (č. 001/63) za shromažďování a správu klinických dat a biologických vzorků souvisejících s COVID-19 pro Výzkumnou pracovní skupinu, Lékařskou fakultu, Univerzitu Chulalongkorn. NIHR Cambridge Biomedical Research Center děkuje A. Priestovi, který je podporován NIHR (Cambridge Biomedical Research Centre at Cambridge University Hospitals NHS Foundation Trust). Národní Tchaj-wanská univerzitní MeDA Lab a MAHC a Tchaj-wanská národní zdravotní pojišťovna děkují MOST Společnému výzkumnému centru pro technologii AI, https://data.ucsf.edu/covid19 Tento dokument je k dispozici v přírodě pod licencí CC by 4.0 Deed (Attribution 4.0 International). Tento dokument je k dispozici v přírodě pod licencí CC by 4.0 Deed (Attribution 4.0 International).