Автори : Ittai Dayan Holger R. Roth Aoxiao Zhong Ахмед Харуні Любов до друзів Anas Z. Abidin Andrew Liu Anthony Beardsworth Costa Bradford J. Wood Chien-Sung Tsai Чих-Хунг Ван Chun-Nan Hsu C. K. Lee Peiying Ruan Daguang Xu Dufan Wu Eddie Huang Felipe Campos Kitamura Гріффін Лейсі Gustavo César de Antônio Corradi Gustavo Nino Хао-Хсин Шин Hirofumi Obinata Hui Ren Jason C. Crane Jesse Tetreault Jiahui Guan John W. Garrett Джошуа Д. Каггі Jung Gil Park Keith Dreyer Krishna Juluru Kristopher Kersten Marcio Aloisio Bezerra Cavalcanti Rockenbach Marius George Linguraru Masoom A. Haider Meena AbdelMaseeh Nicola Rieke Pablo F. Damasceno Pedro Mario Cruz e Silva Pochuan Wang Sheng Xu Shuichi Kawano Sira Sriswasdi Soo Young Park Thomas M. Grist Varun Buch Watsamon Jantarabenjakul Weichung Wang Won Young Tak Xiang Li Xihong Lin Young Joon Kwon Abood Quraini Andrew Feng Andrew N. Priest Baris Turkbey Benjamin Glicksberg Bernardo Bizzo Byung Seok Kim Carlos Tor-Díez Chia-Cheng Lee Chia-Jung Hsu Chin Lin Chiu-Ling Lai Christopher P. Hess Colin Compas Deepeksha Bhatia Eric K. Oermann Evan Leibovitz Hisashi Sasaki Hitoshi Mori Isaac Yang Jae Ho Sohn Krishna Nand Keshava Murthy Li-Chen Fu Matheus Ribeiro Furtado de Mendonça Mike Fralick Min Kyu Kang Mohammad Adil Natalie Gangai Peerapon Vateekul Pierre Elnajjar Sarah Hickman Sharmila Majumdar Shelley L. McLeod Sheridan Reed Stefan Gräf Stephanie Harmon Tatsuya Kodama Thanyawee Puthanakit Tony Mazzulli Vitor Lima de Lavor Yothin Rakvongthai Yu Rim Lee Yuhong Wen Fiona J. Gilbert Mona G. Flores Quanzheng Li Автори : Ітаї Даян Холгер Р. Рот Аосіо Чжун Ахмед Харуні Любов до друзів Анас З. Абідін Андрій Лю Ентоні Беардсворт Коста Бредфорд Джей Вуд Чіен-Сун Цай Чих-Хунг Ван Чун-Нан Хсу К. К. Лі Пекін Руан Дагуан Сю ДЮФАН ВУ Едді Хуанг Феліпе Кампос Кітамура Гріффін Лейсі Густав Цезар Антоніо Корради Густав Ніно Хао-Хсин Шин Хірофумі обіната Хі Рен Джейсон К. Крейн Джессі Тетреаут Джиахуі Гуан Джон В. Гарретт Джошуа Д. Каггі Парк Юнг Гіл Кіт Дрейер Кришна Юру Крістофер Керстен Марсіо Алоісіо Безерра Кавальканті Рокенбах Маріус Джордж Лінгурару Масон А. Хайдер Мена Абдельмасех Nicola Rieke Пабло Ф. Дамаскено Педро Маріо Круз і Сільва Закарпаття Wang Шен Ю Шуічі Кавано Серія Срісвасді Юний парк Соу Томас М. Гріст Варіанська книга Вечеряни з вапняком Віталій Ванг Молодий Так Сіанг Лі Хіхонг Лін Молодий Джоун Квон Закарпаття Курані Андрій Фенг Ендрю Н. Прист Барис Туркменістан Бенджамін Гліксберг Бернардо Бізо Закарпаття шукає Ким Карлос Тор-Діес Chia-Cheng Lee Чіа-Юнг Хсу Чин Лін Чиу-Лінг Лай Крістофер П. Гесс Колін Компас Deepeksha Бхатія Ерік К. Оерманн Еван Лейбовіц Хісасі Сасакі Хітоші Морі Ісаак Ян Джей Хо Син Кришна Нанд Кешава Мурті Лі-Чен Фу Матей Рибейро Фуртадо де Мендонса Майк Фрелік Мен Кю Канг Mohammad Adil Наталі Гангай Періодична вагітність П'єр Ельнайяр Сара Гікман Sharmila Majumdar Shelley L. McLeod Шерідан Рід Стефан Граф Стефані Гармон Тацуя Кодама Тетяна Путіна Тоні Мазулі Віктор Ліма з роботи Йотин Раквонтай Ю Рім Лі Ющенко Вень Фіона Джей Гілберт Мона Г. Флорес Quanzheng Li абстрактні Федеративне навчання (FL) - це метод, який використовується для навчання моделей штучного інтелекту з даними з декількох джерел, зберігаючи анонімність даних, тим самим видаляючи багато бар'єрів для обміну даними. Тут ми використовували дані з 20 інститутів по всьому світу, щоб навчити модель FL, яка називається EXAM (електронний медичний рекорд (EMR) грудної клітини X-ray AI модель), яка передбачає майбутні потреби в кисню симптоматичних пацієнтів з COVID-19 за допомогою входів життєвих ознак, лабораторних даних і рентгенівських променів грудей. EXAM досяг середньої площі під кривою (AUC) > 0,92 для прогнозування результатів на 24 і 72 годин з моменту первинної презентації в екстрену кімнату Головний Наукові, академічні, медичні та наукові спільноти об'єдналися перед обличчям пандемічної кризи COVID-19, щоб швидко оцінити нові парадигми в галузі штучного інтелекту (AI), які є швидкими та безпечними, і потенційно заохочувати обмін даними та навчання моделей та тестування без звичних бар'єрів конфіденційності та власності на дані традиційних співпраці. , Постачальники медичних послуг, дослідники та промисловість зосередилися на вирішенні незадоволених і критичних клінічних потреб, створених кризою, з вражаючими результатами. , , , , , , Регулювання клінічних випробувань було прискорено та полегшено національними регуляторними органами та міжнародним духом співпраці. , , Дисципліни аналітики даних та штучного інтелекту завжди сприяли відкритим та спільним підходам, охоплюючи такі поняття, як програмне забезпечення з відкритим кодом, відтворювальні дослідження, сховища даних та надання анонімних наборів даних публічно. , Пандемія підкреслила необхідність оперативно проводити співпрацю з даними, яка дає змогу клінічним і науковим спільнотам у відповідь на швидко розвиваються і широко поширені глобальні виклики. , , . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Конкретним прикладом цих типів співпраці є наша попередня робота над моделлю клінічної підтримки рішень (CDS) SARS-COV-2 на основі інтелектуального інтелекту.Ця модель CDS була розроблена в Mass General Brigham (MGB) і була підтверджена за даними декількох систем охорони здоров'я.Входи до моделі CDS були зображеннями рентгенівських променів грудей (CXR), життєво важливими ознаками, демографічними даними та лабораторними значеннями, які були показані в попередніх публікаціях, щоб передбачити результати пацієнтів з COVID-19 , , , CXR був обраний як вхід зображення, тому що він широко доступний і зазвичай вказується рекомендаціями, такими як ті, що надаються ACR Товариство Fleischner Що таке WHO Національні торацькі товариства Національне міністерство охорони здоров'я COVID посібники і рентгенологічні товариства по всьому світу . The output of the CDS model was a score, termed CORISK , що відповідає вимогам підтримки кисню і що може допомогти у перевірці пацієнтів лікарями фронту , , Постачальникам медичних послуг відомо, що вони віддають перевагу моделям, які були підтверджені на їхніх власних даних. На сьогоднішній день більшість моделей штучного інтелекту, включаючи вищезазначену модель CDS, були підготовлені та перевірені на «вузьких» даних, які часто не мають різноманітності. , Це може бути пом'якшено шляхом навчання з різноманітними даними з декількох сайтів без централізації даних Застосування таких методів, як трансферне навчання , FL - це метод, який використовується для навчання моделей штучного інтелекту на різноманітних джерелах даних, без того, щоб дані транспортувалися або викривалися за межами їхнього первісного розташування. . 18 19 20 21 22 23 24 25 26 27 28 29 30 27 31 32 33 34 35 36 Федеративне навчання підтримує швидкий запуск централізованих експериментів з покращеною відстежуваністю даних та оцінкою алгоритмічних змін та впливу . One approach to FL, called client-server, sends an ‘untrained’ model to other servers (‘nodes’) that conduct partial training tasks, in turn sending the results back to be merged in the central (‘federated’) server. This is conducted as an iterative process until training is complete . 37 36 Управління даними для FL підтримується локально, зменшуючи проблеми з конфіденційністю, з тільки вагами моделі або градиентами, які повідомляються між клієнтськими сайтами та федеративним сервером , FL вже продемонструвала обіцянку в останніх додатках медичного зображення , , , Дослідження COVID-19 , , Видатним прикладом є модель прогнозування смертності у пацієнтів, інфікованих SARS-COV-2, яка використовує клінічні характеристики, хоча і обмежені за кількістю способів і масштабом. . 38 39 40 41 42 43 8 44 45 46 Наша мета полягала в тому, щоб розробити міцну, генералізовану модель, яка могла б допомогти у випробуванні пацієнтів. Ми припустили, що модель CDS може бути успішно федералізована, враховуючи її використання даних, які відносно поширені в клінічній практиці, і які не залежать в значній мірі від оператор-залежних оцінок стану пацієнта (таких як клінічні враження або повідомлені симптоми). Натомість, були використані лабораторні результати, життєві ознаки, дослідження зображення та загальноприйнята демографічна інформація (тобто вік). Тому ми перепідготували модель CDS з різноманітними даними, використовуючи клієнт-сервер FL підхід, щоб розробити нову глобальну модель FL, яка була названа EX Наша гіпотеза полягала в тому, що EXAM буде виконуватися краще, ніж місцеві моделі, і буде краще узагальнюватися по системах охорони здоров'я. Результати Модель архітектури іспиту The EXAM model is based on the CDS model mentioned above В цілому, 20 характеристик (19 від EMR і один CXR) були використані як вхід до моделі. Етикетки результату (тобто "земна правда") були присвоєні на основі терапії пацієнтом киснем після 24-годинних і 72-годинних періодів з початкового прийому в відділення екстрених ситуацій (ED). Детальний список запитуваних характеристик і результатів можна побачити в Таблиці . 27 1 Етикетки результатів пацієнтів були встановлені на 0, 0,25, 0,50 і 0,75 в залежності від найбільш інтенсивної кислородної терапії, яку пацієнт отримав у вікні прогнозування. Категорії кислородної терапії були відповідно кімнатним повітрям (RA), низьким потоком кисню (LFO), високим потоком кисню (HFO)/неінвазивною вентиляцією (NIV) або механічною вентиляцією (MV). Якщо пацієнт помер у вікні прогнозування, етикетка результату була встановлена на 1. Для функцій EMR використовувалися тільки перші значення, зафіксовані в ED, а попередня обробка даних включала деідентифікацію, присвоєння відсутніх значень та нормалізацію до нульової середньої та одиничної відмінності. Таким чином, модель об'єднує інформацію з функцій EMR і CXR, використовуючи 34-шарову конвульційну нейронну мережу (ResNet34) для вилучення функцій з CXR і мережі Deep & Cross, щоб об'єднати функції разом з функціями EMR (для більш розширеної деталі див. Вихід моделі - це оцінка ризику, яка називається оцінкою EXAM, яка є безперервним значенням в діапазоні 0-1 для кожного з 24-годинних і 72-годинних прогнозів, що відповідають описаним вище етикеткам. Методи Федералізація моделі Модель EXAM була підготовлена з використанням когорти 16,148 випадків, що робить її не тільки однією з перших моделей FL для COVID-19 , а й дуже великим і багатоконтинентальним проектом розвитку в клінічно значущому AI (рис. Дані між місцями не були гармонізовані до вилучення і, з огляду на реальні обставини клінічної інформатики, ретельна гармонізація введення даних не була проведена авторами (рис. ) 1а, б 1С, Д Карта світу, що показує 20 різних клієнтських сайтів, що сприяють дослідженню EXAM. , Кількість випадків, вкладених кожною установою або сайтом (клієнт 1 представляє сайт, що вносить найбільшу кількість випадків). Розподіл рентгенівської інтенсивності грудей на кожному клієнтському сайті. Вік пацієнтів на кожному клієнтському сайті, що показує мінімальний і максимальний вік (астерики), середній вік (трикутники) та стандартне відхилення (горизонтальні смуги). . a b c d 1 За результатами досліджень досліджуваних досліджуваних досліджуваних досліджуваних досліджуваних досліджуваних досліджуваних досліджуваних досліджуваних досліджуваних досліджуваних досліджуваних досліджуваних досліджуваних досліджуваних досліджуваних досліджуваних досліджуваних досліджуваних досліджуваних дослідників ( 1 × 10–3, тест підписання Wilcoxon) 16% (як визначено середньою AUC при виконанні моделі на відповідних локальних наборах тестування: від 0,795 до 0,920, або 12,5 відсоткових пунктів) (рис. Це також призвело до 38% покращення узагальненості (як визначено середньою AUC при виконанні моделі на всіх тестових наборах: від 0,667 до 0,920, або 25,3 відсоткових пунктів) кращої глобальної моделі для прогнозування 24-годинного лікування киснем у порівнянні з моделями, підготовленими тільки на власних даних сайту (рис. Для результатів прогнозування 72-годинного лікування киснем, найкраще глобальне навчання моделей призвело до середнього поліпшення продуктивності на 18% порівняно з локально підготовленими моделями, тоді як узагальнюваність глобальної моделі покращилася в середньому на 34% (Див. Стабільність наших результатів була підтверджена шляхом повторення трьох тренувань локального та FL на різних випадкових поділах даних. P 2а 2б 1 Результати кожного клієнтського тесту встановлені на прогноз 24-годинної окислювальної обробки для моделей, підготовлених тільки за місцевими даними (Local), порівняно з найкращою глобальною моделлю, доступною на сервері (FL). , Узагальнюваність (середня продуктивність на даних тестування інших сайтів, представлена середньою AUC) як функція розміру набору даних клієнта (без випадків). Зелена горизонтальна лінія означає продуктивність узагальнюваності найкращої глобальної моделі. ) and client 14 had cases only with RA treatment, such that the evaluation metric (av. AUC) was not applicable in either of these cases ( ). Data for client 14 were also excluded from computation of average generalizability in local models. a b 1 Методи Місцеві моделі, які були навчені з використанням незбалансованих когорт (наприклад, переважно легкі випадки COVID-19) помітно скористалися підходом FL, з суттєвим поліпшенням середньої ефективності прогнозування AUC для категорій з лише декількома випадками. Це було очевидно на клієнтському сайті 16 (незбалансований набір даних), з більшістю пацієнтів, які відчувають легку тяжкість захворювання і тільки з декількома важкими випадками. модель FL досягла більш високого істинно-позитивного показника для двох позитивних (тяжких) випадків і значно нижчого фальшиво-позитивного показника порівняно з місцевою моделлю, як показано в клінічних характеристиках (ROC) і матри Розширені дані фігури. Більш важливо, узагальнюваність моделі FL значно збільшилася порівняно з локально підготовленою моделлю. 3а 2 , ROC at client site 16, with unbalanced data and mostly mild cases. ROC, ROC місцевої моделі на клієнтському сайті 12 (невеликий набір даних), середній ROC моделей, підготовлених на великих наборах даних, що відповідають п'яти клієнтських локаціях в районі Бостона (1, 4, 5, 6, 8) і ROC кращої глобальної моделі в прогнозі окислення 72 годин для різних порогів оцінки EXAM (ліворуч, посередині, праворуч). середній ROC обчислюється на основі п'яти локально підготовлених моделей, тоді як сіра область означає стандартне відхилення ROC. ) of the EXAM risk score are shown. Pos and neg denote the number of positive and negative cases, respectively, as defined by this range of EXAM score. a b t In the case of client sites with relatively small datasets, the best FL model markedly outperformed not only the local model but also those trained on larger datasets from five client sites in the Boston area of the USA (Fig. ) 3б The global model performed well in predicting oxygen needs at 24/72 h in patients both COVID positive and negative (Extended Data Fig. ). 3 Validation at independent sites Following initial training, EXAM was subsequently tested at three independent validation sites: Cooley Dickinson Hospital (CDH), Martha’s Vineyard Hospital (MVH) and Nantucket Cottage Hospital (NCH), all in Massachusetts, USA. The model was not retrained at these sites and it was used only for validation purposes. The cohort size and model inference results are summarized in Table , а криві ROC та матриці плутанини для найбільшого набору даних (від CDH) показано на малюнку. . The operating point was set to discriminate between nonmechanical ventilation and mechanical ventilation (MV) treatment (or death). The FL global trained model, EXAM, achieved an average AUC of 0.944 and 0.924 for 24- and 72-h prediction tasks, respectively (Table ), which exceeded the average performance among sites used in training EXAM. For prediction of MV treatment (or death) at 24 h, EXAM achieved a sensitivity of 0.950 and specificity of 0.882 at CDH, and a sensitivity of 1.000 specificity of 0.934 at MVH. NCH did not have any cases with MV/death at 24 h. In regard to 72-h MV prediction, EXAM achieved a sensitivity of 0.929 and specificity of 0.880 at CDH, sensitivity of 1.000 and specificity of 0.976 at MVH and sensitivity of 1.000 and specificity of 0.929 at NCH. 2 4 2 , , Performance (ROC) (top) and confusion matrices (bottom) of the EXAM FL model on the CDH dataset for prediction of oxygen requirement at 24 h ( ) and 72 h ( Наступна статтяУкрзалізниця: три величезні економічні кризи ( 3) показані оцінки ризику випробувань. a b a b t For MV at CDH at 72 h, EXAM had a low false-negative rate of 7.1%. Representative failure cases are presented in Extended Data Fig. , показуючи два фальшиво-негативних випадки від CDH, де один випадок мав багато відсутніх функцій даних EMR, а інший мав CXR з артефактом руху та деякими відсутніми функціями EMR. 4 Використання диференціальної конфіденційності A primary motivation for healthcare institutes to use FL is to preserve the security and privacy of their data, as well as adherence to data compliance measures. For FL, there remains the potential risk of model ‘inversion’ or even the reconstruction of training images from the model gradients themselves . To counter these risks, security-enhancing measures were used to mitigate risk in the event of data ‘interception’ during site-server communication Ми експериментували з методами, щоб уникнути перехоплення даних FL, і додали функцію безпеки, яка, на нашу думку, може заохотити більше установ використовувати FL. Таким чином, ми підтвердили попередні висновки, які показують, що часткове поділ ваги та інші методи диференціальної конфіденційності можуть бути успішно застосовані в FL. . Through investigation of a partial weight-sharing scheme , , , ми показали, що моделі можуть досягати порівнянної продуктивності навіть при спільному використанні лише 25% оновлень ваги (розширені дані. ) 47 48 49 50 50 51 52 5 Discussion This study features a large, real-world healthcare FL study in terms of number of sites and number of data points used. We believe that it provides a powerful proof-of-concept of the feasibility of using FL for fast and collaborative development of needed AI models in healthcare. Our study involved multiple sites across four continents and under the oversight of different regulatory bodies, and thus holds the promise of being provided to different regulated markets in an expedited way. The global FL model, EXAM, proved to be more robust and achieved better results at individual sites than any model trained on only local data. We believe that consistent improvement was achieved owing to a larger, but also a more diverse, dataset, the use of data inputs that can be standardized and avoidance of clinical impressions/reported symptoms. These factors played an important part in increasing the benefits from this FL approach and its impact on performance, generalizability and, ultimately, the model’s usability. For a client site with a relatively small dataset, two typical approaches could be used for fitting a useful model: one is to train locally with its own data, the other is to apply a model trained on a larger dataset. For sites with small datasets, it would have been virtually impossible to build a performant deep learning model using only their local data. The finding, that these two approaches were outperformed on all three prediction tasks by the global FL model, indicates that the benefit for client sites with small datasets arising from participation in FL collaborations is substantial. This is probaby a reflection of FL’s ability to capture more diversity than local training, and to mitigate the bias present in models trained on a homogenous population. An under-represented population or age group in one hospital/region might be highly represented in another region—such as children who might be differentially affected by COVID-19, including disease manifestations in lung imaging . 46 The validation results confirmed that the global model is robust, supporting our hypothesis that FL-trained models are generalizable across healthcare systems. They provide a compelling case for the use of predictive algorithms in COVID-19 patient care, and the use of FL in model creation and testing. By participating in this study the client sites received access to EXAM, to be further validated ahead of pursuing any regulatory approval or future introduction into clinical care. Plans are under way to validate EXAM prospectively in ‘production’ settings at MGB leveraging COVID-19 targeted resources , as well as at different sites that were not a part of the EXAM training. 53 Over 200 prediction models to support decision-making in patients with COVID-19 have been published . Unlike the majority of publications focused on diagnosis of COVID-19 or prediction of mortality, we predicted oxygen requirements that have implications for patient management. We also used cases with unknown SARS-COV-2 status, and so the model could provide input to the physician ahead of receiving a result for PCR with reverse transcription (RT–PCR), making it useful for a real-life clinical setting. The model’s imaging input is used in common practice, in contrast with models that use chest computed tomography, a nonconsensual diagnostic modality. The model’s design was constrained to objective predictors, unlike many published studies that leveraged subjective clinical impressions. The data collected reflect varied incidence rates, and thus the ‘population momentum’ we encountered is more diverse. This implies that the algorithm can be useful in populations with different incidence rates. 19 Patient cohort identification and data harmonization are not novel issues in research and data science Удосконалення клінічних інформаційних систем необхідні для раціоналізації підготовки даних, що призводить до кращого використання мережі сайтів, що беруть участь у FL. Це, у поєднанні з гіперпараметричною інженерією, може дозволити алгоритмам більш ефективно «вчитися» від більших партій даних і адаптувати параметри моделі до конкретного сайту для подальшої персоналізації — наприклад, шляхом подальшого тонкого налаштування на цьому сайті. . A system that would allow seamless, close-to real-time model inference and results processing would also be of benefit and would ‘close the loop’ from training to model deployment. 54 39 Because data were not centralized they are not readily accessible. Given that, any future analysis of the results, beyond what was derived and collected, is limited. Подібно до інших моделей машинного навчання, EXAM обмежується якістю даних навчання. Інститути, зацікавлені в впровадженні цього алгоритму для клінічної допомоги, повинні розуміти потенційні упередження у навчанні. Наприклад, етикетки, що використовуються як грунтова правда у навчанні моделі EXAM, були виведені з 24-го та 72-го часу споживання кисню у пацієнта; припускається, що кисень, що доставляється пацієнтові, дорівнює потребам у кисню. Однак на ранній стадії пандемії COVID-19 багато пацієнтів отримували високий потік кисню профілактично незалежно від їх потреби в кисню. Така клінічна практика могла спотворити прогнози, зроблені цією моделлю. Оскільки доступ до наших даних був обмежений, у нас не було достатньо інформації для створення детальної статистики щодо причин несправності на більшості сайтів. Однак ми вивчили випадки несправності з найбільшого незалежного тестувального сайту, CDH, і змогли генерувати гіпотези, які ми можемо перевірити в майбутньому. Для високопродуктивних сайтів, здається, що більшість випадків несправності впадають в одну з двох категорій: (1) низька якість вхідних даних - наприклад, відсутні дані або артефакт руху в CXR; або (2) дані поза розподілом - наприклад, дуже молодий пацієнт. У майбутньому ми також маємо намір дослідити потенціал «популяційного дрейфу» через різні фази прогресування захворювання.Ми вважаємо, що через різноманітність у 20 місцях цей ризик може бути пом'якшений. A feature that would enhance these kinds of large-scale collaboration is the ability to predict the contribution of each client site towards improving the global FL model. This will help in client site selection, and in prioritization of data acquisition and annotation efforts. The latter is especially important given the high costs and difficult logistics of these large-consortia endeavors, and it will enable these endeavors to capture diversity rather than the sheer quantity of data samples. Майбутні підходи можуть включати автоматизований пошук гіперпараметрів , neural architecture search and other automated machine learning підходи для пошуку оптимальних параметрів навчання для кожного клієнтського сайту більш ефективно. 55 56 57 Відомі проблеми нормалізації партій (BN) в FL Мотивував нас виправити нашу базову модель для вилучення зображень to reduce the divergence between unbalanced client sites. Future work might explore different types of normalization techniques to allow the training of AI models in FL more effectively when client data are nonindependent and identically distributed. 58 49 Recent works on privacy attacks within the FL setting have raised concerns on data leakage during model training . Meanwhile, protection algorithms remain underexplored and constrained by multiple factors. While differential privacy algorithms , , show good protection, they may weaken the model’s performance. Encryption algorithms, such as homomorphic encryption , maintain performance but may substantially increase message size and training time. A quantifiable way to measure privacy would allow better choices for deciding the minimal privacy parameters necessary while maintaining clinically acceptable performance , , . 59 36 48 49 60 36 48 49 Following further validation, we envision deployment of the EXAM model in the ED setting as a way to evaluate risk at both the per-patient and population level, and to provide clinicians with an additional reference point when making the frequently difficult task of triaging patients. We also envision using the model as a more sensitive population-level metric to help balance resources between regions, hospitals and departments. Our hope is that similar FL efforts can break the data silos and allow for faster development of much-needed AI models in the near future. Методи Етика схвалення Всі проінформовані процедури Центру охорони здоров'я штату Сан-Франциско були проведені відповідно до принципів, визначених у Декларації Хельсінкі та Міжнародної конференції про гармонізацію гармонійної клінічної практики охорони здоров'я, а також були затверджені відповідними інституційними комісіями з перевірки медичних препаратів на наступних сайтах перевірки: CDH, MVH, NCH та на наступних навчальних сайтах: MGB, Mass General Hospital (MGH), Brigham and Women's Hospital, Newton-Wellesley Hospital, North Shore San Public Medical Center та New Faulkner Hospital (всі вісім з цих лікарень були охоплені інформаційною згодою комісії з етики штату MGB, No. 2020P002673, а інформовану зго MI-CLAIM guidelines for reporting of clinical AI models were followed (Supplementary Note ) 2 Study setting The study included data from 20 institutions (Fig. ): MGB, MGH, Brigham and Women’s Hospital, Newton-Wellesley Hospital, North Shore Medical Center and Faulkner Hospital; Children’s National Hospital in Washington, DC; NIHR Cambridge Biomedical Research Centre; The Self-Defense Forces Central Hospital in Tokyo; National Taiwan University MeDA Lab and MAHC and Taiwan National Health Insurance Administration; Tri-Service General Hospital in Taiwan; Kyungpook National University Hospital in South Korea; Faculty of Medicine, Chulalongkorn University in Thailand; Diagnosticos da America SA in Brazil; University of California, San Francisco; VA San Diego; University of Toronto; National Institutes of Health in Bethesda, Maryland; University of Wisconsin-Madison School of Medicine and Public Health; Memorial Sloan Kettering Cancer Center in New York; and Mount Sinai Health System in New York. Institutions were recruited between March and May 2020. Dataset curation started in June 2020 and the final data cohort was added in September 2020. Between August and October 2020, 140 independent FL runs were conducted to develop the EXAM model and, by the end of October 2020, EXAM was made public on NVIDIA NGC , , . Data from three independent sites were used for independent validation: CDH, MVH and NCH, all in Massachusetts, USA. These three hospitals had patient population characteristics different from the training sites. The data used for the algorithm validation consisted of patients admitted to the ED at these sites between March 2020 and February 2021, and that satisfied the same inclusion criteria of the data used to train the FL model. 1a 61 62 63 Збір даних The 20 client sites prepared a total of 16,148 cases (both positive and negative) for the purposes of training, validation and testing of the model (Fig. ). Medical data were accessed in relation to patients who satisfied the study inclusion criteria. Client sites strived to include all COVID-positive cases from the beginning of the pandemic in December 2019 and up to the time they started local training for the EXAM study. All local training had started by 30 September 2020. The sites also included other patients in the same period with negative RT–PCR test results. Since most of the sites had more SARS-COV-2-negative than -positive patients, we limited the number of negative patients included to, at most, 95% of the total cases at each client site. 1b A ‘case’ included a CXR and the requisite data inputs taken from the patient’s medical record. A breakdown of the cohort size of the dataset for each client site is shown in Fig. Розподіл і закономірності інтенсивності зображення CXR (значення пікселів) сильно відрізнялися між сайтами через безліч факторів, специфічних для пацієнта та сайту, таких як різні виробники пристроїв та протоколи зображення, як показано на малюнку. Вік пацієнта і розподіл функцій ЕМР сильно відрізнялися між місцями, як очікувалося через відмінності в демографіці між глобально розподіленими лікарнями (розширені дані фігури. ) 1b 1С, Д 6 Критерії включення пацієнта Patient inclusion criteria were: (1) patient presented to the hospital’s ED or equivalent; (2) patient had a RT–PCR test performed at any time between presentation to the ED and discharge from the hospital; (3) patient had a CXR in the ED; and (4) patient’s record had at least five of the EMR values detailed in Table Зверніть увагу, що CXR, лабораторні результати та життєві дані були першими, які були доступні для захоплення під час візиту до ED. Модель не включала будь-які CXR, лабораторні результати або життєві дані, отримані після виходу з ED. 1 Model input Етикетки результату (тобто наземної істини) були присвоєні на основі вимог пацієнта після 24-го та 72-го годин періодів з початкового прийому до ЕД. Детальний перелік запитуваних особливостей та результатів ЕМР можна побачити в Таблиці . 1 The distribution of oxygen treatment using different devices at different client sites is shown in Extended Data Fig. , яка детально описує використання пристрою при прийомі в ED і після 24-го і 72-го періодів. Різницю в розподілі наборів даних між найбільшими і найменшими клієнтськими сайтами можна побачити на фігурі розширених даних. . 7 8 Кількість позитивних випадків COVID-19, підтверджених одноразовим тестом RT-PCR, отриманим в будь-який час між представленням до ЕД і виписом з лікарні, наведено в Додатковій таблиці. Кожному клієнтському сайті було запропоновано випадково розділити свій набір даних на три частини: 70% для навчання, 10% для валідації та 20% для тестування. 1 Екзамен на розробку моделі Є широкі відмінності в клінічному перебігу пацієнтів, які приходять в лікарню з симптомами COVID-19, з деякими, які відчувають швидке погіршення функції дихання, що вимагає різних втручань для запобігання або пом'якшення гіпоксемії. , Важливим рішенням, прийнятим під час оцінки пацієнта на початковому етапі лікування, або в епідемії епідемії, є те, чи пацієнт, ймовірно, потребує більш інвазивних або обмежених ресурсами контрзаходів або втручань (наприклад, MV або моноклональних антитіл), і, отже, повинен отримувати рідкісну, але ефективну терапію, терапію з вузьким співвідношенням ризику та користі через побічні ефекти або більш високий рівень догляду, наприклад, прийом в одиницю інтенсивної терапії. На відміну від цього, пацієнт, який знаходиться на нижчому ризику потребує інвазивної терапії киснем, може бути розміщений в менш інтенсивному середовищі догляду, наприклад, в звичайному відділенні, або навіть звільнений від ЕД для продовження самоконтролю вдома. . EXAM was developed to help triage such patients. 62 63 64 65 Of note, the model is not approved by any regulatory agency at this time and it should be used only for research purposes. EXAM score ЕКЗАМ був підготовлений за допомогою FL; він виводить оцінку ризику (так званий оцінка EXAM) схожий на CORISK (Extended Data Fig. Він відповідає потребам пацієнта в підтримці кисню протягом двох вікон — 24 та 72 години — після первинної презентації в ЕД. illustrates how CORISK and the EXAM score can be used for patient triage. 27 9а 9б Chest X-ray images were preprocessed to select the anterior position image and exclude lateral view images, and then scaled to a resolution of 224 × 224. As shown in Extended Data Fig. , the model fuses information from both EMR and CXR features (based on a modified ResNet34 with spatial attention pretrained on the CheXpert dataset) Створення Deep & Cross . To converge these different data types, a 512-dimensional feature vector was extracted from each CXR image using a pretrained ResNet34, with spatial attention, then concatenated with the EMR features as the input for the Deep & Cross network. The final output was a continuous value in the range 0–1 for both 24- and 72-h predictions, corresponding to the labels described above, as shown in Extended Data Fig. . We used cross-entropy as the loss function and ‘Adam’ as the optimizer. The model was implemented in Tensorflow using the NVIDIA Clara Train SDK . The average AUC for the classification tasks (≥LFO, ≥HFO/NIV or ≥MV) was calculated and used as the final evaluation metric, with normalization to zero-mean and unit variance. CXR images were preprocessed to select the correct series and exclude lateral view images, then scaled to a resolution of 224 × 224 (ref. ) 9а 66 67 68 9b 69 70 27 Feature imputation and normalization A MissForest algorithm Якщо функція EMR була повністю відсутня в наборі даних клієнтського сайту, то використовувалося середнє значення цієї функції, обчислене виключно на даних з клієнтських сайтів MGB. Потім функції EMR були переоцінені до нульового середнього і одиничної відмінності на основі статистики, обчисленої на даних з клієнтських сайтів MGB. 71 Деталі злиття даних EMR-CXR за допомогою мережі Deep & Cross To model the interactions of features from EMR and CXR data at the case level, a deep-feature scheme was used based on a Deep & Cross network architecture Бінарні та категоріальні характеристики для входів EMR, а також 512-вимірні зображення в CXR, були перетворені в злиті щільні вектори реальних цінностей шляхом вбудовування та складання шарів. Трансформовані щільні вектори служили введенням до рамки злиття, яка спеціально використовувала перехресну мережу для здійснення злиття між входами з різних джерел. Перехресна мережа виконувала виразне перехрещення функцій всередині своїх шарів, проводячи внутрішні продукти між оригінальною вхідною функцією та виходом з попереднього шару, тим самим збільшуючи ступінь взаємодії між функціями. У той же час, дві окремі класичні глибокі нейронні мережі з декілько 68 FL details Arguably the most established form of FL is implemention of the federated averaging algorithm as proposed by McMahan et al. Цей алгоритм може бути реалізований за допомогою налаштування клієнта-сервера, де кожен учасник сайту діє як клієнт. Можна подумати про FL як про метод, спрямований на мінімізацію глобальної функції втрат, зменшуючи набір локальних функцій втрат, які оцінюються на кожному сайті. Мінімізуючи локальну втрату кожного клієнтського сайту, а також синхронізуючи вивчені ваги клієнтського сайту на централізованому агрегаційному сервері, можна мінімізувати глобальну втрату, не потребуючи доступу до всього набору даних в централізованому місці. Кожен клієнтський сайт вчиться локально, і ділиться оновленнями ваги моделі з центральним сервером, який агрегує внески за допомогою захищеного шару ) 72 9c A pseudoalgorithm of FL is shown in Supplementary Note . In our experiments, we set the number of federated rounds at = 200, з однією місцевою епохою навчання на раунд за кожним клієнтом, кількість клієнтів, , до 20 в залежності від мережевої підключеності клієнтів або наявних даних для конкретного періоду цільового результату (24 або 72 години). , depends on the dataset size at each client і використовується для зваження внесків кожного клієнта при агрегації ваг моделі у федеративному середньому. Під час завдання навчання FL кожен клієнтський сайт вибирає свою кращу локальну модель, відслідковуючи продуктивність моделі на своєму локальному наборі валідації. У той же час сервер визначає найкращу глобальну модель на основі середніх оцінок валідації, відправлених з кожного клієнтського сайту на сервер після кожного раунду FL. Після закінчення навчання FL найкращі локальні моделі та найкраща глобальна модель автоматично діляться з усіма клієнтськими сайтами та оцінюються на їх локальних даних тестування. 1 T t K НК k Оптимізатор Adam використовувався як для місцевого навчання, так і для FL з початковою швидкістю навчання 5 × 10–5 і поступовим розпадом швидкості навчання з фактором 0,5 після кожного 40 епох, що важливо для конвергенції федеративного середнього значення. Випадкові аффіні трансформації, включаючи обертання, переклади, різання, масштабування та випадковий шум інтенсивності та зрушення, були застосовані до зображень для збільшення даних під час тренування. 73 Owing to the sensitivity of BN layers Коли ми працювали з різними клієнтами в незалежному і ідентично розподіленому середовищі, ми виявили, що найкраща продуктивність моделі відбувалася при збереженні попередньо підготовленого ResNet34 з просторовою увагою. parameters fixed during FL training (that is, using a learning rate of zero for those layers). The Deep & Cross network that combines image features with EMR features does not contain BN layers and hence was not affected by BN instability issues. 58 47 У цьому дослідженні ми досліджували схему збереження конфіденційності, яка ділиться лише частковими оновленнями моделі між сервером та клієнтськими сайтами. Оновлення ваги класифікувалися під час кожної ітерації за величиною внеску, і тільки певний відсоток найбільших оновлень ваги було розділено з сервером. f) розширені дані фігури. ), which was computed from all non-zero gradients, Δ Це може бути інакше для кожного клієнта. У кожному раунді . Variations of this scheme could include additional clipping of large gradients or differential privacy schemes that add random noise to the gradients, or even to the raw data, before feeding into the network . k 5 ВК(т) k t 49 51 Statistical analysis We conducted a Wilcoxon signed-rank test to confirm the significance of the observed improvement in performance between the locally trained model and the FL model for the 24- and 72-h time points (Fig. Розширені дані фігури. ). The null hypothesis was rejected with one-sided «1 × 10–3 в обох випадках. 2 1 P Кореляція Pearson була використана для оцінки узагальнюваності (надійності середнього значення AUC до даних тестування інших клієнтських сайтів) локально підготовлених моделей по відношенню до відповідного локального розміру набору даних. = 0,43 року, = 0.035, degrees of freedom (df) = 17 for the 24-h model and = 0,62 відсотка = 0,003, df = 16 для моделі 72-h).Це вказує на те, що розмір набору даних не є єдиним фактором, що визначає стійкість моделі до невидимих даних. r P r P To compare ROC curves from the global FL model and local models trained at different sites (Extended Data Fig. ), ми завантажили 1000 зразків з даних і обчислили отримані AUC. Ми потім обчислили різницю між двома серіями і стандартизували за допомогою формули = (AUC1 – AUC2)/ , where Що таке стандартизована різниця is the standard deviation of the bootstrap differences and AUC1 and AUC2 are the corresponding bootstrapped AUC series. By comparing with normal distribution, we obtained the values illustrated in Supplementary Table Результати показують, що нульова гіпотеза була відхилена з дуже низьким рівнем значення, що вказує на статистичну значимість переваги результатів ФЛ. Розрахунок values was conducted in R with the pROC library . 3 D s D s D P 2 P P 74 Оскільки модель передбачає дискретний результат, безперервну оцінку від 0 до 1, неможлива пряма оцінка калібрування, наприклад qqplot. Ми проводили односторонній аналіз варіацій (ANOVA) тестів для порівняння результатів локальної та FL моделі між чотирма категоріями наземної істини (RA, LFO, HFO, MV). Статистична, обчислювана як варіація між вибірковими засобами, розділена на варіацію всередині зразків і представляє ступінь дисперсії між різними групами, була використана для кількісної оцінки моделей. -значення п'яти різних локальних сайтів - 245.7, 253.4, 342.3, 389.8 і 634.8, тоді як значення моделі FL - 843.5. -значення означають, що групи більш розділені, результати з нашої моделі FL чітко показують більший дисперс між чотирма категоріями грунтової істини. значення тесту ANOVA на моделі FL становить <2 × 10–16, що вказує на те, що результати прогнозування FL статистично значно відрізняються між різними класами прогнозування. 10 F F F P Звітне резюме Further information on research design is available in the пов'язана з цією статтею. Реферат на тему Nature Research Reporting Доступність даних The dataset from the 20 institutes that participated in this study remains under their custody. These data were used for training at each of the local sites and were not shared with any of the other participating institutions or with the federated server, and they are not publicly available. Data from the independent validation sites are maintained by CAMCA, and access can be requested by contacting Q.L. Based on determination by CAMCA, a data-sharing review and amendment of IRB for research purposes can be conducted by MGB research administration and in accordance with MGB IRB and policy. Code availability Всі коди та програмне забезпечення, що використовуються в цьому дослідженні, публічно доступні в NGC. Щоб отримати доступ, ввійти як гость або створити профіль, введіть один з URL-адресів нижче. Навчені моделі, керівництво з підготовки даних, код для навчання, підтвердження тестування моделі, файл readme, керівництво з установки та ліцензійні файли публічно доступні в NVIDIA NGC : The federated learning software is available as part of the Clara Train SDK: . Alternatively, use this command to download the model “wget --content-disposition -О clara_train_covid19_exam_ehr_xray_1.zip». 61 https://ngc.nvidia.com/catalog/models/nvidia:med:clara_train_covid19_exam_ehr_xray https://ngc.nvidia.com/catalog/containers/nvidia:clara-train-sdk https://api.ngc.nvidia.com/v2/models/nvidia/med/clara_train_covid19_exam_ehr_xray/versions/1/zip Референції Budd, J. et al. Digital technologies in the public-health response to COVID-19. , 1183–1192 (2020). Nat. Med. 26 Moorthy, V., Henao Restrepo, A. M., Preziosi, M.-P. & Swaminathan, S. Data sharing for novel coronavirus (COVID-19). , 150 (2020). Bull. World Health Organ. 98 Chen, Q., Allot, A. & Lu, Z. Keep up with the latest coronavirus research. , 193 (2020). Nature 579 Fabbri, F., Bhatia, A., Mayer, A., Schlotter, B. & Kaiser, J. BCG IT spend pulse: how COVID-19 is shifting tech priorities. (2020). https://www.bcg.com/publications/2020/how-covid-19-is-shifting-big-it-spend Candelon, F., Reichert, T., Duranton, S., di Carlo, R. C. & De Bondt, M. The rise of the AI-powered company in the postcrisis world. (2020). https://www.bcg.com/en-gb/publications/2020/business-applications-artificial-intelligence-post-covid Chao, H. et al. Integrative analysis for COVID-19 patient outcome prediction. , 101844 (2021). Med. Image Anal. 67 Zhu, X. et al. Joint prediction and time estimation of COVID-19 developing severe symptoms using chest CT scan. , 101824 (2021). Med. Image Anal. 67 Yang, D. et al. Federated semi-supervised learning for Covid region segmentation in chest ct using multi-national data from China, Italy, Japan. , 101992 (2021). Med. Image Anal. 70 Minaee, S., Kafieh, R., Sonka, M., Yazdani, S. & Jamalipour Soufi, G. Deep-COVID: predicting COVID-19 from chest X-ray images using deep transfer learning. , 101794 (2020). Med. Image Anal. 65 COVID-19 Studies from the World Health Organization Database. (2020). https://clinicaltrials.gov/ct2/who_table ACTIV. (2020). https://www.nih.gov/research-training/medical-research-initiatives/activ Coronavirus Treatment Acceleration Program (CTAP). US Food and Drug Administration (2020). https://www.fda.gov/drugs/coronavirus-covid-19-drugs/coronavirus-treatment-acceleration-program-ctap Gleeson, P., Davison, A. P., Silver, R. A. & Ascoli, G. A. A commitment to open source in neuroscience. , 964–965 (2017). Neuron 96 Piwowar, H. et al. The state of OA: a large-scale analysis of the prevalence and impact of open access articles. , e4375 (2018). PeerJ. 6 European Society of Radiology (ESR). What the radiologist should know about artificial intelligence – an ESR white paper. , 44 (2019). Insights Imaging 10 Pesapane, F., Codari, M. & Sardanelli, F. Artificial intelligence in medical imaging: threat or opportunity? Radiologists again at the forefront of innovation in medicine. , 35 (2018). Eur. Radiol. Exp. 2 Price, W. N. 2nd & Cohen, I. G. Privacy in the age of medical big data. , 37–43 (2019). Nat. Med. 25 Liang, W. et al. Development and validation of a clinical risk score to predict the occurrence of critical illness in hospitalized patients with COVID-19. , 1081–1089 (2020). JAMA Intern. Med. 180 Wynants, L. et al. Prediction models for diagnosis and prognosis of covid-19 infection: systematic review and critical appraisal. , m1328 (2020). Brit. Med. J. 369 Zhang, L. et al. D-dimer levels on admission to predict in-hospital mortality in patients with Covid-19. , 1324–1329 (2020). J. Thromb. Haemost. 18 Sands, K. E. et al. Patient characteristics and admitting vital signs associated with coronavirus disease 2019 (COVID-19)-related mortality among patients admitted with noncritical illness. (2020). https://doi.org/10.1017/ice.2020.461 American College of Radiology. CR recommendations for the use of chest radiography and computed tomography (CT) for suspected COVID-19 infection. (2020). https://www.acr.org/Advocacy-and-Economics/ACR-Position-Statements/Recommendations-for-Chest-Radiography-and-CT-for-Suspected-COVID19-Infection Rubin, G. D. et al. The role of chest imaging in patient management during the COVID-19 pandemic: a multinational consensus statement from the Fleischner Society. , 172–180 (2020). Radiology 296 World Health Organization. Use of chest imaging in COVID-19. (2020). https://www.who.int/publications/i/item/use-of-chest-imaging-in-covid-19 Jamil, S. et al. Diagnosis and management of COVID-19 disease. , 10 (2020). Am. J. Respir. Crit. Care Med. 201 Redmond, C. E., Nicolaou, S., Berger, F. H., Sheikh, A. M. & Patlas, M. N. Emergency radiology during the COVID-19 pandemic: The Canadian Association of Radiologists Recommendations for Practice. , 425–430 (2020). Can. Assoc. Radiologists J. 71 Buch, V. et al. Development and validation of a deep learning model for prediction of severe outcomes in suspected COVID-19 Infection. Preprint at (2021). https://arxiv.org/abs/2103.11269 Lyons, C. & Callaghan, M. The use of high-flow nasal oxygen in COVID-19. , 843–847 (2020). Anaesthesia 75 Whittle, J. S., Pavlov, I., Sacchetti, A. D., Atwood, C. & Rosenberg, M. S. Respiratory support for adult patients with COVID-19. , 95–101 (2020). J. Am. Coll. Emerg. Physicians Open 1 Ai, J., Li, Y., Zhou, X. & Zhang, W. COVID-19: treating and managing severe cases. , 370–371 (2020). Cell Res. 30 Esteva, A. et al. A guide to deep learning in healthcare. , 24–29 (2019). Nat. Med. 25 Cahan, E. M., Hernandez-Boussard, T., Thadaney-Israni, S. & Rubin, D. L. Putting the data before the algorithm in big data addressing personalized healthcare. , 78 (2019). NPJ Digit. Med. 2 Thrall, J. H. et al. Artificial intelligence and machine learning in radiology: opportunities, challenges, pitfalls, and criteria for success. , 504–508 (2018). J. Am. Coll. Radiol. 15 Shilo, S., Rossman, H. & Segal, E. Axes of a revolution: challenges and promises of big data in healthcare. , 29–38 (2020). Nat. Med. 26 Gao, Y. & Cui, Y. Deep transfer learning for reducing health care disparities arising from biomedical data inequality. , 5131 (2020). Nat. Commun. 11 Rieke, N. et al. The future of digital health with federated learning. , 119 (2020). NPJ Dig. Med. 3 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. 10 Ma, C. et al. On safeguarding privacy and security in the framework of federated learning. , 242–248 (2020). IEEE Netw. 34 Brisimi, T. S. et al. Federated learning of predictive models from federated Electronic Health Records. , 59–67 (2018). Int. J. Med. Inform. 112 Roth, H. R. et al. Federated learning for breast density classification: a real-world implementation. In , (eds. Albarqouni, S. et al.) Vol. 12,444, 181–191 (Springer International Publishing, 2020). Proc. Second MICCAI Workshop, DART 2020 and First MICCAI Workshop, DCL 2020 Domain Adaptation and Representation Transfer, and Distributed and Collaborative Learning Sheller, M. J. et al. Federated learning in medicine: facilitating multi-institutional collaborations without sharing patient data. , 12598 (2020). Sci. Rep. 10 Remedios, S. W., Butman, J. A., Landman, B. A. & Pham, D. L. in (eds Remedios, S. W. et al.) (Springer, 2020). Federated Gradient Averaging for Multi-Site Training with Momentum-Based Optimizers Xu, Y. et al. A collaborative online AI engine for CT-based COVID-19 diagnosis. Preprint at (2020). https://www.medrxiv.org/content/10.1101/2020.05.10.20096073v2 Raisaro, J. L. et al. SCOR: A secure international informatics infrastructure to investigate COVID-19. , 1721–1726 (2020). J. Am. Med. Inform. Assoc. 27 Vaid, A. et al. Federated learning of electronic health records to improve mortality prediction in hospitalized patients with COVID-19: machine learning approach. , e24207 (2021). JMIR Med. Inform. 9 Nino, G. et al. Pediatric lung imaging features of COVID-19: a systematic review and meta-analysis. , 252–263 (2021). Pediatr. Pulmonol. 56 Fredrikson, M., Jha, S. & Ristenpart, T. Model inversion attacks that exploit confidence information and basic countermeasures. In 1322–1333, (2015). Proc. 22nd ACM SIGSAC Conference on Computer and Communications Security https://doi.org/10.1145/2810103.2813677 Zhu, L., Liu, Z. & Han, S. in (eds Wallach, H. et al.) 14774–14784 (Curran Associates, Inc., 2019). Advances in Neural Information Processing Systems 32 Kaissis, G. A., Makowski, M. R., Rückert, D. & Braren, R. F. Secure, privacy-preserving and federated machine learning in medical imaging. , 305–311 (2020). Nat. Mach. Intell. 2 Li, W. et al. in 133–141 (Springer, 2019). Privacy-Preserving Federated Brain Tumour Segmentation Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In (2015). Proc. 53rd Annual Allerton Conference on Communication, Control, and Computing (Allerton) https://doi.org/10.1109/allerton.2015.7447103 Li, X. et al. Multi-site fMRI analysis using privacy-preserving federated learning and domain adaptation: ABIDE results. , 101765 (2020). Med. Image Anal. 65 Estiri, H. et al. Predicting COVID-19 mortality with electronic medical records. , 15 (2021). NPJ Dig. Med. 4 Jiang, G. et al. Harmonization of detailed clinical models with clinical study data standards. , 65–74 (2015). Methods Inf. Med. 54 Yang, D. et al. in . (2019). Searching Learning Strategy with Reinforcement Learning for 3D Medical Image Segmentation https://doi.org/10.1007/978-3-030-32245-8_1 Elsken, T., Metzen, J. H. & Hutter, F. Neural architecture search: a survey. , 1–21 (2019). J. Mach. Learning Res. 20 Yao, Q. et al. Taking human out of learning applications: a survey on automated machine learning. Preprint at (2019). https://arxiv.org/abs/1810.13306 Ioffe, S. & Szegedy, C. Batch normalization: accelerating deep network training by reducing internal covariate shift. In , PMLR , 448–456 (2015). Proc. 32nd International Conf. Machine Learning 37 Kaufman, S., Rosset, S. & Perlich, C. Leakage in data mining: formulation, detection, and avoidance. In , 556–563 (2011). Proc. 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Zhang, C. et al. BatchCrypt: efficient homomorphic encryption for cross-silo federated learning. In , 493–506 (2020). Proc. 2020 USENIX Annual Technical Conference, ATC 2020 . (2020). Nvidia NGC Catalog: COVID-19 Related Models https://ngc.nvidia.com/catalog/models?orderBy=scoreDESC&pageNumber=0&query=covid&quickFilter=models&filters Marini, J. J. & Gattinoni, L. Management of COVID-19 respiratory distress. , 2329–2330 (2020). JAMA 323 Cook, T. M. et al. Consensus guidelines for managing the airway in patients with COVID-19: Guidelines from the Difficult Airway Society, the Association of Anaesthetists the Intensive Care Society, the Faculty of Intensive Care Medicine and the Royal College of Anaesthetist. , 785–799 (2020). Anaesthesia 75 Galloway, J. B. et al. A clinical risk score to identify patients with COVID-19 at high risk of critical care admission or death: an observational cohort study. , 282–288 (2020). J. Infect. 81 Kilaru, A. S. et al. Return hospital admissions among 1419 COVID-19 patients discharged from five U.S. emergency departments. , 1039–1042 (2020). Acad. Emerg. Med. 27 He, K., Zhang, X., Ren, S. & Sun, J. Deep residual learning for image recognition. In (2016). Proc. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) https://doi.org/10.1109/cvpr.2016.90 Irvin, J. et al. CheXpert: a large chest radiograph dataset with uncertainty labels and expert comparison. , 590–597 (2019). Proc. AAAI Conf. Artif. Intell. 33 Wang, R., Fu, B., Fu, G. & Wang, M. Deep & Cross network for Ad Click predictions. In Article no. 12 (2017). Proc. ADKDD’17 Abadi, M. et al. TensorFlow: asystem for large-scale machine learning. In , USENIX Association 265–283 (2016). 12th USENIX Symposium on Operating Systems Design and Implementation (OSDI 16) . (2020). NVIDIA Clara Imaging https://developer.nvidia.com/clara-medical-imaging Stekhoven, D. J. & Bühlmann, P. MissForest–non-parametric missing value imputation for mixed-type data. , 112–118 (2012). Bioinformatics 28 McMahan, H., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. (2017). http://proceedings.mlr.press/v54/mcmahan17a.html Hsieh, K., Phanishayee, A., Mutlu, O. & Gibbons, P. B. The non-IID data quagmire of decentralized machine learning. In PMLR 119 (2020). Proc. 37th International Conf. Machine Learning Robin, X. et al. pROC: an open-source package for R and S+ to analyze and compare ROC curves. , 77 (2011). BMC Bioinformatics 12 визнання Погляди, висловлені в даному дослідженні клінічних даних, є авторами, а не обов'язково авторами NHS, NIHR, Департаменту охорони здоров'я та соціальної допомоги або будь-якої з організацій, пов'язаних з авторами. MGB дякує наступним особам за їх підтримку: J. Brink, Департамент радіології, Массачусетська загальна лікарня, Гарвардська медична школа, Бостон, MA; M. Kalra, Департамент радіології, Массачусетська загальна лікарня, Гарвардська загальна лікарня, Бостон, MA; N. Neumark, Центр клінічних даних, Массачусетська загальна Brigham, Бостон, MA; T. Schultz, Департамент радіології, Массачу Через факультет медицини, Чулалонгкорнський університет подякує Ратчапапісеку Сомпочу за збір та управління клінічними даними та біологічними зразками, пов'язаними з COVID-19 для дослідницької робочої групи, факультету медицини, Чулалонгкорнського університету. Центр біомедичних досліджень NIHR в Кембриджі дякує A. Priest, який підтримується NIHR (Cambridge Biomedical Research Centre at Cambridge University Hospitals NHS Foundation Trust). National Taiwan University MeDA Lab та MAHC та Taiwan National Health Insurance Administration дякують MOST Joint Research Center for AI technology, All Vista Healthcare National Health Insurance Administration, Taiwan, Ministry of Science and Technology, Taiwan National Center for Theoretical Sciences Mathematics Division. National Institut https://data.ucsf.edu/covid19 Цей документ є Ліцензія CC by 4.0 Deed (Attribution 4.0 International) Доступний у природі Цей документ є Ліцензія CC by 4.0 Deed (Attribution 4.0 International) Доступний у природі