Los autores: Título Dayan Holger R. Roth Aoxiao Zhong Ahmed Harouni Amilcare Gentiles Anas Z. Abidin Andrés Liu Anthony Beardsworth Costa Bradford J. Wood Chien-Sung Tsai Chih-Hung Wang Chun-Nan Hsu C. K. Lee Peñón Ruan Daguang Xu Dufan Wu Eddie Huang Felipe Campos Kitamura Griffin Lacey Gustavo César de Antonio Corradi Gustavo Nino Hao-Hsin Shin Hirofumi Obinata Hui Ren Jason C. Crane Jesse Tetreault Jiahui Guan por John W. Garrett Joshua D. Kaggie Parque de Jung Gil de Keith Dreyer Krishna Juluru Kristopher Kersten Marcio Aloisio Bezerra Cavalcanti Rockenbach Marius George Linguraru Masoom A. Haider Meena AbdelMaseeh Nicolás Rico Pablo F. Damasceno Pedro Mario Cruz y Silva Pochuan Wang Sheng Xu Shuichi Kawano Sra Srisvasdi Soo Young Park Thomas M. Grist El libro Varun Watsamon Jantarabenjakul Vanguardia Wang Ganó Young Tak Xiang Li Xihong Lin El joven Joon Kwon Abood Quraini Andrew Feng Andrew N. Priest Barrios de Turquía por Benjamin Glicksberg Bernardo Bizzo Encuentro con Kim Carlos Tor-Díez Chia-Cheng Lee Chia-Jung Hsu Chin Lin Chiu-Ling Lai por Christopher P. Hess Colin Compas Deepeksha Bhatia por Eric K. Oermann Evan Leibovitz Hisashi Sasaki Hitoshi Mori Isaac Yang Hijo de Jae Ho Krishna Nand Keshava Murthy Li-Chen Fu Matheus Ribeiro Furtado de Mendonça Mike Fralick El Kyu Kang Mahoma es justo Natalie Gangai Peerapon Vateekul Pierre Elnajjar por Sarah Hickman Sharmila Majumdar por Shelley L. McLeod Sheridan Reed de Stefan Gräf Stephanie Harmon Tatsuya Kodama Encuentran a Putaco Tony Mazzulli Vitor Lima de Trabajo Yotín Rakvongthai Más sobre Yu Rim Lee Yuhong Wen Fiona J. Gilbert Mona G. Flores ¿Cuánto le Los autores: Título Dayan por Holger R. Roth Aoxiao Zhong Ahmed Harouni Amilcare Gentiles Anas Z. Abidin Andrés Liu Artículo siguienteAnthony Beardsworth Costa Bradford J. Wood Chien-Sung Tsai Chih-Hung Wang Chun-Nan Hsu C. K. Lee Peñón Ruan Daguang Xu Dufan Wu Eddie Huang Felipe Campos Kitamura Griffin Lacey Gustavo César de Antonio Corradi Gustavo Nino Hao-Hsin Shin Hirofumi Obinata Hui Ren por Jason C. Crane Jesse Tetreault Jiahui Guan por John W. Garrett Joshua D. Kaggie Parque de Jung Gil de Keith Dreyer Krishna Juluru Kristopher Kersten Marcio Aloisio Bezerra Cavalcanti Rockenbach Marius George Linguraru Masoom A. Haider Meena AbdelMaseeh Nicolás Rico Pablo F. Damasceno Pedro Mario Cruz y Silva Pochuan Wang Sheng Xu El Shuichi Kawano Sra Srisvasdi El parque Soo Young Thomas M. Grist El libro Varun Vacaciones de almuerzo Vanguardia Wang Ganó Young Tak Xiang Li Xihong Lin El joven Joon Kwon Abood Quraini Andrew Feng Siguiente Andrew N. Priest Barrios de Turquía por Benjamin Glicksberg Bernardo Bizzo Encuentro con Kim Carlos Tor-Díez de Chia-Cheng Lee Chia-Jung Hsu Chin Lin Chiu-Ling Lai por Christopher P. Hess Colin Compas Deepeksha Bhatia por Eric K. Oermann Evan Leibovitz Hisashi Sasaki Hitoshi Mori Isaac Yang Hijo de Jae Ho Krishna Nand Keshava Murthy Li-Chen Fu Matheus Ribeiro Furtado de Mendonça Mike Fralick El Kyu Kang Mahoma es justo Natalie Gangai Peerapon Vateekul Pierre Elnajjar por Sarah Hickman Sharmila Majumdar por Shelley L. McLeod Sheridan Reed de Stefan Gräf Stephanie Harmon Tatsuya Kodama Encuentran a Putaco Tony Mazzulli Vitor Lima de Trabajo Yotín Rakvongthai Más sobre Yu Rim Lee Yuhong Wen Fiona J. Gilbert Mona G. Flores ¿Cuánto le Abstracción La formación federada de datos (FL) es un método utilizado para entrenar modelos de inteligencia artificial con datos de múltiples fuentes, manteniendo el anonimato de datos, eliminando así muchas barreras al intercambio de datos. Aquí usamos datos de 20 institutos de todo el mundo para entrenar un modelo FL, llamado EXAM (Electronic Medical Record (EMR) chest X-ray AI model), que predice las futuras necesidades de oxígeno de los pacientes sintomáticos con COVID-19 utilizando entradas de signos vitales, datos de laboratorio y rayos X torácicos. EXAM logró un área promedio bajo la curva (AUC) >0.92 para predecir los resultados en 24 y 72 horas desde el momento de la presentación inicial a la sala de emergencia, y proporcionó una mejora del 16% en la AUC media medida en todos los Main Las comunidades científicas, académicas, médicas y de ciencia de datos se han unido ante la crisis pandémica de COVID-19 para evaluar rápidamente nuevos paradigmas en inteligencia artificial (IA) que son rápidos y seguros, y potencialmente incentivar el intercambio de datos y la formación y pruebas de modelos sin las barreras habituales de privacidad y propiedad de datos de las colaboraciones convencionales. , Los proveedores de atención médica, los investigadores y la industria se han centrado en abordar las necesidades clínicas insatisfechas y críticas creadas por la crisis, con resultados notables. , , , , , , El reclutamiento de ensayos clínicos ha sido acelerado y facilitado por los organismos reguladores nacionales y un espíritu de cooperación internacional. , , Las disciplinas de análisis de datos y IA siempre han fomentado enfoques abiertos y colaborativos, abarcando conceptos como el software de código abierto, la investigación reproducible, los repositorios de datos y la disponibilidad pública de conjuntos de datos anónimos. , La pandemia ha subrayado la necesidad de llevar a cabo con rapidez colaboraciones de datos que capaciten a las comunidades clínicas y científicas para responder a los desafíos globales que evolucionan rápidamente y se extienden ampliamente.El intercambio de datos tiene complicaciones éticas, regulatorias y legales que son subrayadas, y tal vez un poco complicadas, por la reciente entrada de grandes compañías de tecnología en el mundo de los datos de la salud. , , . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Un ejemplo concreto de estos tipos de colaboración es nuestro trabajo anterior en un modelo de apoyo a la decisión clínica (CDS) SARS-COV-2 basado en la IA. Este modelo de CDS fue desarrollado en Mass General Brigham (MGB) y fue validado a través de los datos de varios sistemas de salud. Las entradas al modelo de CDS fueron imágenes de rayos X torácicos (CXR), signos vitales, datos demográficos y valores de laboratorio que se mostraron en publicaciones anteriores para ser predictivos de los resultados de los pacientes con COVID-19 , , , . CXR was selected as the imaging input because it is widely available and commonly indicated by guidelines such as those provided by ACR La Sociedad Fleischner La OMS Sociedades Toracicas Nacionales Manual COVID y sociedades de radiología en todo el mundo La salida del modelo CDS fue una puntuación, llamada CORISK , que corresponde a los requisitos de soporte de oxígeno y que podría ayudar en el ensayo de pacientes por médicos de primera línea , , . Healthcare providers have been known to prefer models that were validated on their own data Hasta la fecha, la mayoría de los modelos de IA, incluido el modelo CDS antes mencionado, han sido entrenados y validados en datos “estrictos” que a menudo carecen de diversidad. , , potencialmente resultando en overfitting y menor generalizabilidad. Esto puede ser mitigado por la formación con datos diversos de múltiples sitios sin la centralización de los datos Usando métodos como el aprendizaje de transferencia , FL es un método utilizado para entrenar modelos de IA en fuentes de datos dispares, sin que los datos sean transportados o expuestos fuera de su ubicación original. . 18 19 20 21 22 23 24 25 26 27 28 29 30 27 31 32 33 34 35 36 El aprendizaje federado apoya el lanzamiento rápido de experimentos centralmente orquestados con mejor trazabilidad de datos y evaluación de cambios algorítmicos e impacto . One approach to FL, called client-server, sends an ‘untrained’ model to other servers (‘nodes’) that conduct partial training tasks, in turn sending the results back to be merged in the central (‘federated’) server. This is conducted as an iterative process until training is complete . 37 36 La gobernanza de los datos para FL se mantiene localmente, aliviando las preocupaciones de privacidad, con sólo los pesos del modelo o los gradientes comunicados entre los sitios del cliente y el servidor federado , FL ya ha mostrado promesa en aplicaciones recientes de imagen médica , , , Análisis del COVID-19 , , Un ejemplo notable es un modelo de predicción de la mortalidad en pacientes infectados con SARS-COV-2 que utiliza características clínicas, aunque limitadas en términos de número de modalidades y escala. . 38 39 40 41 42 43 8 44 45 46 Nuestro objetivo era desarrollar un modelo robusto y generalizable que pudiera ayudar en el ensayo de pacientes. Teorizamos que el modelo CDS puede ser federado con éxito, dado su uso de entradas de datos que son relativamente comunes en la práctica clínica y que no dependen en gran medida de evaluaciones operadoras-dependentes de la condición del paciente (como las impresiones clínicas o los síntomas reportados). En cambio, se utilizaron resultados de laboratorio, signos vitales, un estudio de imagen y una entrada demográfica comúnmente capturada (es decir, edad). Por lo tanto, re-entrenamos el modelo CDS con diversos datos utilizando un enfoque FL cliente-servidor para desarrollar un nuevo modelo FL global, que se llamó EXAM, utilizando las características de CXR y EMR como entradas. Al aprovechar FL, las instituciones participantes no Nuestra hipótesis era que EXAM funcionaría mejor que los modelos locales y generalizaría mejor a través de los sistemas de salud. Resultados El modelo de arquitectura del examen El modelo EXAM se basa en el modelo CDS mencionado anteriormente En total, se utilizaron 20 características (19 del EMR y una CXR) como entrada al modelo. Las etiquetas de resultado (es decir, “verdad de la tierra”) se asignaron en base a la terapia de oxígeno del paciente después de periodos de 24 y 72 horas desde la admisión inicial al departamento de emergencias (ED). . 27 1 Las etiquetas de resultados de los pacientes se establecieron en 0, 0,25, 0,50 y 0,75 dependiendo de la terapia de oxígeno más intensa que recibió el paciente en la ventana de predicción. Las categorías de terapia de oxígeno fueron, respectivamente, aire ambiente (RA), oxígeno de bajo flujo (LFO), oxígeno de alto flujo (HFO)/ventilación no invasiva (NIV) o ventilación mecánica (MV). Si el paciente murió dentro de la ventana de predicción, la etiqueta de resultado se estableció en 1. Para las funciones de EMR, sólo se utilizaron los primeros valores capturados en el ED y el preprocesamiento de datos incluyó la desidentificación, la imputación de los valores faltantes y la normalización a la media cero y la varianza de unidades. El modelo, por lo tanto, fusiona información de las características EMR y CXR, utilizando una red neural convolucional de 34 capas (ResNet34) para extraer características de una CXR y una red Deep & Cross para concatenar las características junto con las características EMR (para más detalles ampliados, véase La salida del modelo es una puntuación de riesgo, denominada puntuación EXAM, que es un valor continuo en el rango 0-1 para cada una de las predicciones de 24 y 72 horas correspondientes a las etiquetas descritas anteriormente. Métodos Federar el modelo El modelo EXAM fue entrenado utilizando una cohorte de 16.148 casos, convirtiéndolo no sólo entre los primeros modelos FL para COVID-19 sino también en un proyecto de desarrollo muy grande y multicontinente en IA clínicamente relevante (Fig. Los datos entre los sitios no fueron armonizados antes de la extracción y, a la luz de las circunstancias de la informática clínica de la vida real, una meticulosa armonización de la entrada de datos no fue llevada a cabo por los autores (Fig. ) de 1a, B 1C y D Mapa del mundo que muestra los 20 diferentes sitios de clientes que contribuyen al estudio EXAM. , Número de casos aportados por cada institución o sitio (cliente 1 representa el sitio que contribuye con el mayor número de casos). Distribución de la intensidad de rayos X del pecho en cada sitio del cliente. , Edad de los pacientes en cada sitio del cliente, mostrando la edad mínima y máxima (asteriscos), la edad media (triángulos) y la desviación estándar (barras horizontales). . a b c d 1 Los datos de cada cliente se compararon con los modelos capacitados localmente con el modelo global FL. El entrenamiento del modelo a través de FL resultó en una mejora significativa en el rendimiento ( « 1 × 10–3, prueba firmada por Wilcoxon) de 16% (definido por la AUC media cuando se ejecuta el modelo en los respectivos ensayos locales: de 0,795 a 0,920, o 12,5 puntos porcentuales) (Fig. También resultó en una mejora del 38% en la generalizabilidad (definida por la AUC promedio al ejecutar el modelo en todos los ensayos: de 0,667 a 0,920, o 25,3 puntos porcentuales) del mejor modelo global para la predicción del tratamiento de oxígeno de 24 horas en comparación con los modelos capacitados únicamente en los datos propios de un sitio (Fig. Para los resultados de predicción del tratamiento de oxígeno de 72 horas, el mejor entrenamiento de modelos globales resultó en una mejora promedio del rendimiento del 18% en comparación con los modelos capacitados localmente, mientras que la generalizabilidad del modelo global mejoró en promedio en un 34% (Fig. datos ampliados. La estabilidad de nuestros resultados fue validada por la repetición de tres carreras de entrenamiento local y FL en diferentes divisiones de datos aleatorios. P 2a 2b 1 , Desempeño en la prueba de cada cliente establecido en la predicción del tratamiento de oxígeno de 24 horas para los modelos capacitados con datos locales solo (Local) en comparación con el mejor modelo global disponible en el servidor (FL (ver mejor)). , Generalizabilidad (el rendimiento medio en los datos de pruebas de otros sitios, representado por la AUC media) como función del tamaño del conjunto de datos de un cliente (no casos). La línea horizontal verde denota el rendimiento de generalizabilidad del mejor modelo global. Se muestra el rendimiento para 18 de los 20 clientes, porque el cliente 12 tuvo resultados sólo para 72 horas de oxígeno (Fig. de datos ampliados. ) y el cliente 14 tenía casos sólo con tratamiento de RA, de modo que la métrica de evaluación (de AUC) no era aplicable en ninguno de estos casos ( Los datos para el cliente 14 también fueron excluidos del cálculo de la generalización media en los modelos locales. a b 1 Methods Local models that were trained using unbalanced cohorts (for example, mostly mild cases of COVID-19) markedly benefited from the FL approach, with a substantial improvement in prediction average AUC performance for categories with only a few cases. This was evident at client site 16 (an unbalanced dataset), with most patients experiencing mild disease severity and with only a few severe cases. The FL model achieved a higher true-positive rate for the two positive (severe) cases and a markedly lower false-positive rate compared to the local model, both shown in the receiver operating characteristic (ROC) plots and confusion matrices (Fig. Figura de datos ampliada. Más importante, la generalizabilidad del modelo FL se incrementó considerablemente sobre el modelo capacitado localmente. 3a 2 , ROC at client site 16, with unbalanced data and mostly mild cases. , ROC of the local model at client site 12 (a small dataset), mean ROC of models trained on larger datasets corresponding to the five client sites in the Boston area (1, 4, 5, 6, 8) and ROC of the best global model in prediction of 72-h oxygen treatment for different thresholds of EXAM score (left, middle, right). The mean ROC is calculated based on five locally trained models while the gray area denotes the ROC standard deviation. ROCs for three different cutoff values ( ) of the EXAM risk score are shown. Pos and neg denote the number of positive and negative cases, respectively, as defined by this range of EXAM score. a b t En el caso de los sitios de clientes con conjuntos de datos relativamente pequeños, el mejor modelo FL superó notablemente no solo al modelo local, sino también a los entrenados en conjuntos de datos más grandes de cinco sitios de clientes en la zona de Boston de los Estados Unidos (Fig. ) de 3b The global model performed well in predicting oxygen needs at 24/72 h in patients both COVID positive and negative (Extended Data Fig. ) de 3 Validation at independent sites Following initial training, EXAM was subsequently tested at three independent validation sites: Cooley Dickinson Hospital (CDH), Martha’s Vineyard Hospital (MVH) and Nantucket Cottage Hospital (NCH), all in Massachusetts, USA. The model was not retrained at these sites and it was used only for validation purposes. The cohort size and model inference results are summarized in Table , y las curvas de ROC y las matrices de confusión para el mayor conjunto de datos (de CDH) se muestran en la Figura. El punto de operación se estableció para diferenciar entre ventilación no mecánica y ventilación mecánica (MV) tratamiento (o muerte).El modelo de entrenamiento global de FL, EXAM, alcanzó una AUC media de 0,944 y 0,924 para las tareas de predicción de 24 y 72 horas, respectivamente (Tabla). ), which exceeded the average performance among sites used in training EXAM. For prediction of MV treatment (or death) at 24 h, EXAM achieved a sensitivity of 0.950 and specificity of 0.882 at CDH, and a sensitivity of 1.000 specificity of 0.934 at MVH. NCH did not have any cases with MV/death at 24 h. In regard to 72-h MV prediction, EXAM achieved a sensitivity of 0.929 and specificity of 0.880 at CDH, sensitivity of 1.000 and specificity of 0.976 at MVH and sensitivity of 1.000 and specificity of 0.929 at NCH. 2 4 2 , , Performance (ROC) (top) and confusion matrices (bottom) of the EXAM FL model on the CDH dataset for prediction of oxygen requirement at 24 h ( ) and 72 h ( ) ROCs para tres valores de corte diferentes ( ) de la puntuación de riesgo del examen se muestran. a b a b t For MV at CDH at 72 h, EXAM had a low false-negative rate of 7.1%. Representative failure cases are presented in Extended Data Fig. , showing two false-negative cases from CDH where one case had many missing EMR data features and the other had a CXR with a motion artifact and some missing EMR features. 4 Use of differential privacy Una motivación primaria para que los institutos de salud utilicen FL es preservar la seguridad y la privacidad de sus datos, así como el cumplimiento de las medidas de cumplimiento de datos. or even the reconstruction of training images from the model gradients themselves . To counter these risks, security-enhancing measures were used to mitigate risk in the event of data ‘interception’ during site-server communication . We experimented with techniques to avoid interception of FL data, and added a security feature that we believe could encourage more institutions to use FL. We thus validated previous findings showing that partial weight sharing, and other differential privacy techniques, can successfully be applied in FL . Through investigation of a partial weight-sharing scheme , , , we showed that models can reach a comparable performance even when only 25% of weight updates are shared (Extended Data Fig. ). 47 48 49 50 50 51 52 5 Discusión This study features a large, real-world healthcare FL study in terms of number of sites and number of data points used. We believe that it provides a powerful proof-of-concept of the feasibility of using FL for fast and collaborative development of needed AI models in healthcare. Our study involved multiple sites across four continents and under the oversight of different regulatory bodies, and thus holds the promise of being provided to different regulated markets in an expedited way. The global FL model, EXAM, proved to be more robust and achieved better results at individual sites than any model trained on only local data. We believe that consistent improvement was achieved owing to a larger, but also a more diverse, dataset, the use of data inputs that can be standardized and avoidance of clinical impressions/reported symptoms. These factors played an important part in increasing the benefits from this FL approach and its impact on performance, generalizability and, ultimately, the model’s usability. Para un sitio de cliente con un conjunto de datos relativamente pequeño, se podrían utilizar dos enfoques típicos para ajustar un modelo útil: uno es entrenar localmente con sus propios datos, el otro es aplicar un modelo entrenado en un conjunto de datos más grande. Para sitios con un conjunto de datos relativamente pequeño, habría sido prácticamente imposible construir un modelo de aprendizaje profundo de alto rendimiento utilizando solo sus datos locales. El hallazgo, que estos dos enfoques fueron superiores en todas las tres tareas de predicción por el modelo global FL, indica que el beneficio para los sitios de cliente con pequeños conjuntos de datos derivados de la participación en colaboraciones FL es sustancial. Esto es probablemente un reflejo de la capacidad de FL para capturar más diversidad que la formación local, y para mitigar los vicios presentes en los modelos entrenados en una población homogénea . 46 The validation results confirmed that the global model is robust, supporting our hypothesis that FL-trained models are generalizable across healthcare systems. They provide a compelling case for the use of predictive algorithms in COVID-19 patient care, and the use of FL in model creation and testing. By participating in this study the client sites received access to EXAM, to be further validated ahead of pursuing any regulatory approval or future introduction into clinical care. Plans are under way to validate EXAM prospectively in ‘production’ settings at MGB leveraging COVID-19 targeted resources , así como en diferentes sitios que no formaban parte de la formación EXAM. 53 Over 200 prediction models to support decision-making in patients with COVID-19 have been published . Unlike the majority of publications focused on diagnosis of COVID-19 or prediction of mortality, we predicted oxygen requirements that have implications for patient management. We also used cases with unknown SARS-COV-2 status, and so the model could provide input to the physician ahead of receiving a result for PCR with reverse transcription (RT–PCR), making it useful for a real-life clinical setting. The model’s imaging input is used in common practice, in contrast with models that use chest computed tomography, a nonconsensual diagnostic modality. The model’s design was constrained to objective predictors, unlike many published studies that leveraged subjective clinical impressions. The data collected reflect varied incidence rates, and thus the ‘population momentum’ we encountered is more diverse. This implies that the algorithm can be useful in populations with different incidence rates. 19 Patient cohort identification and data harmonization are not novel issues in research and data science , pero son aún más complicadas, cuando se utiliza FL, dada la falta de visibilidad en los conjuntos de datos de otros sitios. Se necesitan mejoras en los sistemas de información clínica para racionalizar la preparación de datos, lo que conduce a una mejor aprovechamiento de una red de sitios que participan en FL. Esto, en combinación con la ingeniería de hiperparámetros, puede permitir que los algoritmos “aprendan” de manera más efectiva de lotes de datos más grandes y adapten los parámetros del modelo a un sitio en particular para una mayor personalización, por ejemplo, a través de un mejor ajuste en ese sitio. Un sistema que permita la inferencia de modelos y el procesamiento de resultados en tiempo real sin problemas también sería beneficioso y “cerraría el ciclo” desde el entrenamiento hasta la implementación de modelos. 54 39 Because data were not centralized they are not readily accessible. Given that, any future analysis of the results, beyond what was derived and collected, is limited. Similar to other machine learning models, EXAM is limited by the quality of the training data. Institutions interested in deploying this algorithm for clinical care need to understand potential biases in the training. For example, the labels used as ground truth in the training of the EXAM model were derived from 24- and 72-h oxygen consumption in the patient; it is assumed that oxygen delivered to the patient equates the oxygen need. However, in the early phase of the COVID-19 pandemic, many patients were provided high-flow oxygen prophylactically regardless of their oxygen need. Such clinical practice could skew the predictions made by this model. Since our data access was limited, we did not have sufficient available information for the generation of detailed statistics regarding failure causes, post hoc, at most sites. However, we did study failure cases from the largest independent test site, CDH, and were able to generate hypotheses that we can test in the future. For high-performing sites, it seems that most failure cases fall into one of two categories: (1) low quality of input data—for example, missing data or motion artifact in CXR; or (2) out-of-distribution data—for example a very young patient. In future, we also intend to investigate the potential for a ‘population drift’ due to different phases of disease progression. We believe that, owing to the diversity across the 20 sites, this risk may have been mitigated. A feature that would enhance these kinds of large-scale collaboration is the ability to predict the contribution of each client site towards improving the global FL model. This will help in client site selection, and in prioritization of data acquisition and annotation efforts. The latter is especially important given the high costs and difficult logistics of these large-consortia endeavors, and it will enable these endeavors to capture diversity rather than the sheer quantity of data samples. Future approaches may incorporate automated hyperparameter searching Arquitectura Neural de Busca and other automated machine learning enfoques para encontrar los parámetros de capacitación óptimos para cada sitio cliente de manera más eficiente. 55 56 57 Known issues of batch normalization (BN) in FL motivated us to fix our base model for image feature extraction to reduce the divergence between unbalanced client sites. Future work might explore different types of normalization techniques to allow the training of AI models in FL more effectively when client data are nonindependent and identically distributed. 58 49 Recent works on privacy attacks within the FL setting have raised concerns on data leakage during model training Mientras tanto, los algoritmos de protección siguen siendo inexplorados y restringidos por múltiples factores. , , show good protection, they may weaken the model’s performance. Encryption algorithms, such as homomorphic encryption Una forma cuantificable de medir la privacidad permitiría mejores opciones para decidir los parámetros mínimos de privacidad necesarios, manteniendo al mismo tiempo el rendimiento clínicamente aceptable , , . 59 36 48 49 60 36 48 49 Following further validation, we envision deployment of the EXAM model in the ED setting as a way to evaluate risk at both the per-patient and population level, and to provide clinicians with an additional reference point when making the frequently difficult task of triaging patients. We also envision using the model as a more sensitive population-level metric to help balance resources between regions, hospitals and departments. Our hope is that similar FL efforts can break the data silos and allow for faster development of much-needed AI models in the near future. Methods Etica de aprobación Todos los procedimientos informados del Centro de Salud de Toronto fueron llevados a cabo de acuerdo con los principios de la Declaración de Helsinki y las directrices de la Conferencia Internacional sobre la Armonización de Buenas Prácticas Clínicas de Salud, y fueron aprobados por los consejos de revisión institucionales pertinentes en los siguientes sitios de validación: CDH, MVH, NCH y en los siguientes sitios de formación: MGB, Hospital General de Masas (MGH), Hospital Brigham y Mujeres, Hospital Newton-Wellesley, Centro Médico San Shore y Hospital New Faulkner (todos los ocho de estos hospitales fueron cubiertos por el consentimiento informado del Consejo de Ética de MGB, no. 2020P002673, y el consentimiento informado fue desestimado por el Consejo de Revisión Institu Se han seguido las directrices de MI-CLAIM para la notificación de modelos clínicos de IA (Nota Suplementaria). ) 2 Study setting The study included data from 20 institutions (Fig. ): MGB, MGH, Brigham and Women’s Hospital, Newton-Wellesley Hospital, North Shore Medical Center and Faulkner Hospital; Children’s National Hospital in Washington, DC; NIHR Cambridge Biomedical Research Centre; The Self-Defense Forces Central Hospital in Tokyo; National Taiwan University MeDA Lab and MAHC and Taiwan National Health Insurance Administration; Tri-Service General Hospital in Taiwan; Kyungpook National University Hospital in South Korea; Faculty of Medicine, Chulalongkorn University in Thailand; Diagnosticos da America SA in Brazil; University of California, San Francisco; VA San Diego; University of Toronto; National Institutes of Health in Bethesda, Maryland; University of Wisconsin-Madison School of Medicine and Public Health; Memorial Sloan Kettering Cancer Center in New York; and Mount Sinai Health System in New York. Institutions were recruited between March and May 2020. Dataset curation started in June 2020 and the final data cohort was added in September 2020. Between August and October 2020, 140 independent FL runs were conducted to develop the EXAM model and, by the end of October 2020, EXAM was made public on NVIDIA NGC , , Los datos de tres sitios independientes fueron utilizados para la validación independiente: CDH, MVH y NCH, todos en Massachusetts, EE.UU. Estos tres hospitales tenían características de población de pacientes diferentes a las de los sitios de formación.Los datos utilizados para la validación del algoritmo consistieron en pacientes admitidos a la ED en estos sitios entre marzo de 2020 y febrero de 2021, y que cumplían los mismos criterios de inclusión que los datos utilizados para entrenar el modelo FL. 1a 61 62 63 Data collection The 20 client sites prepared a total of 16,148 cases (both positive and negative) for the purposes of training, validation and testing of the model (Fig. Los sitios de clientes se esforzaron por incluir todos los casos positivos de COVID desde el inicio de la pandemia en diciembre de 2019 y hasta el momento en que comenzaron la capacitación local para el estudio EXAM.Toda la capacitación local había comenzado el 30 de septiembre de 2020.Los sitios también incluyeron a otros pacientes en el mismo período con resultados negativos de las pruebas de RT-PCR.Dado que la mayoría de los sitios tenían más pacientes negativos de SARS-COV-2 que positivos, limitamos el número de pacientes negativos incluidos a, como máximo, el 95% del total de casos en cada sitio de clientes. 1b A ‘case’ included a CXR and the requisite data inputs taken from the patient’s medical record. A breakdown of the cohort size of the dataset for each client site is shown in Fig. . The distribution and patterns of CXR image intensity (pixel values) varied greatly among sites owing to a multitude of patient- and site-specific factors, such as different device manufacturers and imaging protocols, as shown in Fig. La edad del paciente y la distribución de EMR variaron mucho entre los sitios, como se esperaba debido a las diferencias demográficas entre los hospitales distribuidos a nivel mundial (Fig. ). 1b 1c,d 6 Patient inclusion criteria Los criterios de inclusión del paciente fueron: (1) el paciente presentado a la ED del hospital o equivalente; (2) el paciente tenía una prueba de RT-PCR realizada en cualquier momento entre la presentación a la ED y la descarga del hospital; (3) el paciente tenía una CXR en la ED; y (4) el registro del paciente tenía al menos cinco de los valores de EMR detallados en la Tabla. El CXR, los resultados de laboratorio y los vitales utilizados fueron los primeros disponibles para capturar durante la visita al ED. El modelo no incorporó ningún CXR, resultados de laboratorio o vitales adquiridos después de dejar el ED. 1 Model input En total, se utilizaron 21 características de EMR como entrada al modelo. Las etiquetas del resultado (es decir, la verdad del terreno) se asignaron en función de las necesidades del paciente después de los períodos de 24 y 72 horas desde la admisión inicial al ED. Se puede ver una lista detallada de las características y resultados de EMR solicitados en la Tabla . 1 La distribución del tratamiento de oxígeno utilizando diferentes dispositivos en diferentes sitios de clientes se muestra en la Figura de datos ampliada. , que detalla el uso del dispositivo en la admisión al ED y después de los períodos de 24 y 72 horas.La diferencia en la distribución de conjuntos de datos entre los sitios de clientes más grandes y más pequeños se puede ver en la Figura de datos extendidos. . 7 8 The number of positive COVID-19 cases, as confirmed by a single RT–PCR test obtained at any time between presentation to the ED and discharge from the hospital, is listed in Supplementary Table . Each client site was asked to randomly split its dataset into three parts: 70% for training, 10% for validation and 20% for testing. For both 24- and 72-h outcome prediction models, random splits for each of the three repeated local and FL training and evaluation experiments were independently generated. 1 EXAM model development Hay una amplia variación en el curso clínico de los pacientes que se presentan al hospital con síntomas de COVID-19, con algunos experimentando un deterioro rápido en la función respiratoria que requiere diferentes intervenciones para prevenir o mitigar la hipoxemia. , Una decisión crítica tomada durante la evaluación de un paciente en el punto inicial de atención, o en la ED, es si el paciente es probable que requiera contramedidas o intervenciones más invasivas o con recursos limitados (como anticuerpos MV o monoclonais), y por lo tanto debe recibir una terapia escasa pero eficaz, una terapia con una estrecha relación riesgo-beneficio debido a los efectos secundarios o un nivel más alto de atención, como la admisión a la unidad de atención intensiva. . In contrast, a patient who is at lower risk of requiring invasive oxygen therapy may be placed in a less intensive care setting such as a regular ward, or even released from the ED for continuing self-monitoring at home EXAM se desarrolló para ayudar a triar a estos pacientes. 62 63 64 65 El modelo no está aprobado por ninguna agencia reguladora en este momento y debe utilizarse sólo para fines de investigación. EXAM score EXAM fue entrenado utilizando FL; emite una puntuación de riesgo (conocida como puntuación EXAM) similar a CORISK (Extended Data Fig. ) and can be used in the same way to triage patients. It corresponds to a patient’s oxygen support requirements within two windows—24 and 72 h—after initial presentation to the ED. Extended Data Fig. ilustra cómo se puede utilizar el CORISK y la puntuación del EXAM para la clasificación del paciente. 27 9a 9b Las imágenes de rayos X del pecho fueron preprocesadas para seleccionar la imagen de posición anterior y excluir las imágenes de vista lateral, y luego escaladas a una resolución de 224 × 224. , the model fuses information from both EMR and CXR features (based on a modified ResNet34 with spatial attention Pre-treinado en el conjunto de datos de CheXpert) La red Deep & Cross . To converge these different data types, a 512-dimensional feature vector was extracted from each CXR image using a pretrained ResNet34, with spatial attention, then concatenated with the EMR features as the input for the Deep & Cross network. The final output was a continuous value in the range 0–1 for both 24- and 72-h predictions, corresponding to the labels described above, as shown in Extended Data Fig. . We used cross-entropy as the loss function and ‘Adam’ as the optimizer. The model was implemented in Tensorflow using the NVIDIA Clara Train SDK La AUC media para las tareas de clasificación (≥LFO, ≥HFO/NIV o ≥MV) se calculó y se utilizó como la métrica de evaluación final, con normalización a media cero y varianza de unidad. las imágenes CXR fueron preprocesadas para seleccionar la serie correcta y excluir las imágenes de vista lateral, luego escaladas a una resolución de 224 × 224 (ref. ). 9a 66 67 68 9b 69 70 27 Impunción y normalización A MissForest algorithm Se utilizó para impuestos de características de EMR, basado en el conjunto de datos de formación local. Si una función de EMR estaba completamente ausente en un conjunto de datos de un sitio cliente, se utilizó el valor medio de esa característica, calculado exclusivamente sobre datos de los sitios de clientes de MGB. Luego, las características de EMR fueron reescaladas a media cero y variación unitaria basada en estadísticas calculadas sobre datos de los sitios de clientes de MGB. 71 Detalles de la fusión de datos EMR-CXR utilizando la red Deep & Cross To model the interactions of features from EMR and CXR data at the case level, a deep-feature scheme was used based on a Deep & Cross network architecture Las características binarias y categóricas para las entradas de EMR, así como las características de imagen de 512 dimensiones en el CXR, se transformaron en vectores densos fusionados de valores reales mediante la incorporación y la acumulación de capas. Los vectores densos transformados sirvieron como entrada al marco de fusión, que empleó específicamente una red de cruce para forzar la fusión entre entradas de diferentes fuentes. La red de cruce realizó un cruce de características explícito dentro de sus capas, conduciendo productos internos entre la función de entrada original y la salida de la capa anterior, aumentando así el grado de interacción entre características. Al mismo tiempo, se entrenaron dos redes neuronales profundas clásicas individuales con varias capas de feed-forward empacadas y completamente conectadas. La salida final de nuestro marco se derivó 68 FL details Arguably the most established form of FL is implemention of the federated averaging algorithm as proposed by McMahan et al. , or variations thereof. This algorithm can be realized using a client-server setup where each participating site acts as a client. One can think of FL as a method aiming to minimize a global loss function by reducing a set of local loss functions, which are estimated at each site. By minimizing each client site’s local loss while also synchronizing the learned client site weights on a centralized aggregation server, one can minimize global loss without needing to access the entire dataset in a centralized location. Each client site learns locally, and shares model weight updates with a central server that aggregates contributions using secure sockets layer encryption and communication protocols. The server then sends an updated set of weights to each client site after aggregation, and sites resume training locally. The server and client site iterate back and forth until the model converges (Extended Data Fig. ) de 72 9c Un pseudoalgoritmo de FL se muestra en la Nota Suplementaria En nuestros experimentos, fijamos el número de rondas federadas en = 200, with one local training epoch per round por cada cliente. el número de clientes, , fue hasta 20 dependiendo de la conectividad de red de los clientes o de los datos disponibles para un período de resultado específico (24 o 72 horas). , depende del tamaño del conjunto de datos en cada cliente and is used to weigh each client’s contributions when aggregating the model weights in federated averaging. During the FL training task, each client site selects its best local model by tracking the model’s performance on its local validation set. At the same time, the server determines the best global model based on the average validation scores sent from each client site to the server after each FL round. After FL training finishes, the best local models and the best global model are automatically shared with all client sites and evaluated on their local test data. 1 T t K nk k El optimizador Adam se utilizó tanto para el entrenamiento local como para el FL con una tasa de aprendizaje inicial de 5 × 10–5 y una decadencia gradual de la tasa de aprendizaje con un factor 0,5 después de cada 40 épocas, lo que es importante para la convergencia de la media federada. . Random affine transformations, including rotation, translations, shear, scaling and random intensity noise and shifts, were applied to the images for data augmentation during training. 73 Owing to the sensitivity of BN layers when dealing with different clients in a nonindependent and identically distributed setting, we found the best model performance occurred when keeping the pretrained ResNet34 with spatial attention Los parámetros fijados durante el entrenamiento FL (es decir, utilizando una tasa de aprendizaje de cero para esas capas).La red Deep & Cross que combina características de imagen con características EMR no contiene capas BN y por lo tanto no fue afectada por problemas de inestabilidad BN. 58 47 In this study we investigated a privacy-preserving scheme that shares only partial model updates between server and client sites. The weight updates were ranked during each iteration by magnitude of contribution, and only a certain percentage of the largest weight updates was shared with the server. To be exact, weight updates (also known as gradients) were shared only if their absolute value was above a certain percentile threshold, f) (Fig. de datos ampliados. ), which was computed from all non-zero gradients, Δ , y puede ser diferente para cada cliente En cada ronda de Variaciones de este esquema podrían incluir el corte adicional de grandes gradientes o esquemas de privacidad diferenciales. that add random noise to the gradients, or even to the raw data, before feeding into the network . k 5 Wk(t) k t 49 51 Análisis estadístico We conducted a Wilcoxon signed-rank test to confirm the significance of the observed improvement in performance between the locally trained model and the FL model for the 24- and 72-h time points (Fig. and Extended Data Fig. ). The null hypothesis was rejected with one-sided « 1 × 10–3 en ambos casos. 2 1 P Pearson’s correlation was used to assess the generalizability (robustness of the average AUC value to other client sites’ test data) of locally trained models in relation to respective local dataset size. Only a moderate correlation was observed ( = 0.43, = 0.035, degrees of freedom (df) = 17 for the 24-h model and = 0.62, = 0.003, df = 16 para el modelo 72-h). Esto indica que el tamaño del conjunto de datos no es el único factor que determina la robustez de un modelo a los datos invisibles. r P r P Para comparar las curvas de ROC del modelo global FL y los modelos locales entrenados en diferentes sitios (Fig. ), we bootstrapped 1,000 samples from the data and computed the resulting AUCs. We then calculated the difference between the two series and standardized using the formula = (AUC1 – AUC2)/ , where is the standardized difference, is the standard deviation of the bootstrap differences and AUC1 and AUC2 are the corresponding bootstrapped AUC series. By comparing with normal distribution, we obtained the values illustrated in Supplementary Table Los resultados muestran que la hipótesis nula fue rechazada con muy bajo values, indicating the statistical significance of the superiority of FL outcomes. The computation of values was conducted in R with the pROC library . 3 D s D s D P 2 P P 74 Since the model predicts a discrete outcome, a continuous score from 0 to 1, a straightforward calibration evaluation such as a qqplot is not possible. Hence, for a quantified estimate of calibration we quantified discrimination (Extended Data Fig. ). We conducted one-way analysis of variation (ANOVA) tests to compare local and FL model scores among four ground truth categories (RA, LFO, HFO, MV). The -statistic, calculated as the variation between the sample means divided by variation within the samples and representing the degree of dispersion among different groups, was used to quantify the models. Our results show that the -values of five different local sites are 245.7, 253.4, 342.3, 389.8 and 634.8, while that of the FL model is 843.5. Given that larger -values mean that groups are more separable, the scores from our FL model clearly show a greater dispersion among the four ground truth categories. Furthermore, the value of the ANOVA test on the FL model is <2 × 10–16, indicating that the FL prediction scores are statistically significantly different among the different prediction classes. 10 F F F P Reporting Summary Further information on research design is available in the vinculado a este artículo. Resumen de la investigación de Nature Disponibilidad de datos El conjunto de datos de los 20 institutos que participaron en este estudio permanece bajo su custodia. Estos datos se utilizaron para la formación en cada uno de los sitios locales y no se compartieron con ninguna de las otras instituciones participantes o con el servidor federado, y no están disponibles públicamente. Los datos de los sitios de validación independientes son mantenidos por CAMCA, y el acceso se puede solicitar contactando con Q.L. Basándose en la determinación de CAMCA, una revisión de intercambio de datos y modificación del IRB para fines de investigación puede ser llevada a cabo por la administración de investigación de MGB y de acuerdo con el IRB y la política de MGB. Code availability Todos los códigos y software utilizados en este estudio están disponibles públicamente en NGC. Para acceder, iniciar sesión como invitado o crear un perfil, introduzca una de las direcciones URL de abajo. Los modelos capacitados, las directrices de preparación de datos, el código para la formación, la validación de las pruebas del modelo, el archivo de readme, las directrices de instalación y los archivos de licencia están disponibles públicamente en NVIDIA NGC : de El software de aprendizaje federado está disponible como parte del SDK de Clara Train: . Alternatively, use this command to download the model “wget --content-disposition -O clara_train_covid19_exam_ehr_xray_1.zip”. 61 https://ngc.nvidia.com/catalog/models/nvidia:med:clara_train_covid19_exam_ehr_xray https://ngc.nvidia.com/catalog/containers/nvidia:clara-train-sdk https://api.ngc.nvidia.com/v2/models/nvidia/med/clara_train_covid19_exam_ehr_xray/versions/1/zip Referencias Budd, J. et al. Digital technologies in the public-health response to COVID-19. , 1183–1192 (2020). Nat. Med. 26 Moorthy, V., Henao Restrepo, A. M., Preziosi, M.-P. & Swaminathan, S. Data sharing for novel coronavirus (COVID-19). , 150 (2020). Bull. World Health Organ. 98 Chen, Q., Allot, A. & Lu, Z. Keep up with the latest coronavirus research. , 193 (2020). Nature 579 Fabbri, F., Bhatia, A., Mayer, A., Schlotter, B. & Kaiser, J. BCG IT spend pulse: how COVID-19 is shifting tech priorities. (2020). https://www.bcg.com/publications/2020/how-covid-19-is-shifting-big-it-spend Candelon, F., Reichert, T., Duranton, S., di Carlo, R. C. & De Bondt, M. The rise of the AI-powered company in the postcrisis world. (2020). https://www.bcg.com/en-gb/publications/2020/business-applications-artificial-intelligence-post-covid Chao, H. et al. Integrative analysis for COVID-19 patient outcome prediction. , 101844 (2021). Med. Image Anal. 67 Zhu, X. et al. Joint prediction and time estimation of COVID-19 developing severe symptoms using chest CT scan. , 101824 (2021). Med. Image Anal. 67 Yang, D. et al. Federated semi-supervised learning for Covid region segmentation in chest ct using multi-national data from China, Italy, Japan. , 101992 (2021). Med. Image Anal. 70 Minaee, S., Kafieh, R., Sonka, M., Yazdani, S. & Jamalipour Soufi, G. Deep-COVID: predicting COVID-19 from chest X-ray images using deep transfer learning. , 101794 (2020). Med. Image Anal. 65 COVID-19 Studies from the World Health Organization Database. (2020). https://clinicaltrials.gov/ct2/who_table ACTIV. (2020). https://www.nih.gov/research-training/medical-research-initiatives/activ Coronavirus Treatment Acceleration Program (CTAP). US Food and Drug Administration (2020). https://www.fda.gov/drugs/coronavirus-covid-19-drugs/coronavirus-treatment-acceleration-program-ctap Gleeson, P., Davison, A. P., Silver, R. A. & Ascoli, G. A. A commitment to open source in neuroscience. , 964–965 (2017). Neuron 96 Piwowar, H. et al. The state of OA: a large-scale analysis of the prevalence and impact of open access articles. , e4375 (2018). PeerJ. 6 European Society of Radiology (ESR). What the radiologist should know about artificial intelligence – an ESR white paper. , 44 (2019). Insights Imaging 10 Pesapane, F., Codari, M. & Sardanelli, F. Artificial intelligence in medical imaging: threat or opportunity? Radiologists again at the forefront of innovation in medicine. , 35 (2018). Eur. Radiol. Exp. 2 Price, W. N. 2nd & Cohen, I. G. Privacy in the age of medical big data. , 37–43 (2019). Nat. Med. 25 Liang, W. et al. Development and validation of a clinical risk score to predict the occurrence of critical illness in hospitalized patients with COVID-19. , 1081–1089 (2020). JAMA Intern. Med. 180 Wynants, L. et al. Prediction models for diagnosis and prognosis of covid-19 infection: systematic review and critical appraisal. , m1328 (2020). Brit. Med. J. 369 Zhang, L. et al. D-dimer levels on admission to predict in-hospital mortality in patients with Covid-19. , 1324–1329 (2020). J. Thromb. Haemost. 18 Sands, K. E. et al. Patient characteristics and admitting vital signs associated with coronavirus disease 2019 (COVID-19)-related mortality among patients admitted with noncritical illness. (2020). https://doi.org/10.1017/ice.2020.461 American College of Radiology. CR recommendations for the use of chest radiography and computed tomography (CT) for suspected COVID-19 infection. (2020). https://www.acr.org/Advocacy-and-Economics/ACR-Position-Statements/Recommendations-for-Chest-Radiography-and-CT-for-Suspected-COVID19-Infection Rubin, G. D. et al. The role of chest imaging in patient management during the COVID-19 pandemic: a multinational consensus statement from the Fleischner Society. , 172–180 (2020). Radiology 296 World Health Organization. Use of chest imaging in COVID-19. (2020). https://www.who.int/publications/i/item/use-of-chest-imaging-in-covid-19 Jamil, S. et al. Diagnosis and management of COVID-19 disease. , 10 (2020). Am. J. Respir. Crit. Care Med. 201 Redmond, C. E., Nicolaou, S., Berger, F. H., Sheikh, A. M. & Patlas, M. N. Emergency radiology during the COVID-19 pandemic: The Canadian Association of Radiologists Recommendations for Practice. , 425–430 (2020). Can. Assoc. Radiologists J. 71 Buch, V. et al. Development and validation of a deep learning model for prediction of severe outcomes in suspected COVID-19 Infection. Preprint at (2021). https://arxiv.org/abs/2103.11269 Lyons, C. & Callaghan, M. The use of high-flow nasal oxygen in COVID-19. , 843–847 (2020). Anaesthesia 75 Whittle, J. S., Pavlov, I., Sacchetti, A. D., Atwood, C. & Rosenberg, M. S. Respiratory support for adult patients with COVID-19. , 95–101 (2020). J. Am. Coll. Emerg. Physicians Open 1 Ai, J., Li, Y., Zhou, X. & Zhang, W. COVID-19: treating and managing severe cases. , 370–371 (2020). Cell Res. 30 Esteva, A. et al. A guide to deep learning in healthcare. , 24–29 (2019). Nat. Med. 25 Cahan, E. M., Hernandez-Boussard, T., Thadaney-Israni, S. & Rubin, D. L. Putting the data before the algorithm in big data addressing personalized healthcare. , 78 (2019). NPJ Digit. Med. 2 Thrall, J. H. et al. Artificial intelligence and machine learning in radiology: opportunities, challenges, pitfalls, and criteria for success. , 504–508 (2018). J. Am. Coll. Radiol. 15 Shilo, S., Rossman, H. & Segal, E. Axes of a revolution: challenges and promises of big data in healthcare. , 29–38 (2020). Nat. Med. 26 Gao, Y. & Cui, Y. Deep transfer learning for reducing health care disparities arising from biomedical data inequality. , 5131 (2020). Nat. Commun. 11 Rieke, N. et al. The future of digital health with federated learning. , 119 (2020). NPJ Dig. Med. 3 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. 10 Ma, C. et al. On safeguarding privacy and security in the framework of federated learning. , 242–248 (2020). IEEE Netw. 34 Brisimi, T. S. et al. Federated learning of predictive models from federated Electronic Health Records. , 59–67 (2018). Int. J. Med. Inform. 112 Roth, H. R. et al. Federated learning for breast density classification: a real-world implementation. In , (eds. Albarqouni, S. et al.) Vol. 12,444, 181–191 (Springer International Publishing, 2020). Proc. Second MICCAI Workshop, DART 2020 and First MICCAI Workshop, DCL 2020 Domain Adaptation and Representation Transfer, and Distributed and Collaborative Learning Sheller, M. J. et al. Federated learning in medicine: facilitating multi-institutional collaborations without sharing patient data. , 12598 (2020). Sci. Rep. 10 Remedios, S. W., Butman, J. A., Landman, B. A. & Pham, D. L. in (eds Remedios, S. W. et al.) (Springer, 2020). Federated Gradient Averaging for Multi-Site Training with Momentum-Based Optimizers Xu, Y. et al. A collaborative online AI engine for CT-based COVID-19 diagnosis. Preprint at (2020). https://www.medrxiv.org/content/10.1101/2020.05.10.20096073v2 Raisaro, J. L. et al. SCOR: A secure international informatics infrastructure to investigate COVID-19. , 1721–1726 (2020). J. Am. Med. Inform. Assoc. 27 Vaid, A. et al. Federated learning of electronic health records to improve mortality prediction in hospitalized patients with COVID-19: machine learning approach. , e24207 (2021). JMIR Med. Inform. 9 Nino, G. et al. Pediatric lung imaging features of COVID-19: a systematic review and meta-analysis. , 252–263 (2021). Pediatr. Pulmonol. 56 Fredrikson, M., Jha, S. & Ristenpart, T. Model inversion attacks that exploit confidence information and basic countermeasures. In 1322–1333, (2015). Proc. 22nd ACM SIGSAC Conference on Computer and Communications Security https://doi.org/10.1145/2810103.2813677 Zhu, L., Liu, Z. & Han, S. in (eds Wallach, H. et al.) 14774–14784 (Curran Associates, Inc., 2019). Advances in Neural Information Processing Systems 32 Kaissis, G. A., Makowski, M. R., Rückert, D. & Braren, R. F. Secure, privacy-preserving and federated machine learning in medical imaging. , 305–311 (2020). Nat. Mach. Intell. 2 Li, W. et al. in 133–141 (Springer, 2019). Privacy-Preserving Federated Brain Tumour Segmentation Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In (2015). Proc. 53rd Annual Allerton Conference on Communication, Control, and Computing (Allerton) https://doi.org/10.1109/allerton.2015.7447103 Li, X. et al. Multi-site fMRI analysis using privacy-preserving federated learning and domain adaptation: ABIDE results. , 101765 (2020). Med. Image Anal. 65 Estiri, H. et al. Predicting COVID-19 mortality with electronic medical records. , 15 (2021). NPJ Dig. Med. 4 Jiang, G. et al. Harmonization of detailed clinical models with clinical study data standards. , 65–74 (2015). Methods Inf. Med. 54 Yang, D. et al. in . (2019). Searching Learning Strategy with Reinforcement Learning for 3D Medical Image Segmentation https://doi.org/10.1007/978-3-030-32245-8_1 Elsken, T., Metzen, J. H. & Hutter, F. Neural architecture search: a survey. , 1–21 (2019). J. Mach. Learning Res. 20 Yao, Q. et al. Taking human out of learning applications: a survey on automated machine learning. Preprint at (2019). https://arxiv.org/abs/1810.13306 Ioffe, S. & Szegedy, C. Batch normalization: accelerating deep network training by reducing internal covariate shift. In , PMLR , 448–456 (2015). Proc. 32nd International Conf. Machine Learning 37 Kaufman, S., Rosset, S. & Perlich, C. Leakage in data mining: formulation, detection, and avoidance. In , 556–563 (2011). Proc. 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Zhang, C. et al. BatchCrypt: efficient homomorphic encryption for cross-silo federated learning. In , 493–506 (2020). Proc. 2020 USENIX Annual Technical Conference, ATC 2020 . (2020). Nvidia NGC Catalog: COVID-19 Related Models https://ngc.nvidia.com/catalog/models?orderBy=scoreDESC&pageNumber=0&query=covid&quickFilter=models&filters Marini, J. J. & Gattinoni, L. Management of COVID-19 respiratory distress. , 2329–2330 (2020). JAMA 323 Cook, T. M. et al. Consensus guidelines for managing the airway in patients with COVID-19: Guidelines from the Difficult Airway Society, the Association of Anaesthetists the Intensive Care Society, the Faculty of Intensive Care Medicine and the Royal College of Anaesthetist. , 785–799 (2020). Anaesthesia 75 Galloway, J. B. et al. A clinical risk score to identify patients with COVID-19 at high risk of critical care admission or death: an observational cohort study. , 282–288 (2020). J. Infect. 81 Kilaru, A. S. et al. Return hospital admissions among 1419 COVID-19 patients discharged from five U.S. emergency departments. , 1039–1042 (2020). Acad. Emerg. Med. 27 He, K., Zhang, X., Ren, S. & Sun, J. Deep residual learning for image recognition. In (2016). Proc. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) https://doi.org/10.1109/cvpr.2016.90 Irvin, J. et al. CheXpert: a large chest radiograph dataset with uncertainty labels and expert comparison. , 590–597 (2019). Proc. AAAI Conf. Artif. Intell. 33 Wang, R., Fu, B., Fu, G. & Wang, M. Deep & Cross network for Ad Click predictions. In Article no. 12 (2017). Proc. ADKDD’17 Abadi, M. et al. TensorFlow: asystem for large-scale machine learning. In , USENIX Association 265–283 (2016). 12th USENIX Symposium on Operating Systems Design and Implementation (OSDI 16) . (2020). NVIDIA Clara Imaging https://developer.nvidia.com/clara-medical-imaging Stekhoven, D. J. & Bühlmann, P. MissForest–non-parametric missing value imputation for mixed-type data. , 112–118 (2012). Bioinformatics 28 McMahan, H., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. (2017). http://proceedings.mlr.press/v54/mcmahan17a.html Hsieh, K., Phanishayee, A., Mutlu, O. & Gibbons, P. B. The non-IID data quagmire of decentralized machine learning. In PMLR 119 (2020). Proc. 37th International Conf. Machine Learning Robin, X. et al. pROC: an open-source package for R and S+ to analyze and compare ROC curves. , 77 (2011). BMC Bioinformatics 12 Reconocimientos Los puntos de vista expresados en este estudio son los de los autores y no necesariamente los del NHS, el NIHR, el Departamento de Salud y Asistencia Social o cualquiera de las organizaciones asociadas con los autores. MGB agradece a las siguientes personas por su apoyo: J. Brink, Departamento de Radiología, Massachusetts General Hospital, Harvard Medical School, Boston, MA; M. Kalra, Departamento de Radiología, Massachusetts General Hospital, Harvard Medical School, Boston, MA; N. Neumark, Centro de Investigación de Datos Clínicos, Massachusetts General Brigham, Boston, MA; T. Schultz, Departamento de Radiología, Massachusetts General Hospital, Boston, MA; N. Guo, Centro de Computación Médica Avanzada y Análisis, Departamento de Investigación de Radiología, Massachusetts General Hospital, Harvard Medical School, Boston, MA; J. K. Cramer A través de la Facultad de Medicina, la Universidad de Chulalongkorn agradece al Fondo de Investigación Biomédica Ratchadapisek Sompoch RA (PO) (no 001/63) por la recopilación y gestión de datos clínicos y muestras biológicas relacionados con el COVID-19 para la Task Force de Investigación, la Facultad de Medicina, la Universidad de Chulalongkorn. El Centro de Investigación Biomédica NIHR de Cambridge agradece a A. Priest, que es respaldado por el NIHR (Centro de Investigación Biomédica de Cambridge en la Fundación de los Hospitales Universitarios de Cambridge). National Taiwan University MeDA Lab y el MAHC y la Administración Nacional de Seguros de Salud de Taiwán agradecen al MOST Joint Research Center for AI technology, la All Vista Health https://data.ucsf.edu/covid19 Este artículo está disponible en la naturaleza bajo la licencia CC by 4.0 Deed (Attribution 4.0 International). Este documento es under CC by 4.0 Deed (Attribution 4.0 International) license. Disponible en Naturaleza