Gli autori : di Dayan Holger R. Roth Aoxiao Zhong Ahmed Harouni Amilcare Gentili Anas Z. Abidin di Andrew Liu Anthony Beardsworth Costa Bradford J. Wood Chien-Sung Tsai di Chih-Hung Wang Chun-Nan Hsu C. K. Lee Peiying Ruan Daguang Xu Dufan Wu Eddie Huang Felipe Campos Kitamura di Griffin Lacey Gustavo César de Antônio Corradi Gustavo Nino Hao-Hsin Shin Hirofumi Obinata Hui Ren Jason C. Crane Jesse Tetreault Jiahui Guan John W. Garrett Joshua D. Kaggie Jung Gil Park Keith Dreyer Krishna Juluru Kristopher Kersten Marcio Aloisio Bezerra Cavalcanti Rockenbach Marius George Linguraru Masoom A. Haider Meena AbdelMaseeh di Nicola Rieke Pablo F. Damasceno Pedro Mario Cruz e Silva Pochuan Wang Sheng Xu Shuichi Kawano Sira Sriswasdi Soo Young Park Thomas M. Grist Varun Buch Watsamon Jantarabenjakul Weichung Wang Won Young Tak Xiang Li Xihong Lin Il giovane Joon Kwon Abood Quraini di Andrew Feng Andrew N. Priest Baris Turkbey Benjamin Glicksberg Bernardo Bizzo Byung Seok Kim Carlos Tor-Díez Chia-Cheng Lee Chia-Jung Hsu Chin Lin Chiu-Ling Lai Christopher P. Hess Colin Compas Deepeksha Bhatia Eric K. Oermann Evan Leibovitz Hisashi Sasaki Hitoshi Mori Isaac Yang Jae Ho Sohn Krishna Nand Keshava Murthy Li-Chen Fu Matheus Ribeiro Furtado de Mendonça Mike Fralick di Kyu Kang Mohammad Adil Natalie Gangai Peerapon Vateekul Pierre Elnajjar Sarah Hickman Sharmila Majumdar Shelley L. McLeod Sheridan Reed Stefan Gräf Stephanie Harmon Tatsuya Kodama Thanyawee Puthanakit Tony Mazzulli Vitor Lima de Lavor Yothin Rakvongthai Yu Rim Lee Yuhong Wen Fiona J. Gilbert Mona G. Flores Quanzheng Li Gli autori : di Dayan di Holger R. Roth di Aoxiao Zhong di Ahmed Harouni Amilcare gentili di Anas Z. Abidin di Andrew Liu di Anthony Beardsworth Costa di Bradford J. Wood di Chien-Sung Tsai di Chih-Hung Wang di Chun-Nan Hsu di C. K. Lee Pellegrinaggio Ruan di Daguang Xu Dufan Wu di Eddie Huang di Felipe Campos Kitamura di Griffin Lacey Gustavo César di Antonio Corradi di Gustavo Nino Hao-Hsin Shin Hirofumi Obinata di Ren di Jason C. Crane di Jesse Tetreault di Jiahui Guan di John W. Garrett di Joshua D. Kaggie Il parco Jung Gil di Keith Dreyer di Krishna Juluru di Christophe Kersten di Marcio Aloisio Bezerra Cavalcanti Rockenbach di Marius George Linguraru di Masoom A. Haider di AbdelMaseeh di Nicola Rieke di Pablo F. Damasceno di Pedro Mario Cruz e Silva di Pochuan Wang di Sheng Xu di Shuichi Kawano di Sira Sriswasdi Parco di Soo Young di Thomas M. Grist Libro di Varun Il pranzo di Watsamon di Weichung Wang Gioca Young Tak di Xiang Li di Xihong Lin Il giovane Joon Kwon Il Corano di Andrew Feng di Andrew N. Priest di Baris Turkbey di Benjamin Glicksberg di Bernardo Bizzo Città di Seok Kim di Carlos Tor-Díez di Chia-Cheng Lee di Chia-Jung Hsu di Chin Lin Chiu Ling Lai di Christopher P. Hess di Colin Compas di Deepeksha Bhatia di Eric K. Oermann di Evan Leibovitz di Hisashi Sasaki Hitoshi Morì di Isaac Yang Il figlio di Jae Ho di Krishna Nand Keshava Murthy di Li-Chen Fu Matheus Ribeiro Furtado di Mendonça di Mike Fralick di Kyu Kang di Mohammed Adil di Natalie Gangai Pellegrinaggio Vateekul di Pierre Elnajjar di Sarah Hickman Sharmila Majumdar di Shelley L. McLeod di Sheridan Reed di Stefan Gräf di Stephanie Harmon di Tatsuya Kodama Traghetti di Puccini di Tony Mazzulli Vitor Lima di Lavoro di Yothin Rakvongthai di Yu Rim Lee Giuseppe Wen di Fiona J. Gilbert Mona G. Fiori Quantità di Li astratto L'apprendimento federato (FL) è un metodo utilizzato per addestrare i modelli di intelligenza artificiale con dati provenienti da fonti multiple mantenendo l'anonimato dei dati, rimuovendo così molte barriere al condivisione dei dati. Qui abbiamo utilizzato i dati di 20 istituti di tutto il mondo per addestrare un modello FL, chiamato EXAM (Electronic Medical Record (EMR) chest X-ray AI model), che prevede i futuri bisogni di ossigeno dei pazienti sintomici con COVID-19 utilizzando input di segni vitali, dati di laboratorio e raggi X-ray toraci. L'EXAM ha raggiunto un'area media sotto la curva (AUC) >0.92 per prevedere i risultati a 24 e 72 ore dal momento della presentazione iniziale alla sala di emergenza, e Principale Le comunità scientifiche, accademiche, mediche e di scienze dei dati si sono unite di fronte alla crisi pandemica COVID-19 per valutare rapidamente nuovi paradigmi nell'intelligenza artificiale (AI) che sono veloci e sicuri, e potenzialmente incoraggiare la condivisione dei dati e la formazione e il test dei modelli senza i soliti ostacoli alla privacy e alla proprietà dei dati delle collaborazioni convenzionali. , I fornitori di assistenza sanitaria, i ricercatori e l'industria si sono concentrati per affrontare le esigenze cliniche insoddisfatte e critiche create dalla crisi, con risultati notevoli. , , , , , , Il reclutamento negli studi clinici è stato accelerato e facilitato dagli organismi nazionali di regolamentazione e da uno spirito di cooperazione internazionale. , , Le discipline dell'analisi dei dati e dell'intelligenza artificiale hanno sempre promosso approcci aperti e collaborativi, abbracciando concetti come il software open source, la ricerca riproducibile, i repositori di dati e la messa a disposizione pubblica di set di dati anonimi. , La pandemia ha sottolineato la necessità di condurre tempestivamente collaborazioni di dati che potenziino le comunità cliniche e scientifiche nel rispondere a sfide globali in rapida evoluzione e diffuse. il condivisione dei dati ha complessità etiche, normative e legali che sono sottolineate, e forse un po 'complicate, dal recente ingresso di grandi aziende tecnologiche nel mondo dei dati sanitari , , . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Un esempio concreto di questi tipi di collaborazione è il nostro precedente lavoro su un modello di sostegno alle decisioni cliniche (CDS) SARS-COV-2 basato su intelligenza artificiale. Questo modello CDS è stato sviluppato a Mass General Brigham (MGB) e è stato convalidato attraverso i dati di più sistemi sanitari.Le entrate al modello CDS erano immagini a raggi X del torace (CXR), segni vitali, dati demografici e valori di laboratorio che sono stati dimostrati in pubblicazioni precedenti per essere predittivi dei risultati dei pazienti con COVID-19 , , , CXR è stato selezionato come ingresso di imaging perché è ampiamente disponibile e comunemente indicato da linee guida come quelle fornite da ACR La Società Fleischner L’OMS Società toraciche nazionali , National Ministry of Health COVID manuali e società di radiologia in tutto il mondo La produzione del modello CDS era un punteggio, chiamato CORISK , che corrisponde ai requisiti di supporto dell'ossigeno e che potrebbe aiutare nel trialing dei pazienti da parte dei medici di prima linea , , È noto che i fornitori di assistenza sanitaria preferiscono modelli che sono stati convalidati sui propri dati. Ad oggi, la maggior parte dei modelli di intelligenza artificiale, tra cui il modello CDS di cui sopra, sono stati addestrati e convalidati su dati “estratti” che spesso mancano di diversità. , Questo può essere mitigato attraverso la formazione con dati diversi da più siti senza la centralizzazione dei dati utilizzando metodi quali l'apprendimento di trasferimento , FL è un metodo utilizzato per addestrare i modelli di intelligenza artificiale su diverse fonti di dati, senza che i dati vengano trasportati o esposti al di fuori della loro posizione originale. . 18 19 20 21 22 23 24 25 26 27 28 29 30 27 31 32 33 34 35 36 L'apprendimento federato supporta il rapido lancio di esperimenti centralmente orchestrati con una migliore tracciabilità dei dati e la valutazione dei cambiamenti algoritmici e dell'impatto Un approccio a FL, chiamato client-server, invia un modello “non addestrato” ad altri server (“nodes”) che eseguono attività di addestramento parziali, inviando a sua volta i risultati per essere riuniti nel server centrale (“federato”). . 37 36 La governance dei dati per FL è mantenuta localmente, alleviando le preoccupazioni sulla privacy, con solo pesi di modello o gradienti comunicati tra i siti client e il server federato , FL ha già mostrato promesse nelle recenti applicazioni di imaging medico , , , L’analisi di Covid-19 , , Un esempio notevole è un modello di previsione della mortalità nei pazienti infetti da SARS-COV-2 che utilizza caratteristiche cliniche, sebbene limitate in termini di numero di modalità e scala. . 38 39 40 41 42 43 8 44 45 46 Il nostro obiettivo era quello di sviluppare un modello robusto e generalizzabile che potesse aiutare nel trialing dei pazienti. Abbiamo teorizzato che il modello CDS poteva essere federato con successo, dato il suo utilizzo di input di dati che sono relativamente comuni nella pratica clinica e che non si basavano fortemente su valutazioni dipendenti dall'operatore della condizione del paziente (come le impressioni cliniche o i sintomi segnalati). Piuttosto, venivano utilizzati risultati di laboratorio, segni vitali, uno studio di imaging e una demografia comunemente catturata (cioè età). Abbiamo pertanto ricostruito il modello CDS con dati diversi utilizzando un approccio FL client-server per sviluppare un nuovo modello FL globale, che fu chiamato EXAM, utilizzando le caratteristiche CXR e EMR La nostra ipotesi era che l'EXAM funzionerebbe meglio dei modelli locali e generalizzerebbe meglio in tutti i sistemi sanitari. Risultati L’architettura dell’esame Il modello EXAM si basa sul modello CDS di cui sopra In totale, 20 caratteristiche (19 dall'EMR e una CXR) sono state utilizzate come input al modello. Gli etichette dei risultati (cioè, "verità di fondo") sono stati assegnati in base alla terapia dell'ossigeno del paziente dopo periodi di 24 e 72 ore dall'ammissione iniziale al dipartimento di emergenza (ED). . 27 1 Le etichette dei risultati dei pazienti sono state impostate su 0, 0,25, 0,50 e 0,75 a seconda della terapia dell'ossigeno più intensiva ricevuta dal paziente nella finestra di previsione. Le categorie di terapia dell'ossigeno sono state, rispettivamente, aria ambiente (RA), l'ossigeno a basso flusso (LFO), l'ossigeno ad alto flusso (HFO)/ventilazione non invasiva (NIV) o la ventilazione meccanica (MV). Se il paziente è morto all'interno della finestra di previsione, l'etichetta del risultato è stata impostata su 1. Per le caratteristiche EMR, sono stati utilizzati solo i primi valori catturati nell'ED e il preprocesso dei dati includeva la disidentificazione, l'imputazione del valore mancante e la normalizzazione a media zero e la varianza unitaria. Il modello quindi fusiona informazioni da entrambe le caratteristiche EMR e CXR, utilizzando una rete neurale convolutoria a 34 strati (ResNet34) per estrarre caratteristiche da una CXR e da una rete Deep & Cross per concatenare le caratteristiche insieme alle caratteristiche EMR (per ulteriori dettagli, vedere Il risultato del modello è un punteggio di rischio, chiamato punteggio EXAM, che è un valore continuo nell'intervallo 0-1 per ciascuna delle previsioni di 24 e 72 ore corrispondenti alle etichette descritte sopra. Metodi Federare il modello Il modello EXAM è stato addestrato utilizzando una coorte di 16.148 casi, rendendolo non solo tra i primi modelli FL per COVID-19 ma anche un progetto di sviluppo molto grande e multicontinentale in AI clinicamente rilevante (Fig. I dati tra i siti non sono stati armonizzati prima dell'estrazione e, alla luce delle circostanze di informatica clinica della vita reale, una meticolosa armonizzazione dell'ingresso dei dati non è stata condotta dagli autori (Fig. e) il 1a e b 1C e D , Mappa del mondo che mostra i 20 diversi siti client che contribuiscono allo studio EXAM. , Numero di casi contribuiti da ciascuna istituzione o sito (cliente 1 rappresenta il sito che contribuisce al maggior numero di casi). , Distribuzione dell'intensità dei raggi X toracicici in ogni sito del client. , Età dei pazienti in ciascun sito client, mostrando età minima e massima (asterischi), età media (triangoli) e deviazione standard (barre orizzontali). . a b c d 1 Abbiamo confrontato i modelli addestrati localmente con il modello globale FL sui dati di prova di ciascun cliente. « 1 × 10–3, Wilcoxon-signed-rank test) del 16% (come definito dalla media AUC quando si esegue il modello sui rispettivi set di test locali: da 0,795 a 0,920, o 12,5 punti percentuali) (Fig. Ciò ha anche portato a un miglioramento del 38% della generalizzabilità (come definito dalla media AUC quando si esegue il modello su tutti i set di test: da 0,667 a 0,920, o 25,3 punti percentuali) del miglior modello globale per la previsione del trattamento dell'ossigeno 24 ore rispetto ai modelli addestrati solo sui dati propri di un sito (Fig. Per i risultati di previsione del trattamento dell'ossigeno di 72 ore, la migliore formazione del modello globale ha prodotto un miglioramento delle prestazioni del 18% in media rispetto ai modelli addestrati localmente, mentre la generalizzabilità del modello globale è migliorata in media del 34% (Fig. dati estesi. La stabilità dei nostri risultati è stata convalidata ripetendo tre corse di formazione locale e FL su differenti divisioni di dati randomizzati. P 2a 2b 1 , Le prestazioni del test di ciascun cliente sono state fissate per prevedere il trattamento dell'ossigeno 24 ore su 24 per i modelli addestrati solo sui dati locali (Local) rispetto al miglior modello globale disponibile sul server (FL). , Generalizzabilità (performanza media sui dati di test di altri siti, come rappresentato dalla media AUC) come funzione della dimensione del set di dati di un cliente (no casi). La linea orizzontale verde indica la performance di generalizzabilità del miglior modello globale. La performance per 18 dei 20 clienti è mostrata, perché il cliente 12 ha avuto risultati solo per l'ossigeno di 72 ore (Fig. dati estesi. ) e il cliente 14 aveva casi solo con trattamento RA, in modo che la metrica di valutazione (av. AUC) non fosse applicabile in nessuno di questi casi ( I dati per il client 14 sono stati anche esclusi dal calcolo della generalizzabilità media nei modelli locali. a b 1 Metodi I modelli locali che sono stati addestrati utilizzando coorte squilibrate (ad esempio, per lo più casi lievi di COVID-19) hanno beneficiato notevolmente dall'approccio FL, con un miglioramento sostanziale nelle prestazioni AUC medie di previsione per le categorie con solo pochi casi. Questo è stato evidente sul sito del cliente 16 (un set di dati squilibrato), con la maggior parte dei pazienti che sperimentano gravità della malattia lieve e con solo pochi casi gravi. Il modello FL ha raggiunto un tasso più alto vero-positivo per i due casi positivi (gravi) e un tasso falso-positivo notevolmente più basso rispetto al modello locale, sia mostrato nelle trame della caratteristica operativa del ricevitore (ROC) e nelle matrice di confusione (Fig. Dati estesi Fig. Più importante, la generalizzabilità del modello FL è stata notevolmente aumentata rispetto al modello addestrato localmente. 3a 2 , ROC al sito del client 16, con dati squilibrati e casi prevalentemente lievi. , ROC del modello locale al sito client 12 (un piccolo set di dati), media ROC dei modelli addestrati su set di dati più grandi corrispondenti ai cinque siti client nell'area di Boston (1, 4, 5, 6, 8) e ROC del miglior modello globale in previsione di trattamento dell'ossigeno a 72 ore per differenti soglie di punteggio EXAM (sinistra, centrale, destra). Il ROC medio è calcolato sulla base di cinque modelli addestrati localmente mentre l'area grigia indica la deviazione standard ROC. Pos e neg indicano il numero di casi positivi e negativi, rispettivamente, come definito da questo intervallo di punteggio EXAM. a b t Nel caso dei siti client con relativamente piccoli set di dati, il miglior modello FL ha notevolmente superato non solo il modello locale, ma anche quelli addestrati su set di dati più grandi da cinque siti client nell'area di Boston degli Stati Uniti (Fig. e) il 3b Il modello globale ha funzionato bene nella previsione dei bisogni di ossigeno a 24/72 ore in pazienti sia COVID positivi che negativi (Fig. e) il 3 Validazione su siti indipendenti Dopo la formazione iniziale, l'EXAM è stato successivamente testato in tre siti di convalida indipendenti: Cooley Dickinson Hospital (CDH), Martha's Vineyard Hospital (MVH) e Nantucket Cottage Hospital (NCH), tutti a Massachusetts, Stati Uniti. , e le curve ROC e le matrici di confusione per il più grande set di dati (dal CDH) sono mostrate nella Figura. Il punto di funzionamento è stato impostato per distinguere tra ventilazione non meccanica e ventilazione meccanica (MV) trattamento (o morte). Il modello FL globale addestrato, EXAM, ha raggiunto una AUC media di 0,944 e 0,924 per i compiti di previsione 24 e 72 ore, rispettivamente (Tabella). Per la previsione del trattamento MV (o morte) alle 24 ore, l’EXAM ha raggiunto una sensibilità di 0,950 e specificità di 0,882 a CDH, e una sensibilità di 1.000 specificità di 0,934 a MVH. NCH non ha avuto casi con MV/morte alle 24 ore. Per quanto riguarda la previsione MV di 72 ore, l’EXAM ha raggiunto una sensibilità di 0,929 e specificità di 0,880 a CDH, sensibilità di 1.000 e specificità di 0,976 a MVH e sensibilità di 1.000 e specificità di 0,929 a NCH. 2 4 2 , , Performance (ROC) (in alto) e matrici di confusione (in basso) del modello EXAM FL sul dataset CDH per la previsione del fabbisogno di ossigeno a 24 h ( e 24 ore ( ) ROC per tre valori di taglio diversi ( ) del punteggio di rischio dell'esame sono mostrati. a b a b t Per MV al CDH alle 72 h, EXAM ha avuto un basso tasso falso-negativo del 7,1%. , mostrando due casi falsi-negativi da CDH in cui un caso aveva molte caratteristiche di dati EMR mancanti e l'altro aveva un CXR con un artefatto di movimento e alcune caratteristiche di EMR mancanti. 4 Uso della privacy differenziale Un motivo primario per gli istituti sanitari di utilizzare FL è quello di preservare la sicurezza e la privacy dei propri dati, nonché l’aderenza alle misure di conformità dei dati. o anche la ricostruzione delle immagini di formazione dai gradienti del modello stessi Per contrastare questi rischi, sono state utilizzate misure di sicurezza per mitigare il rischio in caso di “intercettazione” dei dati durante la comunicazione sito-server. Abbiamo sperimentato tecniche per evitare l'intercettazione dei dati FL, e abbiamo aggiunto una funzione di sicurezza che riteniamo possa incoraggiare più istituzioni a utilizzare FL. Abbiamo quindi convalidato i risultati precedenti che mostrano che la condivisione parziale del peso, e altre tecniche di privacy differenziale, possono essere applicate con successo in FL. attraverso la ricerca di uno schema di ripartizione parziale del peso , , , abbiamo dimostrato che i modelli possono raggiungere prestazioni comparabili anche quando vengono condivisi solo il 25% degli aggiornamenti di peso (Fig. dati estesi. e) il 47 48 49 50 50 51 52 5 Discussione Questo studio presenta un ampio studio FL nel mondo reale della sanità in termini di numero di siti e numero di punti dati utilizzati. Crediamo che fornisca una potente prova di concetto della fattibilità dell'utilizzo di FL per lo sviluppo rapido e collaborativo dei modelli di AI necessari nell'assistenza sanitaria. Il nostro studio ha coinvolto più siti in quattro continenti e sotto la supervisione di diversi organismi di regolamentazione, e quindi detiene la promessa di essere fornito a diversi mercati regolamentati in modo accelerato. Il modello FL globale, EXAM, si è dimostrato più robusto e ha ottenuto risultati migliori su singoli siti rispetto a qualsiasi modello addestrato su dati solo locali. Crediamo che il miglioramento coerente è stato raggiunto a causa di un set di dati più grande, ma anche più diversificato, l'uso di input Per un sito client con un dataset relativamente piccolo, due approcci tipici potrebbero essere utilizzati per adattare un modello utile: uno è quello di addestrare localmente con i propri dati, l'altro è quello di applicare un modello addestrato su un dataset più grande. Per i siti con piccoli dataset, sarebbe stato praticamente impossibile costruire un modello di apprendimento profondo performante utilizzando solo i loro dati locali. La scoperta, che questi due approcci erano superiori su tutti e tre i compiti di previsione dal modello FL globale, indica che il beneficio per i siti client con piccoli dataset derivanti dalla partecipazione a collaborazioni FL è sostanziale. Questo è probabilmente un riflesso della capacità di FL di catturare più diversità rispetto alla formazione locale, e di mitigare i bias presenti nei modelli addestrati su una popolazione om . 46 I risultati della convalida hanno confermato che il modello globale è robusto, sostenendo la nostra ipotesi secondo cui i modelli addestrati da FL sono generalizzabili in tutti i sistemi sanitari. Essi forniscono un caso convincente per l'uso di algoritmi predittivi nella cura del paziente COVID-19 e l'uso di FL nella creazione e nella sperimentazione dei modelli. Partecipando a questo studio, i siti dei clienti hanno ricevuto l'accesso all'EXAM, per essere ulteriormente convalidati prima di perseguire qualsiasi approvazione normativa o futura introduzione nell'assistenza clinica. , così come in diversi siti che non facevano parte della formazione dell'ESAM. 53 Sono stati pubblicati oltre 200 modelli di previsione per supportare il processo decisionale nei pazienti con COVID-19 A differenza della maggior parte delle pubblicazioni incentrate sulla diagnosi di COVID-19 o sulla previsione della mortalità, abbiamo preveduto i requisiti di ossigeno che hanno implicazioni per la gestione dei pazienti. Abbiamo anche usato casi con uno stato SARS-COV-2 sconosciuto, e quindi il modello potrebbe fornire un input al medico prima di ricevere un risultato per la PCR con trascrizione inversa (RT-PCR), rendendolo utile per un contesto clinico della vita reale. Il input di immagine del modello viene utilizzato nella pratica comune, a differenza dei modelli che utilizzano la tomografia computerizzata del torace, una modalità diagnostica non consensuale. Il design del modello è stato limitato a predittori oggettivi, a differenza di molti studi pubblicati che sfruttano le impressioni cliniche soggettive. 19 L'identificazione della coorte dei pazienti e l'armonizzazione dei dati non sono questioni nuove nella ricerca e nella scienza dei dati I miglioramenti ai sistemi di informazione clinica sono necessari per semplificare la preparazione dei dati, portando a una migliore leva di una rete di siti che partecipano a FL. Questo, in combinazione con l'ingegneria iperparametrica, può consentire agli algoritmi di "apprendere" più efficacemente da batch di dati più grandi e adattare i parametri del modello a un particolare sito per un'ulteriore personalizzazione, ad esempio attraverso un ulteriore fine-tuning su quel sito. Un sistema che permetterebbe l'incertezza del modello e il trattamento dei risultati in tempo reale sarebbe anche vantaggioso e “chiuderebbe il ciclo” dalla formazione alla distribuzione del modello. 54 39 Poiché i dati non sono stati centralizzati, non sono facilmente accessibili.Dato questo, qualsiasi analisi futura dei risultati, al di là di ciò che è stato derivato e raccolto, è limitata. Simile ad altri modelli di apprendimento automatico, EXAM è limitato dalla qualità dei dati di formazione. Le istituzioni interessate a implementare questo algoritmo per la cura clinica devono comprendere i potenziali pregiudizi nella formazione. Ad esempio, le etichette utilizzate come verità di fondo nella formazione del modello EXAM sono state derivate dal consumo di ossigeno 24 e 72 ore nel paziente; si presume che l'ossigeno consegnato al paziente corrisponda al fabbisogno di ossigeno. Poiché il nostro accesso ai dati era limitato, non avevamo sufficienti informazioni disponibili per la generazione di statistiche dettagliate sulle cause di guasto, post hoc, nella maggior parte dei siti. Tuttavia, abbiamo studiato i casi di guasto dal più grande sito di test indipendente, CDH, e siamo stati in grado di generare ipotesi che possiamo testare in futuro. Per i siti ad alte prestazioni, sembra che la maggior parte dei casi di guasto rientrano in una delle due categorie: (1) dati di input di bassa qualità - ad esempio, dati mancanti o artefatti di movimento in CXR; o (2) dati fuori distribuzione - ad esempio un paziente molto giovane. In futuro, intendiamo anche indagare sul potenziale di un “drift della popolazione” dovuto a diverse fasi di progressione della malattia. Una caratteristica che migliorerebbe questi tipi di collaborazione su larga scala è la capacità di prevedere il contributo di ciascun sito client verso il miglioramento del modello FL globale. Questo aiuterà nella selezione del sito client, e nella priorizzazione degli sforzi di acquisizione e annotazione dei dati. Quest'ultimo è particolarmente importante dato l'alto costo e la logistica difficile di questi sforzi di grandi consorzi, e consentirà a questi sforzi di catturare la diversità piuttosto che la pura quantità di campioni di dati. I futuri approcci potrebbero includere la ricerca automatizzata degli iperparametri Ricerca di architettura neurale e altri sistemi di apprendimento automatizzato approcci per trovare i parametri di formazione ottimali per ogni sito client in modo più efficiente. 55 56 57 Problemi noti di normalizzazione dei lotti (BN) in FL ci ha motivato a fissare il nostro modello di base per l'estrazione di caratteristiche di immagine Il lavoro futuro potrebbe esplorare diversi tipi di tecniche di normalizzazione per consentire la formazione dei modelli di AI in FL in modo più efficace quando i dati dei clienti sono non indipendenti e distribuiti in modo identico. 58 49 I recenti lavori sugli attacchi alla privacy all'interno della configurazione FL hanno sollevato preoccupazioni per le perdite di dati durante la formazione dei modelli Nel frattempo, gli algoritmi di protezione rimangono inesplorati e limitati da molti fattori. , , mostrano una buona protezione, possono indebolire le prestazioni del modello. algoritmi di crittografia, come la crittografia omomorfica Un modo quantificabile per misurare la privacy consentirebbe scelte migliori per decidere i parametri minimi di privacy necessari mantenendo le prestazioni clinicamente accettabili , , . 59 36 48 49 60 36 48 49 Dopo ulteriore convalida, si prevede l'implementazione del modello EXAM nell'impostazione ED come modo per valutare i rischi sia a livello di paziente che di popolazione, e per fornire ai clinici un punto di riferimento aggiuntivo quando fanno il compito spesso difficile di screening dei pazienti. Si prevede anche l'uso del modello come una metrica più sensibile a livello di popolazione per aiutare a bilanciare le risorse tra regioni, ospedali e dipartimenti. Metodi Approvazione etica Tutte le procedure informate del Centro Sanità di Toronto sono state condotte in conformità con i principi di consenso per la sperimentazione umana definiti nella Dichiarazione di Helsinki e nella Conferenza internazionale sull'armonizzazione delle linee guida per le buone pratiche cliniche sanitarie, e sono state approvate dai pertinenti comitati di revisione istituzionale Beth Sinungner nei seguenti siti di convalida: CDH, MVH, NCH e nei seguenti siti di formazione: MGB, Mass General Hospital (MGH), Brigham and Women's Hospital, Newton-Wellesley Hospital, San Shore Public Medical Center e New Newkner Hospital (tutti gli otto di questi ospedali sono stati coperti dal consenso informato del consiglio di etica del MGB, n. 2020P002673, e il consenso informato è stato rinunciato Sono state seguite le linee guida MI-CLAIM per la segnalazione dei modelli clinici di intelligenza artificiale (Nota supplementare). ) 2 Studia il setup Lo studio ha incluso dati provenienti da 20 istituzioni (Fig. ): MGB, MGH, Brigham and Women's Hospital, Newton-Wellesley Hospital, North Shore Medical Center e Faulkner Hospital; Children's National Hospital a Washington, DC; NIHR Cambridge Biomedical Research Centre; The Self-Defense Forces Central Hospital a Tokyo; National Taiwan University MeDA Lab e MAHC e Taiwan National Health Insurance Administration; Tri-Service General Hospital a Taiwan; Kyungpook National University Hospital in Corea del Sud; Facoltà di Medicina, Chulalongkorn University in Thailandia; Diagnosticos da America SA in Brasile; University of California, San Francisco; VA San Diego; University of Toronto; National Institutes of Health a Bethesda, Maryland; University of Wisconsin-Madison School of Medicine and Public Health; Memorial Sloan Kettering Cancer Center a New York; e Mount Sin , , I dati provenienti da tre siti indipendenti sono stati utilizzati per la convalida indipendente: CDH, MVH e NCH, tutti in Massachusetts, USA. Questi tre ospedali avevano caratteristiche della popolazione dei pazienti diverse dai siti di formazione. I dati utilizzati per la convalida dell'algoritmo consistono nei pazienti ammessi all'ED in questi siti tra marzo 2020 e febbraio 2021, e che soddisfano gli stessi criteri di inclusione dei dati utilizzati per formare il modello FL. 1a 61 62 63 raccolta dati I 20 siti clienti hanno preparato un totale di 16.148 casi (sia positivi che negativi) ai fini della formazione, della convalida e del test del modello (Fig. I siti clienti hanno cercato di includere tutti i casi COVID-positivi dall'inizio della pandemia nel dicembre 2019 e fino al momento in cui hanno iniziato la formazione locale per lo studio EXAM. Tutta la formazione locale era iniziata entro il 30 settembre 2020. I siti hanno incluso anche altri pazienti nello stesso periodo con risultati negativi dei test RT-PCR. Poiché la maggior parte dei siti aveva più pazienti SARS-COV-2-negativi rispetto ai pazienti -positivi, abbiamo limitato il numero di pazienti negativi inclusi a, al massimo, il 95% dei casi totali in ciascun sito cliente. 1B Un “caso” comprendeva un CXR e le input dati richieste prelevate dal registro medico del paziente. Una ripartizione della dimensione della coorte del set di dati per ogni sito client è mostrata nella Figura. La distribuzione e i modelli dell'intensità dell'immagine CXR (valori di pixel) variano notevolmente tra i siti a causa di una moltitudine di fattori specifici per i pazienti e per i siti, come i diversi produttori di dispositivi e i protocolli di imaging, come mostrato nella figura. L'età del paziente e la distribuzione della caratteristica EMR variavano notevolmente tra i siti, come previsto a causa delle differenze demografiche tra gli ospedali distribuiti a livello globale (Fig. e) il 1B 1C e D 6 Criteri di inclusione dei pazienti I criteri di inclusione del paziente sono stati: (1) il paziente presentato all'ED ospedaliero o equivalente; (2) il paziente ha avuto un test RT-PCR eseguito in qualsiasi momento tra la presentazione all'ED e lo scarico dall'ospedale; (3) il paziente aveva un CXR nell'ED; e (4) il record del paziente aveva almeno cinque dei valori EMR dettagliati nella Tabella. , tutti ottenuti nell'ED, e i risultati rilevanti catturati durante l'ospedalizzazione. di nota, il CXR, i risultati di laboratorio e vitali utilizzati erano i primi disponibili per la cattura durante la visita all'ED. Il modello non includeva alcun CXR, risultati di laboratorio o vitali acquisiti dopo aver lasciato l'ED. 1 Modello di input In totale, 21 caratteristiche EMR sono state utilizzate come input per il modello. Le etichette dei risultati (cioè, verità di fondo) sono state assegnate in base alle esigenze del paziente dopo i periodi di 24 e 72 ore dall'ammissione iniziale all'ED. Un elenco dettagliato delle caratteristiche e dei risultati EMR richiesti può essere visto nella Tabella . 1 La distribuzione del trattamento dell'ossigeno utilizzando dispositivi diversi in siti client diversi è mostrata nella Figura dati estesi. , che dettagliano l'uso del dispositivo al momento dell'ammissione all'ED e dopo i periodi 24 e 72 ore.La differenza nella distribuzione dei dataset tra i siti client più grandi e più piccoli può essere vista nella Figura dati estesi. . 7 8 Il numero di casi positivi di COVID-19, come confermato da un singolo test RT-PCR ottenuto in qualsiasi momento tra la presentazione all'ED e il rilascio dall'ospedale, è elencato nella Tabella Supplementare Ogni sito client è stato chiesto di suddividere casualmente il suo set di dati in tre parti: 70% per la formazione, 10% per la convalida e 20% per il test. Per entrambi i modelli di previsione dei risultati 24 e 72 ore, sono state generate separatamente divisioni casuali per ciascuno dei tre esperimenti di formazione e valutazione locali e FL ripetuti. 1 Esame del modello di sviluppo C’è grande variazione nel corso clinico dei pazienti che si presentano in ospedale con sintomi di COVID-19, con alcuni che sperimentano un rapido deterioramento della funzione respiratoria che richiede interventi diversi per prevenire o mitigare l’ipossemia. , Una decisione critica presa durante la valutazione di un paziente al punto iniziale di cura, o nell'ED, è se il paziente è probabile che richieda contromisure o interventi più invasivi o con risorse limitate (come MV o anticorpi monoclonali), e dovrebbe quindi ricevere una terapia rara ma efficace, una terapia con un stretto rapporto rischio-beneficio a causa di effetti collaterali o un livello di assistenza più elevato, come l'ammissione all'unità di terapia intensiva. Al contrario, un paziente che è a un rischio più basso di richiedere la terapia invasiva con ossigeno può essere collocato in un ambiente di cura meno intensivo come un reparto regolare, o addirittura rilasciato dall'ED per il continuo auto-monitoraggio a casa. EXAM è stato sviluppato per aiutare a triare questi pazienti. 62 63 64 65 Il modello non è approvato da nessuna agenzia di regolamentazione al momento e dovrebbe essere utilizzato solo per scopi di ricerca. Score esame EXAM è stato addestrato utilizzando FL; emette un punteggio di rischio (denominato punteggio EXAM) simile a CORISK (Dati estesi di FIG. Corrisponde ai requisiti di supporto dell'ossigeno di un paziente entro due finestre - 24 e 72 ore - dopo la presentazione iniziale all'ED. illustra come CORISK e il punteggio EXAM possono essere utilizzati per la classificazione dei pazienti. 27 9a 9b Le immagini a raggi X del petto sono state preprocessate per selezionare l'immagine della posizione anteriore ed escludere le immagini laterali, e quindi scalate a una risoluzione di 224 × 224. , il modello unisce le informazioni provenienti da entrambe le funzionalità EMR e CXR (basato su un ResNet34 modificato con attenzione spaziale Pre-allenato sul set di dati CheXpert) La rete Deep & Cross Per convergere questi diversi tipi di dati, un vettore di caratteristiche 512-dimensionale è stato estratto da ciascuna immagine CXR utilizzando un ResNet34 pre-allenato, con attenzione spaziale, quindi concatenato con le caratteristiche EMR come input per la rete Deep & Cross. La uscita finale era un valore continuo nell'intervallo 0-1 per le previsioni sia 24 che 72 h, corrispondente alle etichette descritte sopra, come mostrato nella Figura dati estesi. Abbiamo usato l’entropia incrociata come funzione di perdita e “Adam” come ottimizzatore. Utilizzo di NVIDIA Clara Train SDK La media AUC per i compiti di classificazione (≥LFO, ≥HFO/NIV o ≥MV) è stata calcolata e utilizzata come metrica di valutazione finale, con normalizzazione a media zero e varianza unitaria. le immagini CXR sono state preprocessate per selezionare la serie corretta ed escludere le immagini laterali, quindi scalate a una risoluzione di 224 × 224 (ref. e) il 9a 66 67 68 9b 69 70 27 Imputazione e normalizzazione L'algoritmo di MissForest Se una funzione EMR era completamente assente da un set di dati del sito client, il valore medio di quella funzione, calcolato esclusivamente sui dati dei siti client MGB, è stato utilizzato. 71 Dettagli della fusione dei dati EMR-CXR utilizzando la rete Deep & Cross Per modellare le interazioni delle caratteristiche dai dati EMR e CXR a livello di caso, è stato utilizzato uno schema profondo basato su un'architettura di rete Deep & Cross. Le caratteristiche binarie e categoriche per le entrate EMR, così come le caratteristiche di immagine in 512 dimensioni nel CXR, sono state trasformate in vettori densi di valori reali di fusione mediante l'imballaggio e l'accumulo di strati. I vettori densi trasformati hanno servito come input al framework di fusione, che ha specificamente impiegato una rete di incrocio per esercitare la fusione tra entrate provenienti da fonti diverse. La rete di incrocio ha eseguito un incrocio di caratteristiche esplicito all'interno dei suoi strati, conducendo prodotti interni tra la funzione di input originale e l'uscita dal livello precedente, aumentando così il grado di interazione tra le caratteristiche. Allo stesso tempo, sono state addestrate due reti neurali classiche profonde con diversi strati di feed- 68 FL Dettagli Forse la forma più consolidata di FL è l'implementazione dell'algoritmo di media federata come proposto da McMahan et al. Questo algoritmo può essere realizzato utilizzando una configurazione client-server in cui ogni sito partecipante agisce come cliente. Si può pensare a FL come un metodo volto a ridurre al minimo una funzione di perdita globale riducendo un set di funzioni di perdita locale, che sono stimate in ogni sito. Riducendo al minimo la perdita locale di ogni sito client e sincronizzando anche i pesi del sito client imparati su un server di aggregazione centralizzata, si può ridurre al minimo le perdite globali senza dover accedere all'intero set di dati in una posizione centralizzata. Ogni sito client impara localmente e condivide gli aggiornamenti del peso del modello con un server centrale che aggregano i contributi utilizzando protocolli di crittografia e comunicazione a livello di socket sicuro. Il server invia quindi un set aggiornato di p e) il 72 9c Un pseudoalgoritmo di FL è mostrato nella Nota supplementare Nei nostri esperimenti, abbiamo impostato il numero di giri federati a = 200, con un'epoca di formazione locale per turno per ciascun cliente. il numero di clienti, , è stato fino a 20 a seconda della connettività di rete dei clienti o dei dati disponibili per un periodo di risultato mirato specifico (24 o 72 ore). , dipende dalla dimensione del dataset di ciascun client e viene utilizzato per ponderare i contributi di ciascun cliente quando si aggregano i pesi del modello in media federata. Durante l'attività di formazione FL, ogni sito client seleziona il suo miglior modello locale tracciando le prestazioni del modello sul suo set di convalida locale. Allo stesso tempo, il server determina il miglior modello globale sulla base dei punteggi di convalida medi inviati da ogni sito client al server dopo ogni round FL. Dopo la fine della formazione FL, i migliori modelli locali e il miglior modello globale vengono automaticamente condivisi con tutti i siti client e valutati sui loro dati di test locali. 1 T t K nc k L'ottimizzatore Adam è stato utilizzato sia per la formazione locale che per la FL con un tasso di apprendimento iniziale di 5 × 10–5 e un decadimento graduale del tasso di apprendimento con un fattore 0,5 dopo ogni 40 epoche, il che è importante per la convergenza della media federata. Trasformazioni affine casuali, tra cui rotazione, traduzioni, taglio, scalazione e rumore e spostamenti di intensità casuale, sono stati applicati alle immagini per l'aumento dei dati durante l'allenamento. 73 A causa della sensibilità dei livelli BN Quando abbiamo affrontato diversi clienti in un ambiente non indipendente e distribuito in modo identico, abbiamo scoperto che le migliori prestazioni del modello si sono verificate mantenendo il ResNet34 pre-allenato con attenzione spaziale. Parametri fissati durante l'allenamento FL (cioè utilizzando un tasso di apprendimento di zero per quei livelli).La rete Deep & Cross che combina le funzionalità di immagine con le funzionalità EMR non contiene livelli BN e quindi non è stata influenzata da problemi di instabilità BN. 58 47 In questo studio abbiamo esaminato uno schema di conservazione della privacy che condivide solo aggiornamenti parziali del modello tra server e siti client. Gli aggiornamenti del peso sono stati classificati durante ogni iterazione in base alla grandezza del contributo, e solo una certa percentuale dei più grandi aggiornamenti del peso è stato condiviso con il server. b) i dati estesi figurano. ), che è stato calcolato da tutti i gradienti non-zero, Δ Può essere diverso per ogni cliente In ogni ronda Varianti di questo schema potrebbero includere il taglio aggiuntivo di grandi gradienti o schemi di privacy differenziali che aggiungono rumore casuale ai gradienti, o persino ai dati crudi, prima di alimentare la rete . k 5 Il Pd(t) k t 49 51 Analisi statistica Abbiamo condotto un test di classifica firmato Wilcoxon per confermare la significatività del miglioramento osservato nelle prestazioni tra il modello addestrato localmente e il modello FL per i punti di tempo 24 e 72 ore (Fig. Dati estesi Fig. L'ipotesi null è stata respinta con unilaterale « 1 × 10–3 in entrambi i casi. 2 1 P La correlazione di Pearson è stata utilizzata per valutare la generalizzabilità (la robustezza del valore medio AUC ai dati di test di altri siti client) dei modelli localmente addestrati in relazione alle rispettive dimensioni dei set di dati locali. di 0,43 = 0,035, gradi di libertà (df) = 17 per il modello a 24 ore e di 0,62 = 0,003, df = 16 per il modello 72-h). Questo indica che la dimensione del set di dati da sola non è l'unico fattore che determina la robustezza di un modello per i dati invisibili. r P r P Per confrontare le curve ROC dal modello FL globale e dai modelli locali addestrati in diversi siti (Fig. dati estesi. ), abbiamo bootstrapped 1.000 campioni dai dati e calcolato le AUC risultanti. abbiamo quindi calcolato la differenza tra le due serie e standardizzato utilizzando la formula = (AUC 1 – AUC 2) dove è la differenza standardizzata, è la deviazione standard delle differenze bootstrap e AUC1 e AUC2 sono le corrispondenti serie AUC bootstrapped. Con la normale distribuzione si ottiene il Valori illustrati nella tabella supplementare I risultati mostrano che l'ipotesi null è stata respinta con molto bassa valori, indicando la significatività statistica della superiorità dei risultati FL. Il calcolo del i valori sono stati eseguiti in R con la libreria pROC . 3 D s D s D P 2 P P 74 Poiché il modello prevede un risultato discreto, un punteggio continuo da 0 a 1, una valutazione di calibrazione semplice come un qqplot non è possibile. Abbiamo condotto test di analisi unidirezionale della variazione (ANOVA) per confrontare i punteggi del modello locale e FL tra quattro categorie di verità di fondo (RA, LFO, HFO, MV). -statistica, calcolata come la variazione tra i mezzi campione diviso per la variazione all'interno dei campioni e che rappresenta il grado di dispersione tra i diversi gruppi, è stato utilizzato per quantificare i modelli. - i valori di cinque diversi siti locali sono 245.7, 253.4, 342.3, 389.8 e 634.8, mentre quello del modello FL è 843.5. -valori significano che i gruppi sono più separabili, i punteggi dal nostro modello FL mostrano chiaramente una maggiore dispersione tra le quattro categorie di verità di fondo. Il valore del test ANOVA sul modello FL è <2 × 10–16, indicando che i punteggi di previsione FL sono statisticamente significativamente diversi tra le diverse classi di previsione. 10 F F F P Riferimento riassunto Ulteriori informazioni sul progetto di ricerca sono disponibili nel collegato a questo articolo. Risultati di ricerca sulla natura Disponibilità dei dati Il set di dati dei 20 istituti che hanno partecipato a questo studio rimane sotto la loro custodia. Questi dati sono stati utilizzati per la formazione in ciascuno dei siti locali e non sono stati condivisi con nessuna delle altre istituzioni partecipanti o con il server federato, e non sono disponibili pubblicamente. I dati dei siti di convalida indipendenti sono mantenuti da CAMCA, e l'accesso può essere richiesto contattando Q.L. Sulla base della determinazione da parte di CAMCA, una revisione di condivisione dei dati e la modifica dell'IRB per scopi di ricerca può essere condotta dall'amministrazione di ricerca MGB e in conformità con l'IRB e la politica di MGB. Disponibilità del codice Tutti i codici e i software utilizzati in questo studio sono disponibili pubblicamente su NGC. Per accedere, accedere come ospite o creare un profilo, inserisci uno degli URL di seguito.I modelli addestrati, le linee guida per la preparazione dei dati, il codice per la formazione, il test di convalida del modello, il file readme, le linee guida per l'installazione e i file di licenza sono disponibili pubblicamente su NVIDIA NGC di : Il software di apprendimento federato è disponibile come parte del Clara Train SDK: In alternativa, utilizzare questo comando per scaricare il modello "wget --content-disposition" -O clara_train_covid19_exam_ehr_xray_1.zip”. 61 https://ngc.nvidia.com/catalog/models/nvidia:med:clara_train_covid19_exam_ehr_xray https://ngc.nvidia.com/catalog/containers/nvidia:clara-train-sdk https://api.ngc.nvidia.com/v2/models/nvidia/med/clara_train_covid19_exam_ehr_xray/versions/1/zip Riferimenti Budd, J. et al. Digital technologies in the public-health response to COVID-19. , 1183–1192 (2020). Nat. Med. 26 Moorthy, V., Henao Restrepo, A. M., Preziosi, M.-P. & Swaminathan, S. Data sharing for novel coronavirus (COVID-19). , 150 (2020). Bull. World Health Organ. 98 Chen, Q., Allot, A. & Lu, Z. Keep up with the latest coronavirus research. , 193 (2020). Nature 579 Fabbri, F., Bhatia, A., Mayer, A., Schlotter, B. & Kaiser, J. BCG IT spend pulse: how COVID-19 is shifting tech priorities. (2020). https://www.bcg.com/publications/2020/how-covid-19-is-shifting-big-it-spend Candelon, F., Reichert, T., Duranton, S., di Carlo, R. C. & De Bondt, M. The rise of the AI-powered company in the postcrisis world. (2020). https://www.bcg.com/en-gb/publications/2020/business-applications-artificial-intelligence-post-covid Chao, H. et al. Integrative analysis for COVID-19 patient outcome prediction. , 101844 (2021). Med. Image Anal. 67 Zhu, X. et al. Joint prediction and time estimation of COVID-19 developing severe symptoms using chest CT scan. , 101824 (2021). Med. Image Anal. 67 Yang, D. et al. Federated semi-supervised learning for Covid region segmentation in chest ct using multi-national data from China, Italy, Japan. , 101992 (2021). Med. Image Anal. 70 Minaee, S., Kafieh, R., Sonka, M., Yazdani, S. & Jamalipour Soufi, G. Deep-COVID: predicting COVID-19 from chest X-ray images using deep transfer learning. , 101794 (2020). Med. Image Anal. 65 COVID-19 Studies from the World Health Organization Database. (2020). https://clinicaltrials.gov/ct2/who_table ACTIV. (2020). https://www.nih.gov/research-training/medical-research-initiatives/activ Coronavirus Treatment Acceleration Program (CTAP). US Food and Drug Administration (2020). https://www.fda.gov/drugs/coronavirus-covid-19-drugs/coronavirus-treatment-acceleration-program-ctap Gleeson, P., Davison, A. P., Silver, R. A. & Ascoli, G. A. A commitment to open source in neuroscience. , 964–965 (2017). Neuron 96 Piwowar, H. et al. The state of OA: a large-scale analysis of the prevalence and impact of open access articles. , e4375 (2018). PeerJ. 6 European Society of Radiology (ESR). What the radiologist should know about artificial intelligence – an ESR white paper. , 44 (2019). Insights Imaging 10 Pesapane, F., Codari, M. & Sardanelli, F. Artificial intelligence in medical imaging: threat or opportunity? Radiologists again at the forefront of innovation in medicine. , 35 (2018). Eur. Radiol. Exp. 2 Price, W. N. 2nd & Cohen, I. G. Privacy in the age of medical big data. , 37–43 (2019). Nat. Med. 25 Liang, W. et al. Development and validation of a clinical risk score to predict the occurrence of critical illness in hospitalized patients with COVID-19. , 1081–1089 (2020). JAMA Intern. Med. 180 Wynants, L. et al. Prediction models for diagnosis and prognosis of covid-19 infection: systematic review and critical appraisal. , m1328 (2020). Brit. Med. J. 369 Zhang, L. et al. D-dimer levels on admission to predict in-hospital mortality in patients with Covid-19. , 1324–1329 (2020). J. Thromb. Haemost. 18 Sands, K. E. et al. Patient characteristics and admitting vital signs associated with coronavirus disease 2019 (COVID-19)-related mortality among patients admitted with noncritical illness. (2020). https://doi.org/10.1017/ice.2020.461 American College of Radiology. CR recommendations for the use of chest radiography and computed tomography (CT) for suspected COVID-19 infection. (2020). https://www.acr.org/Advocacy-and-Economics/ACR-Position-Statements/Recommendations-for-Chest-Radiography-and-CT-for-Suspected-COVID19-Infection Rubin, G. D. et al. The role of chest imaging in patient management during the COVID-19 pandemic: a multinational consensus statement from the Fleischner Society. , 172–180 (2020). Radiology 296 World Health Organization. Use of chest imaging in COVID-19. (2020). https://www.who.int/publications/i/item/use-of-chest-imaging-in-covid-19 Jamil, S. et al. Diagnosis and management of COVID-19 disease. , 10 (2020). Am. J. Respir. Crit. Care Med. 201 Redmond, C. E., Nicolaou, S., Berger, F. H., Sheikh, A. M. & Patlas, M. N. Emergency radiology during the COVID-19 pandemic: The Canadian Association of Radiologists Recommendations for Practice. , 425–430 (2020). Can. Assoc. Radiologists J. 71 Buch, V. et al. Development and validation of a deep learning model for prediction of severe outcomes in suspected COVID-19 Infection. Preprint at (2021). https://arxiv.org/abs/2103.11269 Lyons, C. & Callaghan, M. The use of high-flow nasal oxygen in COVID-19. , 843–847 (2020). Anaesthesia 75 Whittle, J. S., Pavlov, I., Sacchetti, A. D., Atwood, C. & Rosenberg, M. S. Respiratory support for adult patients with COVID-19. , 95–101 (2020). J. Am. Coll. Emerg. Physicians Open 1 Ai, J., Li, Y., Zhou, X. & Zhang, W. COVID-19: treating and managing severe cases. , 370–371 (2020). Cell Res. 30 Esteva, A. et al. A guide to deep learning in healthcare. , 24–29 (2019). Nat. Med. 25 Cahan, E. M., Hernandez-Boussard, T., Thadaney-Israni, S. & Rubin, D. L. Putting the data before the algorithm in big data addressing personalized healthcare. , 78 (2019). NPJ Digit. Med. 2 Thrall, J. H. et al. Artificial intelligence and machine learning in radiology: opportunities, challenges, pitfalls, and criteria for success. , 504–508 (2018). J. Am. Coll. Radiol. 15 Shilo, S., Rossman, H. & Segal, E. Axes of a revolution: challenges and promises of big data in healthcare. , 29–38 (2020). Nat. Med. 26 Gao, Y. & Cui, Y. Deep transfer learning for reducing health care disparities arising from biomedical data inequality. , 5131 (2020). Nat. Commun. 11 Rieke, N. et al. The future of digital health with federated learning. , 119 (2020). NPJ Dig. Med. 3 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. 10 Ma, C. et al. On safeguarding privacy and security in the framework of federated learning. , 242–248 (2020). IEEE Netw. 34 Brisimi, T. S. et al. Federated learning of predictive models from federated Electronic Health Records. , 59–67 (2018). Int. J. Med. Inform. 112 Roth, H. R. et al. Federated learning for breast density classification: a real-world implementation. In , (eds. Albarqouni, S. et al.) Vol. 12,444, 181–191 (Springer International Publishing, 2020). Proc. Second MICCAI Workshop, DART 2020 and First MICCAI Workshop, DCL 2020 Domain Adaptation and Representation Transfer, and Distributed and Collaborative Learning Sheller, M. J. et al. Federated learning in medicine: facilitating multi-institutional collaborations without sharing patient data. , 12598 (2020). Sci. Rep. 10 Remedios, S. W., Butman, J. A., Landman, B. A. & Pham, D. L. in (eds Remedios, S. W. et al.) (Springer, 2020). Federated Gradient Averaging for Multi-Site Training with Momentum-Based Optimizers Xu, Y. et al. A collaborative online AI engine for CT-based COVID-19 diagnosis. Preprint at (2020). https://www.medrxiv.org/content/10.1101/2020.05.10.20096073v2 Raisaro, J. L. et al. SCOR: A secure international informatics infrastructure to investigate COVID-19. , 1721–1726 (2020). J. Am. Med. Inform. Assoc. 27 Vaid, A. et al. Federated learning of electronic health records to improve mortality prediction in hospitalized patients with COVID-19: machine learning approach. , e24207 (2021). JMIR Med. Inform. 9 Nino, G. et al. Pediatric lung imaging features of COVID-19: a systematic review and meta-analysis. , 252–263 (2021). Pediatr. Pulmonol. 56 Fredrikson, M., Jha, S. & Ristenpart, T. Model inversion attacks that exploit confidence information and basic countermeasures. In 1322–1333, (2015). Proc. 22nd ACM SIGSAC Conference on Computer and Communications Security https://doi.org/10.1145/2810103.2813677 Zhu, L., Liu, Z. & Han, S. in (eds Wallach, H. et al.) 14774–14784 (Curran Associates, Inc., 2019). Advances in Neural Information Processing Systems 32 Kaissis, G. A., Makowski, M. R., Rückert, D. & Braren, R. F. Secure, privacy-preserving and federated machine learning in medical imaging. , 305–311 (2020). Nat. Mach. Intell. 2 Li, W. et al. in 133–141 (Springer, 2019). Privacy-Preserving Federated Brain Tumour Segmentation Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In (2015). Proc. 53rd Annual Allerton Conference on Communication, Control, and Computing (Allerton) https://doi.org/10.1109/allerton.2015.7447103 Li, X. et al. Multi-site fMRI analysis using privacy-preserving federated learning and domain adaptation: ABIDE results. , 101765 (2020). Med. Image Anal. 65 Estiri, H. et al. Predicting COVID-19 mortality with electronic medical records. , 15 (2021). NPJ Dig. Med. 4 Jiang, G. et al. Harmonization of detailed clinical models with clinical study data standards. , 65–74 (2015). Methods Inf. Med. 54 Yang, D. et al. in . (2019). Searching Learning Strategy with Reinforcement Learning for 3D Medical Image Segmentation https://doi.org/10.1007/978-3-030-32245-8_1 Elsken, T., Metzen, J. H. & Hutter, F. Neural architecture search: a survey. , 1–21 (2019). J. Mach. Learning Res. 20 Yao, Q. et al. Taking human out of learning applications: a survey on automated machine learning. Preprint at (2019). https://arxiv.org/abs/1810.13306 Ioffe, S. & Szegedy, C. Batch normalization: accelerating deep network training by reducing internal covariate shift. In , PMLR , 448–456 (2015). Proc. 32nd International Conf. Machine Learning 37 Kaufman, S., Rosset, S. & Perlich, C. Leakage in data mining: formulation, detection, and avoidance. In , 556–563 (2011). Proc. 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Zhang, C. et al. BatchCrypt: efficient homomorphic encryption for cross-silo federated learning. In , 493–506 (2020). Proc. 2020 USENIX Annual Technical Conference, ATC 2020 . (2020). Nvidia NGC Catalog: COVID-19 Related Models https://ngc.nvidia.com/catalog/models?orderBy=scoreDESC&pageNumber=0&query=covid&quickFilter=models&filters Marini, J. J. & Gattinoni, L. Management of COVID-19 respiratory distress. , 2329–2330 (2020). JAMA 323 Cook, T. M. et al. Consensus guidelines for managing the airway in patients with COVID-19: Guidelines from the Difficult Airway Society, the Association of Anaesthetists the Intensive Care Society, the Faculty of Intensive Care Medicine and the Royal College of Anaesthetist. , 785–799 (2020). Anaesthesia 75 Galloway, J. B. et al. A clinical risk score to identify patients with COVID-19 at high risk of critical care admission or death: an observational cohort study. , 282–288 (2020). J. Infect. 81 Kilaru, A. S. et al. Return hospital admissions among 1419 COVID-19 patients discharged from five U.S. emergency departments. , 1039–1042 (2020). Acad. Emerg. Med. 27 He, K., Zhang, X., Ren, S. & Sun, J. Deep residual learning for image recognition. In (2016). Proc. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) https://doi.org/10.1109/cvpr.2016.90 Irvin, J. et al. CheXpert: a large chest radiograph dataset with uncertainty labels and expert comparison. , 590–597 (2019). Proc. AAAI Conf. Artif. Intell. 33 Wang, R., Fu, B., Fu, G. & Wang, M. Deep & Cross network for Ad Click predictions. In Article no. 12 (2017). Proc. ADKDD’17 Abadi, M. et al. TensorFlow: asystem for large-scale machine learning. In , USENIX Association 265–283 (2016). 12th USENIX Symposium on Operating Systems Design and Implementation (OSDI 16) . (2020). NVIDIA Clara Imaging https://developer.nvidia.com/clara-medical-imaging Stekhoven, D. J. & Bühlmann, P. MissForest–non-parametric missing value imputation for mixed-type data. , 112–118 (2012). Bioinformatics 28 McMahan, H., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. (2017). http://proceedings.mlr.press/v54/mcmahan17a.html Hsieh, K., Phanishayee, A., Mutlu, O. & Gibbons, P. B. The non-IID data quagmire of decentralized machine learning. In PMLR 119 (2020). Proc. 37th International Conf. Machine Learning Robin, X. et al. pROC: an open-source package for R and S+ to analyze and compare ROC curves. , 77 (2011). BMC Bioinformatics 12 Riconoscimenti I punti di vista espressi in questo studio sono quelli degli autori e non necessariamente quelli del NHS, del NIHR, del Dipartimento di Salute e Assistenza Sociale o di qualsiasi delle organizzazioni associate al Dipartimento di dati clinici. MGB ringrazia i seguenti individui per il loro sostegno: J. Brink, Dipartimento di Radiologia, Massachusetts General Hospital, Harvard Medical School, Boston, MA; M. Kalra, Dipartimento di Radiologia, Massachusetts General Hospital, Harvard Medical School, Boston, MA; N. Neumark, Centro per la Scienza dei Dati Clinici, Massachusetts General Brigham, Boston, MA; T. Schultz, Dipartimento di Radiologia, Massachusetts General Hospital, Boston, MA; N. Guo, Dipartimento di Informatica Medica Avanzata e Analisi, Dipartimento di Radiologia Attraverso la Facoltà di Medicina, l’Università di Chulalongkorn ringrazia il Ratchadapisek Sompoch Endowment Fund RA (PO) (n. 001/63) per la raccolta e la gestione dei dati clinici e dei campioni biologici relativi al COVID-19 per la Research Task Force, la Facoltà di Medicina, l’Università di Chulalongkorn. NIHR Cambridge Biomedical Research Center ringrazia A. Priest, che è sostenuto dal NIHR (Cambridge Biomedical Research Centre at Cambridge University Hospitals NHS Foundation Trust). National Taiwan University MeDA Lab e il MAHC e l’Amministrazione nazionale dell’assicurazione sanitaria di Taiwan ringrazia il MOST Joint Research Center for AI technology, l’All Vista Healthcare National Health Insurance Administration, Taiwan, il Minist https://data.ucsf.edu/covid19 Questo documento è disponibile in natura sotto la licenza CC by 4.0 Deed (Attribution 4.0 International). Questo documento è disponibile in natura sotto la licenza CC by 4.0 Deed (Attribution 4.0 International).