저자 : 이타이 다이안 Holger R. Roth Aoxiao Zhong에 관해 아하메드 하루니 애니메이션 친절 아나스 Z. 아비딘 Andrew Liu Anthony Beardsworth 코스타 브래드포드 J. 우드 Chih-Hung Wang에 관하여 C. K. Lee 푸른 루이 Daguang Xu Dufan Wu 에디 Huang 펠리페 캠포스 키타무라 그리핀 라세이 Gustavo César de Antônio Corradi 부근의 호텔 Gustavo 니노 히로푸미 오비나타 렌 제이슨 C. 크레인 제시 테트레어트 Jiahui Guan에 관해 존 W. 가렛 조슈아 D. 카기 Jung Gil 공원 키스 드레이어 Krishna Juluru 크리스토퍼 크리스토퍼 Marcio Aloisio Bezerra Cavalcanti 로켄바흐 마리우스 조지 링구라루 마사오마 A. 하이더 미나 아브델마세 니콜라 리체 파블로 F. 다마스케노 페드로 마리오 크루즈와 실바 Sheng Xu 샤이치 카와노 시라 스리사우디 Soo Young Park 부근의 호텔 토마스 M. 그리스트 도서관 저녁 식사 웨이브 Weichung Wang WON YOUNG TAK 시안 리 Xihong 린 Young Joon Kwon 앤드류 펜 앤드류 N. 프리스트 바리스 터키 벤자민 글릭스버그 베르나르도 비츠오 김정은 김정은 카를로스 토르-디즈 치아 리 Chia-Jung Hsu 중국 린 링 라이 크리스토퍼 P. 헤스 Colin Compas Deepeksha Bhatia 에릭 K. 오르만 Evan Leibovitz Hisashi Sasaki Hitoshi Mori Isaac Yang 제이 호 아들 크리스나 낸 Keshava Murthy Matheus Ribeiro Furtado de Mendonça 마이크 프라릭 미니 키우 칸 모하마드 공정 나탈리 Gangai Peerapon Vateekul Pierre Elnajjar Sarah Hickman 샤르미라 마요마르 셸리 L. 맥리드 샤리단 리드 스테판 그레프 Stephanie Harmon Tatsuya Kodama Tony Mazzulli Vitor Lima de Lavor Yothin Rakvongthai 부근의 호텔 Yu Rim 리 Yuhong Wen 피오나 J. 길버트 모나 G. 플로레스 Quanzheng Li 저자 : 이타이 다이안 홀거 R. 로스 Aoxiao Zhong에 관해 아하메드 하루니 애니메이션 친절 아나스 Z. 아비딘 Andrew Liu Anthony Beardsworth 코스타 브래드포드 J. 우드 Chih-Hung Wang에 관하여 C. K. 리 푸른 루이 Daguang Xu Dufan Wu 에디 Huang 펠리페 캠포스 키타무라 그리핀 라세이 Gustavo César de Antônio Corradi 부근의 호텔 Gustavo 니노 히로푸미 오비나타 렌 제이슨 C. 크레인 제시 테트레어트 Jiahui Guan에 관해 존 W. 가렛 조슈아 D. 카기 Jung Gil 공원 키스 드레이어 크리슈나 유루루 크리스토퍼 크리스토퍼 Marcio Aloisio Bezerra Cavalcanti 로켄바흐 마리우스 조지 링구라루 마사오마 A. 하이더 미나 아브델마세 니콜라 리체 파블로 F. 다마스케노 페드로 마리오 크루즈와 실바 Sheng Xu 샤이치 카와노 시라 스리사우디 Soo Young Park 부근의 호텔 토마스 M. 그리스트 도서관 저녁 식사 웨이브 와이파이 Wang WON YOUNG TAK 시안 리 Xihong 린 청년 Joon Kwon 앤드류 펜 앤드류 N. 프리스트 바리스 터키 벤자민 글릭스버그 베르나르도 비츠오 김정은 김정은 카를로스 토르-디즈 치아 리 중국 린 링 라이 크리스토퍼 P. 헤스 콜린 컴패스 Deepeksha Bhatia 근처 오락거리 에릭 K. 오르만 에반 레이보비츠 Hisashi Sasaki 히토시 모리 이사크 얀 제이 호 아들 크리스나 낸 Keshava Murthy 마테우스 Ribeiro Furtado de Mendonça 마이크 프라릭 미니 키우 칸 모하마드 공정 나탈리 Gangai Peerapon Vateekul 피에르 Elnajjar 사라 히크먼 샤르미라 마요마르 셸리 L. 맥리드 샤리단 리드 스테판 그레프 Stephanie Harmon 타츠야 코다마 Tony Mazzulli Vitor Lima de Trabor 부근의 호텔 Yothin Rakvongthai 부근의 호텔 Yu Rim 리 Yuhong 웬 피오나 J. 길버트 모나 G. 플로레스 abstract에 대하여 연합된 학습 (FL) 데이터는 여러 출처의 데이터를 사용하여 인공 지능 모델을 훈련하는 데 사용되는 방법이며 데이터 익명성을 유지하면서 데이터 공유에 많은 장애물을 제거합니다. 여기서 우리는 전 세계 20 개 연구소의 데이터를 사용하여 EXAM (전기 의학 기록 (EMR) 가슴 X-ray AI 모델)라고 불리는 FL 모델을 훈련시키는데, 이는 증상 환자의 증상 환자의 미래 산소 요구를 COVID-19의 입력, 실험실 데이터 및 가슴 X-ray를 사용하여 예측합니다. EXAM은 곡선 아래의 평균 영역 (AUC) >0.92를 달성하여 24 시간 및 24 시간에 기계적 환기 치료 또는 24 단계에서 사망 치료를 예측하며, 모든 참여 사이트에 측정된 증상 AUC의 16 % 향상을 제공하고, 메인 과학, 학문, 의학 및 데이터 과학 커뮤니티는 COVID-19 전염병 위기에 직면하여 빠르고 안전한 인공 지능 (AI)의 새로운 패러다임을 신속하게 평가하고 전통적인 협력의 일반적인 개인 정보 보호 및 데이터 소유 장애물없이 데이터 공유 및 모델 교육 및 테스트를 장려 할 수 있습니다. , . Healthcare providers, researchers and industry have pivoted their focus to address unmet and critical clinical needs created by the crisis, with remarkable results , , , , , , 임상시험 모집은 국가 규제 기관과 국제 협력 정신에 의해 가속화되고 촉진되었습니다. , , 데이터 분석 및 AI 분야는 항상 개방적이고 협력적인 접근 방식을 촉진했으며, 오픈 소스 소프트웨어, 재현 가능한 연구, 데이터 저장소 및 공개적으로 익명 데이터 세트를 사용할 수 있도록 개념을 포용했습니다. , 전염병은 급속하게 진화하고 광범위한 글로벌 도전에 대응할 때 임상 및 과학 커뮤니티를 권한을 부여하는 데이터 공동 작업을 진행할 필요성을 강조했습니다.데이터 공유에는 윤리적, 규제적, 법적 복잡성이 있으며, 최근 대형 기술 회사들이 의료 데이터 세계에 들어가면서 조금은 복잡해졌습니다. , , . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 이러한 유형의 협력의 구체적인 예는 AI 기반의 SARS-COV-2 임상 의사 결정 지원 (CDS) 모델에 대한 우리의 이전 작업입니다.이 CDS 모델은 Mass General Brigham (MGB)에서 개발되었으며 여러 건강 시스템의 데이터를 통해 검증되었습니다.CDS 모델에 대한 입력은 가슴 X-ray (CXR) 이미지, 중요한 징후, 인구 통계 데이터 및 이전 출판물에서 COVID-19 환자의 결과를 예측하는 것으로 나타났습니다. , , , . CXR was selected as the imaging input because it is widely available and commonly indicated by guidelines such as those provided by ACR The Fleischner Society 근처 오락거리 · WHO National Thoracic Societies 근처 오락거리 , 국가 보건부 COVID 매뉴얼 및 전 세계의 방사선 사회 CDS 모델의 출력은 CORISK라고 불리는 점수였다. , 이는 산소 지원 요구 사항과 일치하며 전선 진료진에 의해 환자를 검사하는 데 도움이 될 수 있습니다. , , 의료 서비스 제공자는 자신의 데이터에 의해 검증 된 모델을 선호하는 것으로 알려져있다. 현재까지 앞서 언급한 CDS 모델을 포함한 대부분의 AI 모델은 종종 다양성이 부족한 '좁은'데이터에서 훈련되고 검증되었습니다. , , 잠재적으로 과잉 조립 및 낮은 일반화 가능성으로 이어질 수 있습니다.This can be mitigated by training with diverse data from multiple sites without centralization of data using methods such as transfer learning , FL는 다양한 데이터 소스에서 AI 모델을 훈련하는 데 사용되는 방법이며, 데이터가 원래 위치 밖으로 전송되거나 노출되지 않고도 FL는 많은 산업에 적용되지만, FL는 최근 기관 간 의료 연구를 위해 제안되었습니다. . 18 19 20 21 22 23 24 25 26 27 28 29 30 27 31 32 33 34 35 36 연방 학습은 데이터의 추적 가능성을 향상시키고 알고리즘 변화와 영향을 평가하는 중앙 조정 실험의 빠른 시작을 지원합니다. 클라이언트-서버라고 불리는 FL에 대한 한 가지 접근 방식은 부분적인 훈련 작업을 수행하는 다른 서버(“노드”)에 ‘훈련되지 않은’ 모델을 보내고 결과를 다시 중앙(“연방화된”) 서버에 병합시켜 보냅니다.This is conducted as an iterative process until training is complete. . 37 36 Governance of data for FL is maintained locally, alleviating privacy concerns, with only model weights or gradients communicated between client sites and the federated server , FL는 최근의 의료 이미지 응용 프로그램에서 이미 약속을 보였습니다. , , , COVID-19 분석 , , 주목할만한 예는 SARS-COV-2로 감염된 환자의 사망률 예측 모델이지만, 모드 및 규모의 수와 관련하여 제한된 임상 특징을 사용한다. . 38 39 40 41 42 43 8 44 45 46 Our objective was to develop a robust, generalizable model that could assist in triaging patients. We theorized that the CDS model can be federated successfully, given its use of data inputs that are relatively common in clinical practice and that do not rely heavily on operator-dependent assessments of patient condition (such as clinical impressions or reported symptoms). Rather, laboratory results, vital signs, an imaging study and a commonly captured demographic (that is, age), were used. We therefore retrained the CDS model with diverse data using a client-server FL approach to develop a new global FL model, which was named EXAM, using CXR and EMR features as input. By leveraging FL, the participating institutions would not have to transfer data to a central repository, but rather leverage a distributed data framework. 우리의 가설은 EXAM이 지역 모델보다 더 잘 작동하고 건강 관리 시스템을 통해 더 잘 일반화 할 것이라는 것입니다. 결과 EXAM 모델 아키텍처 EXAM 모델은 위에서 언급한 CDS 모델을 기반으로 합니다. 결과(즉, ‘지상 진실’) 라벨은 환자의 산소 치료를 바탕으로 24시간 및 72시간의 초기 응급실 (ED) 입원 후에 할당되었습니다. . 27 1 환자의 결과 라벨은 예측 창에서 환자가 받은 가장 강렬한 산소 치료에 따라 0, 0.25, 0.50 및 0.75로 설정되었습니다. 산소 치료 범주는 각각 실내 공기 (RA), 낮은 흐름 산소 (LFO), 높은 흐름 산소 (HFO)/노인 invasive 환기 (NIV) 또는 기계적 환기 (MV)였습니다. 환자가 예측 창 내에서 사망한 경우 결과 라벨은 1로 설정되었습니다. EMR 기능의 경우, ED에서 캡처한 첫 번째 값만 사용되었고, 데이터 사전 처리에는 식별 해제, 잃어버린 값 부과 및 제로 평균 및 단위 변수로 정상화가 포함되었습니다. 따라서 이 모델은 EMR 및 CXR 기능의 정보를 결합하여 34 층의 구동 신경 네트워크(ResNet34)를 사용하여 CXR 및 Deep & Cross 네트워크의 기능을 추출하여 EMR 기능과 함께 기능을 결합합니다(더 확장된 세부 사항은 EMR 기능과 함께 기능을 결합하십시오). 모델 출력은 위에서 설명한 레이블에 해당하는 24시간 및 72시간 예측의 각각에 대한 0-1 범위의 연속 값인 EXAM 스코어라고 불리는 위험 스코어입니다. Methods Federating the model EXAM 모델은 16,148 건의 사례를 사용하여 훈련되었으며, COVID-19에 대한 최초의 FL 모델 중 하나일뿐만 아니라 임상적으로 관련된 AI에서 매우 크고 다대륙적인 개발 프로젝트입니다. 사이트 간의 데이터는 추출 전에 조화되지 않았으며, 실제 임상 정보학 상황을 감안할 때, 데이터 입력의 세밀한 조화는 저자에 의해 수행되지 않았습니다 (그림. ) 1A, B 1c,d EXAM 연구에 기여하는 20 개의 다른 클라이언트 사이트를 나타내는 세계지도. , 각 기관 또는 사이트가 기여한 사례 수 (클라이언트 1은 가장 많은 사례를 기여하는 사이트를 나타냅니다). , 각 클라이언트 사이트에서 가슴 X-ray 강도 분포. , 각 클라이언트 사이트의 환자의 나이, 최소 및 최대 연령 (별자), 평균 연령 (삼각형) 및 표준 deviation (경평선)을 표시합니다. . a b c d 1 We compared locally trained models with the global FL model on each client’s test data. Training the model through FL resulted in a significant performance improvement ( « 1 × 10–3, Wilcoxon signed-rank test) of 16% (as defined by average AUC when running the model on respective local test sets: from 0.795 to 0.920, or 12.5 percentage points) (Fig. 또한 38 %의 일반화 가능성 향상 (모든 테스트 세트에서 모델을 실행할 때 평균 AUC로 정의됨 : 0.667에서 0.920 또는 25.3 퍼센트 포인트) 24 시간 산소 처리를 예측하기위한 최고의 글로벌 모델의 모델에 비해 사이트 자체 데이터에만 훈련 된 모델에 비해 (그림. ). For the prediction results of 72-h oxygen treatment, the best global model training resulted in an average performance improvement of 18% compared to locally trained models, while generalizability of the global model improved on average by 34% (Extended Data Fig. 우리의 결과의 안정성은 다른 무작위 데이터 분할에서 3 번의 로컬 및 FL 훈련을 반복하여 검증되었습니다. P 2a 2B 1 , Performance on each client’s test set in prediction of 24-h oxygen treatment for models trained on local data only (Local) versus that of the best global model available on the server (FL (gl. best)). Av., average test performance across all sites. , 일반화성(AUC로 나타나는 다른 사이트의 테스트 데이터의 평균 성능)은 클라이언트의 데이터 세트 크기(사례가 없음)의 함수로 녹색 수평선은 최고의 글로벌 모델의 일반화 성능을 나타냅니다.20개 클라이언트 중 18개 클라이언트의 성능은 클라이언트 12가 72시간의 산소에만 결과를 보였기 때문에 표시됩니다(Extended Data Fig. ) 및 클라이언트 14는 RA 치료만을 가진 경우가 있었기 때문에 평가 메트릭 (AUC)이 이러한 경우 중 하나에 적용되지 않았습니다 ( 클라이언트 14의 데이터는 로컬 모델에서 평균 일반화 가능성의 계산에서 제외되었다. a b 1 Methods Local models that were trained using unbalanced cohorts (for example, mostly mild cases of COVID-19) markedly benefited from the FL approach, with a substantial improvement in prediction average AUC performance for categories with only a few cases. This was evident at client site 16 (an unbalanced dataset), with most patients experiencing mild disease severity and with only a few severe cases. The FL model achieved a higher true-positive rate for the two positive (severe) cases and a markedly lower false-positive rate compared to the local model, both shown in the receiver operating characteristic (ROC) plots and confusion matrices (Fig. 확장된 데이터 Fig. 더 중요한 것은 FL 모델의 일반화 가능성이 지역적으로 훈련된 모델에 비해 상당히 증가했다는 것입니다. 3a 2 , 클라이언트 사이트 16의 ROC, 불균형한 데이터와 대부분의 가벼운 사례. ROC는 클라이언트 사이트의 로컬 모델 12 (작은 데이터 세트)의 평균 ROC, 보스턴 지역의 5 개 클라이언트 사이트 (1, 4, 5, 6, 8)에 해당하는 대형 데이터 세트에서 훈련 된 모델의 평균 ROC (왼쪽, 중간, 오른쪽)에 대한 72 시간 산소 처리를 예측하는 최고의 글로벌 모델의 ROC입니다. 평균 ROC는 5 개의 로컬 훈련 모델에 따라 계산되며 회색 영역은 ROC 표준 편차를 나타냅니다. ) of the EXAM risk score are shown. Pos and neg denote the number of positive and negative cases, respectively, as defined by this range of EXAM score. a b t In the case of client sites with relatively small datasets, the best FL model markedly outperformed not only the local model but also those trained on larger datasets from five client sites in the Boston area of the USA (Fig. ). 3b The global model performed well in predicting oxygen needs at 24/72 h in patients both COVID positive and negative (Extended Data Fig. ). 3 Validation at independent sites 초기 훈련 후, EXAM은 미국 매사추세츠에 위치한 세 개의 독립적 인 검증 사이트에서 테스트되었으며, Cooley Dickinson Hospital (CDH), Martha’s Vineyard Hospital (MVH) 및 Nantucket Cottage Hospital (NCH)에서 테스트되었습니다. , and the ROC curves and confusion matrices for the largest dataset (from CDH) are shown in Fig. . The operating point was set to discriminate between nonmechanical ventilation and mechanical ventilation (MV) treatment (or death). The FL global trained model, EXAM, achieved an average AUC of 0.944 and 0.924 for 24- and 72-h prediction tasks, respectively (Table 24 시간에 MV 치료 (또는 사망)의 예측을 위해, EXAM은 CDH에서 0.950의 민감성과 0.882의 특성, MVH에서 1,000의 특성과 0.934의 특성을 달성했습니다. NCH는 24 시간에 MV / 사망의 사례가 없었습니다. 72 시간 MV 예측에 관해서, EXAM은 CDH에서 0.929의 민감성과 0.880의 특성을 달성했습니다. 2 4 2 , , Performance (ROC) (top) and confusion matrices (bottom) of the EXAM FL model on the CDH dataset for prediction of oxygen requirement at 24 h ( 72 시간 ( ). ROCs for three different cutoff values ( 3) 시험 위험 점수가 표시됩니다. a b a b t 72 시간에 CDH에서 MV의 경우 EXAM은 7.1 %의 낮은 거짓 부정률을 보였습니다. , showing two false-negative cases from CDH where one case had many missing EMR data features and the other had a CXR with a motion artifact and some missing EMR features. 4 Differential Privacy 사용하기 A primary motivation for healthcare institutes to use FL is to preserve the security and privacy of their data, as well as adherence to data compliance measures. For FL, there remains the potential risk of model ‘inversion’ or even the reconstruction of training images from the model gradients themselves . To counter these risks, security-enhancing measures were used to mitigate risk in the event of data ‘interception’ during site-server communication 우리는 FL 데이터의 차단을 피하기위한 기술을 실험했고, FL를 사용하도록 더 많은 기관을 격려 할 수 있다고 생각하는 보안 기능을 추가했습니다. . Through investigation of a partial weight-sharing scheme , , , 우리는 모델이 무게 업데이트의 25 %만 공유되는 경우에도 비교 성능을 달성할 수 있음을 보여주었습니다 (Extended Data Fig. ) 47 48 49 50 50 51 52 5 Discussion This study features a large, real-world healthcare FL study in terms of number of sites and number of data points used. We believe that it provides a powerful proof-of-concept of the feasibility of using FL for fast and collaborative development of needed AI models in healthcare. Our study involved multiple sites across four continents and under the oversight of different regulatory bodies, and thus holds the promise of being provided to different regulated markets in an expedited way. The global FL model, EXAM, proved to be more robust and achieved better results at individual sites than any model trained on only local data. We believe that consistent improvement was achieved owing to a larger, but also a more diverse, dataset, the use of data inputs that can be standardized and avoidance of clinical impressions/reported symptoms. These factors played an important part in increasing the benefits from this FL approach and its impact on performance, generalizability and, ultimately, the model’s usability. For a client site with a relatively small dataset, two typical approaches could be used for fitting a useful model: one is to train locally with its own data, the other is to apply a model trained on a larger dataset. For sites with small datasets, it would have been virtually impossible to build a performant deep learning model using only their local data. The finding, that these two approaches were outperformed on all three prediction tasks by the global FL model, indicates that the benefit for client sites with small datasets arising from participation in FL collaborations is substantial. This is probaby a reflection of FL’s ability to capture more diversity than local training, and to mitigate the bias present in models trained on a homogenous population. An under-represented population or age group in one hospital/region might be highly represented in another region—such as children who might be differentially affected by COVID-19, including disease manifestations in lung imaging . 46 검증 결과는 글로벌 모델이 강력하다는 것을 확인했으며, FL 훈련된 모델이 건강 관리 시스템을 통하여 일반화될 수 있다는 우리의 가설을 뒷받침합니다. 그들은 COVID-19 환자 치료에서 예측 알고리즘의 사용과 모델 제작 및 테스트에서 FL의 사용에 대한 설득력있는 사례를 제공합니다.이 연구에 참여함으로써 클라이언트 사이트는 규제 승인을 추구하거나 임상 치료에 미래의 도입을 추구하기 전에 EXAM에 대한 추가 검증을 받았습니다. , 그리고 시험 훈련의 일부가 아니었던 다른 사이트에서. 53 Over 200 prediction models to support decision-making in patients with COVID-19 have been published . Unlike the majority of publications focused on diagnosis of COVID-19 or prediction of mortality, we predicted oxygen requirements that have implications for patient management. We also used cases with unknown SARS-COV-2 status, and so the model could provide input to the physician ahead of receiving a result for PCR with reverse transcription (RT–PCR), making it useful for a real-life clinical setting. The model’s imaging input is used in common practice, in contrast with models that use chest computed tomography, a nonconsensual diagnostic modality. The model’s design was constrained to objective predictors, unlike many published studies that leveraged subjective clinical impressions. The data collected reflect varied incidence rates, and thus the ‘population momentum’ we encountered is more diverse. This implies that the algorithm can be useful in populations with different incidence rates. 19 환자 코호트 식별 및 데이터 조화는 연구 및 데이터 과학에서 새로운 문제가 아닙니다. 다른 사이트의 데이터 세트에 대한 가시성 부족을 감안할 때, 그러나 FL를 사용할 때 더욱 복잡합니다.Clinical information systems improvements are needed to streamline data preparation, leading to better leverage of a network of sites participating in FL. This, in conjunction with hyperparameter engineering, can allow algorithms to 'learn' more effectively from larger data batches and adapt model parameters to a particular site for further personalization - for example, through further fine-tuning on that site. . A system that would allow seamless, close-to real-time model inference and results processing would also be of benefit and would ‘close the loop’ from training to model deployment. 54 39 데이터가 중앙화되지 않았기 때문에 쉽게 접근할 수 없습니다.이를 감안할 때, 추출되고 수집 된 것 이상의 결과에 대한 미래의 분석은 제한적입니다. 다른 기계 학습 모델과 마찬가지로, EXAM은 훈련 데이터의 품질에 의해 제한됩니다. 임상 치료를위한이 알고리즘을 배포하는 데 관심이있는 기관은 훈련에서 잠재적 인 편견을 이해해야합니다. 예를 들어, EXAM 모델의 훈련에서 토지 진리로 사용 된 라벨은 환자의 24 시간 및 72 시간 산소 소비에서 유래되었으며; 환자에게 전달 된 산소가 산소 필요를 동등하게한다고 가정됩니다. 그러나 COVID-19 전염병의 초기 단계에서 많은 환자가 산소 필요에 관계없이 예방적으로 높은 흐름의 산소를 제공 받았습니다. 당사의 데이터 액세스가 제한되었기 때문에 대부분의 사이트에서 실패 원인에 대한 상세한 통계를 생성할 수 있는 충분한 정보가 없었기 때문에 대부분의 사이트에서 실패 사례를 연구했으며, 가장 큰 독립적 인 테스트 사이트인 CDH에서 실패 사례를 연구했으며, 미래에 테스트할 수 있는 가설을 생성할 수 있었습니다. In future, we also intend to investigate the potential for a ‘population drift’ due to different phases of disease progression. We believe that, owing to the diversity across the 20 sites, this risk may have been mitigated. A feature that would enhance these kinds of large-scale collaboration is the ability to predict the contribution of each client site towards improving the global FL model. This will help in client site selection, and in prioritization of data acquisition and annotation efforts. The latter is especially important given the high costs and difficult logistics of these large-consortia endeavors, and it will enable these endeavors to capture diversity rather than the sheer quantity of data samples. Future approaches may incorporate automated hyperparameter searching Neural Architecture 검색 자동화된 기계 학습(Automated Machine Learning) approaches to find the optimal training parameters for each client site more efficiently. 55 56 57 FL에서 배치 표준화(BN)에 대한 알려진 문제 이미지 기능 추출을위한 우리의 기본 모델을 고치기 위해 우리를 동기 부여 to reduce the divergence between unbalanced client sites. Future work might explore different types of normalization techniques to allow the training of AI models in FL more effectively when client data are nonindependent and identically distributed. 58 49 Recent works on privacy attacks within the FL setting have raised concerns on data leakage during model training 한편, 보호 알고리즘은 여전히 탐구되지 않고 여러 요소에 의해 제한되고 있지만 차별적인 개인 정보 보호 알고리즘은 , , 좋은 보호를 보여주면 모델의 성능을 약화시킬 수 있습니다. encryption algorithms, such as homomorphic encryption 성능을 유지하지만 메시지 크기와 훈련 시간을 크게 늘릴 수 있습니다.개인 정보 보호를 측정하는 측정 가능한 방법은 임상적으로 허용되는 성능을 유지하면서 필요한 최소 개인 정보 보호 매개 변수를 결정하기 위한 더 나은 선택을 허용할 것입니다. , , . 59 36 48 49 60 36 48 49 Following further validation, we envision deployment of the EXAM model in the ED setting as a way to evaluate risk at both the per-patient and population level, and to provide clinicians with an additional reference point when making the frequently difficult task of triaging patients. We also envision using the model as a more sensitive population-level metric to help balance resources between regions, hospitals and departments. Our hope is that similar FL efforts can break the data silos and allow for faster development of much-needed AI models in the near future. 방법 Ethics approval All procedures were conducted in accordance with the principles for human experimentation as defined in the Declaration of Helsinki and International Conference on Harmonization Good Clinical Practice guidelines, and were approved by the relevant institutional review boards at the following validation sites: CDH, MVH, NCH and at the following training sites: MGB, Mass General Hospital (MGH), Brigham and Women’s Hospital, Newton-Wellesley Hospital, North Shore Medical Center and Faulkner Hospital (all eight of these hospitals were covered under MGB’s ethics board reference, no. 2020P002673, and informed consent was waived by the instititional review board (IRB). Similarly, participation of the remaining sites was approved by their respective relevant institutional review processes: Children’s National Hospital in Washington, DC (no. 00014310, IRB certified exempt); NIHR Cambridge Biomedical Research Centre (no. 20/SW/0140, informed consent waived); The Self-Defense Forces Central Hospital in Tokyo (no. 02-014, informed consent waived); National Taiwan University MeDA Lab and MAHC and Taiwan National Health Insurance Administration (no. 202108026 W, informed consent waived); Tri-Service General Hospital in Taiwan (no. B202105136, informed consent waived); Kyungpook National University Hospital in South Korea (no. KNUH 2020-05-022, informed consent waived); Faculty of Medicine, Chulalongkorn University in Thailand (nos. 490/63, 291/63, informed consent waived); Diagnosticos da America SA in Brazil (no. 26118819.3.0000.5505, informed consent waived); University of California, San Francisco (no. 20-30447, informed consent waived); VA San Diego (no. H200086, IRB certified exempt); University of Toronto (no. 20-0162-C, informed consent waived); National Institutes of Health in Bethesda, Maryland (no. 12-CC-0075, informed consent waived); University of Wisconsin-Madison School of Medicine and Public Health (no. 2016-0418, informed consent waived); Memorial Sloan Kettering Cancer Center in New York (no. 20-194, informed consent waived); and Mount Sinai Health System in New York (no. IRB-20-03271, informed consent waived). 임상 AI 모델 보고에 대한 MI-CLAIM 지침이 준수되었습니다(Supplementary Note) ) 2 Setting 공부하기 이 연구는 20 개 기관의 데이터를 포함했습니다 (그림. ): MGB, MGH, Brigham and Women’s Hospital, Newton-Wellesley Hospital, North Shore Medical Center and Faulkner Hospital; Children’s National Hospital in Washington, DC; NIHR Cambridge Biomedical Research Centre; The Self-Defense Forces Central Hospital in Tokyo; National Taiwan University MeDA Lab and MAHC and Taiwan National Health Insurance Administration; Tri-Service General Hospital in Taiwan; Kyungpook National University Hospital in South Korea; Faculty of Medicine, Chulalongkorn University in Thailand; Diagnosticos da America SA in Brazil; University of California, San Francisco; VA San Diego; University of Toronto; National Institutes of Health in Bethesda, Maryland; University of Wisconsin-Madison School of Medicine and Public Health; Memorial Sloan Kettering Cancer Center in New York; and Mount Sinai Health System in New York. Institutions were recruited between March and May 2020. Dataset curation started in June 2020 and the final data cohort was added in September 2020. Between August and October 2020, 140 independent FL runs were conducted to develop the EXAM model and, by the end of October 2020, EXAM was made public on NVIDIA NGC , , . Data from three independent sites were used for independent validation: CDH, MVH and NCH, all in Massachusetts, USA. These three hospitals had patient population characteristics different from the training sites. The data used for the algorithm validation consisted of patients admitted to the ED at these sites between March 2020 and February 2021, and that satisfied the same inclusion criteria of the data used to train the FL model. 1a 61 62 63 Data collection The 20 client sites prepared a total of 16,148 cases (both positive and negative) for the purposes of training, validation and testing of the model (Fig. 의료 데이터는 연구 포함 기준을 충족한 환자에 대한 접근이 이루어졌습니다. 클라이언트 사이트는 2019년 12월에 전염병이 시작되었을 때까지 모든 COVID 긍정적 인 경우를 포함하기 위해 노력했습니다. 모든 지역 교육은 2020년 9월 30일까지 시작되었습니다. 사이트에는 동일한 기간에 부정적인 RT-PCR 테스트 결과를 가진 다른 환자들도 포함되었습니다. 대부분의 사이트에는 SARS-COV-2 부정적 환자가 -긍정적 인 환자보다 많았기 때문에 각 클라이언트 사이트에 포함된 부정적인 환자의 수는 최대 95%로 제한되었습니다. 1b A ‘case’ included a CXR and the requisite data inputs taken from the patient’s medical record. A breakdown of the cohort size of the dataset for each client site is shown in Fig. . The distribution and patterns of CXR image intensity (pixel values) varied greatly among sites owing to a multitude of patient- and site-specific factors, such as different device manufacturers and imaging protocols, as shown in Fig. . Patient age and EMR feature distribution varied greatly among sites, as expected owing to the differing demographics between globally distributed hospitals (Extended Data Fig. ) 1b 1 C, D 6 Patient inclusion criteria Patient inclusion criteria were: (1) patient presented to the hospital’s ED or equivalent; (2) patient had a RT–PCR test performed at any time between presentation to the ED and discharge from the hospital; (3) patient had a CXR in the ED; and (4) patient’s record had at least five of the EMR values detailed in Table , 모든 ED에서 얻은, 그리고 병원에 입원하는 동안 캡처 된 관련 결과. 참고, CXR, 실험실 결과 및 사용 된 vitals는 ED를 방문하는 동안 캡처 할 수있는 최초의 모델이었습니다. 1 input 모델 In total, 21 EMR features were used as input to the model. The outcome (that is, ground truth) labels were assigned based on patient requirements after 24- and 72-h periods from initial admission to the ED. A detailed list of the requested EMR features and outcomes can be seen in Table . 1 The distribution of oxygen treatment using different devices at different client sites is shown in Extended Data Fig. , which details the device usage at admission to the ED and after 24- and 72-h periods. The difference in dataset distribution between the largest and smallest client sites can be seen in Extended Data Fig. . 7 8 The number of positive COVID-19 cases, as confirmed by a single RT–PCR test obtained at any time between presentation to the ED and discharge from the hospital, is listed in Supplementary Table . Each client site was asked to randomly split its dataset into three parts: 70% for training, 10% for validation and 20% for testing. For both 24- and 72-h outcome prediction models, random splits for each of the three repeated local and FL training and evaluation experiments were independently generated. 1 EXAM model development COVID-19의 증상으로 병원에 입원하는 환자의 임상 과정에는 광범위한 변화가 있으며, 일부는 호흡 기능의 급속한 악화를 경험하여 hypoxemia를 예방하거나 완화시키기 위해 다른 개입이 필요합니다. , 초기 치료 또는 ED 시점에서 환자를 평가하는 동안 내린 중요한 결정은 환자가 부작용 또는 자원 제한 대책이나 개입 (MV 또는 모노클론 항체와 같은)을 필요로 할 가능성이 있으며, 따라서 부작용으로 인해 위험과 이익의 좁은 비율로 치료를받을 필요가 있는지 여부 또는 집중 요원에 입원하는 것과 같은 더 높은 수준의 치료를받아야 하는지입니다. 대조적으로, 침습적인 산소 요법을 필요로하는 위험이 낮은 환자는 정규 진료소와 같은 덜 집중적 인 치료 환경에 배치되거나 심지어 집에서 지속적인 자기 모니터링을 위해 ED에서 해방 될 수 있습니다. . EXAM was developed to help triage such patients. 62 63 64 65 Of note, the model is not approved by any regulatory agency at this time and it should be used only for research purposes. EXAM score EXAM was trained using FL; it outputs a risk score (termed EXAM score) similar to CORISK (에 대한 정보 확장 Fig. ) and can be used in the same way to triage patients. It corresponds to a patient’s oxygen support requirements within two windows—24 and 72 h—after initial presentation to the ED. Extended Data Fig. illustrates how CORISK and the EXAM score can be used for patient triage. 27 9a 9b Chest X-ray images were preprocessed to select the anterior position image and exclude lateral view images, and then scaled to a resolution of 224 × 224. As shown in Extended Data Fig. , the model fuses information from both EMR and CXR features (based on a modified ResNet34 with spatial attention pretrained on the CheXpert dataset) Deep & Cross 네트워크 이러한 다른 데이터 유형을 통합하기 위해, 각 CXR 이미지에서 프레드 트레이닝된 ResNet34을 사용하여 512차원 기능 벡터가 추출되었으며, 그 후에 Deep & Cross 네트워크의 입력으로서의 EMR 기능과 결합되었습니다. 우리는 손실 기능으로 크로스 엔트로피와 최적화기로서 ‘아담’을 사용했습니다. NVIDIA 클라라 트레인 SDK 분류 작업 (≥LFO, ≥HFO/NIV 또는 ≥MV)에 대한 평균 AUC는 계산되고 최종 평가 메트릭으로 사용되었으며, 제로 평균 및 단위 변수로 정상화되었습니다.CXR 이미지는 올바른 시리즈를 선택하고 측면 뷰 이미지를 제외하고 224 × 224의 해상도로 확장되었습니다 (ref. ) 9a 66 67 68 9b 69 70 27 Feature imputation and normalization MissForest 알고리즘 만약 클라이언트 사이트 데이터 세트에서 EMR 기능이 완전히 부재했다면, MGB 클라이언트 사이트의 데이터에만 계산된 그 기능의 평균 값이 사용되었습니다. 71 Deep & Cross 네트워크를 사용하여 EMR-CXR 데이터 합병의 세부 사항 케이스 수준에서 EMR 및 CXR 데이터의 기능 상호 작용을 모델링하기 위해 Deep & Cross 네트워크 아키텍처를 기반으로 한 깊은 기능 스키마가 사용되었습니다. EMR 입력에 대한 바이너리 및 카테고리 기능뿐만 아니라 CXR의 512 차원 이미지 기능은 삽입 및 스택 레이어를 통해 실제 가치의 융합 밀접한 벡터로 변환되었습니다. 변형된 밀접한 벡터는 융합 프레임 워크에 입력으로 봉사했으며, 이는 구체적으로 서로 다른 소스의 입력 사이의 융합을 강요하기 위해 크로싱 네트워크를 사용했습니다. 크로싱 네트워크는 그 레이어 내에서 명시적 인 기능 크로싱을 수행하여 원래 입력 기능과 이전 레이어의 출력 사이의 내부 제품을 수행하여 기능 간의 상호 작용 정도를 증가시켰습니다. 동시에, 여러 개의 스택된, 완전히 연결된 피드 전달 레이어를 가진 두 개의 개별 68 FL details 아마도 FL의 가장 확립 된 형태는 McMahan et al.에 의해 제안 된 연방 평균 알고리즘의 구현입니다. 이 알고리즘은 각 참가 사이트가 클라이언트로 작용하는 클라이언트-서버 설정을 사용하여 실현할 수 있습니다. FL는 각 사이트에서 추정되는 로컬 손실 기능의 집합을 줄여서 글로벌 손실 기능을 최소화하는 방법으로 생각할 수 있습니다. 각 클라이언트 사이트의 로컬 손실을 최소화함으로써 중앙 집합 서버에 배운 클라이언트 사이트 무게를 동기화함으로써, 중앙 집합 사이트에서 전체 데이터 세트에 액세스 할 필요없이 글로벌 손실을 최소화 할 수 있습니다. 각 클라이언트 사이트는 로컬로 학습하고 보안 소켓 레이어 암호화 및 통신 프로토콜을 사용하여 기여를 집합하는 중앙 서버와 모델 무게 업데이트를 공유합니다. 서버는 집합 ). 72 9c A pseudoalgorithm of FL is shown in Supplementary Note 우리의 실험에서, 우리는 연방 라운드의 수를 설정 = 200, 각 라운드에 한 개의 지역 훈련 시대 at each client. The number of clients, , was up to 20 depending on the network connectivity of clients or available data for a specific targeted outcome period (24 or 72 h). The number of local training iterations, , 각 클라이언트의 데이터 세트 크기에 따라 달라집니다. and is used to weigh each client’s contributions when aggregating the model weights in federated averaging. During the FL training task, each client site selects its best local model by tracking the model’s performance on its local validation set. At the same time, the server determines the best global model based on the average validation scores sent from each client site to the server after each FL round. After FL training finishes, the best local models and the best global model are automatically shared with all client sites and evaluated on their local test data. 1 T t K k When training on local data only (the baseline), we set the epoch number to 200. The Adam optimizer was used for both local training and FL with an initial learning rate of 5 × 10–5 and a stepwise learning rate decay with a factor 0.5 after every 40 epochs, which is important for the convergence of federated averaging . Random affine transformations, including rotation, translations, shear, scaling and random intensity noise and shifts, were applied to the images for data augmentation during training. 73 Owing to the sensitivity of BN layers 비독립적이고 동일하게 분포된 환경에서 다른 클라이언트를 다루는 경우, 최상의 모델 성능은 사전 훈련된 ResNet34을 공간적 관심으로 유지할 때 나타났습니다. parameters fixed during FL training (that is, using a learning rate of zero for those layers). The Deep & Cross network that combines image features with EMR features does not contain BN layers and hence was not affected by BN instability issues. 58 47 In this study we investigated a privacy-preserving scheme that shares only partial model updates between server and client sites. The weight updates were ranked during each iteration by magnitude of contribution, and only a certain percentage of the largest weight updates was shared with the server. To be exact, weight updates (also known as gradients) were shared only if their absolute value was above a certain percentile threshold, (Extended Data Fig. , 모든 비제로 gradients에서 계산 된 Δ , and could be different for each client in each FL round 이 계획의 변형에는 대규모 gradients 또는 차별적 개인 정보 보호 계획의 추가 클리핑이 포함될 수 있습니다. 네트워크에 공급하기 전에 gradients, 또는 심지어 원시 데이터에 무작위 소음을 추가합니다. . k 5 Wk(t) k t 49 51 Statistical analysis We conducted a Wilcoxon signed-rank test to confirm the significance of the observed improvement in performance between the locally trained model and the FL model for the 24- and 72-h time points (Fig. and Extended Data Fig. ). The null hypothesis was rejected with one-sided « 2 × 10–3 두 경우 모두. 2 1 P Pearson’s correlation was used to assess the generalizability (robustness of the average AUC value to other client sites’ test data) of locally trained models in relation to respective local dataset size. Only a moderate correlation was observed ( = 0.43 이하 = 0.035, degrees of freedom (df) = 17 for the 24-h model and = 0.62, = 0.003, df = 16 for the 72-h model). This indicates that dataset size alone is not the only factor determining a model’s robustness to unseen data. r P r P To compare ROC curves from the global FL model and local models trained at different sites (Extended Data Fig. ), 우리는 데이터에서 1,000 개의 샘플을 부트스트라핑하고 결과 AUC를 계산했습니다. = (AUC1 – AUC2)/ 어디에 표준화된 차이점은, is the standard deviation of the bootstrap differences and AUC1 and AUC2 are the corresponding bootstrapped AUC series. By comparing 정상적인 분배를 통해 우리는 values illustrated in Supplementary Table 결과는 null hypothesis가 매우 낮은 수준으로 거부되었다는 것을 보여줍니다. values, indicating the statistical significance of the superiority of FL outcomes. The computation of values was conducted in R with the pROC library . 3 D s D s D P 2 P P 74 Since the model predicts a discrete outcome, a continuous score from 0 to 1, a straightforward calibration evaluation such as a qqplot is not possible. Hence, for a quantified estimate of calibration we quantified discrimination (Extended Data Fig. ). We conducted one-way analysis of variation (ANOVA) tests to compare local and FL model scores among four ground truth categories (RA, LFO, HFO, MV). The 샘플 사이의 변동으로 계산된 통계는 샘플 내의 변동으로 나누어 샘플 사이의 분산 정도를 나타내는 샘플 사이의 변동으로 계산되었으며, 모델을 정량화하는 데 사용되었습니다. -values of five different local sites are 245.7, 253.4, 342.3, 389.8 and 634.8, while that of the FL model is 843.5. Given that larger -values mean that groups are more separable, the scores from our FL model clearly show a greater dispersion among the four ground truth categories. Furthermore, the value of the ANOVA test on the FL model is <2 × 10–16, indicating that the FL prediction scores are statistically significantly different among the different prediction classes. 10 F F F P 보고서 요약 연구 설계에 대한 추가 정보는 The research design is available in the 이 글과 연결되어 있습니다. Nature Research 보고서 데이터 가용성 The dataset from the 20 institutes that participated in this study remains under their custody. These data were used for training at each of the local sites and were not shared with any of the other participating institutions or with the federated server, and they are not publicly available. Data from the independent validation sites are maintained by CAMCA, and access can be requested by contacting Q.L. Based on determination by CAMCA, a data-sharing review and amendment of IRB for research purposes can be conducted by MGB research administration and in accordance with MGB IRB and policy. Code availability All code and software used in this study are publicly available at NGC. To access, log in as a guest or create a profile then enter one of the URLs below. The trained models, data preparation guidelines, code for training, validating testing of the model, readme file, installation guideline and license files are publicly available at NVIDIA NGC : : The federated learning software is available as part of the Clara Train SDK: 또는 이 명령을 사용하여 모델 "wget --content-disposition"을 다운로드합니다. -O clara_train_covid19_exam_ehr_xray_1.zip”. 61 https://ngc.nvidia.com/catalog/models/nvidia:med:clara_train_covid19_exam_ehr_xray https://ngc.nvidia.com/catalog/containers/nvidia:clara-train-sdk https://api.ngc.nvidia.com/v2/models/nvidia/med/clara_train_covid19_exam_ehr_xray/versions/1/zip References Budd, J. et al. Digital technologies in the public-health response to COVID-19. , 1183–1192 (2020). Nat. Med. 26 Moorthy, V., Henao Restrepo, A. M., Preziosi, M.-P. & Swaminathan, S. Data sharing for novel coronavirus (COVID-19). , 150 (2020). Bull. World Health Organ. 98 Chen, Q., Allot, A. & Lu, Z. Keep up with the latest coronavirus research. , 193 (2020). Nature 579 Fabbri, F., Bhatia, A., Mayer, A., Schlotter, B. & Kaiser, J. BCG IT spend pulse: how COVID-19 is shifting tech priorities. (2020). https://www.bcg.com/publications/2020/how-covid-19-is-shifting-big-it-spend Candelon, F., Reichert, T., Duranton, S., di Carlo, R. C. & De Bondt, M. The rise of the AI-powered company in the postcrisis world. (2020). https://www.bcg.com/en-gb/publications/2020/business-applications-artificial-intelligence-post-covid Chao, H. et al. Integrative analysis for COVID-19 patient outcome prediction. , 101844 (2021). Med. Image Anal. 67 Zhu, X. et al. Joint prediction and time estimation of COVID-19 developing severe symptoms using chest CT scan. , 101824 (2021). Med. Image Anal. 67 Yang, D. et al. Federated semi-supervised learning for Covid region segmentation in chest ct using multi-national data from China, Italy, Japan. , 101992 (2021). Med. Image Anal. 70 Minaee, S., Kafieh, R., Sonka, M., Yazdani, S. & Jamalipour Soufi, G. Deep-COVID: predicting COVID-19 from chest X-ray images using deep transfer learning. , 101794 (2020). Med. Image Anal. 65 COVID-19 Studies from the World Health Organization Database. (2020). https://clinicaltrials.gov/ct2/who_table ACTIV. (2020). https://www.nih.gov/research-training/medical-research-initiatives/activ Coronavirus Treatment Acceleration Program (CTAP). US Food and Drug Administration (2020). https://www.fda.gov/drugs/coronavirus-covid-19-drugs/coronavirus-treatment-acceleration-program-ctap Gleeson, P., Davison, A. P., Silver, R. A. & Ascoli, G. A. A commitment to open source in neuroscience. , 964–965 (2017). Neuron 96 Piwowar, H. et al. The state of OA: a large-scale analysis of the prevalence and impact of open access articles. , e4375 (2018). PeerJ. 6 European Society of Radiology (ESR). What the radiologist should know about artificial intelligence – an ESR white paper. , 44 (2019). Insights Imaging 10 Pesapane, F., Codari, M. & Sardanelli, F. Artificial intelligence in medical imaging: threat or opportunity? Radiologists again at the forefront of innovation in medicine. , 35 (2018). Eur. Radiol. Exp. 2 Price, W. N. 2nd & Cohen, I. G. Privacy in the age of medical big data. , 37–43 (2019). Nat. Med. 25 Liang, W. et al. Development and validation of a clinical risk score to predict the occurrence of critical illness in hospitalized patients with COVID-19. , 1081–1089 (2020). JAMA Intern. Med. 180 Wynants, L. et al. Prediction models for diagnosis and prognosis of covid-19 infection: systematic review and critical appraisal. , m1328 (2020). Brit. Med. J. 369 Zhang, L. et al. D-dimer levels on admission to predict in-hospital mortality in patients with Covid-19. , 1324–1329 (2020). J. Thromb. Haemost. 18 Sands, K. E. et al. Patient characteristics and admitting vital signs associated with coronavirus disease 2019 (COVID-19)-related mortality among patients admitted with noncritical illness. (2020). https://doi.org/10.1017/ice.2020.461 American College of Radiology. CR recommendations for the use of chest radiography and computed tomography (CT) for suspected COVID-19 infection. (2020). https://www.acr.org/Advocacy-and-Economics/ACR-Position-Statements/Recommendations-for-Chest-Radiography-and-CT-for-Suspected-COVID19-Infection Rubin, G. D. et al. The role of chest imaging in patient management during the COVID-19 pandemic: a multinational consensus statement from the Fleischner Society. , 172–180 (2020). Radiology 296 World Health Organization. Use of chest imaging in COVID-19. (2020). https://www.who.int/publications/i/item/use-of-chest-imaging-in-covid-19 Jamil, S. et al. Diagnosis and management of COVID-19 disease. , 10 (2020). Am. J. Respir. Crit. Care Med. 201 Redmond, C. E., Nicolaou, S., Berger, F. H., Sheikh, A. M. & Patlas, M. N. Emergency radiology during the COVID-19 pandemic: The Canadian Association of Radiologists Recommendations for Practice. , 425–430 (2020). Can. Assoc. Radiologists J. 71 Buch, V. et al. Development and validation of a deep learning model for prediction of severe outcomes in suspected COVID-19 Infection. Preprint at (2021). https://arxiv.org/abs/2103.11269 Lyons, C. & Callaghan, M. The use of high-flow nasal oxygen in COVID-19. , 843–847 (2020). Anaesthesia 75 Whittle, J. S., Pavlov, I., Sacchetti, A. D., Atwood, C. & Rosenberg, M. S. Respiratory support for adult patients with COVID-19. , 95–101 (2020). J. Am. Coll. Emerg. Physicians Open 1 Ai, J., Li, Y., Zhou, X. & Zhang, W. COVID-19: treating and managing severe cases. , 370–371 (2020). Cell Res. 30 Esteva, A. et al. A guide to deep learning in healthcare. , 24–29 (2019). Nat. Med. 25 Cahan, E. M., Hernandez-Boussard, T., Thadaney-Israni, S. & Rubin, D. L. Putting the data before the algorithm in big data addressing personalized healthcare. , 78 (2019). NPJ Digit. Med. 2 Thrall, J. H. et al. Artificial intelligence and machine learning in radiology: opportunities, challenges, pitfalls, and criteria for success. , 504–508 (2018). J. Am. Coll. Radiol. 15 Shilo, S., Rossman, H. & Segal, E. Axes of a revolution: challenges and promises of big data in healthcare. , 29–38 (2020). Nat. Med. 26 Gao, Y. & Cui, Y. Deep transfer learning for reducing health care disparities arising from biomedical data inequality. , 5131 (2020). Nat. Commun. 11 Rieke, N. et al. The future of digital health with federated learning. , 119 (2020). NPJ Dig. Med. 3 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. 10 Ma, C. et al. On safeguarding privacy and security in the framework of federated learning. , 242–248 (2020). IEEE Netw. 34 Brisimi, T. S. et al. Federated learning of predictive models from federated Electronic Health Records. , 59–67 (2018). Int. J. Med. Inform. 112 Roth, H. R. et al. Federated learning for breast density classification: a real-world implementation. In , (eds. Albarqouni, S. et al.) Vol. 12,444, 181–191 (Springer International Publishing, 2020). Proc. Second MICCAI Workshop, DART 2020 and First MICCAI Workshop, DCL 2020 Domain Adaptation and Representation Transfer, and Distributed and Collaborative Learning Sheller, M. J. et al. Federated learning in medicine: facilitating multi-institutional collaborations without sharing patient data. , 12598 (2020). Sci. Rep. 10 Remedios, S. W., Butman, J. A., Landman, B. A. & Pham, D. L. in (eds Remedios, S. W. et al.) (Springer, 2020). Federated Gradient Averaging for Multi-Site Training with Momentum-Based Optimizers Xu, Y. et al. A collaborative online AI engine for CT-based COVID-19 diagnosis. Preprint at (2020). https://www.medrxiv.org/content/10.1101/2020.05.10.20096073v2 Raisaro, J. L. et al. SCOR: A secure international informatics infrastructure to investigate COVID-19. , 1721–1726 (2020). J. Am. Med. Inform. Assoc. 27 Vaid, A. et al. Federated learning of electronic health records to improve mortality prediction in hospitalized patients with COVID-19: machine learning approach. , e24207 (2021). JMIR Med. Inform. 9 Nino, G. et al. Pediatric lung imaging features of COVID-19: a systematic review and meta-analysis. , 252–263 (2021). Pediatr. Pulmonol. 56 Fredrikson, M., Jha, S. & Ristenpart, T. Model inversion attacks that exploit confidence information and basic countermeasures. In 1322–1333, (2015). Proc. 22nd ACM SIGSAC Conference on Computer and Communications Security https://doi.org/10.1145/2810103.2813677 Zhu, L., Liu, Z. & Han, S. in (eds Wallach, H. et al.) 14774–14784 (Curran Associates, Inc., 2019). Advances in Neural Information Processing Systems 32 Kaissis, G. A., Makowski, M. R., Rückert, D. & Braren, R. F. Secure, privacy-preserving and federated machine learning in medical imaging. , 305–311 (2020). Nat. Mach. Intell. 2 Li, W. et al. in 133–141 (Springer, 2019). Privacy-Preserving Federated Brain Tumour Segmentation Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In (2015). Proc. 53rd Annual Allerton Conference on Communication, Control, and Computing (Allerton) https://doi.org/10.1109/allerton.2015.7447103 Li, X. et al. Multi-site fMRI analysis using privacy-preserving federated learning and domain adaptation: ABIDE results. , 101765 (2020). Med. Image Anal. 65 Estiri, H. et al. Predicting COVID-19 mortality with electronic medical records. , 15 (2021). NPJ Dig. Med. 4 Jiang, G. et al. Harmonization of detailed clinical models with clinical study data standards. , 65–74 (2015). Methods Inf. Med. 54 Yang, D. et al. in . (2019). Searching Learning Strategy with Reinforcement Learning for 3D Medical Image Segmentation https://doi.org/10.1007/978-3-030-32245-8_1 Elsken, T., Metzen, J. H. & Hutter, F. Neural architecture search: a survey. , 1–21 (2019). J. Mach. Learning Res. 20 Yao, Q. et al. Taking human out of learning applications: a survey on automated machine learning. Preprint at (2019). https://arxiv.org/abs/1810.13306 Ioffe, S. & Szegedy, C. Batch normalization: accelerating deep network training by reducing internal covariate shift. In , PMLR , 448–456 (2015). Proc. 32nd International Conf. Machine Learning 37 Kaufman, S., Rosset, S. & Perlich, C. Leakage in data mining: formulation, detection, and avoidance. In , 556–563 (2011). Proc. 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Zhang, C. et al. BatchCrypt: efficient homomorphic encryption for cross-silo federated learning. In , 493–506 (2020). Proc. 2020 USENIX Annual Technical Conference, ATC 2020 . (2020). Nvidia NGC Catalog: COVID-19 Related Models https://ngc.nvidia.com/catalog/models?orderBy=scoreDESC&pageNumber=0&query=covid&quickFilter=models&filters Marini, J. J. & Gattinoni, L. Management of COVID-19 respiratory distress. , 2329–2330 (2020). JAMA 323 Cook, T. M. et al. Consensus guidelines for managing the airway in patients with COVID-19: Guidelines from the Difficult Airway Society, the Association of Anaesthetists the Intensive Care Society, the Faculty of Intensive Care Medicine and the Royal College of Anaesthetist. , 785–799 (2020). Anaesthesia 75 Galloway, J. B. et al. A clinical risk score to identify patients with COVID-19 at high risk of critical care admission or death: an observational cohort study. , 282–288 (2020). J. Infect. 81 Kilaru, A. S. et al. Return hospital admissions among 1419 COVID-19 patients discharged from five U.S. emergency departments. , 1039–1042 (2020). Acad. Emerg. Med. 27 He, K., Zhang, X., Ren, S. & Sun, J. Deep residual learning for image recognition. In (2016). Proc. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) https://doi.org/10.1109/cvpr.2016.90 Irvin, J. et al. CheXpert: a large chest radiograph dataset with uncertainty labels and expert comparison. , 590–597 (2019). Proc. AAAI Conf. Artif. Intell. 33 Wang, R., Fu, B., Fu, G. & Wang, M. Deep & Cross network for Ad Click predictions. In Article no. 12 (2017). Proc. ADKDD’17 Abadi, M. et al. TensorFlow: asystem for large-scale machine learning. In , USENIX Association 265–283 (2016). 12th USENIX Symposium on Operating Systems Design and Implementation (OSDI 16) . (2020). NVIDIA Clara Imaging https://developer.nvidia.com/clara-medical-imaging Stekhoven, D. J. & Bühlmann, P. MissForest–non-parametric missing value imputation for mixed-type data. , 112–118 (2012). Bioinformatics 28 McMahan, H., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. (2017). http://proceedings.mlr.press/v54/mcmahan17a.html Hsieh, K., Phanishayee, A., Mutlu, O. & Gibbons, P. B. The non-IID data quagmire of decentralized machine learning. In PMLR 119 (2020). Proc. 37th International Conf. Machine Learning Robin, X. et al. pROC: an open-source package for R and S+ to analyze and compare ROC curves. , 77 (2011). BMC Bioinformatics 12 인식 The views expressed in this study are those of the authors and not necessarily those of the NHS, the NIHR, the Department of Health and Social Care or any of the organizations associated with the authors. MGB thank the following individuals for their support: J. Brink, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; M. Kalra, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; N. Neumark, Center for Clinical Data Science, Massachusetts General Brigham, Boston, MA; T. Schultz, Department of Radiology, Massachusetts General Hospital, Boston, MA; N. Guo, Center for Advanced Medical Computing and Analysis, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; J. K. Cramer, Director, QTIM lab at the Athinoula A. Martinos Center for Biomedical Imaging at MGH; S. Pomerantz, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; G. Boland, Department of Radiology, Brigham and Women’s Hospital, Harvard Medical School, Boston, MA; W. Mayo-Smith, Department of Radiology, Brigham and Women’s Hospital, Harvard Medical School, Boston, MA. UCSF thank P. B. Storey, J. Chan and J. Block for implementing the UCSF FL client infrastructure, and W. Tellis for providing the source imaging repository for this work. The UCSF EMR and clinical notes for this study were accessed via the COVID-19 Research Data Mart, 의학부를 통해 Chulalongkorn University는 Ratchadapisek Sompoch Endowment Fund RA (PO) (No. 001/63)에 COVID-19 관련 임상 데이터 및 생물학 표본의 수집 및 관리에 대해 의학부, Chulalongkorn University에 대한 감사를 전합니다. NIHR Cambridge Biomedical Research Center는 NIHR (Cambridge University Hospitals NHS Foundation Trust의 Cambridge Biomedical Research Center)에 의해 지원되는 A. Priest에게 감사를 전합니다. National Taiwan University MeDA Lab 및 MAHC 및 Taiwan National Health Insurance Administration는 AI 기술에 대한 MOST Joint Research Center, All Vista Healthcare National Health Insurance Administration, Taiwan, Ministry of Science and Technology, Taiwan National Center for Theoretical Sciences Mathematics Division에 대한 감사를 전합니다. National Institutes of Health ( https://data.ucsf.edu/covid19 이 논문은 CC by 4.0 Deed (Attribution 4.0 International) 라이선스 아래 자연에서 사용할 수 있습니다. 이 종이는 CC by 4.0 Deed (Attribution 4.0 International) 라이선스 자연에서 사용할 수 있는