AI đột phá cho phép các bệnh viện đào tạo thuật toán mà không chia sẻ dữ liệu bệnh nhân

Tác giả : Nicole Rieke bởi Jonny Hancox Wenqi Li Fausto Milletarì Đạo diễn Holger R. Roth Shadi Albarqouni Spyridon Bakas Đánh giá Mathieu N. Galtier Tác giả: Bennett A. Landman Ông Maier-Hein Ông Sébastien Ourselin Micah Sheller Đạo diễn Ronald M. Summers Ông Andrew Trask Daguang Xu Tổng thống Maximilian Baust Ông Jorge Cardoso Tác giả : Nicole Rieke bởi Jonny Hancox Tiểu Li Tác giả Fausto Milletarì Đạo diễn Holger R. Roth Shadi Albarqouni Spyridon Bakas Đánh giá Ông Mathieu N. Galtier Tác giả: Bennett A. Landman Ông Maier-Hein Ông Sébastien Ourselin bởi Micah Sheller Đạo diễn Ronald M. Summers Ông Andrew Trask Nguyễn Trọng Xu Tổng thống Maximilian Baust Ông Jorge Cardoso Abstracts Học máy dựa trên dữ liệu (ML) đã xuất hiện như là một cách tiếp cận đầy hứa hẹn để xây dựng các mô hình thống kê chính xác và mạnh mẽ từ dữ liệu y tế, được thu thập với số lượng lớn bởi các hệ thống chăm sóc sức khỏe hiện đại. Dữ liệu y tế hiện có không được khai thác đầy đủ bởi ML chủ yếu vì nó nằm trong các bộ phận dữ liệu và mối quan tâm về quyền riêng tư hạn chế quyền truy cập vào dữ liệu này. Tuy nhiên, nếu không có quyền truy cập vào đủ dữ liệu, ML sẽ bị ngăn chặn đạt được tiềm năng đầy đủ của nó và, cuối cùng, từ việc thực hiện quá trình chuyển đổi từ nghiên cứu sang thực hành lâm sàng. Bài báo này xem xét các yếu tố chính góp phần vào vấn đề này, khám phá cách học tập liên bang (FL) có thể cung cấp một giải pháp cho tương lai của sức khỏe kỹ thuật Giới thiệu Nghiên cứu về trí tuệ nhân tạo (AI), và đặc biệt là những tiến bộ trong Machine Learning (ML) và Deep Learning (DL) Các mô hình DL hiện đại có hàng triệu thông số cần được học từ các bộ dữ liệu được quản lý đủ lớn để đạt được độ chính xác cấp độ lâm sàng, đồng thời an toàn, công bằng, công bằng và tổng quát tốt đến dữ liệu vô hình , , , . 1 2 3 4 5 Ví dụ, đào tạo một máy dò khối u dựa trên AI đòi hỏi một cơ sở dữ liệu lớn bao gồm toàn bộ quang phổ của các giải phẫu, bệnh lý và các loại dữ liệu đầu vào có thể xảy ra.Dữ liệu như thế này rất khó có được, bởi vì dữ liệu sức khỏe rất nhạy cảm và việc sử dụng của nó được quy định chặt chẽ. Ngay cả khi dữ liệu ẩn danh có thể vượt qua những hạn chế này, bây giờ người ta hiểu rõ rằng việc loại bỏ các siêu dữ liệu như tên bệnh nhân hoặc ngày sinh thường không đủ để bảo vệ sự riêng tư. Ví dụ, có thể tái tạo khuôn mặt của bệnh nhân từ CT (computed tomography) hoặc dữ liệu chụp cộng hưởng từ (MRI). Một lý do khác tại sao chia sẻ dữ liệu không có hệ thống trong chăm sóc sức khỏe là việc thu thập, thu thập và duy trì một tập dữ liệu chất lượng cao đòi hỏi thời gian, nỗ lực và chi phí đáng kể. do đó, các tập dữ liệu như vậy có thể có giá trị kinh doanh đáng kể, khiến nó ít có khả năng được chia sẻ tự do. 6 7 8 Học tập liên bang (FL) , , là một mô hình học tập tìm cách giải quyết vấn đề quản trị dữ liệu và quyền riêng tư bằng cách đào tạo các thuật toán hợp tác mà không trao đổi dữ liệu. ban đầu được phát triển cho các miền khác nhau, chẳng hạn như trường hợp sử dụng thiết bị di động và cạnh , nó gần đây đã đạt được sức kéo cho các ứng dụng chăm sóc sức khỏe , , , , , , , FL cho phép thu thập hiểu biết hợp tác, ví dụ, dưới dạng một mô hình đồng thuận, mà không di chuyển dữ liệu bệnh nhân vượt ra ngoài tường lửa của các tổ chức nơi họ cư trú.Thay vào đó, quá trình ML xảy ra tại địa phương tại mỗi tổ chức tham gia và chỉ các đặc điểm mô hình (ví dụ, tham số, độ dốc) được chuyển giao như được mô tả trong hình. Nghiên cứu gần đây đã chỉ ra rằng các mô hình được đào tạo bởi FL có thể đạt được mức độ hiệu suất tương đương với những người được đào tạo trên các bộ dữ liệu được lưu trữ tập trung và vượt trội hơn các mô hình chỉ nhìn thấy dữ liệu đơn tổ chức cô lập , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 FL tổng hợp máy chủ – dòng công việc FL điển hình trong đó một liên đoàn các nút đào tạo nhận được mô hình toàn cầu, gửi lại các mô hình được đào tạo một phần của họ đến một máy chủ trung tâm liên tục để tổng hợp và sau đó tiếp tục đào tạo về mô hình đồng thuận mà máy chủ trả về. FL peer to peer—một công thức thay thế của FL trong đó mỗi nút đào tạo trao đổi các mô hình được đào tạo một phần với một số hoặc tất cả các đồng nghiệp của nó và mỗi người thực hiện tổng hợp riêng của mình. Đào tạo tập trung – dòng công việc đào tạo chung không phải FL, trong đó các trang web thu thập dữ liệu quyên góp dữ liệu của họ cho một hồ dữ liệu trung tâm, từ đó họ và những người khác có thể trích xuất dữ liệu cho đào tạo độc lập tại địa phương. a b c Do đó, việc thực hiện thành công FL có thể có tiềm năng đáng kể để cho phép y học chính xác ở quy mô lớn, dẫn đến các mô hình đưa ra quyết định không thiên vị, phản ánh tối ưu sinh lý học của một cá nhân, và nhạy cảm với các bệnh hiếm gặp trong khi tôn trọng các mối quan tâm về quản trị và quyền riêng tư. tuy nhiên, FL vẫn đòi hỏi sự cân nhắc kỹ thuật nghiêm ngặt để đảm bảo rằng thuật toán đang tiến hành tối ưu mà không làm tổn hại đến sự an toàn hoặc quyền riêng tư của bệnh nhân. Chúng tôi dự đoán một tương lai liên bang cho sức khỏe kỹ thuật số và với bài báo quan điểm này, chúng tôi chia sẻ quan điểm đồng thuận của chúng tôi với mục đích cung cấp bối cảnh và chi tiết cho cộng đồng về lợi ích và tác động của FL cho các ứng dụng y tế (phần “Dữ liệu dựa trên y học đòi hỏi nỗ lực liên bang”), cũng như làm nổi bật những cân nhắc và thách thức chính của việc thực hiện FL cho sức khỏe kỹ thuật số (phần “Cân nhắc kỹ thuật”). Y học dựa trên dữ liệu đòi hỏi nỗ lực liên bang ML và đặc biệt là DL đang trở thành cách tiếp cận khám phá kiến thức trên thực tế trong nhiều ngành công nghiệp, nhưng việc triển khai thành công các ứng dụng dựa trên dữ liệu đòi hỏi các bộ dữ liệu lớn và đa dạng. tuy nhiên, các bộ dữ liệu y tế rất khó có được (phần phụ đề “Sự phụ thuộc vào dữ liệu”). FL giải quyết vấn đề này bằng cách cho phép học tập hợp tác mà không tập trung dữ liệu (phần phụ đề “Sự hứa hẹn của các nỗ lực liên bang”) và đã tìm thấy con đường cho các ứng dụng y tế kỹ thuật số (phần phụ đề “Nỗ lực FL hiện tại cho sức khỏe kỹ thuật số”). mô hình học tập mới này đòi hỏi sự xem xét từ, nhưng cũng mang lại lợi ích cho, các bên liên quan đến y tế khác nhau (phần phụ đề “Tác động đến các bên liên quan”). Sự phụ thuộc vào dữ liệu Các phương pháp tiếp cận dựa trên dữ liệu dựa trên dữ liệu thực sự đại diện cho sự phân phối dữ liệu cơ bản của vấn đề. Mặc dù đây là một yêu cầu được biết đến, các thuật toán hiện đại thường được đánh giá trên các bộ dữ liệu được chuẩn bị cẩn thận, thường xuất phát từ chỉ một vài nguồn. Điều này có thể giới thiệu sự thiên vị nơi nhân khẩu học (ví dụ, giới tính, tuổi tác) hoặc sự mất cân bằng kỹ thuật (ví dụ, giao thức mua lại, nhà sản xuất thiết bị) làm sai lệch dự đoán và ảnh hưởng tiêu cực đến độ chính xác cho một số nhóm hoặc trang web nhất định. Tuy nhiên, để nắm bắt mối quan hệ tinh tế giữa các mô hình bệnh, các yếu tố kinh tế xã hội và di truyền, cũng như các trường hợp phức tạp và hiếm gặp, điều quan trọng là phải phơi bày một mô hình cho các trường hợp khác Sự cần thiết của các cơ sở dữ liệu lớn cho đào tạo AI đã sinh ra nhiều sáng kiến tìm cách tập hợp dữ liệu từ nhiều tổ chức. dữ liệu này thường được tập hợp thành cái gọi là Data Lakes. Những dữ liệu này đã được xây dựng với mục đích tận dụng giá trị thương mại của dữ liệu, ví dụ, việc mua lại Merge Healthcare của IBM. , hoặc như một nguồn lực cho tăng trưởng kinh tế và tiến bộ khoa học, ví dụ, NHS Scotland National Safe Haven Trung tâm dữ liệu sức khỏe Pháp , and Health Data Research UK . 21 22 23 24 Các sáng kiến đáng kể, mặc dù nhỏ hơn, bao gồm Human Connectome Biobank Vương quốc Anh Tạp chí Cancer Imaging Archive (TCIA) Đánh giá NIH CXR8 Lời bài hát: DeepLesion Atlas Genome của Ung thư (TCGA) Đề xuất của Alzheimer’s Disease Neuroimaging Initiative (ADNI) , cũng như những thách thức y tế lớn Thách thức Camelion Thử thách phân chia khối u não đa phương thức quốc tế (BraTS) , , Các tính năng của Medical Segmentation Decathlon Dữ liệu y tế công cộng thường là cụ thể về nhiệm vụ hoặc bệnh tật và thường được phát hành với mức độ hạn chế cấp phép khác nhau, đôi khi hạn chế việc khai thác của nó. 25 26 27 28 29 30 31 32 33 34 35 36 37 Tuy nhiên, tập trung hoặc phát hành dữ liệu không chỉ đặt ra những thách thức về quy định, đạo đức và pháp lý liên quan đến quyền riêng tư và bảo vệ dữ liệu, mà còn là những thách thức kỹ thuật. Ứng dụng ẩn danh, kiểm soát truy cập và truyền dữ liệu chăm sóc sức khỏe an toàn là một nhiệm vụ không tầm thường, và đôi khi không thể. dữ liệu ẩn danh từ hồ sơ y tế điện tử có thể có vẻ vô hại và tuân thủ GDPR / PHI, nhưng chỉ một vài yếu tố dữ liệu có thể cho phép nhận dạng lại bệnh nhân. Điều tương tự cũng áp dụng cho dữ liệu genomic và hình ảnh y tế làm cho chúng độc đáo như dấu vân tay. Do đó, trừ khi quá trình ẩn danh phá hủy tính trung thực của dữ liệu, có thể làm cho nó vô dụng, tái nhận dạng bệnh nhân hoặc rò rỉ thông tin không thể được loại trừ. Truy cập cổng cho người dùng được phê duyệt thường được đề xuất như một giải pháp giả định cho vấn đề này. tuy nhiên, ngoài việc hạn chế tính sẵn có của dữ liệu, điều này chỉ thực tế trong trường hợp sự đồng ý của chủ sở hữu dữ liệu là vô điều kiện, vì thu hồi dữ liệu từ những người có thể đã có quyền truy cập vào dữ liệu là thực tế không thể thực thi. 7 38 Lời hứa của nỗ lực liên bang Lời hứa của FL là đơn giản – để giải quyết các thách thức về quyền riêng tư và quản trị dữ liệu bằng cách cho phép ML từ dữ liệu không đồng vị trí. Trong một thiết lập FL, mỗi bộ điều khiển dữ liệu không chỉ xác định các quy trình quản trị riêng của mình và các chính sách bảo mật liên quan, mà còn kiểm soát truy cập dữ liệu và có khả năng thu hồi nó. Điều này bao gồm cả quá trình đào tạo cũng như giai đoạn xác nhận. Bằng cách này, FL có thể tạo ra những cơ hội mới, ví dụ, bằng cách cho phép xác nhận quy mô lớn, trong tổ chức, hoặc bằng cách cho phép nghiên cứu mới về các bệnh hiếm gặp, nơi tỷ lệ sự cố là thấp và các bộ dữ liệu ở mỗi tổ chức là quá nhỏ. Chuyển đổi mô hình sang dữ liệu và không ngược lại có một lợi thế lớn khác: dữ liệu y tế quy mô cao, Như được mô tả trong Fig. , một FL dòng công việc có thể được thực hiện với topologies khác nhau và kế hoạch tính toán. hai phổ biến nhất cho các ứng dụng chăm sóc sức khỏe là thông qua một máy chủ tổng hợp , , và peer to peer approaches , Trong tất cả các trường hợp, FL ngụ ý cung cấp một mức độ bảo mật nhất định, vì những người tham gia FL không bao giờ trực tiếp truy cập dữ liệu từ các tổ chức khác và chỉ nhận được các thông số mô hình được tổng hợp trên nhiều người tham gia. Trong một dòng công việc FL với máy chủ tổng hợp, các tổ chức tham gia thậm chí có thể không được biết đến với nhau. , , , Do đó, các cơ chế như sự riêng tư khác biệt , hoặc học hỏi từ dữ liệu được mã hóa đã được đề xuất để nâng cao hơn nữa sự riêng tư trong một thiết lập FL (xem phần “Các cân nhắc kỹ thuật”). và kỹ thuật FL là một lĩnh vực nghiên cứu đang phát triển , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL topologies — kiến trúc truyền thông của một liên bang. Trung tâm hóa: Máy chủ tổng hợp phối hợp các lần lặp lại đào tạo và thu thập, tổng hợp và phân phối các mô hình đến và từ các nút đào tạo (Hub & Spoke). Phân quyền: Mỗi nút đào tạo được kết nối với một hoặc nhiều đồng nghiệp và tổng hợp xảy ra trên mỗi nút song song. Các hệ thống liên kết có thể bao gồm các hệ thống liên kết, liên kết giữa các hệ thống liên kết ( )). FL compute plans—trajectory of a model across several partners. Học tập chuyển tiếp / Cyclic Transfer Learning Server tổng hợp, Peer đến peer. a b c d e f g Các nỗ lực FL hiện tại cho sức khỏe kỹ thuật số Vì FL là một mô hình học tập chung loại bỏ yêu cầu tập hợp dữ liệu cho việc phát triển mô hình AI, phạm vi ứng dụng của FL bao gồm toàn bộ AI cho chăm sóc sức khỏe.Bằng cách cung cấp cơ hội để nắm bắt sự biến đổi dữ liệu lớn hơn và phân tích bệnh nhân trên các nhân khẩu học khác nhau, FL có thể cho phép đổi mới đột phá cho tương lai nhưng cũng đang được sử dụng ngay bây giờ. Trong bối cảnh của hồ sơ sức khỏe điện tử (EHR), ví dụ, FL giúp đại diện và tìm bệnh nhân tương tự về mặt lâm sàng , , cũng như dự đoán nhập viện do các sự kiện tim , tỷ lệ tử vong và thời gian ở lại ICU Ứng dụng và lợi thế của FL cũng đã được chứng minh trong lĩnh vực hình ảnh y tế, cho phân đoạn toàn bộ não trong MRI , cũng như phân đoạn khối u não , Gần đây, kỹ thuật này đã được sử dụng cho phân loại fMRI để tìm các dấu hiệu sinh học đáng tin cậy liên quan đến bệnh tật. và được đề xuất như một cách tiếp cận đầy hứa hẹn trong bối cảnh COVID-19 . 13 47 14 19 15 16 17 18 48 Điều đáng chú ý là các nỗ lực của FL đòi hỏi các thỏa thuận để xác định phạm vi, mục tiêu và công nghệ được sử dụng mà, vì nó vẫn còn mới, có thể khó xác định. Chúng bao gồm các tập đoàn nhằm thúc đẩy Nghiên cứu, chẳng hạn như dự án Trustworthy Federated Data Analytics (TFDA) và nền tảng hình ảnh chung của Hiệp hội Ung thư Đức , cho phép nghiên cứu phi tập trung trên các tổ chức nghiên cứu hình ảnh y tế của Đức. Một ví dụ khác là một hợp tác nghiên cứu quốc tế sử dụng FL để phát triển các mô hình AI để đánh giá mammograms Nghiên cứu cho thấy rằng các mô hình FL được tạo ra đã vượt trội so với những người được đào tạo trên dữ liệu của một viện duy nhất và có thể tổng quát hơn, vì vậy họ vẫn hoạt động tốt trên dữ liệu của các viện khác. Học Viên 49 50 51 Bằng cách liên kết các tổ chức chăm sóc sức khỏe, không giới hạn ở các trung tâm nghiên cứu, FL có thể có Ảnh hưởng. dự án HealthChain đang diễn ra , ví dụ, nhằm mục đích phát triển và triển khai một khuôn khổ FL trên bốn bệnh viện ở Pháp. Giải pháp này tạo ra các mô hình phổ biến có thể dự đoán phản ứng điều trị cho bệnh nhân ung thư vú và bệnh nhân melanoma. Nó giúp các bác sĩ ung thư để xác định điều trị hiệu quả nhất cho mỗi bệnh nhân từ slides histology của họ hoặc hình ảnh da liễu. một nỗ lực quy mô lớn khác là sáng kiến Federated Tumour Segmentation (FeTS) , đó là một liên đoàn quốc tế của 30 tổ chức chăm sóc sức khỏe cam kết sử dụng một khuôn khổ FL nguồn mở với giao diện người dùng đồ họa. Mục tiêu là để cải thiện phát hiện ranh giới khối u, bao gồm khối u não, khối u vú, khối u gan và tổn thương xương từ nhiều bệnh nhân myeloma. lâm sàng 52 53 Một lĩnh vực tác động khác nằm trong nghiên cứu và dịch. FL cho phép nghiên cứu hợp tác cho, thậm chí cạnh tranh, các công ty. Trong bối cảnh này, một trong những sáng kiến lớn nhất là dự án Melloddy Nó là một dự án nhằm triển khai FL đa nhiệm trên các bộ dữ liệu của 10 công ty dược phẩm.Bằng cách đào tạo một mô hình dự đoán chung, dẫn ra cách các hợp chất hóa học liên kết với protein, các đối tác dự định tối ưu hóa quá trình khám phá thuốc mà không tiết lộ dữ liệu nội bộ có giá trị cao của họ. công nghiệp 54 Ảnh hưởng đến các bên liên quan FL bao gồm một sự thay đổi mô hình từ hồ dữ liệu tập trung và điều quan trọng là phải hiểu tác động của nó đối với các bên liên quan khác nhau trong hệ sinh thái FL. Bệnh viện Bằng cách sử dụng các hệ thống dựa trên ML, ví dụ, như một người đọc thứ hai, họ có thể tăng chuyên môn của mình với kiến thức chuyên môn từ các tổ chức khác, đảm bảo tính nhất quán của chẩn đoán không thể đạt được ngày hôm nay. Trong khi điều này áp dụng cho hệ thống dựa trên ML nói chung, các hệ thống được đào tạo theo cách liên kết có khả năng mang lại quyết định ít thiên vị hơn và độ nhạy cảm cao hơn đối với các trường hợp hiếm khi vì họ có thể đã tiếp xúc với sự phân phối dữ liệu đầy đủ hơn. Tuy nhiên, điều này đòi hỏi một số nỗ lực trước như tuân thủ các thỏa thuận, ví dụ, liên quan đến cấu trúc dữ liệu, ghi chú và giao thức báo cáo, cần thiết để đảm bảo rằng thông tin được trình bày cho các cộng tác viên trong một định dạng được hiểu chung. bệnh nhân Bệnh nhân thường được điều trị tại địa phương. Thiết lập FL trên quy mô toàn cầu có thể đảm bảo chất lượng cao các quyết định lâm sàng bất kể vị trí điều trị. Đặc biệt, bệnh nhân cần chăm sóc y tế ở các khu vực xa xôi có thể được hưởng lợi từ cùng một chẩn đoán hỗ trợ ML chất lượng cao có sẵn trong các bệnh viện với số lượng lớn trường hợp. Điều tương tự cũng đúng đối với các bệnh hiếm gặp, hoặc không phổ biến về mặt địa lý, có khả năng có hậu quả nhẹ hơn nếu có thể đưa ra chẩn đoán nhanh hơn và chính xác hơn. FL cũng có thể làm giảm trở thành nhà tài trợ dữ liệu, vì bệnh nhân có thể được đảm bảo rằng dữ liệu vẫn còn với tổ chức của họ và quyền truy cập dữ liệu có thể bị thu hồi. Bệnh viện và thực hành Bệnh viện và thực tiễn có thể duy trì quyền kiểm soát đầy đủ và sở hữu dữ liệu bệnh nhân của họ với khả năng truy cập dữ liệu hoàn toàn, hạn chế nguy cơ lạm dụng của bên thứ ba. Tuy nhiên, điều này sẽ đòi hỏi đầu tư vào cơ sở hạ tầng máy tính tại chỗ hoặc cung cấp dịch vụ đám mây tư nhân và tuân thủ các định dạng dữ liệu chuẩn hóa và synoptic để các mô hình ML có thể được đào tạo và đánh giá một cách liền mạch. Số lượng khả năng tính toán cần thiết phụ thuộc tất nhiên vào việc một trang web chỉ tham gia vào các nỗ lực đánh giá và thử nghiệm hoặc cũng tham gia vào các nỗ lực đào tạo. Ngay cả các tổ chức tương đối nhỏ có thể tham gia và họ vẫn sẽ được hưởng lợi từ các mô hình tập thể được tạo ra. Các nhà nghiên cứu và nhà phát triển AI Các nhà nghiên cứu và các nhà phát triển AI sẽ được hưởng lợi từ việc truy cập vào một bộ sưu tập dữ liệu thực tế có khả năng rộng lớn, điều này chắc chắn sẽ ảnh hưởng đến các phòng thí nghiệm nghiên cứu nhỏ hơn và các công ty khởi nghiệp. do đó, các nguồn lực có thể được chuyển hướng để giải quyết các nhu cầu lâm sàng và các vấn đề kỹ thuật liên quan thay vì dựa vào nguồn cung hạn chế của các bộ dữ liệu mở. Đồng thời, sẽ cần phải tiến hành nghiên cứu về các chiến lược thuật toán cho đào tạo liên bang, ví dụ, làm thế nào để kết hợp các mô hình hoặc cập nhật hiệu quả, làm thế nào để trở nên mạnh mẽ để thay đổi phân phối. , , Sự phát triển dựa trên FL cũng ngụ ý rằng nhà nghiên cứu hoặc nhà phát triển AI không thể điều tra hoặc hình dung tất cả dữ liệu mà mô hình được đào tạo, ví dụ, không thể nhìn vào một trường hợp thất bại cá nhân để hiểu tại sao mô hình hiện tại hoạt động kém trên nó. 11 12 20 Các nhà cung cấp dịch vụ y tế Các nhà cung cấp dịch vụ y tế ở nhiều quốc gia bị ảnh hưởng bởi sự thay đổi mô hình đang diễn ra từ dịch vụ dựa trên khối lượng, tức là dựa trên phí cho dịch vụ, sang chăm sóc sức khỏe dựa trên giá trị, vốn liên quan chặt chẽ đến việc thành lập thành công y học chính xác.Đây không phải là về việc thúc đẩy các liệu pháp cá nhân hóa đắt tiền hơn mà là về việc đạt được kết quả tốt hơn sớm hơn thông qua điều trị tập trung hơn, do đó giảm chi phí. nhà sản xuất Các nhà sản xuất phần mềm và phần cứng chăm sóc sức khỏe cũng có thể hưởng lợi từ FL, vì kết hợp việc học hỏi từ nhiều thiết bị và ứng dụng, mà không tiết lộ thông tin cụ thể cho bệnh nhân, có thể tạo điều kiện cho việc xác nhận hoặc cải tiến liên tục các hệ thống dựa trên ML của họ. Vấn đề kỹ thuật FL có lẽ được biết đến nhiều nhất từ công việc của Konečnỳ et al. , nhưng nhiều định nghĩa khác đã được đề xuất trong văn học , , , Một dòng công việc FL (Fig. ) có thể được thực hiện thông qua các topologies khác nhau và kế hoạch tính toán (Hình. Trong phần này, chúng tôi sẽ thảo luận chi tiết hơn về FL là gì, cũng như làm nổi bật những thách thức chính và những cân nhắc kỹ thuật phát sinh khi áp dụng FL trong y tế kỹ thuật số. 55 9 11 12 20 1 2 Định nghĩa Federated Learning FL là một mô hình học tập trong đó nhiều bên tập luyện hợp tác mà không cần phải trao đổi hoặc tập trung các tập dữ liệu. Một công thức chung của FL đọc như sau: Hãy chỉ một hàm mất toàn cầu thu được thông qua một sự kết hợp cân bằng của tổn thất địa phương, tính toán từ dữ liệu cá nhân , cư trú tại các bên liên quan cá nhân và không bao giờ chia sẻ giữa họ: K Xk Nơi > 0 biểu thị các hệ số trọng lượng tương ứng. WK Trong thực tế, mỗi người tham gia thường có được và tinh chỉnh một mô hình đồng thuận toàn cầu bằng cách tiến hành một vài vòng tối ưu hóa tại địa phương và trước khi chia sẻ cập nhật, hoặc trực tiếp hoặc thông qua một máy chủ tham số. ) , Quá trình tổng hợp thực tế của các thông số phụ thuộc vào topology mạng, vì các nút có thể được tách ra thành các mạng con do hạn chế về mặt địa lý hoặc pháp lý (xem hình 4.4). Các chiến lược tổng hợp có thể dựa vào một nút tổng hợp duy nhất (mô hình hub và speaker), hoặc trên nhiều nút mà không có bất kỳ tập trung nào.Một ví dụ là peer-to-peer FL, nơi các kết nối tồn tại giữa tất cả hoặc một tiểu nhóm người tham gia và cập nhật mô hình chỉ được chia sẻ giữa các trang web được kết nối trực tiếp. , Lưu ý rằng các chiến lược tổng hợp không nhất thiết đòi hỏi thông tin về bản cập nhật mô hình đầy đủ; khách hàng có thể chọn chỉ chia sẻ một tiểu bộ các thông số mô hình vì mục đích giảm thông tin liên lạc, đảm bảo bảo bảo vệ quyền riêng tư tốt hơn hoặc để tạo ra các thuật toán học tập đa nhiệm chỉ có một phần các thông số của chúng được học theo cách liên bang. 1 9 12 2 15 56 10 Một khuôn khổ thống nhất cho phép các chương trình đào tạo khác nhau có thể tách các tài nguyên tính toán (dữ liệu và máy chủ) ra khỏi hệ thống. Như được mô tả trong Fig. Điều này xác định quỹ đạo của một mô hình trên nhiều đối tác, để được đào tạo và đánh giá trên các bộ dữ liệu cụ thể. Kế hoạch máy tính 2 Thách thức và cân nhắc Despite the advantages of FL, it does not solve all issues that are inherent to learning on medical data. A successful model training still depends on factors like data quality, bias and standardisation Những vấn đề này phải được giải quyết cho cả nỗ lực học tập liên bang và không liên bang thông qua các biện pháp thích hợp, chẳng hạn như thiết kế nghiên cứu cẩn thận, các giao thức chung để thu thập dữ liệu, báo cáo có cấu trúc và các phương pháp phức tạp để phát hiện thiên vị và phân tầng ẩn. , , . 2 11 12 20 dữ liệu heterogeneity Dữ liệu y tế đặc biệt đa dạng – không chỉ do sự đa dạng của các phương thức, kích thước và đặc điểm nói chung, mà ngay cả trong một giao thức cụ thể do các yếu tố như sự khác biệt mua lại, thương hiệu của thiết bị y tế hoặc nhân khẩu học địa phương. FL có thể giúp giải quyết một số nguồn thiên vị thông qua sự đa dạng hóa tiềm năng của các nguồn dữ liệu, nhưng phân phối dữ liệu không đồng nhất tạo ra một thách thức cho các thuật toán và chiến lược FL, vì nhiều người đang giả định dữ liệu được phân phối độc lập và giống hệt nhau (IID) trên tất cả người tham gia. có khả năng thất bại trong những điều kiện này. , , , một phần đánh bại chính mục đích của các chiến lược học tập hợp tác. Tuy nhiên, kết quả gần đây chỉ ra rằng đào tạo FL vẫn còn khả thi , ngay cả khi dữ liệu y tế không được phân phối đồng đều trên các tổ chức , Hoặc bao gồm một bias địa phương Nghiên cứu giải quyết vấn đề này bao gồm, ví dụ, Chiến lược chia sẻ dữ liệu và FL với Domain-Adaptation Một thách thức khác là tính không đồng nhất của dữ liệu có thể dẫn đến một tình huống mà giải pháp tối ưu toàn cầu có thể không phải là tối ưu cho một người tham gia địa phương riêng lẻ. Phục vụ 9 9 57 58 59 16 17 51 FedProx 57 58 18 Quyền riêng tư và an ninh Dữ liệu chăm sóc sức khỏe rất nhạy cảm và phải được bảo vệ phù hợp, theo các thủ tục bảo mật thích hợp. do đó, một số cân nhắc chính là các thỏa hiệp, chiến lược và rủi ro còn lại liên quan đến tiềm năng bảo vệ quyền riêng tư của FL. Quyền riêng tư so với hiệu suất: Điều quan trọng cần lưu ý là FL không giải quyết tất cả các vấn đề quyền riêng tư tiềm năng và - tương tự như các thuật toán ML nói chung - sẽ luôn mang theo một số rủi ro. Tuy nhiên, có một sự thỏa hiệp về hiệu suất và các kỹ thuật này có thể ảnh hưởng, ví dụ, đến độ chính xác của mô hình cuối cùng. Hơn nữa, các kỹ thuật trong tương lai và/hoặc dữ liệu phụ có thể được sử dụng để thỏa hiệp một mô hình trước đây được coi là có nguy cơ thấp. 12 10 Mức độ tin tưởng: Nói chung, các bên tham gia có thể tham gia hai loại hợp tác FL: - Đối với các tập đoàn FL, trong đó tất cả các bên được coi là đáng tin cậy và bị ràng buộc bởi một thỏa thuận hợp tác có thể thực thi, chúng tôi có thể loại bỏ nhiều động lực tồi tệ hơn, chẳng hạn như cố gắng cố ý trích xuất thông tin nhạy cảm hoặc cố ý làm hỏng mô hình. tin tưởng Trong các hệ thống FL hoạt động ở quy mô lớn hơn, có thể không thực tế để thiết lập một thỏa thuận hợp tác có thể thực thi được. Một số khách hàng có thể cố gắng làm suy giảm hiệu suất, hạ thấp hệ thống hoặc trích xuất thông tin từ các bên khác. do đó, các chiến lược bảo mật sẽ được yêu cầu để giảm thiểu những rủi ro như mã hóa tiên tiến của các bài gửi mô hình, xác thực an toàn của tất cả các bên, khả năng theo dõi các hành động, quyền riêng tư khác biệt, hệ thống xác minh, tính toàn vẹn thực hiện, bảo mật mô hình và bảo vệ chống lại các cuộc tấn công đối phương. Non-trusted Thông tin rò rỉ: Theo định nghĩa, các hệ thống FL tránh chia sẻ dữ liệu chăm sóc sức khỏe giữa các tổ chức tham gia. tuy nhiên, thông tin được chia sẻ vẫn có thể gián tiếp phơi bày dữ liệu cá nhân được sử dụng cho đào tạo địa phương, ví dụ, bằng cách đảo ngược mô hình của các mô hình cập nhật, các gradients bản thân Các cuộc tấn công đối lập , FL khác với đào tạo truyền thống vì quá trình đào tạo được tiếp xúc với nhiều bên, do đó làm tăng nguy cơ rò rỉ thông qua kỹ thuật ngược nếu đối thủ có thể quan sát các thay đổi mô hình theo thời gian, quan sát các bản cập nhật mô hình cụ thể (tức là cập nhật của một tổ chức duy nhất), hoặc thao túng mô hình (ví dụ, gây ra việc ghi nhớ thêm bởi những người khác thông qua các cuộc tấn công kiểu nâng cấp). , và đảm bảo sự riêng tư khác biệt đầy đủ , có thể cần và vẫn là một lĩnh vực nghiên cứu tích cực . 60 61 62 63 16 18 44 12 Theo dõi và Trách nhiệm Như với tất cả các ứng dụng an toàn quan trọng, khả năng tái tạo của một hệ thống là quan trọng đối với FL trong chăm sóc sức khỏe. Không giống như đào tạo tập trung, FL đòi hỏi tính toán đa bên trong môi trường thể hiện sự đa dạng đáng kể về phần cứng, phần mềm và mạng. Khả năng theo dõi tất cả các tài sản hệ thống bao gồm lịch sử truy cập dữ liệu, cấu hình đào tạo và điều chỉnh siêu tham số trong suốt quá trình đào tạo là bắt buộc. Đặc biệt là trong các liên đoàn không đáng tin cậy, khả năng theo dõi và quy trình chịu trách nhiệm đòi hỏi tính toàn vẹn thực hiện. Sau khi quá trình đào tạo đạt được các tiêu chí tối ưu hóa mô hình được đồng ý với nhau, nó cũng có thể hữu ích để đo lường số lượng đóng góp từ mỗi người tham gia, chẳng hạn như tài nguyên tính toán tiêu thụ, chất lượng dữ liệu được Một ý nghĩa của FL là các nhà nghiên cứu không thể điều tra dữ liệu mà các mô hình đang được đào tạo để có ý nghĩa về kết quả bất ngờ. Hơn nữa, việc đo lường thống kê của dữ liệu đào tạo của họ như là một phần của quy trình phát triển mô hình sẽ cần phải được phê duyệt bởi các bên hợp tác như không vi phạm quyền riêng tư. Mặc dù mỗi trang web sẽ có quyền truy cập vào dữ liệu thô của riêng mình, các liên đoàn có thể quyết định cung cấp một số loại an toàn trong các cơ sở xem nội nút để đáp ứng nhu cầu này hoặc có thể cung cấp một số cách khác để tăng khả năng giải thích và giải thích của mô hình toàn cầu. 64 Hệ thống kiến trúc Không giống như chạy FL quy mô lớn trong số các thiết bị tiêu dùng như McMahan et al. , những người tham gia các tổ chức chăm sóc sức khỏe được trang bị các nguồn lực tính toán tương đối mạnh mẽ và các mạng lưới đáng tin cậy, công suất cao hơn cho phép đào tạo các mô hình lớn hơn với nhiều bước đào tạo địa phương hơn, và chia sẻ nhiều thông tin mô hình hơn giữa các nút. những đặc điểm độc đáo của FL trong chăm sóc sức khỏe cũng mang lại những thách thức như đảm bảo tính toàn vẹn dữ liệu khi giao tiếp bằng cách sử dụng các nút dư thừa, thiết kế các phương pháp mã hóa an toàn để ngăn chặn rò rỉ dữ liệu, hoặc thiết kế các lập lịch nút thích hợp để tận dụng tối đa các thiết bị tính toán phân tán và giảm thời gian vắng mặt. 9 Việc quản lý một liên minh như vậy có thể được thực hiện theo những cách khác nhau. Trong các tình huống đòi hỏi sự riêng tư dữ liệu nghiêm ngặt nhất giữa các bên, đào tạo có thể hoạt động thông qua một loại hệ thống “trung gian trung thực”, trong đó một bên thứ ba đáng tin cậy hoạt động như là người trung gian và tạo điều kiện cho việc truy cập dữ liệu. Thiết lập này đòi hỏi một thực thể độc lập kiểm soát toàn bộ hệ thống, có thể không phải lúc nào cũng mong muốn, vì nó có thể liên quan đến chi phí bổ sung và độ nhớt thủ tục. Tuy nhiên, nó có lợi thế là các cơ chế nội bộ chính xác có thể được trừu tượng ra khỏi khách hàng, làm cho hệ thống nhanh hơn và dễ dàng hơn để cập nhật. Trong một hệ thống ngang hàng, mỗi trang web tương tác trực tiếp với một số hoặc tất cả những người tham gia Kết luận ML, và đặc biệt là DL, đã dẫn đến một loạt các đổi mới trong lĩnh vực chăm sóc sức khỏe kỹ thuật số. Khi tất cả các phương pháp ML được hưởng lợi rất nhiều từ khả năng truy cập dữ liệu gần với phân phối toàn cầu thực sự, FL là một cách tiếp cận đầy hứa hẹn để có được các mô hình mạnh mẽ, chính xác, an toàn, mạnh mẽ và không thiên vị. Bằng cách cho phép nhiều bên đào tạo hợp tác mà không cần trao đổi hoặc tập trung dữ liệu, FL giải quyết các vấn đề liên quan đến sự xuất hiện của dữ liệu y tế nhạy cảm. Kết quả là, nó có thể mở ra các con đường nghiên cứu và kinh doanh mới và có tiềm năng cải thiện chăm sóc bệnh nhân trên toàn cầu. Tuy nhiên, ngay hôm nay, FL có tác động đến gần như tất cả các bên liên quan và toàn bộ chu kỳ điều trị, từ phân tích hình ảnh y Mặc dù vậy, chúng tôi thực sự tin rằng tác động tiềm năng của nó đối với y học chính xác và cuối cùng cải thiện chăm sóc y tế là rất hứa hẹn. 12 Báo cáo tóm tắt Thông tin thêm về thiết kế nghiên cứu có sẵn trong liên kết với bài viết này. Báo cáo nghiên cứu tự nhiên References LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning Công nhận Công việc này đã được hỗ trợ bởi Trung tâm Nghiên cứu và Đổi mới Y tế và Trí tuệ nhân tạo London cho chăm sóc sức khỏe dựa trên giá trị của Vương quốc Anh, Trung tâm Kỹ thuật Y tế Wellcome / EPSRC (WT203148 / Z/16 / Z), Chương trình hàng đầu Wellcome (WT213038 / Z/18 / Z), Chương trình Nghiên cứu nội bộ của Trung tâm Y tế Quốc gia (NIH) Trung tâm lâm sàng, Viện Ung thư Quốc gia của NIH với số giải thưởng U01CA242871, Viện Quốc gia về Rối loạn thần kinh và đột quỵ của NIH với số giải thưởng R01NS042645, cũng như bởi Sáng kiến và Quỹ Mạng lưới Helmholtz (dự án “Dữ liệu liên kết đáng tin cậy”) và chương trình PRIME của Dịch vụ trao đổi học Bài viết này có sẵn trong tự nhiên theo giấy phép CC by 4.0 Deed (Attribution 4.0 International). Bài viết này có sẵn trong tự nhiên theo giấy phép CC by 4.0 Deed (Attribution 4.0 International).