The AI Breakthrough That Lets Hospitals Train Algorithms Without Sharing Patient Data

Yazarlar : Nicola Rieke Jonny Hancox Yüce Li Fausto Milletarì Holger R. Roth Hakkında Shadi Albarqouni Spyridon Bakas Mathieu N. Galtier Hakkında Bennett A. Landman Hakkında Klaus Maier-Hein Sébastien Ourselin Micah Sheller Hakkında Ronald M. Summers Hakkında Andrew Trask Daguang Xu Maximilian Baust M. Jorge Cardoso Yazarlar : Nicole Rieke Hakkında Jonny Hancox Hakkında Yüce Li Faust Milletçi Holger R. Roth Hakkında Şanlıurfa Albayrak Spyridon Bakas Hakkında Mathieu N. Galtier Hakkında Bennett A. Landman Hakkında Klaus Maier-Hein Sébastien Ourselin hakkında Micah Sheller Hakkında Ronald M. Summers Hakkında Andrew Çıkış Şanlıurfa Xu Maximilian Baust Hakkında Başkan Jorge Cardoso abstraklık Bilgi dayalı makine öğrenimi (ML), modern sağlık sistemleri tarafından büyük miktarlarda toplanan tıbbi verilerden doğru ve sağlam istatistiksel modeller oluşturmak için umut verici bir yaklaşım olarak ortaya çıkmıştır. Mevcut tıbbi veriler ML'nin öncelikle veri silolarında yer alması ve gizlilik endişeleri bu verilere erişimi kısıtlaması nedeniyle tam olarak kullanılmamaktadır. Bununla birlikte, yeterli verilere erişim olmadan, ML'nin tam potansiyeline ulaşmasını engelleyecek ve nihayetinde araştırmalardan klinik uygulamaya geçiş yapmayacaktır. Bu makale, bu soruna katkıda bulunan önemli faktörleri göz önünde bulundurarak, federated learning (FL)'nin dijital sağlık geleceği için nasıl bir çözüm sağlayabileceğini keşfeder ve ele alınması gereken zorlukları ve gözlemleri vurg Giriş Yapay Zeka (AI) alanındaki araştırmalar ve özellikle makine öğrenimi (ML) ve derin öğrenme (DL) alanındaki gelişmeler Modern DL modelleri, klinik düzeyde doğruluk elde etmek için yeterince büyük kurulan veri kümelerinden öğrenilmesi gereken milyonlarca parametreye sahiptir, aynı zamanda güvenli, adil, eşit ve görünmeyen verileri genelleştirir. , , , . 1 2 3 4 5 Örneğin, AI tabanlı bir tümör dedektörü eğitimi, olası anatomilerin, patolojilerin ve giriş veri türlerinin tüm spektrumunu kapsayan büyük bir veritabanı gerektirir. Verilerin anonimleştirilmesi bu kısıtlamaları aşabilir olsa bile, hastanın adı veya doğum tarihi gibi meta verilerin kaldırılması genellikle gizliliği korumak için yeterli değildir. Örneğin, bir hastanın yüzünü bilgisayarlı tomografi (CT) veya manyetik rezonans görüntüleme (MRI) verilerinden yeniden oluşturmak mümkündür. Sağlık bakımında veri paylaşımı sistematik olmamak için başka bir neden de, yüksek kaliteli bir veri kümesinin toplanması, kurulması ve sürdürülmesi önemli miktarda zaman, çaba ve harcama gerektirir. Sonuç olarak, bu tür veri kümeleri önemli bir iş değerine sahip olabilir, bu da serbestçe paylaşılma olasılığını azaltabilir. 6 7 8 Federatif Öğrenme (FL) , , Bir öğrenme paradigması, algorithmleri kendi verileri değiştirmeden işbirliği içinde eğiterek veri yönetimi ve gizlilik sorununu ele almak isteyen bir öğrenme paradigmasıdır. , son zamanlarda sağlık uygulamaları için çekim kazanmıştır , , , , , , , FL, işbirliği içinde, örneğin bir konsensüs modeli şeklinde, hastanın verilerini yaşadıkları kurumların güvenlik duvarlarının ötesine taşımadan elde etmeyi sağlar. Bunun yerine, ML süreci her katılımcı kurumda yerel olarak gerçekleşir ve yalnızca model özellikleri (örneğin, parametreler, gradientler) Şekilde gösterildiği gibi aktarılır. Son araştırmalar, FL tarafından eğitilen modellerin merkezli olarak barındırılan veri kümelerinde eğitilen modellerle karşılaştırılabilir performans düzeyleri elde edebildiğini ve yalnızca bireysel verileri izleyen modellerden üstün olduğunu göstermiştir. , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 FL toplama sunucusu - tipik FL iş akışı, eğitim düğümlerinin bir federasyonu küresel modelini alır, kısmen eğitilmiş modellerini bir merkez sunucusuna geçici olarak toplama için gönderir ve daha sonra sunucu tarafından iade edilen konsensüs modeli üzerine eğitim devam eder. FL peer to peer - FL'nin alternatif formülasyonu, her eğitim düğmesi kısmen eğitilmiş modellerini bazı veya tüm meslektaşlarıyla değiştiriyor ve her biri kendi toplama yapıyor. Merkezi eğitim – veri edinme sitelerinin verilerini, kendileri ve diğerleri yerel, bağımsız eğitim için verileri çıkarabilecekleri merkezi bir veri gölüne bağışladığı genel olmayan FL eğitim iş akışı. a b c FL'nin başarılı bir şekilde uygulanması, büyük ölçekte hassas tıbbın sağlanabilmesi için önemli bir potansiyele sahip olabilir, böylece tarafsız kararlar verebilen, bireyin fizyolojisini en iyi şekilde yansıtan ve nadir hastalıklara karşı duyarlı olan modeller ortaya çıkabilir. ancak FL, algoritmanın güvenliği veya hastanın gizliliğini tehlikeye atmadan en iyi şekilde yürütülmesini sağlamak için hala sıkı teknik düşünce gerektirir. Dijital sağlık için bir federasyonel geleceği hayal ediyoruz ve bu perspektif makalesiyle, FL'nin tıbbi uygulamalar için faydaları ve etkileri hakkında topluma bağlam ve ayrıntı sağlamayı amaçlayan konsensüs görüşümüzü paylaşıyoruz (bölüm "Data-driven tıbbı federasyonel çabalar gerektirir"), yanı sıra FL'nin dijital sağlık için uygulanmasının ana düşüncelerini ve zorluklarını vurgulamaktayız (bölüm "Teknik Düşünceler"). Bilgi dayalı tıp federatif çabalar gerektirir ML ve özellikle DL, birçok endüstride de facto bilgi keşif yaklaşımı haline geliyor, ancak veri yönlendirilmiş uygulamaların başarılı bir şekilde uygulanması büyük ve çeşitli veri kümeleri gerektirir. Bununla birlikte, tıbbi veri kümeleri elde etmek zordur (alt bölüm “Data’ya Bağımlılık”). FL, bu sorunu, veri merkezlendirmesi olmadan işbirliği öğrenimini sağlar (alt bölüm “Federasyonel çabaların vaatleri”) ve zaten dijital sağlık uygulamalarına (alt bölüm “Dijital sağlık için mevcut FL çabaları”) yolunu bulmuştur. Verilere Bağımlılık Bilgiye dayalı yaklaşımlar, sorunun temel veri dağılımını gerçekten temsil eden verilere dayanır. Bu iyi bilinen bir gereksinim olsa da, en son algoritmalar genellikle dikkatli bir şekilde kurulan veri kümelerinde değerlendirilir, genellikle sadece birkaç kaynaktan kaynaklanır. Bu, demografik (örneğin, cinsiyet, yaş) veya teknik dengesizlikler (örneğin, satın alma protokolü, ekipman üreticisi) tahminleri ters çeviririr ve belirli gruplar veya siteler için doğruluğu olumsuz etkiler. Ancak, hastalık desenleri, sosyo-ekonomik ve genetik faktörler arasında ince ilişkileri yakalamak için, karmaşık ve nadir durumlar gibi, bir modelin çeşitli durumlara maruz kalması önemlidir. Yapay zeka eğitimi için büyük veritabanlarının ihtiyacı, çok sayıda kurumdan verileri birleştirmek isteyen birçok girişimciye yol açtı.Bu veriler genellikle Data Lakes olarak adlandırılan veri göllerine birleştirilir.Bu verilerin ticari değeri, örneğin IBM'in Merge Healthcare satın alımından yararlanmak amacıyla inşa edilmiştir. , ya da ekonomik büyüme ve bilimsel ilerleme için bir kaynak olarak, örneğin, NHS İskoçya'nın Ulusal Güvenli Limanı Fransız Sağlık Verileri Merkezi Health Data Research İngiltere . 21 22 23 24 Önemli, ancak daha küçük girişimler, İnsan Bağlantısı'nı içerir. Birleşik Krallık Biobank , the Cancer Imaging Archive (TCIA) Nih CXR8 için Nih DeepLesion Hakkında Kanser Genomu Atlası (TCGA) Alzheimer Hastalığı Neuroimaging Initiative (ADNI) , as well as medical grand challenges Camelyon meydan okuması Uluslararası Multimodal Beyin Tumoru Segmentasyonu (BraTS) , , Tıbbi Segmentasyon Decathlon . Public medical data is usually task- or disease-specific and often released with varying degrees of license restrictions, sometimes limiting its exploitation. 25 26 27 28 29 30 31 32 33 34 35 36 37 Bununla birlikte, veri merkezleştirme veya serbest bırakma yalnızca gizlilik ve veri koruması ile ilgili düzenleyici, etik ve yasal zorluklar değil, aynı zamanda teknik zorluklar da içerir. anonimleştirme, erişim kontrolü ve sağlık verilerini güvenli bir şekilde aktarmak, bazen imkansız bir görevdir. elektronik sağlık kayıtlarından anonim veriler zararsız görünebilir ve GDPR / PHI uyumludur, ancak sadece birkaç veri elemanı hastanın yeniden tanımlanmasını sağlayabilir. Aynı şey genomik veriler ve tıbbi görüntüler için de geçerlidir, bu da onları parmak izi gibi benzersiz kılıyor. . Therefore, unless the anonymisation process destroys the fidelity of the data, likely rendering it useless, patient reidentification or information leakage cannot be ruled out. Gated access for approved users is often proposed as a putative solution to this issue. However, besides limiting data availability, this is only practical for cases in which the consent granted by the data owners is unconditional, since recalling data from those who may have had access to the data is practically unenforceable. 7 38 Federasyon Çalışmaları Sözleşmesi FL’nin vaatleri basittir – gizlilik ve veri yönetimi zorluklarını, ML’yi co-located olmayan verilerden etkinleştirerek ele almak. FL ayarında, her veri denetleyicisi yalnızca kendi yönetim süreçlerini ve ilgili gizlilik politikalarını tanımlamaz, aynı zamanda veri erişimi kontrol eder ve iptal etme yeteneğine sahiptir. Bu, hem eğitim hem de doğrulama aşamasını içerir. Bu şekilde, FL, örneğin, nadir hastalıklar üzerinde büyük ölçekli, kurum içi doğrulama izin vererek ya da olay oranlarının düşük olduğu ve her bir kurumdaki veri setlerinin çok küçük olduğu yeni bir araştırma yaparak, yeni fırsatlar yaratabilir. Modeli verilere taşımak ve tersine başka bir büyük avantajı vardır: yüksek boyutlu, depolama yoğun tıbbi veriler, yerel kurumlardan merkez Fig’de gösterildiği gibi. , bir FL iş akışı farklı topolojiler ve hesaplama planları ile gerçekleştirilebilir. sağlık uygulamaları için en yaygın olan iki, bir toplama sunucusu aracılığıyla , , and peer to peer approaches , Her durumda, FL, FL katılımcılarının doğrudan diğer kurumlardan gelen verilere asla erişemediği ve yalnızca birkaç katılımcı üzerinde toplanan model parametrelerini almadığı için, dolaylı olarak belirli bir gizlilik derecesi sunar. , , , Bu nedenle, ayrımcılık özelliği gibi mekanizmalar , or learning from encrypted data have been proposed to further enhance privacy in a FL setting (c.f. section “Technical considerations”). Overall, the potential of FL for healthcare applications has sparked interest in the community ve FL teknikleri büyüyen bir araştırma alanı , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL topolojileri – bir federasyonun iletişim mimarisi. Centralised: the aggregation server coordinates the training iterations and collects, aggregates and distributes the models to and from the Training Nodes (Hub & Spoke). Descentralized: Her eğitim düğmesi bir veya daha fazla eşeğe bağlıdır ve bütünleşme her düğümde paralel olarak gerçekleşir. Hierarchical: federated networks can be composed from several sub-federations, which can be built from a mix of Peer to Peer and Aggregation Server federations ( )). FL compute plans—trajectory of a model across several partners. Süreçli Eğitim / Cyclic Transfer Learning. Birleşik Servis, Peer ile peer arasında. a b c d e f g Dijital Sağlık için mevcut FL çabaları Since FL is a general learning paradigm that removes the data pooling requirement for AI model development, the application range of FL spans the whole of AI for healthcare. By providing an opportunity to capture larger data variability and to analyse patients across different demographics, FL may enable disruptive innovations for the future but is also being employed right now. Örneğin, elektronik sağlık kayıtları (EHR) bağlamında, FL klinik olarak benzer hastaları temsil etmeye ve bulmaya yardımcı olur. , Ayrıca, kalp hastalıkları nedeniyle hastaneye yatırımı da öngörülüyor. Ölüm oranı ve ICU kalma süresi . The applicability and advantages of FL have also been demonstrated in the field of medical imaging, for whole-brain segmentation in MRI , as well as brain tumour segmentation , Son zamanlarda, güvenilir hastalıklarla ilgili biyomarkörleri bulmak için fMRI sınıflandırması için bu teknik kullanılmıştır. ve COVID-19 bağlamında umut verici bir yaklaşım olarak önerildi . 13 47 14 19 15 16 17 18 48 FL çabalarının, henüz yeni olduğu için tanımlamak zordur.Bu bağlamda, bugünün büyük ölçekli girişimleri, sağlık uygulamalarında güvenli, adil ve yenilikçi işbirliği için yarının standartlarının öncüleridir. Bunlar, ilerlemeyi amaçlayan konsorsiyumlar içerir. Trustworthy Federated Data Analytics (TFDA) Projesi Alman Kanser Konsorsiyumu’nun ortak görüntüleme platformu , which enable decentralised research across German medical imaging research institutions. Another example is an international research collaboration that uses FL for the development of AI models for the assessment of mammograms Çalışma, FL tarafından üretilen modellerin tek bir enstitünün verilerine göre eğitilenleri aştığını ve daha genelleştirilebilir olduğunu gösterdi, böylece diğer enstitülerin verilerinde hala iyi performans gösterdiler. academic 49 50 51 By linking healthcare institutions, not restricted to research centres, FL can have direct Gelişen HealthChain Projesi , örneğin, Fransa'da dört hastanede bir FL çerçevesi geliştirmeyi ve dağıtmayı amaçlamaktadır. Bu çözüm, meme kanseri ve melanom hastaları için tedavi yanıtını tahmin edebilen ortak modeller oluşturur. Onkologlar her hastanın histoloji slaytlarından veya dermoskopik görüntülerinden en etkili tedaviyi belirlemesine yardımcı olur. Bir başka büyük çaba Federated Tumour Segmentation (FeTS) girişimidir. , 30 bağlı sağlık kurumunun uluslararası bir federasyonu, grafik bir kullanıcı arayüzü ile açık kaynak FL çerçevesi kullanarak. amacımız, beyin gliomu, meme tümörleri, karaciğer tümörleri ve çok sayıda myeloma hastalarının kemik hasarlarını içeren tümör sınırı tespiti geliştirmektir. clinical 52 53 Another area of impact is within research and translation. FL enables collaborative research for, even competing, companies. In this context, one of the largest initiatives is the Melloddy project . It is a project aiming to deploy multi-task FL across the data sets of 10 pharmaceutical companies. By training a common predictive model, which infers how chemical compounds bind to proteins, partners intend to optimise the drug discovery process without revealing their highly valuable in-house data. Endüstriyel 54 Impact on stakeholders FL, merkezi veri göllerinden bir paradigma değişimini içerir ve FL ekosistemesinin çeşitli paydaşlarına etkisini anlamak önemlidir. Klinikler Clinicians are usually exposed to a sub-group of the population based on their location and demographic environment, which may cause biased assumptions about the probability of certain diseases or their interconnection. By using ML-based systems, e.g., as a second reader, they can augment their own expertise with expert knowledge from other institutions, ensuring a consistency of diagnosis not attainable today. While this applies to ML-based system in general, systems trained in a federated fashion are potentially able to yield even less biased decisions and higher sensitivity to rare cases as they were likely exposed to a more complete data distribution. However, this demands some up-front effort such as compliance with agreements, e.g., regarding the data structure, annotation and report protocol, which is necessary to ensure that the information is presented to collaborators in a commonly understood format. Hastalar Patients are usually treated locally. Establishing FL on a global scale could ensure high quality of clinical decisions regardless of the treatment location. In particular, patients requiring medical attention in remote areas could benefit from the same high-quality ML-aided diagnoses that are available in hospitals with a large number of cases. The same holds true for rare, or geographically uncommon, diseases, that are likely to have milder consequences if faster and more accurate diagnoses can be made. FL may also lower the hurdle for becoming a data donor, since patients can be reassured that the data remains with their own institution and data access can be revoked. Hospitals and practices Hastaneler ve uygulamalar, veri erişiminin tam izlenebilirliği ile hastane verilerinin tam kontrolü ve mülkiyetinde kalabilir, üçüncü tarafların yanlış kullanım riskini sınırlandırır. Bununla birlikte, bu, yerel bilgisayar altyapısına veya özel bulut hizmetlerine yatırım ve standart ve sinoptik veri biçimlerine uymayı gerektirir, böylece ML modellerinin sorunsuz bir şekilde eğitilmesi ve değerlendirilmesi sağlanabilir. Gerekli bilgisayar yeteneğinin miktarı, tabii ki, bir site sadece değerlendirme ve test çabalarına ya da eğitim çabalarına katılmakta olup olmadığına bağlıdır. Researchers and AI developers Researchers and AI developers stand to benefit from access to a potentially vast collection of real-world data, which will particularly impact smaller research labs and start-ups. Thus, resources can be directed towards solving clinical needs and associated technical problems rather than relying on the limited supply of open data sets. At the same time, it will be necessary to conduct research on algorithmic strategies for federated training, e.g., how to combine models or updates efficiently, how to be robust to distribution shifts , , FL tabanlı geliştirme aynı zamanda, araştırmacı veya AI geliştiricinin modelin eğitildiği tüm verileri incelememesi veya görselleştirmemesi anlamına gelir, örneğin, mevcut modelin neden kötü performans gösterdiğini anlamak için bireysel bir başarısızlık vakasına bakmak mümkün değildir. 11 12 20 Sağlık tedarikçileri Healthcare providers in many countries are affected by the on-going paradigm shift from volume-based, i.e., fee-for-service-based, to value-based healthcare, which is in turn strongly connected to the successful establishment of precision medicine. This is not about promoting more expensive individualised therapies but instead about achieving better outcomes sooner through more focused treatment, thereby reducing the cost. FL has the potential to increase the accuracy and robustness of healthcare AI, while reducing costs and improving patient outcomes, and may therefore be vital to precision medicine. Üreticiler Sağlık bakım yazılımı ve donanım üreticileri de FL'den yararlanabilir, çünkü birçok cihaz ve uygulamadan öğrenmenin birleştirilmesi, hastanın belirli bilgileri ortaya çıkarmadan, ML tabanlı sistemlerinin sürekli doğrulamasını veya geliştirilmesini kolaylaştırabilir. Teknik Düşünceler FL belki de Konečnỳ et al.’in çalışmalarından en iyi bilinir. ama edebiyatta çeşitli diğer tanımlar önerilmiştir , , , . A FL workflow (Fig. ) farklı topolojiler ve hesap planları aracılığıyla gerçekleştirilebilir (Şekil. ), but the goal remains the same, i.e., to combine knowledge learned from non-co-located data. In this section, we will discuss in more detail what FL is, as well as highlighting the key challenges and technical considerations that arise when applying FL in digital health. 55 9 11 12 20 1 2 Federated learning definition FL is a learning paradigm in which multiple parties train collaboratively without the need to exchange or centralise data sets. A general formulation of FL reads as follows: Let denote a global loss function obtained via a weighted combination of local losses , computed from private data , which is residing at the individual involved parties and never shared among them: K xk where > 0 denote the respective weight coefficients. wk Uygulamada, her katılımcı genellikle doğrudan veya bir parametre sunucu aracılığıyla güncelleştirmeleri paylaşmadan önce yerel olarak ve birkaç optimizasyon turunu gerçekleştirerek küresel bir konsensüs modeli elde eder ve geliştirir. ) , Parametreleri toplamak için gerçek süreç, ağ topolojisine bağlıdır, çünkü düğümler coğrafi veya yasal kısıtlamalar nedeniyle alt ağlara ayrılabilir (Şekil 8). ). Aggregation strategies can rely on a single aggregating node (hub and spokes models), or on multiple nodes without any centralisation. An example is peer-to-peer FL, where connections exist between all or a subset of the participants and model updates are shared only between directly connected sites , , whereas an example of centralised FL aggregation is given in Algorithm 1. Note that aggregation strategies do not necessarily require information about the full model update; clients might chose to share only a subset of the model parameters for the sake of reducing communication overhead, ensure better privacy preservation ya da yalnızca parametrelerinin bir kısmını birleşik bir şekilde öğrendiği çok görevli öğrenme algoritmaları üretmek. 1 9 12 2 15 56 10 A unifying framework enabling various training schemes may disentangle compute resources (data and servers) from the , as depicted in Fig. İkincisi, belirli veri kümelerinde eğitilmesi ve değerlendirilmesi gereken bir modelin çeşitli ortaklar arasındaki yörüngesini tanımlar. Bilgisayar Planı 2 Challenges and considerations FL'nin avantajlarına rağmen, tıbbi veriler üzerinde öğrenmenin içerdiği tüm sorunları çözmez. başarılı bir model eğitimi hala veri kalitesi, önyargı ve standartlaşma gibi faktörlere bağlıdır. Bu sorunlar hem federatif hem de federatif olmayan öğrenme çabaları için uygun önlemler aracılığıyla çözülmelidir, örneğin dikkatli çalışma tasarımı, veri edinme için ortak protokoller, yapılandırılmış raporlama ve önyargıları ve gizli katmanlama keşfetmek için sofistike yöntemler. , , . 2 11 12 20 Verilerin heterojenliği Tıbbi veriler özellikle çeşitlidir – genel olarak modalitelerin, boyutların ve özelliklerin çeşitliliği nedeniyle değil, belirli bir protokol içinde bile, satın alma farklılıkları, tıbbi cihazın markası veya yerel demografik faktörler gibi faktörler nedeniyle. FL, veri kaynaklarının potansiyel olarak artan çeşitliliği yoluyla belirli önyargı kaynaklarını ele almasına yardımcı olabilir, ancak FL algoritmaları ve stratejileri için eşitsiz veri dağılımı bir meydan okuma oluşturur, çünkü birçok katılımcılar arasında bağımsız olarak ve eşit olarak dağıtılmış (IID) verileri varsayıyor. Bu koşullar altında başarısız olmak , , , in part defeating the very purpose of collaborative learning strategies. Recent results, however, indicate that FL training is still feasible tıbbi veriler kurumlar arasında eşit olarak dağıtılmamasına rağmen, , ya da yerel bir bias Bu sorunu çözmek için yapılan araştırmalar, örneğin, Part-Data Paylaşım Stratejisi Domain Adaptasyon ile FL Diğer bir zorluk, veri heterojenliğinin, küresel optimum çözümün bireysel bir yerel katılımcı için optimum olmayabileceği bir durumuna yol açabileceğidir. FETÖ 9 9 57 58 59 16 17 51 FedProx Hakkında 57 58 18 Gizlilik ve Güvenlik Healthcare data is highly sensitive and must be protected accordingly, following appropriate confidentiality procedures. Therefore, some of the key considerations are the trade-offs, strategies and remaining risks regarding the privacy-preserving potential of FL. Gizlilik vs. Performans: FL'nin tüm potansiyel gizlilik sorunlarını çözmediğini ve genel olarak ML algoritmalarına benzer olarak her zaman bazı riskler taşıyacağını belirtmek önemlidir. . However, there is a trade-off in terms of performance and these techniques may affect, for example, the accuracy of the final model Ayrıca, gelecekteki teknikler ve/veya yardımcı veriler, daha önce düşük riskli olarak kabul edilen bir modelin tehlikeye atılması için kullanılabilir. 12 10 Güven seviyesi: Genel olarak, katılımcı taraflar iki tür FL işbirliğine girebilir: —for FL consortia in which all parties are considered trustworthy and are bound by an enforceable collaboration agreement, we can eliminate many of the more nefarious motivations, such as deliberate attempts to extract sensitive information or to intentionally corrupt the model. This reduces the need for sophisticated counter-measures, falling back to the principles of standard collaborative research. Trusted —Büyük ölçekte çalışan FL sistemlerinde, yürürlüğe girecek bir işbirliği anlaşması kurmak pratik olmayabilir.Bazı müşteriler performansını düşürebilir, sistemini düşürebilir veya diğer taraflardan bilgi çıkarabilir.Bu nedenle, bu riskleri azaltmak için güvenlik stratejileri gerekebilir, örneğin, model gönderimlerinin gelişmiş şifrelemesi, tüm tarafların güvenli kimlik doğrulaması, eylemlerin izlenebilirliği, farklılık gizliliği, doğrulama sistemleri, yürütme bütünlüğü, model gizliliği ve rakip saldırılarına karşı koruma. Non-trusted Bilgi sızıntısı: FL sistemleri, katılımcı kurumlar arasında sağlık verilerini paylaşmaktan kaçınıyor.Bununla birlikte, paylaşılan bilgiler, yerel eğitim için kullanılan özel verileri, örneğin, model dönüştürme yoluyla dolaylı olarak ortaya çıkarabilir. of the model updates, the gradients themselves or adversarial attacks , . FL is different from traditional training insofar as the training process is exposed to multiple parties, thereby increasing the risk of leakage via reverse-engineering if adversaries can observe model changes over time, observe specific model updates (i.e., a single institution’s update), or manipulate the model (e.g., induce additional memorisation by others through gradient-ascent-style attacks). Developing counter-measures, such as limiting the granularity of the updates and adding noise , and ensuring adequate differential privacy gerekebilir ve hala aktif bir araştırma alanı . 60 61 62 63 16 18 44 12 Traceability and accountability Tüm güvenlik eleştirel uygulamalar için olduğu gibi, bir sistemin tekrarlanabilirliği sağlık sektöründe FL için önemlidir. Merkezleştirilmiş eğitimden farklı olarak, FL, donanım, yazılım ve ağ açısından önemli farklılıklar gösteren ortamlarda çok taraflı hesaplamalar gerektirir. Tüm sistem varlıklarının, veri erişim geçmişini, eğitim yapılandırmalarını ve eğitim süreçleri boyunca hiperparametre ayarlamayı içeren izlenebilirliği zorunludur. Özellikle güvenilmemiş federasyonlarda, izlenebilirlik ve sorumluluk süreçleri uygulama bütünlüğünü gerektirir. Eğitim süreci karşılıklı olarak kabul edilen model optimizasyon kriterlerine ulaştıktan sonra, her katılımcının katkısının miktarını ölçmek de yararlı olabilir, örneğin hesaplama kaynakları tüketildiği gibi, yerel eğitim için kullanılan veri kalitesi vb. Bu ölçümler daha sonra . One implication of FL is that researchers are not able to investigate data upon which models are being trained to make sense of unexpected results. Moreover, taking statistical measurements of their training data as part of the model development workflow will need to be approved by the collaborating parties as not violating privacy. Although each site will have access to its own raw data, federations may decide to provide some sort of secure intra-node viewing facility to cater for this need or may provide some other way to increase explainability and interpretability of the global model. 64 Sistem mimarisi McMahan et al. gibi tüketici cihazları arasında büyük ölçekli FL çalıştırmaktan farklı olarak. , sağlık kurumlarının katılımcıları, daha fazla yerel eğitim aşamaları ile daha büyük modellerin eğitilmesini ve daha fazla model bilgilerini düğümler arasında paylaşmayı sağlayan nispeten güçlü hesaplama kaynakları ve güvenilir, daha yüksek penetrasyonlu ağlar ile donatılmıştır. sağlık sektöründe FL'nin bu benzersiz özellikleri, redundant düğümler kullanılarak iletişimde veri bütünlüğünü sağlamak, veri sızıntısını önlemek için güvenli şifreleme yöntemlerini tasarlamak veya dağıtılmış hesaplama cihazlarının en iyi şekilde kullanılması ve boş zamanını azaltmak için uygun düğüm planlayıcıları tasarlamak gibi zorluklar getirir. 9 The administration of such a federation can be realised in different ways. In situations requiring the most stringent data privacy between parties, training may operate via some sort of “honest broker” system, in which a trusted third party acts as the intermediary and facilitates access to data. This setup requires an independent entity controlling the overall system, which may not always be desirable, since it could involve additional cost and procedural viscosity. However, it has the advantage that the precise internal mechanisms can be abstracted away from the clients, making the system more agile and simpler to update. In a peer-to-peer system each site interacts directly with some or all of the other participants. In other words, there is no gatekeeper function, all protocols must be agreed up-front, which requires significant agreement efforts, and changes must be made in a synchronised fashion by all parties to avoid problems. Additionally, in a trustless-based architecture the platform operator may be cryptographically locked into being honest by means of a secure protocol, but this may introduce significant computational overheads. Conclusion ML, and particularly DL, has led to a wide range of innovations in the area of digital healthcare. As all ML methods benefit greatly from the ability to access data that approximates the true global distribution, FL is a promising approach to obtain powerful, accurate, safe, robust and unbiased models. By enabling multiple parties to train collaboratively without the need to exchange or centralise data sets, FL neatly addresses issues related to egress of sensitive medical data. As a consequence, it may open novel research and business avenues and has the potential to improve patient care globally. However, already today, FL has an impact on nearly all stakeholders and the entire treatment cycle, ranging from improved medical image analysis providing clinicians with better diagnostic tools, over true precision medicine by helping to find similar patients, to collaborative and accelerated drug discovery decreasing cost and time-to-market for pharma companies. Not all technical questions have been answered yet and FL will certainly be an active research area throughout the next decade . Despite this, we truly believe that its potential impact on precision medicine and ultimately improving medical care is very promising. 12 Reporting summary Further information on research design is available in the linked to this article. Doğa Araştırmaları Raporu Referanslar LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning Acknowledgements Bu çalışmayı, UK Research and Innovation London Medical Imaging & Artificial Intelligence Centre for Value-Based Healthcare, Wellcome/EPSRC Center for Medical Engineering (WT203148/Z/16/Z), Wellcome Flagship Program (WT213038/Z/18/Z), National Institutes of Health (NIH) Clinical Center Intramural Research Program, National Cancer Institute of the NIH (DAAD) National Institute of Neurological Disorders and Stroke (WT213038/Z/18/Z), National Institute of Neurological Disorders and Stroke (BMBF) National Institute of Neurological Disorders and Stroke (National Institute of Neurological Disorders and Stroke) R01NS042645 (National Institutes of Health (NIH) Clinical Center) Intramural Research Program (National Institutes Bu makale CC by 4.0 Deed (Attribution 4.0 International) lisansı altında mevcuttur. This paper is under CC by 4.0 Deed (Attribution 4.0 International) license. Doğa için kullanılabilir