Yazarlar : Nicola Rieke Jonny Hancox Wenqi Li Fausto Milletarì Holger R. Roth Shadi Albarqouni Spyridon Bakas Mathieu N. Galtier Bennett A. Landman Klaus Maier-Hein Sébastien Ourselin Micah Sheller Ronald M. Summers Andrew Trask Şanlıurfa Xu Maximilian Baust Başkan Jorge Cardoso Yazarlar : Nicole Rieke Hakkında Jonny Hancox Hakkında Yüce Li Faust Milletçi Holger R. Roth Hakkında Şanlıurfa Albayrak Spyridon Bakas Hakkında Mathieu N. Galtier Hakkında Bennett A. Landman Hakkında Klaus Maier-Hein Hakkında Sébastien Ourselin hakkında Micah Sheller Hakkında Ronald M. Summers Hakkında Andrew Çıkış Şanlıurfa Xu Maximilian Baust Hakkında Başkan Jorge Cardoso abstraklık Bilgi dayalı makine öğrenimi (ML), modern sağlık sistemleri tarafından büyük miktarlarda toplanan tıbbi verilerden doğru ve sağlam istatistiksel modeller oluşturmak için umut verici bir yaklaşım olarak ortaya çıkmıştır. Mevcut tıbbi veriler ML'nin öncelikle veri silolarında yer alması ve gizlilik endişeleri bu verilere erişimi kısıtlaması nedeniyle tam olarak kullanılmamaktadır. Bununla birlikte, yeterli verilere erişim olmadan, ML'nin tam potansiyeline ulaşmasını engelleyecek ve nihayetinde araştırmalardan klinik uygulamaya geçiş yapmayacaktır. Bu makale, bu soruna katkıda bulunan önemli faktörleri göz önünde bulundurarak, federated learning (FL)'nin dijital sağlık geleceği için nasıl bir çözüm sağlayabileceğini keşfeder ve ele alınması gereken zorlukları ve gözlemleri vurg Giriş Yapay Zeka (AI) alanındaki araştırmalar ve özellikle makine öğrenimi (ML) ve derin öğrenme (DL) alanındaki gelişmeler Modern DL modelleri, klinik düzeyde doğruluk elde etmek için yeterince büyük kurulan veri kümelerinden öğrenilmesi gereken milyonlarca parametreye sahiptir, aynı zamanda güvenli, adil, eşit ve görünmeyen verileri genelleştirir. , , , . 1 2 3 4 5 Örneğin, AI tabanlı bir tümör dedektörü eğitimi, olası anatomilerin, patolojilerin ve giriş veri türlerinin tüm spektrumunu kapsayan büyük bir veritabanı gerektirir. Verilerin anonimleştirilmesi bu kısıtlamaları aşabilir olsa bile, hastanın adı veya doğum tarihi gibi meta verilerin kaldırılması genellikle gizliliği korumak için yeterli değildir. Örneğin, bir hastanın yüzünü bilgisayarlı tomografi (CT) veya manyetik rezonans görüntüleme (MRI) verilerinden yeniden oluşturmak mümkündür. Sağlık bakımında veri paylaşımı sistematik olmamak için başka bir neden de, yüksek kaliteli bir veri kümesinin toplanması, kurulması ve sürdürülmesi önemli miktarda zaman, çaba ve harcama gerektirir. Sonuç olarak, bu tür veri kümeleri önemli bir iş değerine sahip olabilir, bu da serbestçe paylaşılma olasılığını azaltabilir. 6 7 8 Federatif Öğrenme (FL) , , Bir öğrenme paradigması, algorithmleri kendi verileri değiştirmeden işbirliği içinde eğiterek veri yönetimi ve gizlilik sorununu ele almak isteyen bir öğrenme paradigmasıdır. , son zamanlarda sağlık uygulamaları için çekim kazanmıştır , , , , , , , FL, işbirliği içinde, örneğin bir konsensüs modeli şeklinde, hastanın verilerini yaşadıkları kurumların güvenlik duvarlarının ötesine taşımadan elde etmeyi sağlar. Bunun yerine, ML süreci her katılımcı kurumda yerel olarak gerçekleşir ve yalnızca model özellikleri (örneğin, parametreler, gradientler) Şekilde gösterildiği gibi aktarılır. Son araştırmalar, FL tarafından eğitilen modellerin merkezli olarak barındırılan veri kümelerinde eğitilen modellerle karşılaştırılabilir performans düzeyleri elde edebildiğini ve yalnızca bireysel verileri izleyen modellerden üstün olduğunu göstermiştir. , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 FL toplama sunucusu - tipik FL iş akışı, eğitim düğümlerinin bir federasyonu küresel modelini alır, kısmen eğitilmiş modellerini bir merkez sunucusuna geçici olarak toplama için gönderir ve daha sonra sunucu tarafından iade edilen konsensüs modeli üzerine eğitim devam eder. FL peer to peer - FL'nin alternatif formülasyonu, her eğitim düğmesi kısmen eğitilmiş modellerini bazı veya tüm meslektaşlarıyla değiştiriyor ve her biri kendi toplama yapıyor. Merkezi eğitim – veri edinme sitelerinin verilerini, kendileri ve diğerleri yerel, bağımsız eğitim için verileri çıkarabilecekleri merkezi bir veri gölüne bağışladığı genel olmayan FL eğitim iş akışı. a b c FL'nin başarılı bir şekilde uygulanması, büyük ölçekte hassas tıbbın sağlanabilmesi için önemli bir potansiyele sahip olabilir, böylece tarafsız kararlar verebilen, bireyin fizyolojisini en iyi şekilde yansıtan ve nadir hastalıklara karşı duyarlı olan modeller ortaya çıkabilir. ancak FL, algoritmanın güvenliği veya hastanın gizliliğini tehlikeye atmadan en iyi şekilde yürütülmesini sağlamak için hala sıkı teknik düşünce gerektirir. Dijital sağlık için bir federasyonel geleceği hayal ediyoruz ve bu perspektif makalesiyle, FL'nin tıbbi uygulamalar için faydaları ve etkileri hakkında topluma bağlam ve ayrıntı sağlamayı amaçlayan konsensüs görüşümüzü paylaşıyoruz (bölüm "Data-driven tıbbı federasyonel çabalar gerektirir"), yanı sıra FL'nin dijital sağlık için uygulanmasının ana düşüncelerini ve zorluklarını vurgulamaktayız (bölüm "Teknik Düşünceler"). Bilgi dayalı tıp federatif çabalar gerektirir ML ve özellikle DL, birçok endüstride de facto bilgi keşif yaklaşımı haline geliyor, ancak veri yönlendirilmiş uygulamaların başarılı bir şekilde uygulanması büyük ve çeşitli veri kümeleri gerektirir. Bununla birlikte, tıbbi veri kümeleri elde etmek zordur (alt bölüm “Data’ya Bağımlılık”). FL, bu sorunu, veri merkezlendirmesi olmadan işbirliği öğrenimini sağlar (alt bölüm “Federasyonel çabaların vaatleri”) ve zaten dijital sağlık uygulamalarına (alt bölüm “Dijital sağlık için mevcut FL çabaları”) yolunu bulmuştur. Verilere Bağımlılık Bilgiye dayalı yaklaşımlar, sorunun temel veri dağılımını gerçekten temsil eden verilere dayanır. Bu iyi bilinen bir gereksinim olsa da, en son algoritmalar genellikle dikkatli bir şekilde kurulan veri kümelerinde değerlendirilir, genellikle sadece birkaç kaynaktan kaynaklanır. Bu, demografik (örneğin, cinsiyet, yaş) veya teknik dengesizlikler (örneğin, satın alma protokolü, ekipman üreticisi) tahminleri ters çeviririr ve belirli gruplar veya siteler için doğruluğu olumsuz etkiler. Ancak, hastalık desenleri, sosyo-ekonomik ve genetik faktörler arasında ince ilişkileri yakalamak için, karmaşık ve nadir durumlar gibi, bir modelin çeşitli durumlara maruz kalması önemlidir. Yapay zeka eğitimi için büyük veritabanlarının ihtiyacı, çok sayıda kurumdan verileri birleştirmek isteyen birçok girişimciye yol açtı.Bu veriler genellikle Data Lakes olarak adlandırılan veri göllerine birleştirilir.Bu verilerin ticari değeri, örneğin IBM'in Merge Healthcare satın alımından yararlanmak amacıyla inşa edilmiştir. , ya da ekonomik büyüme ve bilimsel ilerleme için bir kaynak olarak, örneğin, NHS İskoçya'nın Ulusal Güvenli Limanı Fransız Sağlık Verileri Merkezi Health Data Research İngiltere . 21 22 23 24 Önemli, ancak daha küçük girişimler, İnsan Bağlantısı'nı içerir. Birleşik Krallık Biobank Kanser Görüntüleme Arşivi (TCIA) Nih CXR8 için Nih DeepLesion Hakkında Kanser Genomu Atlası (TCGA) Alzheimer Hastalığı Neuroimaging Initiative (ADNI) Hem de tıbbi zorluklar Camelyon meydan okuması Uluslararası Multimodal Beyin Tumoru Segmentasyonu (BraTS) , , Tıbbi Segmentasyon Decathlon Kamu tıbbi veriler genellikle görev veya hastalık spesifiktir ve genellikle farklı derecede lisans kısıtlamaları ile serbest bırakılır, bazen de kullanımı kısıtlar. 25 26 27 28 29 30 31 32 33 34 35 36 37 Bununla birlikte, veri merkezleştirme veya serbest bırakma yalnızca gizlilik ve veri koruması ile ilgili düzenleyici, etik ve yasal zorluklar değil, aynı zamanda teknik zorluklar da içerir. anonimleştirme, erişim kontrolü ve sağlık verilerini güvenli bir şekilde aktarmak, bazen imkansız bir görevdir. elektronik sağlık kayıtlarından anonim veriler zararsız görünebilir ve GDPR / PHI uyumludur, ancak sadece birkaç veri elemanı hastanın yeniden tanımlanmasını sağlayabilir. Aynı şey genomik veriler ve tıbbi görüntüler için de geçerlidir, bu da onları parmak izi gibi benzersiz kılıyor. Bu nedenle, anonimleştirme işlemi verilerin sadakatini yok etmedikçe, muhtemelen işe yaramaz hale gelirse, hastanın yeniden tanımlanması veya bilgi sızıntısı dışlanamaz. onaylı kullanıcılar için kapalı erişim genellikle bu soruna olası bir çözüm olarak önerilir. Ancak, verilerin kullanılabilirliğini sınırlandırmanın yanı sıra, bu yalnızca veri sahipleri tarafından verilen onayın koşulsuz olduğu durumlarda pratiktir, çünkü verilere erişebilecek kişilerin verilerini geri çağırmak pratikte uygulanamaz. 7 38 Federasyon Çalışmaları Sözleşmesi FL’nin vaatleri basittir – gizlilik ve veri yönetimi zorluklarını, ML’yi co-located olmayan verilerden etkinleştirerek ele almak. FL ayarında, her veri denetleyicisi yalnızca kendi yönetim süreçlerini ve ilgili gizlilik politikalarını tanımlamaz, aynı zamanda veri erişimi kontrol eder ve iptal etme yeteneğine sahiptir. Bu, hem eğitim hem de doğrulama aşamasını içerir. Bu şekilde, FL, örneğin, nadir hastalıklar üzerinde büyük ölçekli, kurum içi doğrulama izin vererek ya da olay oranlarının düşük olduğu ve her bir kurumdaki veri setlerinin çok küçük olduğu yeni bir araştırma yaparak, yeni fırsatlar yaratabilir. Modeli verilere taşımak ve tersine başka bir büyük avantajı vardır: yüksek boyutlu, depolama yoğun tıbbi veriler, yerel kurumlardan merkez Fig’de gösterildiği gibi. , bir FL iş akışı farklı topolojiler ve hesaplama planları ile gerçekleştirilebilir. sağlık uygulamaları için en yaygın olan iki, bir toplama sunucusu aracılığıyla , , peer to peer yaklaşımları , Her durumda, FL, FL katılımcılarının doğrudan diğer kurumlardan gelen verilere asla erişemediği ve yalnızca birkaç katılımcı üzerinde toplanan model parametrelerini almadığı için, dolaylı olarak belirli bir gizlilik derecesi sunar. , , , Bu nedenle, ayrımcılık özelliği gibi mekanizmalar , FL ayarlarında gizlilik daha da artırmak için şifrelenmiş verilerden öğrenme veya öğrenme önerildi (örneğin “Teknik Düşünceler” bölümü). ve FL teknikleri büyüyen bir araştırma alanı , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL topolojileri – bir federasyonun iletişim mimarisi. Merkezi: Birleştirme sunucusu eğitim iterasyonlarını koordine eder ve modellerini eğitim düğümlerine (Hub & Spoke) toplar, birleştirir ve dağıtır. Descentralized: Her eğitim düğmesi bir veya daha fazla eşeğe bağlıdır ve bütünleşme her düğümde paralel olarak gerçekleşir. Birleşik Arap Emirlikleri Birliği (Avrupa Birliği) Birleşik Arap Emirlikleri ( )). FL compute plans—trajectory of a model across several partners. Süreçli Eğitim / Cyclic Transfer Learning. Birleşik Servis, Peer ile peer arasında. a b c d e f g Dijital Sağlık için mevcut FL çabaları FL, AI model geliştirme için veri toplama gereksinimini ortadan kaldıran genel bir öğrenme paradigması olduğundan, FL'nin uygulama aralığı sağlık hizmetleri için tüm AI'yi kapsar. Daha büyük veri değişkenliğini yakalamak ve farklı demografilerdeki hastaları analiz etmek için bir fırsat sağlarken, FL, gelecek için yıkıcı yenilikler sağlayabilir, ancak şu anda da kullanılıyor. Örneğin, elektronik sağlık kayıtları (EHR) bağlamında, FL klinik olarak benzer hastaları temsil etmeye ve bulmaya yardımcı olur. , Ayrıca, kalp hastalıkları nedeniyle hastaneye yatırımı da öngörülüyor. Ölüm oranı ve ICU kalma süresi FL'nin uygulanabilirliği ve avantajları, MRI'de tüm beyin segmentasyonu için tıbbi görüntüleme alanında da gösterilmiştir. Aynı zamanda beyin tümör segmentasyonu , Son zamanlarda, güvenilir hastalıklarla ilgili biyomarkörleri bulmak için fMRI sınıflandırması için bu teknik kullanılmıştır. ve COVID-19 bağlamında umut verici bir yaklaşım olarak önerildi . 13 47 14 19 15 16 17 18 48 FL çabalarının, henüz yeni olduğu için tanımlamak zordur.Bu bağlamda, bugünün büyük ölçekli girişimleri, sağlık uygulamalarında güvenli, adil ve yenilikçi işbirliği için yarının standartlarının öncüleridir. Bunlar, ilerlemeyi amaçlayan konsorsiyumlar içerir. Trustworthy Federated Data Analytics (TFDA) Projesi Alman Kanser Konsorsiyumu’nun ortak görüntüleme platformu Alman tıbbi görüntüleme araştırma kurumları arasındaki merkezlenmiş araştırma imkanı sağlar.Bir başka örnek, mamogramların değerlendirilmesi için AI modellerinin geliştirilmesi için FL'yi kullanan uluslararası bir araştırma işbirliğidir. Çalışma, FL tarafından üretilen modellerin tek bir enstitünün verilerine göre eğitilenleri aştığını ve daha genelleştirilebilir olduğunu gösterdi, böylece diğer enstitülerin verilerinde hala iyi performans gösterdiler. Akademik 49 50 51 Araştırma merkezlerine sınırlı olmayan sağlık kurumlarını bağlayarak, FL doğrudan Gelişen HealthChain Projesi , örneğin, Fransa'da dört hastanede bir FL çerçevesi geliştirmeyi ve dağıtmayı amaçlamaktadır. Bu çözüm, meme kanseri ve melanom hastaları için tedavi yanıtını tahmin edebilen ortak modeller oluşturur. Onkologlar her hastanın histoloji slaytlarından veya dermoskopik görüntülerinden en etkili tedaviyi belirlemesine yardımcı olur. Bir başka büyük çaba Federated Tumour Segmentation (FeTS) girişimidir. , 30 bağlı sağlık kurumunun uluslararası bir federasyonu, grafik bir kullanıcı arayüzü ile açık kaynak FL çerçevesi kullanarak. amacımız, beyin gliomu, meme tümörleri, karaciğer tümörleri ve çok sayıda myeloma hastalarının kemik hasarlarını içeren tümör sınırı tespiti geliştirmektir. Klinik 52 53 Başka bir etki alanı da içeride araştırma ve çeviri. FL, hatta rekabet eden şirketler için de işbirliği araştırmasını sağlar. Bu bağlamda en büyük girişimlerden biri Melloddy projesidir 10 ilaç şirketinin veri setlerinde çok görevli FL'yi kullanmayı amaçlayan bir proje. Kimyasal bileşiklerin proteinlere nasıl bağlandığını gösteren ortak bir tahmin modeli geliştirerek, ortaklar, çok değerli iç verilerini ortaya çıkarmadan ilaç keşif sürecini optimize etmeyi amaçlamaktadır. Endüstriyel 54 İlgili Kişilere Etkisi FL, merkezi veri göllerinden bir paradigma değişimini içerir ve FL ekosistemesinin çeşitli paydaşlarına etkisini anlamak önemlidir. Klinikler Klinik uzmanlar genellikle yerleşim ve demografik ortamlarına bağlı olarak nüfusun bir alt grubuna maruz kalırlar, bu da belirli hastalıkların olasılığı ya da bağlantıları ile ilgili önyargılı varsayımlara neden olabilir. Örneğin ML tabanlı sistemleri kullanarak, ikinci bir okuyucu olarak, kendi uzmanlıklarını diğer kurumlardan gelen uzman bilgi ile artırabilirler, bu da günümüzde elde edilemeyen bir teşhis tutarlılığı sağlar. Bu, genel olarak ML tabanlı sistemler için geçerli olsa da, federatif bir şekilde eğitilmiş sistemler, verilerin ortaklara daha az önyargılı kararlar verebilmeleri ve nadir durumlara karşı daha duyarlılık gösterebilmeleri için gereklidir. Bununla birlikte, bu, sözleşmelere uymak, örneğin veri yapısı, anotasyon ve rapor Hastalar Hastalar genellikle yerel olarak tedavi edilir. Küresel ölçekte FL kurmak, tedavi yerinden bağımsız olarak yüksek kaliteli klinik kararlar sağlayabilir. Özellikle, uzak bölgelerde tıbbi bakım gerektiren hastalar, çok sayıda vakaya sahip hastanelerde mevcut olan aynı yüksek kaliteli ML yardımıyla teşhislerden yararlanabilir. Aynı şey nadir veya coğrafi olarak nadir olan hastalıklar için de geçerlidir, daha hızlı ve daha doğru teşhisler yapılabilirse daha hafif sonuçlara sahip olasıdır. Hastaneler ve uygulamalar Hastaneler ve uygulamalar, veri erişiminin tam izlenebilirliği ile hastane verilerinin tam kontrolü ve mülkiyetinde kalabilir, üçüncü tarafların yanlış kullanım riskini sınırlandırır. Bununla birlikte, bu, yerel bilgisayar altyapısına veya özel bulut hizmetlerine yatırım ve standart ve sinoptik veri biçimlerine uymayı gerektirir, böylece ML modellerinin sorunsuz bir şekilde eğitilmesi ve değerlendirilmesi sağlanabilir. Gerekli bilgisayar yeteneğinin miktarı, tabii ki, bir site sadece değerlendirme ve test çabalarına ya da eğitim çabalarına katılmakta olup olmadığına bağlıdır. Araştırmacılar ve geliştiriciler Araştırmacılar ve AI geliştiricileri, potansiyel olarak geniş bir gerçek dünyadaki veri koleksiyonuna erişimden yararlanabilirler, bu da daha küçük araştırma laboratuvarlarına ve başlangıç şirketlerine kesinlikle etki edecektir.Bu nedenle, kaynaklar, açık veri setlerinin sınırlı tedarikine güvenmek yerine, klinik ihtiyaçları ve ilgili teknik sorunları çözmek için yönlendirilebilir. , , FL tabanlı geliştirme aynı zamanda, araştırmacı veya AI geliştiricinin modelin eğitildiği tüm verileri incelememesi veya görselleştirmemesi anlamına gelir, örneğin, mevcut modelin neden kötü performans gösterdiğini anlamak için bireysel bir başarısızlık vakasına bakmak mümkün değildir. 11 12 20 Sağlık tedarikçileri Birçok ülkedeki sağlık hizmet sağlayıcıları, hacim tabanlı, yani hizmet başına ücret tabanlı, değer tabanlı sağlık hizmetlerinden devam eden paradigma değişikliğinden etkilenmektedir, bu da hassas tıbbın başarılı bir şekilde kurulmasına bağlıdır. Bu, daha pahalı bireysel tedavileri teşvik etmekle ilgili değildir, bunun yerine daha odaklı tedavi yoluyla daha erken daha iyi sonuçlar elde etmek, dolayısıyla maliyetleri azaltmak. Üreticiler Sağlık bakım yazılımı ve donanım üreticileri de FL'den yararlanabilir, çünkü birçok cihaz ve uygulamadan öğrenmenin birleştirilmesi, hastanın belirli bilgileri ortaya çıkarmadan, ML tabanlı sistemlerinin sürekli doğrulamasını veya geliştirilmesini kolaylaştırabilir. Teknik Düşünceler FL belki de Konečnỳ et al.’in çalışmalarından en iyi bilinir. ama edebiyatta çeşitli diğer tanımlar önerilmiştir , , , Bir FL iş akışı (Fig. ) farklı topolojiler ve hesap planları aracılığıyla gerçekleştirilebilir (Şekil. Bu bölümde, FL'nin ne olduğunu daha ayrıntılı olarak tartışacağız ve FL'nin dijital sağlık alanında uygulandığında ortaya çıkan temel zorlukları ve teknik düşünceleri vurgulayacağız. 55 9 11 12 20 1 2 Federatif Öğrenme Tanımı FL, birden fazla tarafın birlikte çalıştığı bir öğrenme paradigmasıdır.Fl'nin genel bir formülasyonu şu şekilde okunur: Global kayıp fonksiyonunu, ağırlıklı bir kombinasyon yoluyla elde edilen bir kayıp fonksiyonuna işaret edelim. Özel verilerden hesaplanan yerel kayıplar , bireysel ilgili taraflarda ikamet eden ve aralarında hiçbir zaman paylaşılmayan: K xk Nerede > 0, ilgili ağırlık koeficientlerini gösterir. Wk Uygulamada, her katılımcı genellikle doğrudan veya bir parametre sunucu aracılığıyla güncelleştirmeleri paylaşmadan önce yerel olarak ve birkaç optimizasyon turunu gerçekleştirerek küresel bir konsensüs modeli elde eder ve geliştirir. ) , Parametreleri toplamak için gerçek süreç, ağ topolojisine bağlıdır, çünkü düğümler coğrafi veya yasal kısıtlamalar nedeniyle alt ağlara ayrılabilir (Şekil 8). Birleştirme stratejileri, tek bir birleştirme düğmesine (hub ve konuşma modelleri) ya da herhangi bir merkezleştirme olmadan çok sayıda düğmeye dayanabilir.Bir örnek peer-to-peer FL'dir, katılımcıların tümü veya bir alt grupları arasında bağlantılar vardır ve model güncellemeleri yalnızca doğrudan bağlantılı siteler arasında paylaşıldı. , 1. Birleştirme stratejilerinin kesin olarak tam model güncelleştirmesi hakkında bilgi gerektirmediğine dikkat edin; müşteriler, iletişim aşamasını azaltmak, daha iyi gizlilik koruması sağlamak için model parametrelerinin sadece bir alt kümesini paylaşmayı tercih edebilirler. ya da yalnızca parametrelerinin bir kısmını birleşik bir şekilde öğrendiği çok görevli öğrenme algoritmaları üretmek. 1 9 12 2 15 56 10 Çeşitli eğitim programlarını sağlayan birleştiren bir çerçeve, bilgisayar kaynaklarını (verileri ve sunucuları) Fig’de gösterildiği gibi. İkincisi, belirli veri kümelerinde eğitilmesi ve değerlendirilmesi gereken bir modelin çeşitli ortaklar arasındaki yörüngesini tanımlar. Bilgisayar Planı 2 Sorunlar ve Düşünceler FL'nin avantajlarına rağmen, tıbbi veriler üzerinde öğrenmenin içerdiği tüm sorunları çözmez. başarılı bir model eğitimi hala veri kalitesi, önyargı ve standartlaşma gibi faktörlere bağlıdır. Bu sorunlar hem federatif hem de federatif olmayan öğrenme çabaları için uygun önlemler aracılığıyla çözülmelidir, örneğin dikkatli çalışma tasarımı, veri edinme için ortak protokoller, yapılandırılmış raporlama ve önyargıları ve gizli katmanlama keşfetmek için sofistike yöntemler. , , . 2 11 12 20 Verilerin heterojenliği Tıbbi veriler özellikle çeşitlidir – genel olarak modalitelerin, boyutların ve özelliklerin çeşitliliği nedeniyle değil, belirli bir protokol içinde bile, satın alma farklılıkları, tıbbi cihazın markası veya yerel demografik faktörler gibi faktörler nedeniyle. FL, veri kaynaklarının potansiyel olarak artan çeşitliliği yoluyla belirli önyargı kaynaklarını ele almasına yardımcı olabilir, ancak FL algoritmaları ve stratejileri için eşitsiz veri dağılımı bir meydan okuma oluşturur, çünkü birçok katılımcılar arasında bağımsız olarak ve eşit olarak dağıtılmış (IID) verileri varsayıyor. are prone to fail under these conditions , , , kısmen işbirlikçi öğrenme stratejilerinin amacını yenmek.Son sonuçlar, FL eğitiminin hala uygulanabilir olduğunu göstermektedir. tıbbi veriler kurumlar arasında eşit olarak dağıtılmamasına rağmen, , ya da yerel bir bias Bu sorunu çözmek için yapılan araştırmalar, örneğin, Part-Data Paylaşım Stratejisi Domain Adaptasyon ile FL Diğer bir zorluk, veri heterojenliğinin, küresel optimum çözümün bireysel bir yerel katılımcı için optimum olmayabileceği bir durumuna yol açabileceğidir. FETÖ 9 9 57 58 59 16 17 51 FedProx Hakkında 57 58 18 Gizlilik ve Güvenlik Sağlık verileri son derece hassasdır ve uygun gizlilik prosedürlerini izlerken buna göre korunmalıdır.Bu nedenle, önemli düşüncelerden bazıları FL'nin gizlilik koruma potansiyeline ilişkin kompromisler, stratejiler ve kalan risklerdir. Gizlilik vs. Performans: FL'nin tüm potansiyel gizlilik sorunlarını çözmediğini ve genel olarak ML algoritmalarına benzer olarak her zaman bazı riskler taşıyacağını belirtmek önemlidir. Bununla birlikte, performans açısından bir kompromis vardır ve bu teknikler örneğin nihai modelin doğruluğunu etkileyebilir. Ayrıca, gelecekteki teknikler ve/veya yardımcı veriler, daha önce düşük riskli olarak kabul edilen bir modelin tehlikeye atılması için kullanılabilir. 12 10 Güven seviyesi: Genel olarak, katılımcı taraflar iki tür FL işbirliğine girebilir: - Tüm tarafların güvenilir olduğu ve yürürlüğe girecek bir işbirliği anlaşmasıyla bağlı olduğu FL konsorsiyumları için, hassas bilgileri çıkarmaya veya modelin kasıtlı olarak bozulmasına yönelik kasıtlı girişimler gibi daha kötü niyetli motivasyonların birçoğunu ortadan kaldırabiliriz. güvenilir —Büyük ölçekte çalışan FL sistemlerinde, yürürlüğe girecek bir işbirliği anlaşması kurmak pratik olmayabilir.Bazı müşteriler performansını düşürebilir, sistemini düşürebilir veya diğer taraflardan bilgi çıkarabilir.Bu nedenle, bu riskleri azaltmak için güvenlik stratejileri gerekebilir, örneğin, model gönderimlerinin gelişmiş şifrelemesi, tüm tarafların güvenli kimlik doğrulaması, eylemlerin izlenebilirliği, farklılık gizliliği, doğrulama sistemleri, yürütme bütünlüğü, model gizliliği ve rakip saldırılarına karşı koruma. güvenilmez Bilgi sızıntısı: FL sistemleri, katılımcı kurumlar arasında sağlık verilerini paylaşmaktan kaçınıyor.Bununla birlikte, paylaşılan bilgiler, yerel eğitim için kullanılan özel verileri, örneğin, model dönüştürme yoluyla dolaylı olarak ortaya çıkarabilir. Güncelleştirmeleri yaparken, gradientler Düşman saldırıları , FL, geleneksel eğitimden farklıdır, çünkü eğitim süreci birden fazla tarafa maruz kalır, böylece rakipler zamanla model değişikliklerini gözlemleyebilir, belirli model güncellemelerini gözlemleyebilir (yani tek bir kurumun güncellemesi) veya modeli manipüle edebilir (örneğin, gradient-ascent-style saldırıları yoluyla başkaları tarafından ek hafıza teşvik eder). , Uygun ayrımcılık gizliliği sağlamak gerekebilir ve hala aktif bir araştırma alanı . 60 61 62 63 16 18 44 12 İzlenebilirlik ve Sorumluluk Tüm güvenlik eleştirel uygulamalar için olduğu gibi, bir sistemin tekrarlanabilirliği sağlık sektöründe FL için önemlidir. Merkezleştirilmiş eğitimden farklı olarak, FL, donanım, yazılım ve ağ açısından önemli farklılıklar gösteren ortamlarda çok taraflı hesaplamalar gerektirir. Tüm sistem varlıklarının, veri erişim geçmişini, eğitim yapılandırmalarını ve eğitim süreçleri boyunca hiperparametre ayarlamayı içeren izlenebilirliği zorunludur. Özellikle güvenilmemiş federasyonlarda, izlenebilirlik ve sorumluluk süreçleri uygulama bütünlüğünü gerektirir. Eğitim süreci karşılıklı olarak kabul edilen model optimizasyon kriterlerine ulaştıktan sonra, her katılımcının katkısının miktarını ölçmek de yararlı olabilir, örneğin hesaplama kaynakları tüketildiği gibi, yerel eğitim için kullanılan veri kalitesi vb. Bu ölçümler daha sonra FL'nin bir anlamı, araştırmacıların beklenmedik sonuçları anlamak için eğitilen modellerin verilerini incelemek mümkün olmadığıdır. Ayrıca, model geliştirme iş akışının bir parçası olarak eğitim verilerinin istatistiksel ölçümlerini almak, işbirliği yapan tarafların gizliliği ihlal etmediği gibi onaylanması gerekecektir. Her site kendi ham verilerine erişime sahip olsa da, federasyonlar bu gereksinimi karşılamak için bir tür güvenli bir bağ içi görüntüleme tesisi sunmaya karar verebilir ya da küresel modelin açıklanabilirliğini ve yorumlanabilirliğini artırmak için başka bir yol sağlayabilir. 64 Sistem mimarisi McMahan et al. gibi tüketici cihazları arasında büyük ölçekli FL çalıştırmaktan farklı olarak. , healthcare institutional participants are equipped with relatively powerful computational resources and reliable, higher-throughput networks enabling training of larger models with many more local training steps, and sharing more model information between nodes. These unique characteristics of FL in healthcare also bring challenges such as ensuring data integrity when communicating by use of redundant nodes, designing secure encryption methods to prevent data leakage, or designing appropriate node schedulers to make best-use of the distributed computational devices and reduce idle time. 9 Böyle bir federasyonun yönetimi farklı şekillerde gerçekleştirilebilir. Taraflar arasında en sıkı veri gizliliği gerektiren durumlarda, eğitim, güvenilir bir üçüncü tarafın aracı olarak hareket ettiği ve verilere erişimi kolaylaştırdığı bir tür “dürüst tüccar” sistemi aracılığıyla çalışabilir. Bu yapılandırma, her zaman istenmeyen, ek maliyet ve prosedür viskozitesi içerebileceği gibi, genel sistemin kontrolünde bağımsız bir varlık gerektirir. Bununla birlikte, tam iç mekanizmaların müşterilerden uzaklaştırılabileceği avantajına sahiptir, bu da sistemin güncellenmesi daha esnek ve daha basit hale getirir. Bir peer-to-peer sisteminde, her site diğer katılımcıların bazılarıyla doğrudan etkileşime girer. Diğer bir deyişle, hiçbir kapı koruyucu fonksi Sonuç ML, özellikle de DL, dijital sağlık alanında geniş bir yelpazede yeniliklere yol açtı. Tüm ML yöntemleri, gerçek küresel dağılımı yaklaşan verilere erişme yeteneğinden büyük ölçüde yararlandığından, FL, güçlü, doğru, güvenli, sağlam ve tarafsız modeller elde etmek için umut verici bir yaklaşımdır. Birçok tarafın veri kümelerini paylaşmak veya merkezlendirmek zorunda kalmadan işbirliği içinde eğitilmesine izin vererek, FL, hassas tıbbi verilerin ortaya çıkmasıyla ilgili sorunları düzgün bir şekilde ele alır. Sonuç olarak, yeni araştırma ve iş yollarını açabilir ve hastane bakımını küresel olarak geliştirme potansiyeline sahiptir. Bununla birlikte, bugün FL, hemen hemen tüm ilgililere ve tüm tedavi döngüsüne etki ediyor, kliniklere daha iyi Buna rağmen, hassas tıbbın ve nihayetinde tıbbi bakımın iyileştirilmesi üzerindeki potansiyel etkilerinin çok umut verici olduğuna inanıyoruz. 12 Raporlama Özetleri Araştırma Tasarımı Hakkında Daha Fazla Bilgi Bu makaleye bağlanmıştır. Doğa Araştırmaları Raporu Referanslar LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning İtiraflar Bu çalışmayı, UK Research and Innovation London Medical Imaging & Artificial Intelligence Centre for Value-Based Healthcare, Wellcome/EPSRC Center for Medical Engineering (WT203148/Z/16/Z), Wellcome Flagship Program (WT213038/Z/18/Z), National Institutes of Health (NIH) Clinical Center Intramural Research Program, National Cancer Institute of the NIH (DAAD) National Institute of Neurological Disorders and Stroke (WT213038/Z/18/Z), National Institute of Neurological Disorders and Stroke (BMBF) National Institute of Neurological Disorders and Stroke (National Institute of Neurological Disorders and Stroke) R01NS042645 (National Institutes of Health (NIH) Clinical Center) Intramural Research Program (National Institutes This paper is under CC by 4.0 Deed (Attribution 4.0 International) license. available on nature Bu kağıt CC by 4.0 Deed (Attribution 4.0 International) lisansı altında. available on nature