Pencapaian AI yang membolehkan hospital melatih algoritma tanpa berkongsi data pesakit

Penulis : Nicola Rieke Jonny Hancox Wenqi Li Fausto Milletarì Holger R. Roth Shadi Albarqouni Spyridon Bakas Mathieu N. Galtier Bennett A. Landman Klaus Maier-Hein Sébastien Ourselin Micah Sheller Ronald M. Summers Andrew Trask Daguang Xu Maximilian Baust M. Jorge Cardoso Penulis : Cikgu Rieke oleh Jonny Hancox Melayu li Fausto Miletari Pengarah Holger R. Roth Shadi Albarqouni Tag: Spirin Bakas Mathieu N. Galtier dalam Bennett A. Landman sebagai Klaus Maier-Hein daripada Sebastian Ourselin oleh Micah Sheller Beliau ialah Ronald M. Summers Andrew Tragedi Daguang Xu Maximilian Baust Pengerusi Jorge Cardoso abstrak Pembelajaran mesin berasaskan data (ML) telah muncul sebagai pendekatan yang menjanjikan untuk membina model statistik yang tepat dan kukuh daripada data perubatan, yang dikumpulkan dalam jumlah besar oleh sistem penjagaan kesihatan moden. Data perubatan yang sedia ada tidak digunakan sepenuhnya oleh ML terutama kerana ia berada dalam silos data dan kebimbangan privasi mengehadkan akses kepada data ini. Walau bagaimanapun, tanpa akses kepada data yang mencukupi, ML akan dihalang daripada mencapai potensi penuh dan, pada akhirnya, daripada membuat peralihan dari penyelidikan ke amalan klinikal. Maklumat ini mempertimbangkan faktor utama yang menyumbang kepada isu ini, mengkaji bagaimana pembelajaran persekutuan (FL) boleh menyediakan penyelesaian untuk masa depan kesihatan digital dan menonjolkan cabaran dan pertimbangan yang perlu ditangani. Pengenalan Penyelidikan dalam kecerdasan buatan (AI), dan terutamanya kemajuan dalam pembelajaran mesin (ML) dan pembelajaran mendalam (DL) Model DL moden mempunyai berjuta-juta parameter yang perlu dipelajari daripada set data kurir yang cukup besar untuk mencapai ketepatan darjah klinikal, sambil menjadi selamat, adil, adil dan merangkumi dengan baik kepada data yang tidak kelihatan , , , . 1 2 3 4 5 Sebagai contoh, latihan pengesan tumor berasaskan AI memerlukan pangkalan data yang besar yang merangkumi spektrum penuh anatomi, patologi dan jenis data input yang mungkin. Walaupun anonimasi data boleh mengelakkan batasan ini, kini dipahami bahawa menghapuskan metadata seperti nama pesakit atau tarikh lahir sering tidak mencukupi untuk mengekalkan privasi. Sebagai contoh, ia adalah mungkin untuk membina semula muka pesakit daripada tomografi komputer (CT) atau imej resonansi magnetik (MRI) data Satu lagi sebab mengapa perkongsian data tidak sistematik dalam penjagaan kesihatan adalah bahawa mengumpul, mengurus, dan mengekalkan set data berkualiti tinggi mengambil masa yang besar, usaha, dan kos. Oleh itu, set data tersebut boleh mempunyai nilai perniagaan yang signifikan, menjadikan ia kurang mungkin bahawa mereka akan dikongsi secara bebas. 6 7 8 Pembelajaran Persekutuan (FL) , , merupakan paradigma pembelajaran yang bertujuan untuk menangani masalah pengurusan data dan privasi dengan melatih algoritma secara kolaboratif tanpa bertukar data itu sendiri. , ia baru-baru ini mendapat daya tarik untuk aplikasi penjagaan kesihatan , , , , , , , FL membolehkan mendapatkan wawasan secara kolaboratif, contohnya, dalam bentuk model konsensus, tanpa memindahkan data pesakit di luar tembok api institusi di mana mereka tinggal. sebaliknya, proses ML berlaku secara tempatan di setiap institusi yang mengambil bahagian dan hanya ciri-ciri model (contohnya, parameter, gradient) dipindahkan seperti yang digambarkan dalam Fig. Penyelidikan baru-baru ini telah menunjukkan bahawa model yang dilatih oleh FL boleh mencapai tahap prestasi yang sebanding dengan yang dilatih pada set data yang dihoskan secara pusat dan lebih baik daripada model yang hanya melihat data tunggal institusi yang terpencil. , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 FL agregasi server – aliran kerja FL tipikal di mana sebuah persekutuan nod latihan menerima model global, menghantar semula model mereka yang telah dilatih sebahagian kepada pelayan pusat secara berterusan untuk agregasi dan kemudian melanjutkan latihan pada model persetujuan yang dikembalikan oleh pelayan. FL peer to peer – formula alternatif FL di mana setiap node latihan bertukar-tukar model terlatih dengan sesetengah atau semua rakan-rakan dan masing-masing melakukan agregasi sendiri. Latihan terpusat – aliran kerja latihan non-FL umum di mana tapak pengambil data menyumbang data mereka ke Danau Data Pusat di mana mereka dan orang lain boleh mengekstrak data untuk latihan tempatan dan bebas. a b c Implementasi yang berjaya FL boleh mempunyai potensi yang signifikan untuk membolehkan perubatan ketepatan dalam skala besar, yang membawa kepada model yang menghasilkan keputusan yang tidak bersalah, mencerminkan secara optimal fisiologi individu, dan sensitif kepada penyakit langka sambil menghormati isu-isu pentadbiran dan privasi. Kami membayangkan masa depan terfederasi untuk kesihatan digital dan dengan kertas perspektif ini, kami berkongsi pandangan konsensus kami dengan matlamat untuk menyediakan konteks dan butiran kepada masyarakat mengenai faedah dan kesan FL untuk aplikasi perubatan (bagian “Data-driven medicine requires federated efforts”), serta menyoroti pertimbangan utama dan cabaran menerapkan FL untuk kesihatan digital (bagian “Pertimbangan teknikal”). Perubatan berasaskan data memerlukan usaha persekutuan ML dan terutamanya DL menjadi pendekatan penemuan pengetahuan de facto dalam banyak industri, tetapi berjaya melaksanakan aplikasi berasaskan data memerlukan set data yang besar dan pelbagai. Walau bagaimanapun, set data perubatan sukar untuk diperolehi (subseksyen “Keperhubungan kepada data”). FL menangani isu ini dengan membolehkan pembelajaran kolaboratif tanpa menyentralisasi data (subseksyen “Perkh usaha persekutuan”) dan telah menemui jalan kepada aplikasi kesihatan digital (subseksyen “Perkh FL semasa untuk kesihatan digital”). Ketergantungan kepada data Pendekatan berasaskan data bergantung kepada data yang benar-benar mewakili pengedaran data yang mendasari masalah. Walaupun ini adalah keperluan yang dikenali, algoritma terkini biasanya dinilai pada kumpulan data yang disusun dengan teliti, seringkali berasal daripada hanya beberapa sumber. Ini boleh memperkenalkan bias di mana demografi (contohnya, jantina, umur) atau ketidakseimbangan teknikal (contohnya, protokol pengambilalihan, pengeluar peralatan) membalikkan ramalan dan memberi kesan negatif kepada ketepatan untuk kumpulan atau tapak tertentu. Walau bagaimanapun, untuk menangkap hubungan halus antara corak penyakit, faktor sosial-ekonomi dan genetik, serta kes kompleks dan jarang berlaku, adalah penting untuk mendedahkan model kepada kes-kes yang berbeza. Keperluan untuk pangkalan data besar untuk latihan AI telah menjejaskan banyak inisiatif yang bertujuan untuk mengumpulkan data dari pelbagai institusi. Data ini sering dikumpulkan ke dalam yang dipanggil Data Lakes. Ini telah dibina dengan tujuan memanfaatkan nilai komersial data, contohnya, perolehan Merge Healthcare oleh IBM. , atau sebagai sumber untuk pertumbuhan ekonomi dan kemajuan saintifik, contohnya, National Safe Haven NHS Scotland Pusat Data Kesihatan Perancis , dan Penyelidikan Data Kesihatan UK . 21 22 23 24 Inisiatif yang besar, walaupun lebih kecil, termasuk Human Connectome daripada UK Biobank Maklumat lanjut Cancer Imaging Archive (TCIA) Rujukan CXR8 daripada DeepLesion Atlas Genoma Kanser (TCGA) Inisiatif Neuroimaging Penyakit Alzheimer (ADNI) Selain daripada cabaran perubatan yang besar Tag: cabaran camelyon Tantangan International Multimodal Brain Tumor Segmentation (BraTS) , , atau Segmen Perubatan Decathlon Data perubatan awam biasanya adalah tugas-atau penyakit-spesifik dan sering dikeluarkan dengan pelbagai darjah pembatasan lesen, kadang-kadang mengehadkan eksploitasi. 25 26 27 28 29 30 31 32 33 34 35 36 37 Pusatkan atau melepaskan data, bagaimanapun, tidak hanya menimbulkan cabaran peraturan, etika dan undang-undang, berkaitan dengan privasi dan perlindungan data, tetapi juga teknikal. Anonimkan, mengawal capaian dan memindahkan data penjagaan kesihatan dengan selamat adalah tugas yang tidak trivial, dan kadang-kadang tidak mungkin. data yang dianonimkan dari rekod kesihatan elektronik boleh kelihatan tidak berbahaya dan mematuhi GDPR / PHI, tetapi hanya beberapa elemen data boleh membolehkan pengenalan semula pesakit. Sama berlaku untuk data genomik dan imej perubatan yang menjadikannya unik seperti sidik jari. Oleh itu, melainkan proses anonimisasi merosakkan kesetiaan data, yang mungkin menjadikan ia tidak berguna, pengidentifikasi semula pesakit atau kebocoran maklumat tidak boleh dikecualikan. Akses gerbang untuk pengguna yang disetujui sering ditawarkan sebagai penyelesaian mutlak kepada masalah ini. Walau bagaimanapun, selain daripada membatasi ketersediaan data, ini hanya praktikal untuk kes-kes di mana persetujuan yang diberikan oleh pemilik data adalah tanpa syarat, kerana memanggil semula data daripada mereka yang mungkin mempunyai akses kepada data adalah praktikal tidak boleh dilaksanakan. 7 38 Menjanjikan usaha Persekutuan Janji FL adalah mudah—untuk menangani cabaran privasi dan pengurusan data dengan membolehkan ML daripada data yang tidak ditempatkan bersama-sama. Dalam tetapan FL, setiap pengawal data tidak hanya menentukan proses pengurusan data sendiri dan dasar privasi yang berkaitan, tetapi juga mengawal capaian data dan mempunyai keupayaan untuk membatalkannya. Ini termasuk kedua-dua latihan dan fasa pengesahan. Dengan cara ini, FL boleh mewujudkan peluang baru, contohnya, dengan membolehkan pengesahan skala besar, dalam institusi, atau dengan membolehkan penyelidikan baru mengenai penyakit langka, di mana kadar insiden adalah rendah dan set data di setiap institusi sahaja terlalu kecil. Memindahkan model kepada data dan bukannya sebaliknya mempunyai kelebihan utama lain: data perubatan berukuran tinggi, penyimpanan-intensif tidak perlu dimuat semula daripada institusi tempatan ke dalam kumpulan bersentralisasi seperti yang dinyatakan dalam Fig. FL boleh diwujudkan dengan topologi dan rancangan pengiraan yang berbeza. dua yang paling biasa untuk aplikasi penjagaan kesihatan adalah melalui pelayan agregasi , , dan peer to peer pendekatan , Dalam semua kes, FL secara lalai menawarkan tahap privasi tertentu, kerana peserta FL tidak pernah mengakses data secara langsung dari institusi lain dan hanya menerima parameter model yang dikumpulkan di atas beberapa peserta. Dalam aliran kerja FL dengan pelayan agregasi, institusi yang mengambil bahagian mungkin tidak dikenali satu sama lain. , , , Oleh itu, mekanisme seperti privasi berbeza , atau belajar daripada data terenkripsi telah dicadangkan untuk meningkatkan privasi lebih lanjut dalam tetapan FL (seperti yang dinyatakan dalam seksyen “Pertimbangan teknikal”). Secara keseluruhan, potensi FL untuk aplikasi penjagaan kesihatan telah merangsang minat masyarakat dan teknik FL merupakan bidang penyelidikan yang berkembang , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL topologi — seni bina komunikasi sebuah persekutuan. Pusat: pelayan agregasi mengoordinasikan iterasi latihan dan mengumpul, mengumpul dan mengedarkan model ke dan dari Node Latihan (Hub & Spoke). Decentralised: setiap node latihan disambungkan kepada satu atau lebih rakan sebaya dan agregasi berlaku pada setiap node secara paralel. Perbezaan: Perbezaan : Perbezaan : Perbezaan : Perbezaan : Perbezaan : Perbezaan : Perbezaan : Perbezaan : Perbezaan : Perbezaan ( FL rancangan pengkomputeran—lintasan model di antara beberapa rakan kongsi. Pembelajaran pemindahan siklik / cyclic transfer learning. Penyertaan Server, daripada peer kepada peer. a b c d e f g Usaha FL semasa untuk Kesihatan Digital Oleh kerana FL adalah paradigma pembelajaran umum yang menghapuskan keperluan gabungan data untuk pembangunan model AI, rangkaian aplikasi FL merangkumi seluruh AI untuk penjagaan kesihatan.Dengan menyediakan peluang untuk menangkap variabiliti data yang lebih besar dan menganalisis pesakit di seluruh demografi yang berbeza, FL mungkin membolehkan inovasi yang mengganggu untuk masa depan tetapi juga digunakan sekarang. Dalam konteks rekod kesihatan elektronik (EHR), contohnya, FL membantu mewakili dan mencari pesakit yang serupa secara klinikal , , serta meramalkan hospitaliti disebabkan oleh kejadian jantung , Kematian dan masa tinggal ICU Penggunaan dan kelebihan FL juga telah ditunjukkan dalam bidang imej perubatan, untuk segmen otak keseluruhan dalam MRI , serta segmen tumor otak , Baru-baru ini, teknik ini telah digunakan untuk klasifikasi fMRI untuk mencari biomarker yang boleh dipercayai yang berkaitan dengan penyakit. dan disyorkan sebagai pendekatan yang menjanjikan dalam konteks COVID-19 . 13 47 14 19 15 16 17 18 48 Perlu dicatat bahawa usaha FL memerlukan perjanjian untuk menentukan skop, matlamat dan teknologi yang digunakan yang, kerana ia masih baru, boleh menjadi sukar untuk menentukan. dalam konteks ini, inisiatif skala besar hari ini benar-benar merupakan pelopor standard esok untuk kerjasama selamat, adil dan inovatif dalam aplikasi penjagaan kesihatan. Ini termasuk konsorsium yang bertujuan untuk maju penyelidikan, seperti projek Trustworthy Federated Data Analytics (TFDA) dan Platform Imaging Bersama Konsortium Kanser Jerman , yang membolehkan penyelidikan terdesentralisasi di seluruh institusi penyelidikan imej perubatan Jerman. Contoh lain ialah kerjasama penyelidikan antarabangsa yang menggunakan FL untuk membangunkan model AI untuk penilaian mammogram Kajian itu menunjukkan bahawa model yang dihasilkan FL melebihi yang dilatih pada data institusi tunggal dan lebih boleh digeneralisasi, jadi mereka masih melakukan dengan baik pada data institusi lain. akademik 49 50 51 Dengan menghubungkan institusi penjagaan kesihatan, tidak terhad kepada pusat penyelidikan, FL boleh mempunyai kesan. projek HealthChain yang sedang berlangsung , contohnya, bertujuan untuk membangunkan dan menggunakan rangka kerja FL di empat hospital di Perancis. Penyelesaian ini menghasilkan model biasa yang boleh meramalkan respons rawatan untuk pesakit kanser payudara dan melanoma. Ia membantu onkolog untuk menentukan rawatan yang paling berkesan untuk setiap pesakit dari slides histologi mereka atau imej dermoskopi. usaha lain yang besar-besaran adalah inisiatif Federated Tumor Segmentation (FeTS) , yang merupakan persekutuan antarabangsa 30 institusi penjagaan kesihatan yang berdedikasi menggunakan rangka kerja FL sumber terbuka dengan antara muka pengguna grafis. matlamatnya adalah untuk meningkatkan pengesanan sempadan tumor, termasuk glioma otak, tumor payudara, tumor hati dan lesi tulang daripada pesakit myeloma berbilang. Klinik 52 53 Kawasan lain yang berpengaruh ialah dalam penyelidikan dan terjemahan. FL membolehkan penyelidikan kolaboratif untuk syarikat-syarikat, walaupun bersaing. Dalam konteks ini, salah satu inisiatif terbesar ialah projek Melloddy Ia adalah projek yang bertujuan untuk meletakkan FL pelbagai tugas di seluruh set data 10 syarikat farmaseutikal.Dengan melatih model prediktif yang sama, yang mendahului bagaimana sebatian kimia mengikat kepada protein, rakan kongsi bertujuan untuk mengoptimumkan proses penemuan ubat tanpa mendedahkan data dalaman mereka yang sangat berharga. industri 54 Kesan kepada pemangku kepentingan FL merangkumi pergeseran paradigma daripada tasik data bersentralisasi dan penting untuk memahami kesannya pada pelbagai pemangku kepentingan dalam ekosistem FL. Klinik Klinik biasanya terdedah kepada sub-kelompok populasi berdasarkan lokasi dan persekitaran demografi mereka, yang boleh menyebabkan asumsi bias mengenai kebarangkalian penyakit tertentu atau interkoneksi mereka. Dengan menggunakan sistem berasaskan ML, contohnya, sebagai pembaca kedua, mereka boleh meningkatkan kepakaran mereka sendiri dengan pengetahuan pakar dari institusi lain, memastikan konsistensi diagnosis yang tidak boleh dicapai hari ini. Walaupun ini terpakai kepada sistem berasaskan ML secara am, sistem yang dilatih dengan cara federatif berpotensi menghasilkan keputusan yang kurang bias dan kepekaan yang lebih tinggi kepada kes-kes jarang kerana mereka mungkin terdedah kepada pengedaran data yang lebih lengkap. Walau bagaimanapun, ini memerlukan beberapa usaha hadapan seperti pematuhan dengan perjanjian, contohnya, mengenai struktur data, anotasi dan protokol laporan, yang diperlukan untuk memastikan maklumat disampaikan kepada rakan kongsi dalam format yang dipahami secara umum. pesakit Pesakit biasanya dirawat secara tempatan. Menubuhkan FL pada skala global boleh memastikan kualiti tinggi keputusan klinikal tanpa mengira lokasi rawatan. Secara khusus, pesakit yang memerlukan penjagaan perubatan di kawasan terpencil boleh mendapat manfaat daripada diagnosis ML yang berkualiti tinggi yang tersedia di hospital dengan bilangan kes yang besar. Sama berlaku untuk penyakit langka, atau secara geografi tidak biasa, yang cenderung mempunyai akibat yang lebih ringan jika diagnosis yang lebih cepat dan lebih tepat boleh dibuat. FL juga boleh mengurangkan halangan untuk menjadi pemberi data, kerana pesakit boleh dijamin bahawa data kekal dengan institusi mereka sendiri dan akses data boleh dibatalkan. Hospital dan amalan Hospital dan amalan boleh kekal dalam kawalan penuh dan kepemilikan data pesakit mereka dengan penjejakan akses data yang lengkap, mengurangkan risiko penyalahgunaan oleh pihak ketiga. Walau bagaimanapun, ini akan memerlukan pelaburan dalam infrastruktur pengkomputeran tempatan atau penyediaan perkhidmatan awan swasta dan kepatuhan kepada format data standard dan sinoptik supaya model ML boleh dilatih dan dinilai dengan lancar. Jumlah keupayaan pengkomputeran yang diperlukan bergantung tentu pada sama ada laman hanya mengambil bahagian dalam usaha penilaian dan ujian atau juga dalam usaha latihan. Penyelidik dan pengembang AI Penyelidik dan pengembang AI boleh mendapat manfaat daripada akses kepada koleksi data dunia nyata yang berpotensi besar, yang pasti akan memberi kesan kepada makmal penyelidikan yang lebih kecil dan start-up. Oleh itu, sumber boleh diarahkan kepada penyelesaian keperluan klinikal dan masalah teknikal yang berkaitan daripada bergantung kepada bekalan yang terhad kepada set data terbuka. Pada masa yang sama, ia akan diperlukan untuk menjalankan penyelidikan mengenai strategi algoritmik untuk latihan persekutuan, contohnya, bagaimana untuk menggabungkan model atau kemas kini dengan cekap, bagaimana untuk menjadi kukuh untuk peralihan pengedaran. , , Pembangunan berasaskan FL juga bermakna bahawa penyelidik atau pengembang AI tidak boleh menyiasat atau memvisualisasikan semua data di mana model dilatih, contohnya, tidak mungkin untuk melihat kes kegagalan individu untuk memahami mengapa model semasa berkinerja buruk di atasnya. 11 12 20 pembekal penjagaan kesihatan Penyedia penjagaan kesihatan di banyak negara terjejas oleh peralihan paradigma yang berterusan dari berasaskan volume, iaitu berasaskan bayaran untuk perkhidmatan, kepada penjagaan kesihatan berasaskan nilai, yang pada gilirannya sangat berkaitan dengan penubuhan yang berjaya ubat presisi.Ini bukan tentang mempromosikan terapi individu yang lebih mahal tetapi sebaliknya tentang mencapai hasil yang lebih baik lebih awal melalui rawatan yang lebih berfokus, dengan itu mengurangkan kos. pengeluar Pengeluar perisian dan perkakasan penjagaan kesihatan juga boleh mendapat manfaat daripada FL, kerana menggabungkan pembelajaran daripada banyak peranti dan aplikasi, tanpa mendedahkan maklumat tertentu pesakit, boleh memudahkan pengesahan berterusan atau peningkatan sistem berasaskan ML mereka. Pertimbangan teknikal FL mungkin paling dikenali daripada kerja Konečnỳ et al. , tetapi pelbagai definisi lain telah dicadangkan dalam literatur , , , Perkhidmatan Flow (Fig. ) boleh diwujudkan melalui topologi yang berbeza dan rancangan pengiraan (Fig. ), tetapi matlamat kekal sama, iaitu, untuk menggabungkan pengetahuan yang dipelajari daripada data tidak-co-located. dalam seksyen ini, kami akan membincangkan lebih terperinci apa FL ialah, serta menyoroti cabaran utama dan pertimbangan teknikal yang timbul apabila memohon FL dalam kesihatan digital. 55 9 11 12 20 1 2 Definisi Pembelajaran Persekutuan FL ialah paradigma pembelajaran di mana pelbagai pihak melatih secara kolaboratif tanpa perlu bertukar atau memusatkan set data.Syarat umum FL berbunyi seperti berikut: Let denote a global loss function obtained via a weighted combination of kerugian tempatan, dikira daripada data peribadi , yang tinggal di pihak-pihak yang terlibat secara individu dan tidak pernah dibahagikan antara mereka: K xk di mana > 0 menunjukkan koefisien berat masing-masing. wk Dalam amalan, setiap peserta biasanya mendapat dan menyempurnakan model konsensus global dengan menjalankan beberapa pusingan pengoptimuman secara tempatan dan sebelum berkongsi kemas kini, sama ada secara langsung atau melalui pelayan parameter. ) , Proses sebenar untuk mengumpul parameter bergantung kepada topologi rangkaian, kerana nod boleh dipisahkan ke dalam sub- rangkaian disebabkan oleh sekatan geografi atau undang-undang (lihat Fig. Strategi agregasi boleh bergantung kepada satu nod agregasi tunggal (model hub dan speaker), atau pada pelbagai nod tanpa sebarang centralisasi.Sebuah contoh ialah peer-to-peer FL, di mana sambungan wujud antara semua atau subset peserta dan kemas kini model dikongsi hanya antara laman yang terhubung secara langsung , , manakala contoh agregasi FL terpusat diberikan dalam Algoritma 1. Nota bahawa strategi agregasi tidak semestinya memerlukan maklumat mengenai kemas kini model penuh; pelanggan mungkin memilih untuk berkongsi hanya satu subset parameter model demi mengurangkan komunikasi melampau, memastikan penyelenggaraan privasi yang lebih baik atau menghasilkan algoritma pembelajaran pelbagai tugas yang hanya mempunyai sebahagian daripada parameter mereka dipelajari dengan cara yang berfederasi. 1 9 12 2 15 56 10 Rangka kerja yang menyatukan yang membolehkan pelbagai skim latihan boleh memisahkan sumber pengkomputeran (data dan pelayan) daripada seperti yang dinyatakan dalam Fig. Yang terakhir mendefinisikan laluan model di antara beberapa rakan kongsi, untuk dilatih dan dinilai pada set data tertentu. Rancangan Komputer 2 Cabaran dan Pertimbangan Walaupun kelebihan FL, ia tidak menyelesaikan semua isu yang berkaitan dengan pembelajaran data perubatan. latihan model yang berjaya masih bergantung kepada faktor-faktor seperti kualiti data, bias dan standardisasi Isu-isu ini mesti diselesaikan untuk kedua-dua usaha pembelajaran persekutuan dan bukan persekutuan melalui langkah-langkah yang sesuai, seperti reka bentuk kajian yang berhati-hati, protokol bersama untuk pengumpulan data, laporan terstruktur dan metodologi canggih untuk mengesan bias dan stratifikasi tersembunyi. , , . 2 11 12 20 Heterogeniti data Data perubatan sangat berbeza-beza – bukan sahaja kerana pelbagai modaliti, dimensi dan ciri-ciri secara umum, tetapi walaupun dalam protokol tertentu disebabkan oleh faktor-faktor seperti perbezaan pengambilalihan, jenama peranti perubatan atau demografi tempatan. FL boleh membantu menangani sumber-sumber tertentu bias melalui potensi peningkatan kepelbagaian sumber data, tetapi pengedaran data yang tidak homogen menimbulkan cabaran bagi algoritma dan strategi FL, kerana ramai menganggap data IID secara berasingan dan disebarkan secara identik di seluruh peserta. boleh gagal dalam keadaan ini. , , , sebahagiannya mengalahkan tujuan strategik pembelajaran kolaboratif. hasil baru-baru ini, bagaimanapun, menunjukkan bahawa latihan FL masih boleh dilakukan walaupun data perubatan tidak disebarkan secara seragam di seluruh institusi , or includes a local bias Penyelidikan yang menangani masalah ini termasuk, sebagai contoh, Strategi perkongsian data dan FL dengan penyesuaian domain Satu cabaran lain adalah bahawa heterogeniti data boleh membawa kepada situasi di mana penyelesaian optimal global mungkin tidak optimal untuk peserta tempatan individu. Melayu 9 9 57 58 59 16 17 51 PerkhidmatanFedProx 57 58 18 Privasi dan Keselamatan Data penjagaan kesihatan sangat sensitif dan mesti dilindungi mengikut prosedur kerahsiaan yang sesuai. oleh itu, beberapa pertimbangan utama adalah kompromi, strategi dan risiko yang tersisa berkaitan dengan potensi pemeliharaan privasi FL. Privasi berbanding prestasi: Penting untuk dicatat bahawa FL tidak menyelesaikan semua isu privasi yang berpotensi dan – serupa dengan algoritma ML secara amnya – akan sentiasa membawa beberapa risiko. Walau bagaimanapun, terdapat kompromi dalam hal prestasi dan teknik ini boleh menjejaskan, contohnya, ketepatan model akhir. Selain itu, teknik masa depan dan/atau data sampingan boleh digunakan untuk mengorbankan model yang sebelum ini dianggap rendah risiko. 12 10 Tahap kepercayaan: Secara meluas, pihak yang mengambil bahagian boleh memasuki dua jenis kerjasama FL: — bagi konsorsium FL di mana semua pihak dianggap boleh dipercayai dan terikat oleh perjanjian kerjasama yang boleh dilaksanakan, kami boleh menghilangkan banyak motif yang lebih berbahaya, seperti percubaan sengaja untuk mengekstrak maklumat sensitif atau untuk sengaja merosakkan model. dipercayai Dalam sistem FL yang beroperasi pada skala yang lebih besar, mungkin tidak praktikal untuk menubuhkan perjanjian kerjasama yang boleh dilaksanakan. Sesetengah pelanggan mungkin sengaja cuba menjejaskan prestasi, menjejaskan sistem atau mengekstrak maklumat daripada pihak-pihak lain. Oleh itu, strategi keselamatan akan diperlukan untuk mengurangkan risiko-risiko ini seperti, enkripsi lanjutan penyerahan model, pengesahan selamat semua pihak, pelacakan tindakan, privasi perbezaan, sistem pengesahan, integriti pelaksanaan, kerahsiaan model dan perlindungan terhadap serangan lawan. Tidak dipercayai Information leakage: By definition, FL systems avoid sharing healthcare data among participating institutions. However, the shared information may still indirectly expose private data used for local training, e.g., by model inversion daripada model kemas kini, gradient itu sendiri atau serangan musuh , FL berbeza daripada latihan tradisional di mana proses latihan terdedah kepada pelbagai pihak, dengan itu meningkatkan risiko kebocoran melalui reverse-engineering jika lawan boleh mengamati perubahan model dari masa ke masa, mengamati kemas kini model tertentu (iaitu, kemas kini institusi tunggal), atau memanipulasi model (contohnya, merangsang pengingat tambahan oleh orang lain melalui serangan gaya gradient-ascent). , dan menjamin privasi yang berbeza yang mencukupi , mungkin diperlukan dan masih merupakan bidang penyelidikan yang aktif . 60 61 62 63 16 18 44 12 Traceability dan Tanggungjawab Seperti semua aplikasi kritikal keselamatan, kebolehpercayaan sistem adalah penting bagi FL dalam penjagaan kesihatan. Berbeza dengan latihan bersentralisasi, FL memerlukan pengiraan pelbagai pihak dalam persekitaran yang menunjukkan perbezaan yang besar dalam hal perkakasan, perisian dan rangkaian. Keterangan semua aset sistem termasuk sejarah capaian data, konfigurasi latihan, dan tuning hiperparameter sepanjang proses latihan adalah wajib. Terutamanya dalam persekutuan yang tidak dipercayai, pengesanan dan proses tanggungjawab memerlukan integriti pelaksanaan. Selepas proses latihan mencapai kriteria optimasi model yang disepakati secara bersama-sama, ia juga boleh berguna untuk mengukur jumlah sumbangan dari setiap peserta, seperti sumber pengiraan yang dikonsumsi, kualiti data yang digunakan untuk latihan tempatan, dan lain-lain. Salah satu implikasi FL adalah bahawa penyelidik tidak dapat menyiasat data di mana model sedang dilatih untuk memberi makna kepada hasil yang tidak dijangka.Selain itu, mengambil pengukuran statistik data latihan mereka sebagai sebahagian daripada aliran kerja pembangunan model akan perlu disetujui oleh pihak yang bekerjasama sebagai tidak melanggar privasi.Walaupun setiap laman web akan mempunyai akses kepada data mentahnya sendiri, persekutuan mungkin memutuskan untuk menyediakan semacam kemudahan penglihatan intra-node yang selamat untuk memenuhi keperluan ini atau mungkin menyediakan beberapa cara lain untuk meningkatkan penjelasan dan interpretasi model global. 64 Arsitektur sistem Tidak seperti menjalankan FL skala besar di kalangan peranti pengguna seperti McMahan et al. Peserta institusi penjagaan kesihatan dilengkapi dengan sumber-sumber pengiraan yang agak kuat dan rangkaian yang boleh dipercayai yang lebih tinggi yang membolehkan latihan model yang lebih besar dengan langkah-langkah latihan yang lebih tempatan, dan berkongsi lebih banyak maklumat model di antara nod. ciri-ciri unik FL dalam penjagaan kesihatan juga membawa cabaran seperti memastikan integriti data apabila berkomunikasi dengan menggunakan nod redundant, merancang kaedah enkripsi yang selamat untuk mengelakkan kebocoran data, atau merancang jadual nod yang sesuai untuk membuat penggunaan yang terbaik daripada peranti pengiraan yang didistribusi dan mengurangkan masa kosong. 9 Pentadbiran persekutuan sedemikian boleh dilaksanakan dengan cara yang berbeza. Dalam situasi yang memerlukan privasi data yang paling ketat antara pihak, latihan boleh beroperasi melalui semacam sistem "broker jujur", di mana pihak ketiga yang dipercayai bertindak sebagai perantara dan memudahkan akses kepada data. Setup ini memerlukan entiti bebas yang mengawal sistem keseluruhan, yang mungkin tidak selalu diingini, kerana ia boleh melibatkan kos tambahan dan viscosity prosedur. Walau bagaimanapun, ia mempunyai kelebihan bahawa mekanisme dalaman yang tepat boleh diabaikan daripada pelanggan, menjadikan sistem lebih mudah dan mudah untuk dikemas kini. Dalam sistem peer-to-peer, setiap laman berinteraksi secara langsung dengan beberapa atau semua peserta lain. Dengan kata lain, tiada fungsi penjaga pintu, semua protokol mesti disepakati di hadapan, yang memerlukan usaha perjanjian yang besar, dan perubahan mesti dibuat dalam cara yang disegerakkan oleh semua Kesimpulan ML, dan terutamanya DL, telah membawa kepada pelbagai inovasi dalam bidang penjagaan kesihatan digital. Oleh kerana semua kaedah ML mendapat manfaat besar daripada keupayaan untuk mengakses data yang mendekati pengedaran global yang sebenar, FL adalah pendekatan yang menjanjikan untuk mendapatkan model yang berkuasa, tepat, selamat, kukuh dan tidak bersyarat. Dengan membolehkan pelbagai pihak untuk melatih secara kolaboratif tanpa perlu bertukar atau memusatkan set data, FL dengan rapi menangani isu-isu yang berkaitan dengan keluarnya data perubatan sensitif. Sebagai akibatnya, ia boleh membuka jalan penyelidikan dan perniagaan baru dan mempunyai potensi untuk meningkatkan penjagaan pesakit di seluruh dunia. Walau bagaimanapun, hari ini, FL mempunyai kesan kepada hampir semua pemangku kepentingan dan keseluruhan kitaran rawatan, mulai daripada analisis imej perubatan yang lebih baik yang menyediakan doktor dengan alat diagnostik yang lebih baik Walau bagaimanapun, kami benar-benar percaya bahawa kesan potensialnya pada perubatan ketepatan dan pada akhirnya meningkatkan penjagaan perubatan sangat menjanjikan. 12 Laporan ringkasan Maklumat lanjut mengenai reka bentuk penyelidikan boleh didapati di terhubung kepada artikel ini. Laporan Penyelidikan Alam Referensi LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning Pengiktirafan Kerja ini telah disokong oleh UK Research and Innovation London Medical Imaging & Artificial Intelligence Centre for Value-Based Healthcare, oleh Jabatan Wellcome/EPSRC Pusat Kejuruteraan Perubatan (WT203148/Z/16/Z), oleh Program Flag Wellcome (WT213038/Z/18/Z), oleh Program Penyelidikan Intramural Institut Kesihatan Kebangsaan (NIH) Pusat Klinik, oleh Institut Kanser Kebangsaan NIH di bawah anugerah nombor U01CA242871, oleh Institut Kebangsaan Gangguan Neurologi dan Stroke NIH di bawah anugerah nombor R01NS042645, serta oleh Inisiatif Helmholtz dan Rangkaian Fund (proyek “Trustworthy Federated Data Analytics”) dan program PRIME perkhidmatan pertukaran akademik Jerman (DAAD) dengan dana daripada Kementerian Persekutuan Jerman Pendidikan dan Penyelidikan (BMBF Maklumat ini boleh didapati di alam semula jadi di bawah lesen CC by 4.0 Deed (Attribution 4.0 International). Maklumat ini boleh didapati di alam semula jadi di bawah lesen CC by 4.0 Deed (Attribution 4.0 International).