AI proboj koji omogućuje bolnicama da treniraju algoritme bez deljenja podataka o pacijentima

Autori : Niš Rieke Džoni Hankox Vanjski Li Fausto Miletarí Holger R. Roth izgovor Šarić Albarqouni Spiridon Bakas Matije N. Galtier Bennett A. Landman Klaus Maier-Hein Sebastjan Ourselin Micah Sheller RONALD M. SUMMERS Pozorište Andrew Trask Daguang Xu Maximilian Baust Predsednik Jorge Cardoso Autori : Niš Rieke Džoni Hankox Vanjski Li Fausto Miletarí Holger R. Roth izgovor Šarić Albarqouni Spiridon Bakas Matije N. Galtier Bennett A. Landman za štampu Ključna reč: Klaus Maier-Hein Sebastjan Ourselin Mica Šeler RONALD M. SUMMERS Pozorište Andrija Trakova Daguang Xu Maksimilijan Baust Predsednik Jorge Cardoso Abstrakcija Na osnovu podataka, strojno učenje (ML) pojavilo se kao obećavajući pristup za izgradnju preciznih i robustnih statističkih modela iz medicinskih podataka, koji se prikupljaju u ogromnim količinama modernim zdravstvenim sustavima. Postojeći medicinski podaci nisu u potpunosti iskorišćeni od strane ML prvenstveno zato što se nalaze u podatkovnim silosima i pitanja privatnosti ograničavaju pristup tim podacima. Međutim, bez pristupa dovoljno podataka, ML će biti sprečen da dostigne svoj puni potencijal i, na kraju, od prebacivanja iz istraživanja u kliničku praksu. Ovaj članak razmatra ključne čimbenike koji doprinose ovom pitanju, istražuje kako federated learning (FL) može pružiti rješenje za budućnost digitalnog zdravlja i ističe izazove i razmatranja koja treba riješiti Uvod Istraživanje o veštačkoj inteligenciji (AI), a posebno napredak u strojnom učenju (ML) i dubokom učenju (DL) Moderne DL modele sadrže milijune parametara koji se moraju naučiti iz dovoljno velikih kuriranih skupova podataka kako bi se postigla klinička preciznost, dok su sigurni, fer, fer i generaliziraju dobro do nevidljivih podataka , , , . 1 2 3 4 5 Na primer, obuka detektora tumora zasnovanog na AI-u zahtijeva veliku bazu podataka koja obuhvaća ceo spektar mogućih anatomija, patologija i tipova ulaznih podataka. Čak i ako bi anonimizacija podataka mogla da zaobiđe ta ograničenja, sada je dobro razumljivo da uklanjanje metapodataka kao što su ime pacijenta ili datum rođenja često nije dovoljno za očuvanje privatnosti. Na primer, moguće je rekonstruisati lice pacijenta iz kompjutorske tomografije (CT) ili podataka magnetske rezonancije (MRI). Drugi razlog zašto deljenje podataka nije sistematsko u zdravstvenoj skrbi je da prikupljanje, kuriranje i održavanje visokokvalitetnog skupa podataka zahtijeva znatno vremena, napora i troškova. Posljedično, takvi skupi podataka mogu imati značajnu poslovnu vrijednost, čineći ih manje vjerojatno da će biti slobodno podijeljeni. Umjesto toga, prikupljači podataka često zadržavaju finu kontrolu nad podacima koje su prikupili. 6 7 8 Federalizovano učenje (FL) , , je paradigma učenja koja nastoji riješiti problem upravljanja podacima i privatnosti osposobljavanjem algoritama na zajednički način bez razmjene samih podataka. , nedavno je stekao privlačnost za aplikacije u zdravstvu , , , , , , , FL omogućava dobijanje uvidova kolaborativno, npr. u obliku modela konsenzusa, bez pomicanja podataka pacijenata izvan vatrozida institucija u kojima oni žive. Umjesto toga, proces ML se odvija lokalno u svakoj učesnici i prenose se samo karakteristike modela (npr. parametri, gradijenti) kao što je prikazano na slici. Nedavna istraživanja pokazala su da modeli obučeni od strane FL mogu postići razine performansi usporedive sa onima obučene na centralizovanim skupovima podataka i superiorne modelima koji vide samo izolovane pojedinačne institucijske podatke. , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 FL agregatni server – tipičan FL tok posla u kojem federacija nodula za obuku prima globalni model, ponavlja svoje delimično obučene modele na centralni server intermitentno za agregatizaciju, a zatim nastavlja obuku na modelu konsenzusa koji server vraća. FL peer-to-peer-alternativna formulacija FL u kojoj svaki trening čvor razmjenjuje svoje delimično obučene modele sa nekim ili svim svojim kolegama i svaki čini svoju vlastitu agregaciju. Centralizovano osposobljavanje – opći tok posla za obuku izvan FL-a u kojem web stranice koje stječu podatke doniraju svoje podatke u centralno jezero podataka iz kojeg oni i drugi mogu izvući podatke za lokalno, nezavisno osposobljavanje. a b c Uspješna implementacija FL-a mogla bi tako imati značajan potencijal za omogućavanje precizne medicine na velikoj razini, što bi rezultiralo modelima koji donose nepristrane odluke, optimalno odražavaju fiziologiju pojedinca i osjetljivi su na rijetke bolesti uz poštovanje pitanja upravljanja i privatnosti. Mi predviđamo federalizovanu budućnost za digitalno zdravlje i ovim perspektivnim dokumentom dijelimo naše konsenzusno stajalište s ciljem pružanja konteksta i detalja zajednici u vezi s prednostima i učincima FL za medicinske aplikacije (odjeljak „Medicina zasnovana na podacima zahtijeva federalizovane napore“), kao i naglašavajući ključne razmatranja i izazove implementacije FL za digitalno zdravlje (odjeljak „Tehničke razmatranja“). Medicinska medicina zasnovana na podacima zahteva federalizovane napore ML, a posebno DL, postaje de facto pristup otkrivanju znanja u mnogim industrijama, ali uspješna implementacija aplikacija zasnovanih na podacima zahtijeva velike i raznolike skupove podataka. međutim, medicinski skupovi podataka su teški za dobijanje (pododjeljak „Ovisnost o podacima“). FL rješava ovaj problem omogućavanjem kolaborativnog učenja bez centralizovanja podataka (pododjeljak „Obećanje o federalizovanim naporima“) i već je našao svoj put do digitalnih zdravstvenih aplikacija (pododjeljak „Trenutni napori FL za digitalno zdravlje“). Ovisnost o podacima Iako je to dobro poznat zahtjev, najsuvremeniji algoritmi obično se procjenjuju na pažljivo kuriranim skupovima podataka, često potječući samo iz nekoliko izvora. To može uvesti predrasude u kojima demografije (npr. spol, dob) ili tehničke neravnoteže (npr. protokola stjecanja, proizvođač opreme) iskrivljuju predviđanja i negativno utiču na točnost za određene grupe ili lokacije. Međutim, kako bi se uhvatili suptilni odnosi između obrazaca bolesti, socioekonomskih i genetskih faktora, kao i složenih i rijetkih slučajeva, ključno je izložiti model različitim slučajevima. Potreba za velikim bazama podataka za obuku AI pokrenula je mnoge inicijative koje nastoje spojiti podatke iz više institucija. Ovi podaci se često skupljaju u takozvane Data Lakes. Ove su izgrađene s ciljem iskorištavanja komercijalne vrijednosti podataka, npr. IBM-ova akvizicija Merge Healthcare , ili kao resurs za ekonomski rast i znanstveni napredak, npr. NHS Scotland's National Safe Haven Francuski zdravstveni podatkovni centar Zdravstveni podaci Research UK . 21 22 23 24 Značajne, iako manje, inicijative uključuju Human Connectome Velika Britanija Biobank Arhiva za slikanje raka (TCIA) Uslovi korišćenja CXR8 NIH DeepLesion Atlas gena raka (TCGA) Alzheimerova bolest Neuroimaging inicijativa (ADNI) , kao i veliki medicinski izazovi kao što je izazov CAMELYON Međunarodni izazov za multimodalnu segmentaciju tumora mozga (BraTS) , , Medicinska segmentacija Decathlon Javni medicinski podaci su obično specifični za zadatke ili bolesti i često se objavljuju s različitim stupnjevima ograničenja dozvola, ponekad ograničavajući njihovu eksploataciju. 25 26 27 28 29 30 31 32 33 34 35 36 37 Centralizovanje ili objavljivanje podataka, međutim, predstavlja ne samo regulatorne, etičke i pravne izazove, povezane sa privatnošću i zaštitom podataka, već i tehničke. Anonimiziranje, kontrola pristupa i bezbedan prijenos podataka o zdravstvenoj skrbi nije trivijalni, a ponekad i nemoguć zadatak. Isto vrijedi i za genomske podatke i medicinske slike koje ih čine jedinstvenim kao otisak prsta. Stoga, osim ako proces anonimizacije uništi vernost podataka, što ga vjerojatno čini beskorisnim, ponovnu identifikaciju pacijenta ili curenje informacija ne može se isključiti. pristup preko vrata za odobrene korisnike često se predlaže kao pretvarano rešenje za ovaj problem. Međutim, osim ograničavanja dostupnosti podataka, to je praktično samo za slučajeve u kojima je saglasnost koju su dali vlasnici podataka bezuslovna, jer je povlačenje podataka od onih koji su možda imali pristup podacima praktički neizvršivo. 7 38 Obećanje federalizovanih napora U FL okruženju, svaki kontrolor podataka ne samo da definira svoje vlastite procese upravljanja podacima i povezane politike privatnosti, već i kontrolira pristup podacima i ima mogućnost da ga opozove. To uključuje i obuku, kao i fazu validacije. Na taj način, FL može stvoriti nove mogućnosti, npr. omogućavanjem velike, interinstitucionalne validacije ili omogućavanjem novog istraživanja o rijetkim bolestima, gdje su stope incidenata niske, a skupovi podataka u svakoj pojedinačnoj instituciji su previše mali. Premještanje modela na podatke, a ne obrnuto, ima još jednu veliku prednost: visoke dimenzije, medicinski podaci intenzivni za skladištenje ne moraju biti duplicirani iz lokalnih institucija u centralizirani bazen i ponovno duplicirani od strane svakog korisnika koji koristi Kao što je prikazano u fig. , FL tok posla može se realizovati sa različitim topologijama i računskim planovima. Dva najčešća za aplikacije za zdravstvo su putem agregatnog servera , , i peer to peer pristupa , U svim slučajevima, FL implicitno nudi određeni stupanj privatnosti, jer učesnici FL nikada ne pristupaju direktno podacima iz drugih institucija i primaju samo parametre modela koji su agregirani preko nekoliko učesnika. U FL toku rada sa agregatnim serverom, učesnici mogu čak ostati nepoznati jedni drugima. , , , Stoga, mehanizmi kao što su diferencijalna privatnost , ili učenje iz šifrovanih podataka predloženo je kako bi se dodatno poboljšala privatnost u FL okruženju (vidjeti odjeljak „Tehnička razmatranja“). i FL tehnike su rastuće područje istraživanja , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL topologije – komunikacijska arhitektura federacije. Centralizovani: agregatni server koordinira iteracije obuke i prikuplja, agregira i distribuira modele u i iz učionica obuke (Hub & Spoke). Decentralizovana: svaki trening čvor je povezan s jednim ili više kolega i agregiranje se odvija na svakom čvoru paralelno. Hierarhički: federirane mreže mogu se sastojati od nekoliko pod-federacija, koje se mogu izgraditi iz mešavine Peer-to-Peer i Aggregation Server federacija ( FL računalne planove—trajektorija modela preko nekoliko partnera. Sekvencijalna obuka / cikličko učenje transfer. Integralni server, Za Peer to Peer. a b c d e f g Aktuelni FL napori za digitalno zdravlje Budući da je FL opća paradigma učenja koja uklanja zahteve za skupljanje podataka za razvoj modela AI, raspon aplikacija FL obuhvaća cijeli AI za zdravstvenu skrb. Pružajući priliku za hvatanje veće varijabilnosti podataka i analizu pacijenata u različitim demografijama, FL može omogućiti poremećajne inovacije za budućnost, ali se takođe koristi sada. U kontekstu elektroničke zdravstvene evidencije (EHR), na primer, FL pomaže da se predstavljaju i pronađu klinički slični pacijenti , , kao i predviđanje hospitalizacije zbog srčanih događaja , smrtnost i ICU boravak vremena Primjenjivost i prednosti FL-a takođe su demonstrirane u području medicinske slikarstva, za cjelokupnu segmentaciju mozga u MRI , kao i segmentiranje tumora mozga , Nedavno, tehnika je korišćena za fMRI klasifikaciju kako bi se pronašli pouzdani biomarkeri povezani sa bolestima. i predloženo kao obećavajući pristup u kontekstu COVID-19 . 13 47 14 19 15 16 17 18 48 Vrijedno je napomenuti da napori FL-a zahtijevaju sporazume kako bi se definisali opseg, cilj i tehnologije koje se koriste, a koje, budući da su još uvijek nove, može biti teško utvrditi. To uključuje konzorcije koji imaju za cilj da unaprede istraživanja, kao što je projekt Trustworthy Federated Data Analytics (TFDA) i zajednička platforma za slikanje Njemačkog konzorcija za rak , koji omogućuju decentralizovana istraživanja širom nemačkih istraživačkih institucija za medicinsku imaginaciju. Još jedan primjer je međunarodna istraživačka saradnja koja koristi FL za razvoj modela AI za procjenu mamografija Studija je pokazala da su modeli generisani FL-om nadmašili one obučene na podacima jednog instituta i bili su generalizabilniji, tako da su i dalje dobro funkcionisali na podacima drugih instituta. Akademski 49 50 51 Povezivanjem zdravstvenih ustanova, ne ograničavajući se na istraživačke centre, FL može imati direktnu uticaj. projekat HealthChain koji je u toku , na primjer, ima za cilj da razvije i implementira FL okvir u četiri bolnice u Francuskoj. Ovo rešenje generira zajedničke modele koji mogu predvidjeti odgovor na liječenje za rak dojke i bolesnika s melanomom. Pomaže onkologima da utvrde najučinkovitiji tretman za svakog pacijenta iz njihovih histoloških slajdova ili dermoskopskih slika. Još jedan veliki napor je inicijativa Federated Tumour Segmentation (FeTS) , koja je međunarodna federacija od 30 posvećenih zdravstvenih ustanova koristeći open-source FL okvir sa grafičkim korisničkim sučeljem. Cilj je poboljšati detekciju granice tumora, uključujući moždani gliom, tumore dojke, tumore jetre i lezije kostiju od višestrukih mielom pacijenata. Kliničke 52 53 Još jedno područje utjecaja je unutar istraživanje i prevođenje. FL omogućuje kolaborativno istraživanje čak i za konkurencijska preduzeća. U tom kontekstu, jedna od najvećih inicijativa je projekt Melloddy To je projekat kojim se nastoji implementirati multi-task FL u skupovima podataka 10 farmaceutskih kompanija. Obrazovanjem zajedničkog prediktivnog modela, koji infiltrira kako se hemijska jedinjenja vežu za proteine, partneri namjeravaju optimizovati proces otkrivanja lijekova bez otkrivanja svojih veoma vrijednih internih podataka. Industrijska 54 Uticaj na zainteresirane strane FL obuhvaća promenu paradigme iz centralizovanih jezera podataka i važno je razumjeti njen uticaj na različite dionike u FL ekosustavu. Clinicians Kliničari su obično izloženi podskupini stanovništva na osnovu njihove lokacije i demografskog okruženja, što može izazvati pristrasne pretpostavke o vjerojatnosti određenih bolesti ili njihovoj međusobnoj povezanosti. Korištenjem sistema zasnovanih na ML-u, npr. kao drugog čitatelja, oni mogu povećati svoju stručnost stručnim znanjem drugih institucija, osiguravajući dosljednost dijagnoze koja danas nije postignuta. Dok se to primjenjuje na sistem zasnovan na ML-u općenito, sistemi obučeni na federacioni način potencijalno mogu donositi još manje pristrasne odluke i veću osjetljivost na rijetke slučajeve jer su vjerojatno bili izloženi kompletnijoj distribuciji podataka. Međutim, to zahtijeva neki napori unapred, kao što je us Pacijenti Pacijenti se obično tretiraju lokalno. Uspostavljanje FL na globalnoj razini moglo bi osigurati visoku kvalitetu kliničkih odluka bez obzira na lokaciju liječenja. Posebno, pacijenti kojima je potrebna medicinska pomoć u udaljenim područjima mogli bi imati koristi od istih visokokvalitetnih ML-pomaganih dijagnoza koje su dostupne u bolnicama s velikim brojem slučajeva. Isto vrijedi i za rijetke, ili geografski neobične, bolesti, koje su vjerojatno da će imati blaže posljedice ako se mogu napraviti brže i preciznije dijagnoze. FL može takođe smanjiti prepreku za stvaranje donatora podataka, jer pacijenti mogu biti sigurni da podaci ostaju kod svoje institucije i pristup podacima može biti opozvan. Bolnice i prakse Bolnice i prakse mogu ostati u potpunoj kontroli i posedovanju svojih podataka o pacijentima sa potpunom sljedivosti pristupa podacima, ograničavajući rizik od zlouporabe od strane trećih strana. Međutim, to će zahtijevati ulaganje u on-premise računalne infrastrukture ili privatno-cloud usluga pružanja i pridržavanje standardiziranih i sinoptičkih formata podataka tako da ML modeli mogu biti obučeni i procenjeni besprijekorno. Iznos potrebne računalne sposobnosti ovisi naravno o tome da li je sajt samo učestvuje u evaluaciji i testiranju napora ili i u obuci napora. Čak i relativno male institucije mogu učestvovati i oni će i dalje imati koristi od kolektivnih modela generisanih. Istraživači i AI developeri Istraživači i programeri veštačke inteligencije imaju koristi od pristupa potencijalno velikoj zbirci podataka iz stvarnog svijeta, što će sigurno utjecati na manje istraživačke laboratorije i start-upove.Na taj način, resursi mogu biti usmjereni ka rješavanju kliničkih potreba i povezanih tehničkih problema umjesto oslanjanja na ograničenu ponudu otvorenih skupova podataka. , , FL-based razvoj takođe podrazumijeva da istraživač ili AI developer ne može istražiti ili vizualizirati sve podatke na kojima se model trenira, npr. nije moguće pogledati pojedinačni slučaj neuspeha da bi se razumjelo zašto trenutni model loše radi na njemu. 11 12 20 Dobavljači zdravstvenih usluga Healthcare providers in many countries are affected by the on-going paradigm shift from volume-based, i.e., fee-for-service-based, to value-based healthcare, which is in turn strongly connected to the successful establishment of precision medicine. This is not about promoting more expensive individualised therapies but instead about achieving better outcomes sooner through more focused treatment, thereby reducing the cost. FL has the potential to increase the accuracy and robustness of healthcare AI, while reducing costs and improving patient outcomes, and may therefore be vital to precision medicine. Proizvođači Proizvođači zdravstvenih softvera i hardvera mogli bi imati koristi od FL-a, jer kombiniranje učenja iz mnogih uređaja i aplikacija, bez otkrivanja informacija specifičnih za pacijenta, može olakšati kontinuiranu validaciju ili poboljšanje njihovih sistema zasnovanih na ML-u. Tehnička razmatranja FL je možda najpoznatiji iz rada Konečnỳ et al. , ali razne druge definicije su predložene u literaturi , , , A FL tok posla (Slika. ) može se realizovati kroz različite topologije i računalne planove (Fig. U ovom odeljku detaljnije ćemo raspravljati o tome šta je FL, kao i naglašavajući ključne izazove i tehničke razmatranja koja nastaju prilikom primjene FL u digitalnom zdravlju. 55 9 11 12 20 1 2 Definicija federalizovanog učenja FL je paradigma učenja u kojoj više strana trenira kolaborativno bez potrebe za razmjenom ili centraliziranjem skupova podataka. lokalni gubici, izračunati iz privatnih podataka , koji boravi kod pojedinih uključenih strana i nikada nije podijeljen među njima: K xk gde > 0 označava odgovarajuće koeficijente težine. Knjiga U praksi, svaki učesnik obično dobija i rafinira model globalnog konsenzusa provodeći nekoliko krugova optimizacije lokalno i prije dijeljenja ažuriranja, bilo direktno ili putem parametarskog servera. ) , Stvarni proces agregiranja parametara zavisi od mrežne topologije, jer čvorovi mogu biti segregisani u pod-mreže zbog zemljopisnih ili pravnih ograničenja (vidi Fig. ). strategije agregiranja mogu se oslanjati na jedan agregirajući čvor (hub i model govora), ili na više čvorova bez ikakve centralizacije. Primjer je peer-to-peer FL, gde veze postoje između svih ili podskupine učesnika i ažuriranja modela se dijele samo između direktno povezanih lokacija , , dok je primer centralizovane FL agregacije dat u Algoritmu 1. Napomena: strategije agregacije ne zahtijevaju nužno informacije o punom ažuriranju modela; klijenti mogu izabrati da dijele samo podskup parametara modela radi smanjenja komunikacije, osiguravajući bolje očuvanje privatnosti ili da proizvode multi-task algoritme za učenje koji imaju samo deo njihovih parametara naučeni na federiran način. 1 9 12 2 15 56 10 Ujedinjujući okvir koji omogućuje različite programe obuke može odvojiti računalne resurse (podaci i serveri) od Kao što je prikazano u fig. Potonji definira trajektoriju modela preko nekoliko partnera, koje treba obučiti i ocijeniti na specifičnim skupovima podataka. Računarski plan 2 izazovi i razmatranja Usprkos prednostima FL, ne rješava sve probleme koji su svojstveni učenju o medicinskim podacima. Ta pitanja moraju biti riješena za federalizovane i ne-federalizovane napore učenja putem odgovarajućih mera, kao što su pažljiv dizajn studija, zajednički protokoli za prikupljanje podataka, strukturirano izvješćivanje i sofisticirane metodologije za otkrivanje predrasuda i skrivene stratifikacije.U nastavku dodirujemo ključne aspekte FL-a koji su od posebne važnosti kada se primjenjuju na digitalno zdravlje i moraju biti uzeti u obzir prilikom uspostavljanja FL-a. , , . 2 11 12 20 Heterogenost podataka Medicinski podaci su posebno raznoliki – ne samo zbog raznolikosti modaliteta, dimenzionalnosti i karakteristika općenito, već čak i unutar specifičnog protokola zbog čimbenika kao što su razlike u nabavi, brend medicinskog uređaja ili lokalne demografije. FL može pomoći u rješavanju određenih izvora predrasuda kroz potencijalno povećanu raznolikost izvora podataka, ali nehomogena distribucija podataka predstavlja izazov za FL algoritme i strategije, jer mnogi pretpostavljaju nezavisno i identično raspodijeljene (IID) podatke među učesnicima. su skloni neuspjehu u ovim uvjetima , , , delimično pobeđujući samu svrhu strategija zajedničkog učenja. Nedavni rezultati, međutim, ukazuju na to da je FL obuka i dalje izvediva , čak i ako medicinski podaci nisu ravnomjerno raspodijeljeni po institucijama , ili uključuje lokalni bias Istraživanje koje se bavi ovim problemom uključuje, na primjer, Strategija deljenja podataka i FL sa prilagodbom domena Drugi izazov je da heterogenost podataka može dovesti do situacije u kojoj globalno optimalno rješenje možda nije optimalno za pojedinog lokalnog učesnika. Smeštaj 9 9 57 58 59 16 17 51 Preduzetnik 57 58 18 Privatnost i sigurnost Zdravstveni podaci su izuzetno osjetljivi i moraju biti na odgovarajući način zaštićeni, slijedeći odgovarajuće postupke povjerljivosti. stoga, neke od ključnih razmatranja su kompromisi, strategije i preostali rizici u pogledu potencijala zaštite privatnosti FL-a. Privatnost u odnosu na performanse: Važno je napomenuti da FL ne rješava sva potencijalna pitanja privatnosti i – slično ML algoritmima općenito – uvek nosi neke rizike. Međutim, postoji kompromis u pogledu performansi i ove tehnike mogu utjecati, na primjer, na točnost konačnog modela. . Furthermore, future techniques and/or ancillary data could be used to compromise a model previously considered to be low-risk. 12 10 Razina poverenja: Široko govoreći, učesnici mogu ući u dvije vrste FL saradnje: – za FL konzorcije u kojima se sve strane smatraju pouzdanim i vezanim izvršivim sporazumom o saradnji, možemo eliminisati mnoge od više nepovoljnih motivacija, kao što su namjerni pokušaji da se izvuku osetljive informacije ili da se namjerno korumpira model. Poverenje U FL sistemima koji rade na većim razmjerima, može biti nepraktično uspostaviti izvršivi sporazum o saradnji. Neki klijenti mogu namjerno pokušati da degradiraju performanse, spuste sistem ili izvuku informacije od drugih strana. Stoga će biti potrebne bezbednosne strategije za ublažavanje tih rizika, kao što su napredna enkripcija podnošenja modela, sigurna autentifikacija svih strana, sljedivost akcija, diferencijalna privatnost, sistemi verifikacije, integritet izvršenja, povjerljivost modela i zaštita od protivničkih napada. Nepoverenje Ulazak informacija: Po definiciji, FL sustavi izbegavaju deljenje podataka o zdravstvenoj zaštiti među učesnicima. međutim, deljene informacije mogu i dalje indirektno izložiti privatne podatke koji se koriste za lokalnu obuku, npr. modelom inverzije od modela ažuriranja, sami gradijenti ili protivničke napade , FL se razlikuje od tradicionalne obuke u tome što je proces obuke izložen više strana, čime se povećava rizik od curenja putem reverznog inženjeringa ako protivnici mogu promatrati promene modela tijekom vremena, promatrati specifične ažuriranja modela (tj. ažuriranje jedne institucije), ili manipulirati modelom (npr. inducirati dodatnu memorizaciju od strane drugih kroz gradient-ascent-style napade). , i osiguravanje odgovarajuće diferencirane privatnosti , može biti potrebno i još uvijek je aktivno područje istraživanja . 60 61 62 63 16 18 44 12 Tracibilnost i odgovornost Kao i kod svih sigurnosno-kritičnih aplikacija, reproduktivnost sistema je važna za FL u zdravstvenoj skrbi. Za razliku od centralizovanog obuke, FL zahtijeva višestruko računanje u okruženjima koja pokazuju znatnu raznolikost u pogledu hardvera, softvera i mreža. Sledljivost svih sistemskih sredstava uključujući istoriju pristupa podacima, konfiguracije obuke i hiperparametarsko podešavanje kroz procese obuke je stoga obavezna. Posebno u ne-pouzdanim federacijama, sljedivost i procesi odgovornosti zahtijevaju integritet izvršenja. Nakon što proces obuke dostigne uzajamno dogovorene kriterijume za optimizaciju modela, može biti korisno i mjeriti iznos doprinosa svakog učesnika, kao što su računarski resur Jedan implikacija FL-a je da istraživači nisu u stanju da istraže podatke na kojima se modeli obučavaju kako bi osmislili neočekivane rezultate. Štoviše, uzimanje statističkih mjerenja njihovih podataka o obuci kao dijela tokova rada za razvoj modela morat će biti odobreno od strane saradnika kao da ne krše privatnost. Iako će svaka lokacija imati pristup vlastitim sirovim podacima, federacije mogu odlučiti da pruže neku vrstu bezbednog unutar čvorova za pregledavanje kako bi zadovoljile tu potrebu ili mogu pružiti neki drugi način da povećaju objašnjavajuću i tumačivost globalnog modela. 64 System architecture Za razliku od vođenja velikih FL među potrošačkim uređajima kao što su McMahan et al. , zdravstvenih ustanova učesnici su opremljeni s relativno snažnim računalne resurse i pouzdane, veće prodajne mreže koje omogućuju obuku većih modela sa mnogo više lokalnih koraka obuke, i dijeljenje više modela informacije između čvorova. Ove jedinstvene karakteristike FL u zdravstvu također donose izazove kao što su osiguravanje integriteta podataka prilikom komunikacije pomoću redundantnih čvorova, dizajn bezbedne metode šifriranja da se spriječi curenje podataka, ili dizajn odgovarajuće čvor rasporedi kako bi se najbolje iskoristiti distribuirane računalne uređaje i smanjiti slobodno vrijeme. 9 Administracija takve federacije može se realizovati na različite načine. U situacijama koje zahtijevaju najstrožu privatnost podataka između stranaka, obuka može raditi preko nekog tipa "poštenog brokera" sistema, u kojem pouzdana treća strana djeluje kao posrednik i olakšava pristup podacima. Ova konfiguracija zahtijeva nezavisnu entitetu koja kontrolira cjelokupni sistem, što možda nije uvek poželjno, jer može uključivati dodatne troškove i proceduralnu viskoznost. Međutim, ima prednost da se precizni interni mehanizmi mogu odvojiti od klijenata, čineći sistem agilnijim i jednostavnijim za ažuriranje. U sistemu peer-to-peer svaki sajt direktno komunicira s nekim ili svim drugim učesnicima. Drugim rečima Zaključak ML, a naročito DL, dovela je do širokog spektra inovacija u području digitalne zdravstvene zaštite. Budući da sve metode ML imaju veliku korist od mogućnosti pristupa podacima koji se približavaju istinskoj globalnoj distribuciji, FL je obećavajući pristup za dobijanje moćnih, preciznih, sigurnih, robustnih i nepristrasnih modela. Omogućavanjem više strana da treniraju kolaborativno bez potrebe za razmjenom ili centraliziranjem skupova podataka, FL uredno rješava probleme vezane za izlazak osetljivih medicinskih podataka. Kao rezultat, može otvoriti nove istraživačke i poslovne putove i ima potencijal za poboljšanje skrbi za pacijente globalno. Međutim, već danas, FL ima utjecaj na gotovo sve dionike i čitav ciklus liječenja, od poboljšane Unatoč tome, mi stvarno vjerujemo da je njegov potencijalni utjecaj na preciznu medicinu i na kraju poboljšanje medicinske skrbi vrlo obećavajuće. 12 Izvješće sažetak Dodatne informacije o dizajnu istraživanja dostupne su u Povezano sa ovim člankom. Izvješće o istraživanju prirode Referencije LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning Priznanja This work was supported by the UK Research and Innovation London Medical Imaging & Artificial Intelligence Centre for Value-Based Healthcare, by the Wellcome/EPSRC Centre for Medical Engineering (WT203148/Z/16/Z), by the Wellcome Flagship Programme (WT213038/Z/18/Z), by the Intramural Research Programme of the National Institutes of Health (NIH) Clinical Center, by the National Cancer Institute of the NIH under award number U01CA242871, by the National Institute of Neurological Disorders and Stroke of the NIH under award number R01NS042645, as well as by the Helmholtz Initiative and Networking Fund (project “Trustworthy Federated Data Analytics”) and the PRIME programme of the German Academic Exchange Service (DAAD) with funds from the German Federal Ministry of Education and Research (BMBF). The content and opinions expressed in this publication is solely the responsibility of the authors and do not necessarily represent those of the institutions they are affiliated with, e.g., the U.S. Department of Health and Human Services or the National Institutes of Health. Open access funding provided by Projekt DEAL. Ovaj članak je dostupan u prirodi pod licencom CC by 4.0 Deed (Attribution 4.0 International). Ovaj papir je pod licencom CC by 4.0 Deed (Attribution 4.0 International). Dostupan u prirodi