Kirjoittajat : Niko Riekko Pääosat Jonny Hancox Ylpeä Li Fausto Milletari Pääosat Holger R. Roth Shadi Albarqouni Spyridon Bakas Pääosat Mathieu N. Galtier Pääosat Bennett A. Landman Pääosat Klaus Maier-Hein Sébastien Ourselin Mikkeli Sheller Pääosat Ronald M. Summers Ruotsalainen Trask Jääkiekko Xu Maksimilainen Baust Edeltäjä Jorge Cardoso Kirjoittajat : Niko Riekko Pääosat Jonny Hancox Ylpeä Li Fausto Milletari Pääosat Holger R. Roth Shadi Albarqouni Spyridon Bakas Pääosat Mathieu N. Galtier Pääosat Bennett A. Landman Pääosat Klaus Maier-Hein Sébastien Ourselin Mikkeli Sheller Pääosat Ronald M. Summers Ruotsalainen Trask Jääkiekko Xu Maksimilainen Baust Edeltäjä Jorge Cardoso abstrakti Tietopohjainen koneoppiminen (ML) on noussut lupaavaksi lähestymistavaksi rakentaa tarkkoja ja vankkoja tilastollisia malleja lääketieteellisistä tiedoista, joita nykyaikaiset terveydenhuoltojärjestelmät keräävät valtavassa määrin. Nykyisiä lääketieteellisiä tietoja ML ei hyödynnä täysimääräisesti ensisijaisesti siksi, että se sijaitsee tietosiloissa ja yksityisyyden huolenaiheet rajoittavat pääsyä näihin tietoihin. Kuitenkin ilman pääsyä riittäviin tietoihin ML estetään saavuttamasta täyttä potentiaaliaan ja lopulta siirtymästä tutkimuksesta kliiniseen käytäntöön. Johdatus Tutkimus keinotekoisesta älykkyydestä (AI) ja erityisesti koneen oppimisen (ML) ja syvän oppimisen (DL) edistymisestä Nykyaikaiset DL-mallit sisältävät miljoonia parametreja, jotka on opittava riittävän suurista kuroiduista tietokokonaisuuksista kliinisen tason tarkkuuden saavuttamiseksi, samalla kun ne ovat turvallisia, oikeudenmukaisia, tasapuolisia ja yleistävät hyvin näkymättömiin tietoihin. , , , . 1 2 3 4 5 Esimerkiksi AI-pohjaisen kasvainten havaitsijan kouluttaminen vaatii suuren tietokannan, joka kattaa koko mahdollisten anatomioiden, patologioiden ja syöttötietotyyppien spektrin. Vaikka tietojen anonymisointi voisi ohittaa nämä rajoitukset, on nyt hyvin ymmärretty, että metatietojen, kuten potilaan nimen tai syntymäajan, poistaminen ei useinkaan riitä yksityisyyden säilyttämiseen. On esimerkiksi mahdollista rekonstruoida potilaan kasvot laskennallisesta tomografiasta (CT) tai magneettikuvauksesta (MRI) Toinen syy siihen, miksi tietojen jakaminen ei ole järjestelmällistä terveydenhuollossa, on se, että laadukkaan tietokokonaisuuden kerääminen, korjaaminen ja ylläpito vie huomattavaa aikaa, vaivaa ja kustannuksia. 6 7 8 Liittoutunut oppiminen (FL) , , on oppimisen paradigma, joka pyrkii käsittelemään tietohallinnon ja yksityisyyden ongelmaa kouluttamalla algoritmeja yhteistyössä vaihtamatta itse tietoja. , se on äskettäin saanut vetovoimaa terveydenhuollon sovelluksiin , , , , , , , FL mahdollistaa näkemysten hankkimisen yhteistyössä, esim. konsensusmallin muodossa, siirtämättä potilastietoja niiden laitosten palomuurien ulkopuolelle, joissa he asuvat. Sen sijaan ML-prosessi tapahtuu paikallisesti jokaisessa osallistuvassa laitoksessa ja vain mallin ominaisuudet (esim. parametrit, gradientit) siirretään kuvassa kuvatulla tavalla. Viimeaikaiset tutkimukset ovat osoittaneet, että FL: n kouluttamat mallit voivat saavuttaa suorituskyvyn tasot, jotka ovat verrattavissa keskitetysti isännöityjen tietokokonaisuuksien kouluttamiin malleihin ja parempia kuin mallit, jotka näkevät vain yksittäisiä yksittäisiä institutionaalisia tietoja. , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 FL-aggregointipalvelin – tyypillinen FL-työnkulku, jossa koulutusyksiköiden liitto vastaanottaa globaalin mallin, lähettää osittain koulutetut mallinsa keskuspalvelimeen vähitellen aggregointia varten ja jatkaa sitten koulutusta konsensusmallista, jonka palvelin palauttaa. FL peer to peer - vaihtoehtoinen muotoilu FL, jossa jokainen koulutus solmu vaihtaa osittain koulutettuja malleja joidenkin tai kaikkien kollegoidensa kanssa ja jokainen tekee oman aggregaationsa. Keskitetty koulutus – yleinen ei-FL-koulutustyönkulku, jossa tietojen hankkimispaikat lahjoittavat tietonsa keskitettyyn Data Lakeen, josta he ja muut voivat poimia tietoja paikalliseen, itsenäiseen koulutukseen. a b c FL:n onnistuneella toteuttamisella voi siten olla merkittävä potentiaali mahdollistaa tarkkuuslääketieteen laajamittainen käyttöönotto, mikä johtaa malleihin, jotka tuottavat puolueettomia päätöksiä, heijastavat optimaalisesti yksilön fysiologiaa ja ovat herkkiä harvinaisille sairauksille kunnioittaen kuitenkin hallintoa ja yksityisyyttä koskevia huolenaiheita. Näemme digitaalisen terveyden yhdistetyn tulevaisuuden, ja tämän perspektiivikirjan avulla jaamme yhteisymmärryksemme, jonka tavoitteena on tarjota yhteisölle asiayhteys ja yksityiskohdat FL: n hyödyistä ja vaikutuksista lääketieteellisiin sovelluksiin (osa "Data-pohjainen lääketiede vaatii yhdistettyjä ponnisteluja"), sekä korostaa FL: n toteuttamisen keskeisiä näkökohtia ja haasteita digitaalisen terveydenhuollon kannalta (osa "Tekniset näkökohdat"). Tietopohjainen lääketiede vaatii liittovaltion ponnisteluja ML:stä ja erityisesti DL:stä on tulossa tosiasiallinen lähestymistapa tiedon löytämiseen monilla toimialoilla, mutta menestyksekäs tietopohjaisten sovellusten toteuttaminen edellyttää suuria ja monipuolisia tietokokonaisuuksia. kuitenkin lääketieteellisten tietokokonaisuuksien hankkiminen on vaikeaa (alakohta ”Tietoihin perustuva riippuvuus”). FL käsittelee tätä ongelmaa mahdollistamalla yhteistoiminnallinen oppiminen ilman tietojen keskittämistä (alakohta ”Liittyneiden ponnistusten lupaus”) ja on jo löytänyt tiensä digitaalisiin terveydenhuollon sovelluksiin (alakohta ”Nykyiset FL:n ponnistukset digitaaliterveydelle”). Riippuvuus tiedoista Tietopohjaiset lähestymistavat luottavat tietoihin, jotka todella edustavat ongelman taustalla olevaa tietojen jakautumista. Vaikka tämä on tunnettu vaatimus, huippuluokan algoritmeja arvioidaan yleensä huolellisesti valituilla tietokokonaisuuksilla, jotka ovat usein peräisin vain muutamasta lähteestä. Tämä voi johtaa ennakkoluuloihin, joissa väestötiedot (esim. sukupuoli, ikä) tai tekniset epätasapainot (esim. hankintaprotokolla, laitevalmistaja) vääristävät ennusteita ja vaikuttavat haitallisesti tiettyjen ryhmien tai sivustojen tarkkuuteen. Suurten tietokantojen tarve tekoälyn koulutukseen on synnyttänyt monia aloitteita, jotka pyrkivät yhdistämään tietoja useilta instituutioilta.Nämä tiedot kootaan usein ns. Data Lakesiksi.Nämä on rakennettu tavoitteena hyödyntää joko tietojen kaupallista arvoa, esim. IBM:n Merge Healthcare -osto , tai talouskasvun ja tieteellisen kehityksen resurssina, esim. NHS:n Skotlannin kansallinen turvallinen satama Ranskan terveydenhuollon data hub , ja Health Data Research UK . 21 22 23 24 Merkittäviä, vaikkakin pienempiä, aloitteita ovat Human Connectome Yhdistyneen kuningaskunnan biopankki Syöpäkuvausarkisto (Cancer Imaging Archive, TCIA) , NIH CXR8 NIH DeepLäsion Syöpägenomin atlas (Cancer Genome Atlas) Alzheimerin taudin neuroimaging -aloite (ADNI) Myös lääketieteelliset haasteet Camelionin haasteet International Multimodal Brain Tumor Segmentation (BraTS) -haaste , , Lääketieteellinen segmentointi Decathlon Julkiset lääketieteelliset tiedot ovat yleensä tehtävä- tai tauti-spesifisiä ja usein vapautettuja erilaisilla lisenssisäännöksillä, jotka joskus rajoittavat niiden hyödyntämistä. 25 26 27 28 29 30 31 32 33 34 35 36 37 Tietojen keskittäminen tai julkaiseminen ei kuitenkaan aiheuta pelkästään sääntelyyn, etiikkaan ja lainsäädäntöön liittyviä haasteita, jotka liittyvät yksityisyyteen ja tietosuojaan, vaan myös teknisiä. Anonyymisointi, pääsyn hallinta ja terveydenhuollon tietojen turvallinen siirto on ei-triviaali, ja joskus mahdoton tehtävä. Sama koskee genomitietoja ja lääketieteellisiä kuvia, jotka tekevät niistä yhtä ainutlaatuisia kuin sormenjäljet. Siksi potilaan uudelleen tunnistamista tai tietojen vuotamista ei voida sulkea pois, ellei anonymisointiprosessi tuhota tietojen uskollisuutta, mikä todennäköisesti tekee niistä hyödyttömiä.Voimapääsy hyväksytyille käyttäjille ehdotetaan usein oletetuksi ratkaisuksi tähän ongelmaan.Tietojen saatavuuden rajoittamisen lisäksi tämä on kuitenkin käytännöllistä vain tapauksissa, joissa tietojen haltijoiden antama suostumus on ehdoton, koska tietojen palauttaminen niiltä, joilla on mahdollisesti ollut pääsy tietoihin, on käytännössä mahdotonta. 7 38 Lupaus liittovaltion pyrkimyksistä FL:n lupaus on yksinkertainen – käsitellä yksityisyyden suojaa ja tietohallintoa koskevia haasteita mahdollistamalla ML ei-ko-paikannettujen tietojen avulla. FL-asetuksessa jokainen rekisterinpitäjä ei ainoastaan määrittele omia hallintoprosessejaan ja niihin liittyviä tietosuojakäytäntöjä, vaan myös hallitsee tietojen käyttöoikeutta ja pystyy peruuttamaan sen. Tähän sisältyy sekä koulutus että validointivaihe. Tällä tavoin FL voisi luoda uusia mahdollisuuksia, esimerkiksi sallimalla laajamittaisen, institutionaalisen validoinnin tai mahdollistamalla harvinaisia sairauksia koskevan uuden tutkimuksen, jossa tapahtumien määrä on alhainen ja kussakin laitoksessa olevat tietokokonaisuudet ovat liian pieniä. Mallin siirtäminen tietoihin eikä päinvasto Kuten kuvassa kuvataan. , FL-työnkulku voidaan toteuttaa eri topologioilla ja laskentasuunnitelmilla. Kaksi yleisintä terveydenhuollon sovelluksissa ovat aggregointipalvelimen kautta , , Peer to Peer lähestyy , Kaikissa tapauksissa FL tarjoaa implisiittisesti tietynlaista yksityisyyttä, koska FL-osallistujat eivät koskaan pääse suoraan muiden instituutioiden tietoihin ja saavat vain malliparametreja, jotka on koottu yhteen useiden osallistujien välillä. FL-työnkulussa, jossa on koota palvelin, osallistuvat instituutiot voivat jopa jäädä tuntemattomiksi toisilleen. , , , Näin ollen mekanismit, kuten erilainen yksityisyys , salattujen tietojen oppimista on ehdotettu lisäämään yksityisyyttä FL:ssä (ks. kohta ”Tekniset näkökohdat”). ja FL-tekniikat ovat kasvava tutkimusalue , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL topologies — viestinnän arkkitehtuuri liittovaltion. Keskitetty: Aggregation-palvelin koordinoi koulutuksen iteraatioita ja kerää, aggregoi ja jakaa malleja koulutuksen solmuihin (Hub & Spoke). Hajautettu: Jokainen koulutus solmu on kytketty yhteen tai useampaan vertaisryhmään ja aggregaatio tapahtuu jokaisella solmulla rinnakkain. Jäsenvaltioiden väliset yhteydet voivat muodostua eri alaryhmistä, jotka voidaan rakentaa yhdistelmästä Peer-to-Peer- ja Aggregation Server -liittymien välillä ( FL-laskennalliset suunnitelmat – yhden mallin polku useiden kumppaneiden välillä. Sekvenssiopetus / syklinen siirtooppiminen. yhdistävät palvelimet, Peer on peer. a b c d e f g Nykyiset FL: n toimet digitaalisen terveydenhuollon alalla Koska FL on yleinen oppimisen paradigma, joka poistaa AI-mallin kehittämisen datayhdistämisvaatimuksen, FL: n sovellusvalikoima kattaa koko terveydenhuollon AI: n. Tarjoamalla mahdollisuuden kerätä suurempia tietojen vaihtelevuutta ja analysoida potilaita eri väestörakenteissa, FL voi mahdollistaa häiritseviä innovaatioita tulevaisuudessa, mutta sitä käytetään myös nyt. Esimerkiksi sähköisten terveystietojen (EHR) yhteydessä FL auttaa edustamaan ja löytämään kliinisesti samanlaisia potilaita. , , sekä ennustaa sairaalahoitoja sydäntapahtumien vuoksi Kuolleisuus ja ICU oleskeluaika FL: n sovellettavuus ja edut on osoitettu myös lääketieteellisen kuvantamisen alalla, koko aivojen segmentoinnissa MRI: ssä , sekä aivokasvaimen segmentointi , Viime aikoina tekniikkaa on käytetty fMRI-luokitukseen luotettavien sairauksiin liittyvien biomarkkerien löytämiseksi. ja ehdotettu lupaavaksi lähestymistavaksi COVID-19:n yhteydessä . 13 47 14 19 15 16 17 18 48 On syytä huomata, että FL:n pyrkimykset edellyttävät sopimuksia, joilla määritellään soveltamisala, tavoite ja käytetyt teknologiat, joita, koska ne ovat vielä uusia, voi olla vaikea määritellä. Näihin kuuluvat konsortiot, joilla pyritään edistämään Tutkimus, kuten Trustworthy Federated Data Analytics (TFDA) -hanke and the German Cancer Consortium’s Joint Imaging Platform , jotka mahdollistavat hajautetun tutkimuksen Saksan lääketieteellisen kuvantamisen tutkimuslaitoksissa.Toinen esimerkki on kansainvälinen tutkimusyhteistyö, jossa käytetään FL:tä AI-mallien kehittämiseen mammografian arvioimiseksi Tutkimus osoitti, että FL: n tuottamat mallit ylitsivät yksittäisen instituutin tietojen perusteella koulutettujen mallit ja olivat yleistettävissä, joten ne toimivat edelleen hyvin muiden instituutioiden tietojen osalta. Akateeminen 49 50 51 Yhdistämällä terveydenhuollon laitokset, jotka eivät rajoitu tutkimuskeskuksiin, FL voi Käynnissä oleva HealthChain -projekti , esimerkiksi tavoitteena on kehittää ja ottaa käyttöön FL-kehys neljässä sairaalassa Ranskassa. Tämä ratkaisu tuottaa yhteisiä malleja, jotka voivat ennustaa rintasyövän ja melanooman potilaiden hoidon vastausta. Se auttaa onkologeja määrittämään tehokkaimman hoidon kullekin potilaalle heidän histologian liukuista tai dermoskopiakuvauksista. Toinen laajamittainen ponnistus on Federated Tumour Segmentation (FeTS) -aloite , joka on 30 sitoutuneen terveydenhuollon laitoksen kansainvälinen liitto, joka käyttää avoimen lähdekoodin FL-kehystä, jossa on graafinen käyttöliittymä. Tavoitteena on parantaa kasvaimen raja-aineiden havaitsemista, mukaan lukien aivojen glioma, rintasyövät, maksan kasvaimet ja luun vaurioita useilta myelooma-potilailta. Kliininen 52 53 Toinen vaikutuspiiri on sisällä tutkimus ja käännös. FL mahdollistaa yhteistyötutkimuksen jopa kilpaileville yrityksille. Tässä yhteydessä yksi suurimmista aloitteista on Melloddy-hanke Se on hanke, jonka tavoitteena on ottaa käyttöön useita tehtäviä käsittelevä FL 10 farmaseuttisen yrityksen tietokannoissa.Kouluttamalla yhteisen ennakoivan mallin, joka johtaa siihen, miten kemialliset yhdisteet sitoutuvat proteiineihin, kumppanit aikovat optimoida huumeiden löytämisprosessin paljastamatta erittäin arvokkaita sisäisiä tietojaan. teollisuus 54 Vaikutus sidosryhmiin FL käsittää paradigmanvaihdoksen keskitetyistä datajärvistä, ja on tärkeää ymmärtää sen vaikutus FL-ekosysteemin eri sidosryhmiin. Kliiniset Lääkärit altistuvat yleensä väestön alaryhmälle sijaintinsa ja väestöympäristönsä perusteella, mikä voi aiheuttaa ennakkoluuloisia oletuksia tiettyjen sairauksien todennäköisyydestä tai niiden yhteydestä. Käyttämällä ML-pohjaisia järjestelmiä, esim. Toisena lukijana, he voivat lisätä omaa asiantuntemustaan muiden instituutioiden asiantuntemuksella, mikä takaa diagnoosin johdonmukaisuuden, jota ei voida saavuttaa nykyään. Vaikka tämä koskee ML-pohjaista järjestelmää yleensä, liittovalmiit järjestelmät pystyvät mahdollisesti tuottamaan vielä vähemmän ennakkoluuloisia päätöksiä ja suurempaa herkkyyttä harvinaisissa tapauksissa, koska ne todennäköisesti altistuvat täydellisemmälle tietojen jakelulle. Potilaat Potilaita hoidetaan yleensä paikallisesti. FL: n perustaminen maailmanlaajuisesti voisi varmistaa korkealaatuiset kliiniset päätökset hoidon sijainnista riippumatta. Erityisesti potilaat, jotka tarvitsevat lääketieteellistä hoitoa syrjäisillä alueilla, voisivat hyötyä samoista korkealaatuisista ML-avustetuista diagnooseista, jotka ovat saatavilla sairaaloissa, joissa on suuri määrä tapauksia. Sama pätee harvinaisiin tai maantieteellisesti epätavallisiin sairauksiin, joilla on todennäköisesti lievempiä seurauksia, jos nopeampia ja tarkempia diagnooseja voidaan tehdä. FL voi myös vähentää esteitä tietojen luovuttajaksi, koska potilaat voivat olla varmoja siitä, että tiedot pysyvät omassa laitoksessaan ja tietojen saatavuus voidaan peruuttaa. Sairaalat ja käytännöt Sairaalat ja käytännöt voivat pysyä potilastietojensa täydellisessä hallinnassa ja hallinnassa tietojen täydellisellä jäljitettävyydellä, mikä rajoittaa kolmansien osapuolten väärinkäytön riskiä. Tämä edellyttää kuitenkin investointeja paikalliseen tietojenkäsittelyinfrastruktuuriin tai yksityisen pilvipalvelun tarjoamiseen sekä standardoitujen ja synoptisien datamuotojen noudattamiseen, jotta ML-malleja voidaan kouluttaa ja arvioida saumattomasti. Tarvittavan laskentakyvyn määrä riippuu tietysti siitä, osallistuuko sivusto vain arviointiin ja testaukseen vai myös koulutukseen. Tutkijat ja kehittäjät Tutkijat ja tekoälyn kehittäjät hyötyvät mahdollisesti valtavasta reaaliaikaisten tietojen kokoelmasta, joka varmasti vaikuttaa pienempiin tutkimuslaboratorioihin ja startup-yrityksiin. Näin ollen resursseja voidaan ohjata kliinisten tarpeiden ja niihin liittyvien teknisten ongelmien ratkaisemiseen sen sijaan, että luotettaisiin rajoitettuun avoimien tietokokonaisuuksien tarjontaan. , , FL-pohjainen kehitys merkitsee myös sitä, että tutkija tai AI-kehittäjä ei voi tutkia tai visualisoida kaikkia tietoja, joihin malli on koulutettu, esimerkiksi ei ole mahdollista tarkastella yksittäistä epäonnistumistapausta ymmärtääkseen, miksi nykyinen malli toimii huonosti siinä. 11 12 20 Terveydenhuollon tarjoajat Monissa maissa terveydenhuollon tarjoajat ovat vaikuttaneet jatkuvaan paradigman muutokseen volyymipohjaisesta eli palvelumaksupohjaisesta terveydenhuollosta arvopohjaiseen terveydenhuoltoon, joka puolestaan liittyy voimakkaasti tarkkuuslääketieteen onnistuneeseen perustamiseen. Tämä ei koske kalliimpien yksilöllisten hoitojen edistämistä vaan pikemminkin parempien tulosten saavuttamista nopeammin keskittyneemmällä hoidolla, mikä vähentää kustannuksia. Valmistajat Terveydenhuollon ohjelmistojen ja laitteistojen valmistajat voisivat hyötyä myös FL: stä, koska yhdistämällä oppiminen monista laitteista ja sovelluksista ilman potilaskohtaisten tietojen paljastamista voi helpottaa ML-pohjaisten järjestelmien jatkuvaa validointia tai parantamista. Tekniset näkökohdat FL tunnetaan ehkä parhaiten Konečnỳ et al:n työstä. Kirjallisuudessa on esitetty useita muita määritelmiä. , , , A FL Workflow (Fig. ) voidaan toteuttaa eri topologioiden ja laskennallisten suunnitelmien kautta (kuva. Tässä osassa käsittelemme tarkemmin, mitä FL on, sekä korostamme tärkeimpiä haasteita ja teknisiä näkökohtia, jotka syntyvät FL:n soveltamisessa digitaaliterveyteen. 55 9 11 12 20 1 2 Liittovaltion oppimisen määritelmä FL on oppimisen paradigma, jossa useat osapuolet harjoittelevat yhteistyössä ilman tarvetta vaihtaa tai keskittää tietokokonaisuuksia. paikalliset tappiot, laskettu yksityisistä tiedoista , which is residing at the individual involved parties and never shared among them: K xk Missä > 0 tarkoittaa vastaavia painokertoimia. vk Käytännössä jokainen osallistuja saa tyypillisesti ja hienosäätää maailmanlaajuisen konsensusmallin suorittamalla muutamia optimointikierroksia paikallisesti ja ennen päivitysten jakamista joko suoraan tai parametrien palvelimen kautta. ) , Todellinen prosessi parametrien yhdistämiseksi riippuu verkon topologiasta, koska solmut voidaan erottaa aliverkoiksi maantieteellisten tai oikeudellisten rajoitusten vuoksi (ks. Aggregaatiostrategiat voivat luottaa yksittäiseen aggregaattoriin (hub- ja puhemallien mallit) tai useisiin solmukoihin ilman keskittämistä.Esimerkki on peer-to-peer FL, jossa yhteydet ovat olemassa kaikkien tai osanottajien välillä ja mallin päivitykset jaetaan vain suoraan yhdistettyjen sivustojen välillä. , , whereas an example of centralised FL aggregation is given in Algorithm 1. Note that aggregation strategies do not necessarily require information about the full model update; clients might chose to share only a subset of the model parameters for the sake of reducing communication overhead, ensure better privacy preservation tai tuottaa monitehtävien oppimisalgoritmeja, joissa vain osa niiden parametreista on opittu liittyneellä tavalla. 1 9 12 2 15 56 10 Yhtenäinen kehys, joka mahdollistaa erilaiset koulutusjärjestelmät, voi irrottaa laskennalliset resurssit (tiedot ja palvelimet) Kuten kuvassa kuvataan. Jälkimmäinen määrittelee mallin polun useiden kumppaneiden välillä, joita koulutetaan ja arvioidaan tietyillä tietokokonaisuuksilla. Tietokoneohjelma 2 Haasteet ja pohdinnat FL:n eduista huolimatta se ei ratkaise kaikkia ongelmia, jotka liittyvät lääketieteellisten tietojen oppimiseen.Menestyksekäs mallikoulutus riippuu edelleen tekijöistä, kuten tietojen laadusta, puolueellisuudesta ja standardoinnista . These issues have to be solved for both federated and non-federated learning efforts via appropriate measures, such as careful study design, common protocols for data acquisition, structured reporting and sophisticated methodologies for discovering bias and hidden stratification. In the following, we touch upon the key aspects of FL that are of particular relevance when applied to digital health and need to be taken into account when establishing FL. For technical details and in-depth discussion, we refer the reader to recent surveys , , . 2 11 12 20 Tietojen heterogeenisuus Lääketieteelliset tiedot ovat erityisen monipuolisia – ei pelkästään eri muotojen, ulottuvuuksien ja ominaisuuksien vuoksi yleensä, vaan myös tietyn protokollan sisällä esimerkiksi hankintaerojen, lääketieteellisen laitteen tuotemerkin tai paikallisten väestötietojen vuoksi. FL voi auttaa ratkaisemaan tiettyjä ennakkoluuloja tietolähteiden mahdollisesti lisääntyneen monimuotoisuuden kautta, mutta epätasainen tietojen jakautuminen asettaa haasteen FL-algoritmeille ja -strategioille, koska monet ottavat mukaan itsenäisesti ja identtisesti jakautuneita (IID) tietoja osallistujien välillä. on altis epäonnistumiselle näissä olosuhteissa , , , osittain voittaen yhteistoiminnallisten oppimisstrategioiden tarkoituksen.Viimeaikaiset tulokset kuitenkin osoittavat, että FL-koulutus on edelleen toteutettavissa , vaikka lääketieteellisiä tietoja ei jaeta yhtenäisesti toimielinten välillä , or includes a local bias Tätä ongelmaa käsitteleviä tutkimuksia ovat esimerkiksi Osa-tietojen jakamisstrategia ja FL verkkotunnuksen mukauttamisella Toinen haaste on, että tietojen heterogeenisuus voi johtaa tilanteeseen, jossa maailmanlaajuinen optimaalinen ratkaisu ei ehkä ole optimaalinen yksittäiselle paikalliselle osallistujalle. Säästäminen 9 9 57 58 59 16 17 51 Feduxiä 57 58 18 Privacy and security Healthcare data is highly sensitive and must be protected accordingly, following appropriate confidentiality procedures. Therefore, some of the key considerations are the trade-offs, strategies and remaining risks regarding the privacy-preserving potential of FL. Yksityisyys vs. suorituskyky: On tärkeää huomata, että FL ei ratkaise kaikkia mahdollisia tietosuojakysymyksiä ja – kuten ML-algoritmit yleensä – aiheuttaa aina joitakin riskejä. . However, there is a trade-off in terms of performance and these techniques may affect, for example, the accuracy of the final model Lisäksi tulevia tekniikoita ja/tai liitännäisiä tietoja voitaisiin käyttää vaarantamaan aikaisemmin matalan riskin mallia. 12 10 Luottamustaso: Yleisesti ottaen osallistuvat osapuolet voivat liittyä kahdenlaiseen FL-yhteistyöhön: – FL-konsortioiden osalta, joissa kaikkia osapuolia pidetään luotettavina ja joita sitoo täytäntöönpanokelpoinen yhteistyösopimus, voimme poistaa monia haitallisempia motiiveja, kuten tarkoitukselliset yritykset poimia arkaluonteisia tietoja tai tahallisesti pilata mallia. luotettava Joissakin FL-järjestelmissä, jotka toimivat suuremmissa mittakaavoissa, voi olla epäkäytännöllistä luoda täytäntöönpanokelpoinen yhteistyösopimus. Jotkut asiakkaat saattavat tahallisesti yrittää heikentää suorituskykyä, vähentää järjestelmää tai poimia tietoja muista osapuolista. Sen vuoksi vaaditaan turvallisuusstrategioita näiden riskien lieventämiseksi, kuten edistyksellinen mallin lähetysten salaus, kaikkien osapuolten turvallinen todentaminen, toimien jäljitettävyys, erilainen yksityisyys, todentamisjärjestelmät, toimeenpanon eheys, mallin luottamuksellisuus ja suoja vastustajan hyökkäyksiä vastaan. Epäluotettava Tietojen vuotaminen: FL-järjestelmät välttävät määritelmän mukaan terveydenhuollon tietojen jakamista osallistuvien laitosten välillä. Päivityksiä päivitetään, ja itsestään tai vastustavia hyökkäyksiä , FL eroaa perinteisestä koulutuksesta siinä määrin, että koulutusprosessi altistuu useille osapuolille, mikä lisää reverse-engineeringin kautta tapahtuvan vuotojen riskiä, jos vastustajat voivat havaita mallin muutoksia ajan myötä, tarkkailla tiettyjä mallin päivityksiä (eli yhden laitoksen päivitystä) tai manipuloida mallia (esim. induce additional memorization by others through gradient-ascent-style attacks). , ja riittävän erilaisen yksityisyyden varmistaminen , saattaa olla tarpeen ja on edelleen aktiivinen tutkimusalue . 60 61 62 63 16 18 44 12 Jäljitettävyys ja vastuullisuus Kuten kaikissa turvallisuuden kannalta kriittisissä sovelluksissa, järjestelmän toistettavuus on tärkeää FL:lle terveydenhuollossa. Toisin kuin keskitetty koulutus, FL vaatii monen osapuolen laskelmia ympäristöissä, joissa on huomattavaa vaihtelua laitteistojen, ohjelmistojen ja verkkojen osalta. Kaikkien järjestelmän varojen jäljitettävyys, mukaan lukien tietojen käyttöhistoria, koulutuskokoonpanot ja hyperparametrien säätäminen koko koulutusprosessin ajan, on siten pakollinen. Erityisesti ei-luotettavissa liitoissa, jäljitettävyys- ja vastuuvelvollisuusprosessit edellyttävät toteutuksen eheyttä. Kun koulutusprosessi saavuttaa molemminpuolisesti sovitut mallin optimaalisuuden kriteerit, voi myös olla hyödyllistä . One implication of FL is that researchers are not able to investigate data upon which models are being trained to make sense of unexpected results. Moreover, taking statistical measurements of their training data as part of the model development workflow will need to be approved by the collaborating parties as not violating privacy. Although each site will have access to its own raw data, federations may decide to provide some sort of secure intra-node viewing facility to cater for this need or may provide some other way to increase explainability and interpretability of the global model. 64 Järjestelmän arkkitehtuuri Toisin kuin suuren mittakaavan FL kuluttaja-laitteiden kuten McMahan et al. , terveydenhuollon institutionaaliset osallistujat on varustettu suhteellisen voimakkailla laskennallisilla resursseilla ja luotettavilla, korkeamman läpäisyn verkostoilla, jotka mahdollistavat suurempien mallien koulutuksen, joilla on paljon enemmän paikallisia koulutusvaiheita, ja lisäävät mallitietojen jakamista solmujen välillä.Nämä FL: n ainutlaatuiset ominaisuudet terveydenhuollossa tuovat myös haasteita, kuten tietojen eheyden varmistaminen viestinnässä käyttämällä redundantteja solmuja, turvallisten salausmenetelmien suunnittelu tietojen vuotojen estämiseksi tai asianmukaisten solmujen aikataulujen suunnittelu hajautettujen laskentalaitteiden hyödyntämiseksi ja tyhjyyden vähentämiseksi. 9 Tällaisen liiton hallinnointi voidaan toteuttaa eri tavoin. Tilanteissa, joissa osapuolten välillä tarvitaan tiukinta tietosuojakäytäntöä, koulutus voi toimia jonkinlaisen "hyvä välittäjä" -järjestelmän kautta, jossa luotettava kolmas osapuoli toimii välittäjänä ja helpottaa tietojen saatavuutta. Tämä asetus vaatii itsenäistä yksikköä, joka hallitsee kokonaisjärjestelmää, mikä ei välttämättä aina ole toivottavaa, koska se voi sisältää lisäkustannuksia ja menettelyyn liittyviä viskoosia. Kuitenkin sillä on etu, että tarkat sisäiset mekanismit voidaan poistaa asiakkailta, mikä tekee järjestelmästä joustavamman ja helpomman päivittää. Peer-to-peer-järjestelmässä jokainen sivusto vuorovaikuttaa suoraan joidenkin tai Johtopäätös ML, and particularly DL, has led to a wide range of innovations in the area of digital healthcare. As all ML methods benefit greatly from the ability to access data that approximates the true global distribution, FL is a promising approach to obtain powerful, accurate, safe, robust and unbiased models. By enabling multiple parties to train collaboratively without the need to exchange or centralise data sets, FL neatly addresses issues related to egress of sensitive medical data. As a consequence, it may open novel research and business avenues and has the potential to improve patient care globally. However, already today, FL has an impact on nearly all stakeholders and the entire treatment cycle, ranging from improved medical image analysis providing clinicians with better diagnostic tools, over true precision medicine by helping to find similar patients, to collaborative and accelerated drug discovery decreasing cost and time-to-market for pharma companies. Not all technical questions have been answered yet and FL will certainly be an active research area throughout the next decade Tästä huolimatta uskomme todella, että sen mahdollinen vaikutus tarkkuuslääketieteeseen ja lopulta lääketieteellisen hoidon parantamiseen on erittäin lupaava. 12 Tiivistelmä Raportointi Lisätietoa tutkimuksen suunnittelusta on saatavilla linkitetty tähän artikkeliin. Luontotutkimuksen tiivistelmä References LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning Tunnustukset This work was supported by the UK Research and Innovation London Medical Imaging & Artificial Intelligence Centre for Value-Based Healthcare, by the Wellcome/EPSRC Centre for Medical Engineering (WT203148/Z/16/Z), by the Wellcome Flagship Programme (WT213038/Z/18/Z), by the Intramural Research Programme of the National Institutes of Health (NIH) Clinical Center, by the National Cancer Institute of the NIH under award number U01CA242871, by the National Institute of Neurological Disorders and Stroke of the NIH under award number R01NS042645, as well as by the Helmholtz Initiative and Networking Fund (project “Trustworthy Federated Data Analytics”) and the PRIME programme of the German Academic Exchange Service (DAAD) with funds from the German Federal Ministry of Education and Research (BMBF). The content and opinions expressed in this publication is solely the responsibility of the authors and do not necessarily represent those of the institutions they are affiliated with, e.g., the U.S. Department of Health and Human Services or the National Institutes of Health. Open access funding provided by Projekt DEAL. This paper is under CC by 4.0 Deed (Attribution 4.0 International) license. available on nature Tämä paperi on Käyttöoikeus on CC by 4.0 Deed (Attribution 4.0 International). Luonnossa saatavilla