Autorët : Nikollë Rike Jonny Hancox Wenqi Li Fausto Milletarì Holger R. Roth Shadi Albarqouni Spyridon Bakas Mathieu N. Galtier Bennett A. Landman Klaus Maier-Hein Sébastien Ourselin Micah Sheller Ronald M. Summers Andrew Trask Daguang Xu Maximilian Baust M. Jorge Cardoso Autorët : Nikollë Rike Jonë Hankox Shkëndija Li Fausto Milletari Holger R. Roth në Prishtinë Shadi Albarqouni Shpirti i Bakut Mathieu N. Galtier në Prishtinë Fjalë kyçe A. Landman Klaus Maier-Hein në Prishtinë Sébastien Ourselin Micah Sheller në Ronald M. Summers në Andrej Gjergj Daguang Xhu Maksimiliani përpiqet Kryetari Jorge Cardoso abstraktë Mësimi i makinës i drejtuar nga të dhënat (ML) është shfaqur si një qasje premtuese për ndërtimin e modeleve të sakta dhe të qëndrueshme statistikore nga të dhënat mjekësore, të cilat mblidhen në vëllime të mëdha nga sistemet moderne të kujdesit shëndetësor. Të dhënat ekzistuese mjekësor nuk shfrytëzohen plotësisht nga ML kryesisht sepse qëndron në silot e të dhënave dhe shqetësimet e privatësisë kufizojnë qasjen në këto të dhëna. megjithatë, pa qasje në të dhëna të mjaftueshme, ML do të parandalojë arritjen e potencialit të saj të plotë dhe, në fund të fundit, nga duke bërë tranzicionin nga hulumtimi në praktikën klinike. Hyrje Hulumtimi mbi inteligjencën artificiale (AI), dhe veçanërisht përparimet në mësimin e makinerive (ML) dhe të mësimit të thellë (DL) Modelet moderne DL kanë miliona parametra që duhet të mësohen nga grupet e të dhënave të kuruara mjaftueshëm të mëdha për të arritur saktësi në shkallë klinike, ndërsa janë të sigurta, të ndershme, të barabarta dhe të përgjithshme mirë në të dhënat e padukshme , , , . 1 2 3 4 5 Për shembull, trajnimi i një detektori i tumoreve të bazuar në AI kërkon një bazë të dhënash të madhe që përfshin spektrin e plotë të anatomive të mundshme, patologjive dhe llojeve të të dhënave të hyrjes. Edhe nëse anonimizimi i të dhënave mund t’i kalojë këto kufizime, tani është e kuptuar mirë se heqja e metadatave si emri i pacientit ose data e lindjes shpesh nuk është e mjaftueshme për të ruajtur privatësinë. Është e mundur, për shembull, të rindërtohet fytyra e një pacienti nga tomografia kompjuterike (CT) ose të dhënat e rezonancës magnetike (MRI). Një tjetër arsye pse ndarja e të dhënave nuk është sistematike në kujdesin shëndetësor është se mbledhja, kurimi dhe mirëmbajtja e një grupi të dhënash me cilësi të lartë merr kohë, përpjekje dhe shpenzime të konsiderueshme.Si rezultat, këto grupe të dhënash mund të kenë vlerë të konsiderueshme biznesi, duke e bërë më pak të ngjarë që ato të ndahen lirisht. 6 7 8 Mësimi i Federuar (FL) , , është një paradigmë e të mësuarit që kërkon të adresojë problemin e qeverisjes së të dhënave dhe privatësisë duke trajnuar algoritmet në mënyrë të bashkëpunuar pa shkëmbyer vetë të dhënat. , kohët e fundit ka fituar tërheqje për aplikacionet e kujdesit shëndetësor , , , , , , , FL mundëson marrjen e kuptimeve në mënyrë të bashkëpunuar, p.sh., në formën e një modeli konsensusi, pa lëvizur të dhënat e pacientëve përtej firewall-eve të institucioneve në të cilat ata banojnë. Hulumtimet e fundit kanë treguar se modelet e trajnuar nga FL mund të arrijnë nivele të performancës të krahasueshme me ato të trajnuar në grupet e të dhënave të hostuara qendrorisht dhe superior ndaj modeleve që shohin vetëm të dhënat e izoluara të një institucioni. , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 Serveri i grumbullimit FL - rrjedha tipike e punës FL në të cilën një federatë e nyjeve të trajnimit marrin modelin global, dërgojnë modelin e tyre të trajnuar pjesërisht në një server qendror në mënyrë intermitente për grumbullim dhe pastaj vazhdojnë trajnimin në modelin e konsensusit që serveri kthehet. FL peer to peer – formulim alternativ i FL në të cilin çdo nyje trajnimi shkëmben modelet e tij të trajnuar pjesërisht me disa ose të gjithë kolegët e tij dhe secili bën agregimin e vet. Trajnimi i centralizuar – rrjedha e punës e përgjithshme e trajnimit jo-FL në të cilën faqet që fitojnë të dhëna dhurojnë të dhënat e tyre në një liqen qendror të të dhënave nga i cili ata dhe të tjerët janë në gjendje të nxjerrin të dhëna për trajnim lokal, të pavarur. a b c Një zbatim i suksesshëm i FL-së mund të mbajë kështu një potencial të konsiderueshëm për të mundësuar mjekësinë e saktë në shkallë të gjerë, duke çuar në modele që prodhojnë vendime të paanshme, pasqyrojnë në mënyrë optimale fiziologjinë e një individi, dhe janë të ndjeshëm ndaj sëmundjeve të rralla, ndërsa respektojnë çështjet e qeverisjes dhe privatësisë. megjithatë, FL-ja ende kërkon një konsideratë të rreptë teknike për të siguruar që algoritmi të funksionojë në mënyrë optimale pa kompromentuar sigurinë ose privatësinë e pacientit. Ne parashikojmë një të ardhme të federalizuar për shëndetin dixhital dhe me këtë letër perspektive, ne ndajmë pikëpamjen tonë konsensus me qëllim të sigurimit të kontekstit dhe detajit për komunitetin në lidhje me përfitimet dhe ndikimin e FL për aplikacionet mjekësore (seksioni “Mjekësia e drejtuar nga të dhënat kërkon përpjekje të federalizuara”), si dhe duke theksuar konsideratat kryesore dhe sfidat e zbatimit të FL për shëndetin dixhital (seksioni “Mendimet teknike”). Mjekësia e drejtuar nga të dhënat kërkon përpjekje federale ML dhe veçanërisht DL po bëhet qasja de facto e zbulimit të njohurive në shumë industri, por zbatimi i suksesshëm i aplikacioneve të drejtuara nga të dhënat kërkon grupe të mëdha dhe të ndryshme të të dhënave. megjithatë, grupet e të dhënave mjekësore janë të vështira për t'u marrë (subseksioni "Bindja ndaj të dhënave"). FL e zgjidh këtë çështje duke lejuar të mësuarit në bashkëpunim pa centralizuar të dhënat (subseksioni "Dëshira e përpjekjeve federale") dhe tashmë e ka gjetur rrugën e vet në aplikacionet dixhitale të shëndetit (subseksioni "Përpjekjet aktuale të FL për shëndetin dixhital"). Varësia ndaj të dhënave Qasjet e drejtuara nga të dhënat mbështeten në të dhënat që vërtet përfaqësojnë shpërndarjen themelore të të dhënave të problemit. Ndërsa kjo është një kërkesë e njohur, algoritmet e fundit zakonisht vlerësohen në bazë të grupeve të të dhënave të kuruar me kujdes, shpesh që vijnë nga vetëm disa burime. Kjo mund të futë paragjykime ku demografitë (p.sh., gjinia, mosha) ose pabalancat teknike (p.sh., protokollin e blerjes, prodhuesi i pajisjeve) shtrembërojnë parashikimet dhe ndikojnë negativisht në saktësinë për grupe ose vende të caktuara. megjithatë, për të kapur marrëdhëniet delikate midis modeleve të sëmundjes, faktorëve socio-ekonomikë dhe gjenetikë, si dhe raste komplekse dhe Nevoja për baza të mëdha të të dhënave për trajnimin e IA-së ka shkaktuar shumë iniciativa që kërkojnë të bashkojnë të dhënat nga shumë institucione. Këto të dhëna shpesh grumbullohen në të ashtuquajturat Data Lakes. Këto janë ndërtuar me qëllim të shfrytëzimit të vlerës tregtare të të dhënave, për shembull, blerja e IBM Merge Healthcare. , ose si një burim për rritjen ekonomike dhe përparimin shkencor, p.sh., NHS Scotland's National Safe Haven Francë Health Data Hub Studimi i të dhënave shëndetësore UK . 21 22 23 24 Iniciativat thelbësore, edhe pse më të vogla, përfshijnë Human Connectome Mbretëria e Bashkuar Biobank Arkivi i imazheve të kancerit (TCIA) Të gjitha CXR8 Në thellësi Atlas i gjenomeve të kancerit (TCGA) Iniciativa për Neuroimagjinimin e Sëmundjeve të Alzheimerit (ADNI) Përveç sfidave të mëdha mjekësore Si për sfidën Camelion Sfida ndërkombëtare multimodale e segmentimit të tumoreve të trurit (BraTS) , , Përdorimi i Segmentimit Mjekësor Decathlon Të dhënat mjekësore publike janë zakonisht specifike për detyrat ose sëmundjet dhe shpesh lëshohen me shkallë të ndryshme të kufizimeve të licencës, ndonjëherë duke kufizuar shfrytëzimin e tyre. 25 26 27 28 29 30 31 32 33 34 35 36 37 Centralizimi ose lëshimi i të dhënave, megjithatë, paraqet jo vetëm sfida rregullatore, etike dhe ligjore, të lidhura me privatësinë dhe mbrojtjen e të dhënave, por edhe teknike. Anonimizimi, kontrolli i qasjes dhe transferimi i sigurt i të dhënave të kujdesit shëndetësor është një detyrë jo-triviale, dhe nganjëherë e pamundur. E njëjta gjë vlen edhe për të dhënat genomike dhe imazhet mjekësore që i bëjnë ato unike si shenjat e gishtërinjve. Prandaj, përveç nëse procesi i anonimizimit shkatërron besnikërinë e të dhënave, duke e bërë atë ndoshta të padobishme, riidentifikimi i pacientit ose rrjedhja e informacionit nuk mund të përjashtohet. Qasja me portë për përdoruesit e miratuar shpesh propozohet si një zgjidhje e supozuar për këtë problem. megjithatë, përveç kufizimit të disponueshmërisë së të dhënave, kjo është praktike vetëm për rastet në të cilat pëlqimi i dhënë nga pronarët e të dhënave është i pakushtëzuar, pasi tërheqja e të dhënave nga ata që mund të kenë pasur qasje në të dhënat është praktikisht e pamundshme. 7 38 Premtimi i përpjekjeve federale Premtimi i FL është i thjeshtë – të adresojë sfidat e privatësisë dhe të qeverisjes së të dhënave duke lejuar ML nga të dhënat jo-ko-lokalizuara. Në një mjedis FL, çdo kontrollues i të dhënave jo vetëm që përcakton proceset e tij të qeverisjes dhe politikat e lidhura me privatësinë, por gjithashtu kontrollon qasjen e të dhënave dhe ka aftësinë për ta revokuar atë. Kjo përfshin si trajnimin, ashtu edhe fazën e validimit. Në këtë mënyrë, FL mund të krijojë mundësi të reja, p.sh. duke lejuar validimin në shkallë të gjerë brenda institucioneve, ose duke lejuar hulumtime të reja mbi sëmundjet e rralla, ku normat e incidenteve janë të ulëta dhe grupet e të dhënave në çdo institucion Siç përshkruhet në Fig. , një rrjedhë pune FL mund të realizohet me topologji të ndryshme dhe plane llogaritjeje. dy më të zakonshmet për aplikacionet e kujdesit shëndetësor janë përmes një serveri të agregimit , , dhe peer to peer afrohet , Në të gjitha rastet, FL implicitisht ofron një shkallë të caktuar të privatësisë, pasi pjesëmarrësit e FL kurrë nuk kanë qasje të drejtpërdrejtë në të dhënat nga institucionet e tjera dhe marrin vetëm parametrat e modelit që janë të grumbulluara mbi disa pjesëmarrës.Në një rrjedhë pune FL me server të grumbullimit, institucionet pjesëmarrëse mund edhe të mbeten të panjohura për njëri-tjetrin. , , , Prandaj, mekanizma të tilla si privatësia diferenciale , ose të mësuarit nga të dhënat e koduara janë propozuar për të përmirësuar më tej privatësinë në një mjedis FL (shih seksionin “Mendime teknike”). dhe teknikat FL janë një fushë në rritje e kërkimit , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL topologji - arkitektura e komunikimit të një federate. Centralizuar: serveri i agregimit koordinon iterimet e trajnimit dhe mbledh, agregon dhe shpërndan modelet në dhe nga nodet e trajnimit (Hub & Spoke). Decentralizuar: Çdo nyje e trajnimit është e lidhur me një ose më shumë shokë dhe agregimi ndodh në çdo nyje paralelisht. Rrjetet e federuara mund të përbëhen nga disa nën-federata, të cilat mund të ndërtohen nga një përzierje e federatave Peer-to-Peer dhe Aggregation Server ( Plani kompjuterik i FL – trajektoria e një modeli nëpërmjet disa partnerëve. Trajnimi sekvencial / Mësimi i transferimit ciklik. Shërbimi i Agregimit, Pjesë Peer to Peer a b c d e f g Përpjekjet aktuale të FL për shëndetin dixhital Meqenëse FL është një paradigmë e përgjithshme e të mësuarit që heq kërkesën për grumbullimin e të dhënave për zhvillimin e modelit të AI, gamën e aplikacioneve të FL mbulon të gjithë AI për kujdesin shëndetësor.Me ofrimin e një mundësie për të kapur variabilitet më të madh të të dhënave dhe për të analizuar pacientët në të gjitha demografitë e ndryshme, FL mund të mundësojë inovacione shkatërruese për të ardhmen, por po përdoret edhe tani. Në kontekstin e të dhënave elektronike të shëndetit (EHR), për shembull, FL ndihmon në përfaqësimin dhe gjetjen e pacientëve të ngjashëm klinikisht , , si dhe parashikimin e spitalizimeve për shkak të ngjarjeve kardiake Vdekshmëria dhe koha e qëndrimit në ICU Aplikimi dhe avantazhet e FL-së janë demonstruar edhe në fushën e imazhit mjekësor, për segmentimin e trurit të tërë në MRI. , si dhe segmentimin e tumoreve të trurit , Kohët e fundit, teknika është përdorur për klasifikimin fMRI për të gjetur biomarkerë të besueshëm të lidhura me sëmundjet. dhe sugjerohet si një qasje premtuese në kontekstin e COVID-19 . 13 47 14 19 15 16 17 18 48 Vlen të përmendet se përpjekjet e FL-së kërkojnë marrëveshje për të përcaktuar fushën, qëllimin dhe teknologjitë e përdorura, të cilat, duke qenë ende të reja, mund të jenë të vështira për t’u përcaktuar. Këto përfshijnë konsorciume që synojnë të avancojnë Analiza e të dhënave të besueshme Federative (TFDA) dhe Platforma e Përbashkët e Imazhit të Konsorciumit Gjerman të Kancerit , të cilat mundësojnë kërkime të decentralizuara në të gjitha institucionet gjermane të kërkimit të imazheve mjekësore.Një shembull tjetër është një bashkëpunim kërkimor ndërkombëtar që përdor FL për zhvillimin e modeleve të AI për vlerësimin e mammogramave Studimi tregoi se modelet e gjeneruara nga FL tejkaluan ato të trajnuar në të dhënat e një instituti të vetëm dhe ishin më të përgjithshme, kështu që ata ende kryenin mirë në të dhënat e instituteve të tjera. academic 49 50 51 Duke lidhur institucionet e kujdesit shëndetësor, jo të kufizuara në qendrat e kërkimit, FL mund të ketë drejtpërdrejt Ndikimi.Projekti në vazhdim HealthChain , për shembull, synon të zhvillojë dhe të vendosë një kornizë FL në katër spitale në Francë. Kjo zgjidhje gjeneron modele të përbashkëta që mund të parashikojnë përgjigjen e trajtimit për pacientët me kancer të gjirit dhe melanomë. Ajo ndihmon onkologët për të përcaktuar trajtimin më efektiv për secilin pacient nga slides histologji ose imazhet e tyre dermoscopy. Një tjetër përpjekje në shkallë të gjerë është Iniciativa Federated Tumour Segmentation (FeTS) , e cila është një federatë ndërkombëtare e 30 institucioneve të kujdesit shëndetësor të angazhuar duke përdorur një kornizë të hapur FL me një ndërfaqe grafike të përdoruesit. qëllimi është për të përmirësuar zbulimin e kufirit të tumoreve, duke përfshirë gliomën e trurit, tumoret e gjirit, tumoret e mëlçisë dhe dëmtimet e kockave nga pacientët me mielomë të shumëfishtë. Klinikë 52 53 Një tjetër aspekt i ndikimit është brenda hulumtimi dhe përkthimi. FL mundëson kërkime bashkëpunuese për kompanitë, madje edhe konkurruese.Në këtë kontekst, një nga iniciativat më të mëdha është projekti Melloddy Është një projekt që synon të vendosë FL multi-task në të gjitha grupet e të dhënave të 10 kompanive farmaceutike.Me trajnimin e një modeli të përbashkët parashikues, i cili inferon se si komponimet kimike lidhen me proteinat, partnerët synojnë të optimizojnë procesin e zbulimit të drogës pa zbuluar të dhënat e tyre shumë të vlefshme të brendshme. industriale 54 Ndikimi në palët e interesuara FL përfshin një ndryshim të paradigmës nga liqenet e të dhënave të centralizuara dhe është e rëndësishme të kuptohet ndikimi i saj në palët e interesuara të ndryshme në një ekosistem FL. Klinikë Klinikët zakonisht janë të ekspozuar ndaj një nën-grupe të popullsisë bazuar në vendndodhjen e tyre dhe mjedisin demografik, e cila mund të shkaktojë supozime të paragjykuara në lidhje me probabilitetin e sëmundjeve të caktuara ose ndërlidhjen e tyre. Duke përdorur sisteme të bazuara në ML, p.sh., si një lexues i dytë, ata mund të rrisin ekspertizën e tyre me njohuri të ekspertëve nga institucione të tjera, duke siguruar një konsistencë të diagnozës që nuk arrihet sot. Ndërsa kjo vlen për sistemin e bazuar në ML në përgjithësi, sistemet e trajnuar në një mënyrë të federuar janë potencialisht në gjendje të japin vendime edhe më pak paragjykuese dhe ndjeshmëri më të lartë për rastet e rralla pasi ata ishin pacientët Pacientët zakonisht trajtohen lokalisht. Vendosja e FL në shkallë globale mund të sigurojë vendime klinike me cilësi të lartë pavarësisht vendndodhjes së trajtimit. Në veçanti, pacientët që kërkojnë kujdes mjekësor në zona të largëta mund të përfitojnë nga të njëjtat diagnostika me cilësi të lartë të ndihmuar nga ML që janë në dispozicion në spitale me një numër të madh të rasteve. E njëjta gjë vlen për sëmundjet e rralla, ose gjeografikisht të rralla, të cilat kanë gjasa të kenë pasoja më të lehta nëse mund të bëhen diagnozë më të shpejta dhe më të sakta. Spitalet dhe praktikat Spitale dhe praktika mund të mbeten në kontroll të plotë dhe posedimin e të dhënave të pacientëve të tyre me gjurmueshmëri të plotë të qasjes së të dhënave, duke kufizuar rrezikun e keqpërdorimit nga palët e treta. Megjithatë, kjo do të kërkojë investime në infrastrukturën e kompjuterizimit në vend ose ofrimin e shërbimeve private cloud dhe respektimin e formateve të të dhënave standarde dhe sinoptike në mënyrë që modelet ML të mund të trajnohen dhe të vlerësohen pa probleme. Shuma e aftësive të nevojshme kompjuterike varet, natyrisht, nëse një vend është vetëm duke marrë pjesë në përpjekjet e vlerësimit dhe testimit ose edhe në përpjekjet e trajnimit. Edhe institucionet relativisht të vogla mund të marrin pjesë dhe ata ende do të përf Hulumtuesit dhe zhvilluesit Hulumtuesit dhe zhvilluesit e inteligjencës artificiale do të përfitojnë nga qasja në një koleksion potencialisht të madh të të dhënave të botës reale, e cila me siguri do të ndikojë në laboratorët më të vegjël kërkimore dhe start-up-et. Kështu, burimet mund të drejtohen drejt zgjidhjes së nevojave klinike dhe problemeve teknike të lidhura në vend që të mbështeten në furnizimin e kufizuar të grupeve të të dhënave të hapura. , , Zhvillimi i bazuar në FL nënkupton gjithashtu se studiuesi ose zhvilluesi i AI-së nuk mund të hetojë ose të vizualizojë të gjitha të dhënat mbi të cilat trajnohet modeli, p.sh., nuk është e mundur të shikohet një rast individual i dështimit për të kuptuar pse modeli aktual funksionon keq në të. 11 12 20 Ofruesit e Shëndetësisë Ofruesit e kujdesit shëndetësor në shumë vende janë të prekur nga ndryshimi i vazhdueshëm i paradigmës nga i bazuar në vëllim, dmth, i bazuar në pagesë për shërbim, në kujdesin shëndetësor të bazuar në vlerë, i cili nga ana e tij është i lidhur fort me themelimin e suksesshëm të mjekësisë me saktësi.Kjo nuk ka të bëjë me promovimin e terapive më të shtrenjta individuale, por në vend të arritjes së rezultateve më të mira më herët përmes trajtimit më të fokusuar, duke zvogëluar kështu koston. prodhuesit Prodhuesit e softuerit dhe hardware-it të kujdesit shëndetësor mund të përfitojnë gjithashtu nga FL, pasi kombinimi i mësimit nga shumë pajisje dhe aplikacione, pa zbuluar informacionin specifik të pacientit, mund të lehtësojë validimin e vazhdueshëm ose përmirësimin e sistemeve të tyre të bazuara në ML. Vlerësimet teknike FL është ndoshta më i njohur nga puna e Konečnỳ et al. , por disa definicione të tjera janë propozuar në literaturë , , , Një FL Workflow (Fig. ) mund të realizohet përmes topologjive të ndryshme dhe planeve të llogaritjes (Fig. Në këtë seksion, ne do të diskutojmë më në detaje se çfarë është FL, si dhe duke theksuar sfidat kryesore dhe konsideratat teknike që lindin kur aplikoni FL në shëndetin dixhital. 55 9 11 12 20 1 2 Përkufizimi i të mësuarit federal FL është një paradigmë e të mësuarit në të cilën shumë palë stërviten në bashkëpunim pa pasur nevojë për të shkëmbyer ose centralizuar grupet e të dhënave. humbjet lokale, të llogaritura nga të dhënat private , e cila banon në palët individuale të përfshira dhe kurrë nuk ndahet midis tyre: K Xk ku > 0 përcakton koeficientet përkatëse të peshës. WK Në praktikë, çdo pjesëmarrës zakonisht merr dhe përmirëson një model konsensusi global duke kryer disa raunde të optimizimit në vend dhe para ndarjes së përditësimeve, qoftë direkt ose nëpërmjet një server parametri. ) , Procesi aktual për grumbullimin e parametrave varet nga topologjia e rrjetit, pasi nyjet mund të ndahen në nën-rrjete për shkak të kufizimeve gjeografike ose ligjore (shih Fig. Strategjitë e grumbullimit mund të mbështeten në një nyje të vetme të grumbullimit (modelet hub dhe spoke), ose në shumë nyje pa ndonjë centralizim.Një shembull është FL peer-to-peer, ku lidhjet ekzistojnë midis të gjithë ose një nënshkrimi të pjesëmarrësve dhe përditësimet e modelit ndahen vetëm midis vendeve të lidhura drejtpërdrejt , Vini re se strategjitë e grumbullimit nuk kërkojnë domosdoshmërisht informacion në lidhje me përditësimin e plotë të modelit; klientët mund të zgjedhin të ndajnë vetëm një pjesë të parametrave të modelit për hir të reduktimit të komunikimit të përgjithshëm, për të siguruar ruajtjen më të mirë të privatësisë. ose për të prodhuar algoritme të mësimit me shumë detyra që kanë mësuar vetëm një pjesë të parametrave të tyre në një mënyrë federative. 1 9 12 2 15 56 10 Një kornizë unifikuese që mundëson skema të ndryshme të trajnimit mund të ndajë burimet kompjuterike (të dhënat dhe serverët) nga Siç përshkruhet në Fig. Ky i fundit përcakton trajektoren e një modeli nëpërmjet disa partnerëve, për t’u trajnuar dhe vlerësuar në grupe të caktuara të të dhënave. Plani kompjuterik 2 Sfidat dhe konsideratat Pavarësisht avantazheve të FL, ajo nuk zgjidh të gjitha problemet që janë të lidhura me mësimin mbi të dhënat mjekësore. një trajnim i suksesshëm model ende varet nga faktorët si cilësia e të dhënave, paragjykimet dhe standardizimi Këto çështje duhet të zgjidhen për të dy përpjekjet e mësimit të federuar dhe jo-federuar përmes masave të përshtatshme, të tilla si dizajni i kujdesshëm i studimit, protokollet e përbashkëta për marrjen e të dhënave, raportimi i strukturuar dhe metodologjitë e sofistikuara për zbulimin e paragjykimeve dhe stratifikimit të fshehur. , , . 2 11 12 20 Heterogjeniteti i të dhënave Të dhënat mjekësore janë veçanërisht të ndryshme – jo vetëm për shkak të shumëllojshmërisë së modaliteteve, dimensionalitetit dhe karakteristikave në përgjithësi, por edhe brenda një protokolle të veçantë për shkak të faktorëve të tillë si dallimet në blerje, marka e pajisjes mjekësore ose demografia lokale. FL mund të ndihmojë në adresimin e burimeve të caktuara të paragjykimeve përmes diversitetit të shtuar potencial të burimeve të të dhënave, por shpërndarja jo homogjene e të dhënave paraqet një sfidë për algoritmet dhe strategjitë FL, pasi shumë janë duke supozuar të dhënat e shpërndara në mënyrë të pavarur dhe identike (IID) në të gjithë pjesëmarrësit. are prone to fail under these conditions , , , pjesërisht duke mposhtur vetë qëllimin e strategjive të mësimit bashkëpunues. Rezultatet e fundit, megjithatë, tregojnë se trajnimi i FL është ende i realizueshëm , edhe nëse të dhënat mjekësore nuk shpërndahen në mënyrë të barabartë në të gjitha institucionet , ose përfshin një bias lokal Hulumtimi që merret me këtë problem përfshin, për shembull, Strategjia e ndarjes së të dhënave dhe FL me përshtatjen e domain Një sfidë tjetër është se heterogjeniteti i të dhënave mund të çojë në një situatë në të cilën zgjidhja globale optimale mund të mos jetë optimale për një pjesëmarrës individual lokal. Fjalë kyçe 9 9 57 58 59 16 17 51 PërgjigjeFedProx 57 58 18 Privatësia dhe siguria Të dhënat e kujdesit shëndetësor janë shumë të ndjeshme dhe duhet të mbrohen në përputhje me procedurat e duhura të konfidencialitetit. prandaj, disa nga konsideratat kryesore janë kompromiset, strategjitë dhe rreziqet e mbetura në lidhje me potencialin e ruajtjes së privatësisë të FL. Privacy vs. performance: Është e rëndësishme të theksohet se FL nuk zgjidh të gjitha problemet e mundshme të privatësisë dhe – të ngjashme me algoritmet ML në përgjithësi – gjithmonë do të mbajnë disa rreziqe. Megjithatë, ka një kompromis në aspektin e performancës dhe këto teknika mund të ndikojnë, për shembull, saktësinë e modelit përfundimtar. Për më tepër, teknikat e ardhshme dhe / ose të dhënat ndihmëse mund të përdoren për të kompromentuar një model që më parë konsiderohej të jetë me rrezik të ulët. 12 10 Niveli i besimit: Në përgjithësi, palët pjesëmarrëse mund të hyjnë në dy lloje të bashkëpunimit FL: —Për konsorciumin FL në të cilin të gjitha palët konsiderohen të besueshme dhe janë të detyruara nga një marrëveshje bashkëpunimi i zbatueshëm, ne mund të eliminojmë shumë nga motivet më të këqija, të tilla si përpjekjet e qëllimshme për të nxjerrë informacion të ndjeshëm ose për të korruptuar qëllimisht modelin. besuar —Në sistemet FL që operojnë në shkallë më të madhe, mund të jetë e papërshtatshme për të krijuar një marrëveshje bashkëpunimi të zbatueshme. Disa klientë mund të përpiqen qëllimisht të degradojnë performancën, të sjellin sistemin poshtë ose të nxjerrin informacion nga palët e tjera. Prandaj, strategjitë e sigurisë do të kërkohen për të zbutur këto rreziqe, të tilla si, enkriptimi i avancuar i paraqitjeve të modelit, autentifikimi i sigurt i të gjitha palëve, gjurmueshmëria e veprimeve, privatësia diferenciale, sistemet e verifikimit, integriteti i ekzekutimit, konfidencialiteti i modelit dhe mbrojtjet kundër sulmeve kundërshtare. Non-trusted Lëshimi i informacionit: Nga përkufizimi, sistemet e FL shmangin ndarjen e të dhënave të kujdesit shëndetësor midis institucioneve pjesëmarrëse. megjithatë, informacioni i ndarë mund të ekspozojë ende në mënyrë indirekte të dhënat private të përdorura për trajnimin lokal, p.sh. nëpërmjet modelin inversion. nga modelet e përditësimeve, gradientët vetë ose sulmeve kundërshtare , FL është e ndryshme nga trajnimi tradicional në atë masë që procesi i trajnimit është i ekspozuar ndaj palëve të shumta, duke rritur kështu rrezikun e rrjedhjes nëpërmjet reverse-engineering nëse kundërshtarët mund të vëzhgojnë ndryshimet e modelit me kalimin e kohës, të vëzhgojnë përditësimet e modeleve specifike (p.sh., përditësimet e një institucioni të vetëm), ose të manipulojnë modelin (p.sh., të inducojnë memorizimin shtesë nga të tjerët përmes sulmeve të stilit gradient-ascent). , dhe sigurimin e një privatësie të përshtatshme diferenciale , mund të jetë e nevojshme dhe është ende një fushë aktive e kërkimit . 60 61 62 63 16 18 44 12 Ndjekshmëria dhe përgjegjësia Ashtu si për të gjitha aplikacionet kritike të sigurisë, riprodhueshmëria e një sistemi është e rëndësishme për FL në kujdesin shëndetësor. Ndryshe nga trajnimi i centralizuar, FL kërkon llogaritje shumëpalëshe në mjedise që tregojnë shumëllojshmëri të konsiderueshme në aspektin e hardware-it, softuerit dhe rrjeteve. Rrjetueshmëria e të gjitha aseteve të sistemit duke përfshirë historinë e qasjes së të dhënave, konfigurimet e trajnimit dhe tuning hiperparametrik gjatë proceseve të trajnimit është kështu e detyrueshme. Në veçanti në federatat jo të besuara, gjurmueshmëria dhe proceset e përgjegjësisë kërkojnë integritetin e zbatimit. Pasi procesi i trajnimit arrin kriteret e optimizimit Një implikim i FL është se hulumtuesit nuk janë në gjendje të hetojnë të dhënat mbi të cilat modelet janë trajnuar për të kuptuar rezultatet e papritura. Për më tepër, marrja e matjeve statistikore të të dhënave të tyre të trajnimit si pjesë e rrjedhës së punës së zhvillimit të modelit do të duhet të miratohet nga palët bashkëpunuese si nuk shkelin privatësinë. 64 Arkitektura e sistemit Ndryshe nga FL në shkallë të gjerë në mesin e pajisjeve të konsumit të tilla si McMahan et al. Pjesëmarrësit e institucioneve të kujdesit shëndetësor janë të pajisur me burime relativisht të fuqishme kompjuterike dhe rrjete të besueshme, me rrjedhje më të lartë që mundësojnë trajnimin e modeleve më të mëdha me shumë hapa më lokal të trajnimit, dhe ndarjen e më shumë informacionit të modelit ndërmjet nyjeve. Këto karakteristika unike të FL në kujdesin shëndetësor gjithashtu sjellin sfida të tilla si sigurimi i integritetit të të dhënave kur komunikon duke përdorur nyjet redundante, projektimi i metodave të sigurta të kodimit për të parandaluar rrjedhjen e të dhënave, ose projektimi i kalendarëve të nodit të përshtatshëm për të bërë përdorimin më të mirë të pajisjeve kompjuterike të shpërndara dhe për të reduktuar kohën e 9 Administrimi i një federimi të tillë mund të realizohet në mënyra të ndryshme. Në situata që kërkojnë privatësinë më të rreptë të të dhënave midis palëve, trajnimi mund të funksionojë nëpërmjet një lloji të sistemit të "brokerit të ndershëm", në të cilin një palë e tretë e besuar vepron si ndërmjetës dhe lehtëson qasjen në të dhëna. Ky konfigurim kërkon një entitet të pavarur që kontrollon sistemin e përgjithshëm, i cili nuk mund të jetë gjithmonë i dëshirueshëm, pasi mund të përfshijë kosto shtesë dhe viskozitet procedural. Megjithatë, ka avantazhin që mekanizmat e saktë të brendshëm mund të abstraktohen larg nga klientët, duke e bërë sistemin më fleksibël dhe më të thjeshtë për të përditësuar. Në një sistem pe Konkludimi ML, dhe veçanërisht DL, ka çuar në një gamë të gjerë të inovacioneve në fushën e kujdesit shëndetësor dixhital. Ndërsa të gjitha metodat ML përfitojnë shumë nga aftësia për të hyrë në të dhëna që i afrohet shpërndarjes së vërtetë globale, FL është një qasje premtuese për të marrë modele të fuqishme, të sakta, të sigurta, të fuqishme dhe të paanshme. Duke lejuar palë të shumta për të trajnuar në mënyrë të përbashkët pa nevojë për të shkëmbyer ose centralizuar grupet e të dhënave, FL merret me kujdes me çështjet që lidhen me daljen e të dhënave të ndjeshme mjekësore. Si rezultat, mund të hapë rrugë të reja kërkimore dhe biznesi dhe ka potencial për të përmirësuar kujdesin e pacientëve Pavarësisht kësaj, ne me të vërtetë besojmë se ndikimi i saj potencial në mjekësinë e saktësisë dhe në fund të fundit përmirësimin e kujdesit mjekësor është shumë premtues. 12 Raporti i përmbledhjes Informacione të mëtejshme në lidhje me projektin e kërkimit janë në dispozicion në Lidhur me këtë artikull. Raporti i Përmbledhjes së Hulumtimit të Natyrës Referencë LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning Njoftime Kjo punë u mbështet nga Qendra e Kërkimit dhe Inovacionit Mjekësor dhe Inteligjencës Artificiale në Londër për Shëndetin me Vlerë të Bazuar në Mbretërinë e Bashkuar, nga Qendra Wellcome/EPSRC për Inxhinierinë Mjekësore (WT203148/Z/16/Z), nga Programi Flagship Wellcome (WT213038/Z/18/Z), nga Programi i Kërkimit Intramural i Institutit Kombëtar të Shëndetësisë (NIH) Qendra Klinike, nga Instituti Kombëtar i Kancerit i NIH-së me numrin e çmimit U01CA242871, nga Instituti Kombëtar i Çrregullimeve Neurologjike dhe Stroke i NIH-së me numrin e çmimit R01NS042645, si dhe nga Ky artikull është në dispozicion në natyrë nën licencën CC by 4.0 Deed (Attribution 4.0 International). Ky artikull është në dispozicion në natyrë nën licencën CC by 4.0 Deed (Attribution 4.0 International).