Пробивът на ИИ позволява на болниците да тренират алгоритми, без да споделят данни за пациентите

на авторите: Никола Рики Jonny Hancox Уенчи Ли Fausto Milletarì Холгер Р. Рот Shadi Albarqouni Spyridon Bakas Mathieu N. Galtier Bennett A. Landman Klaus Maier-Hein Sébastien Ourselin Micah Sheller Ronald M. Summers Андрю Тръмп Daguang Xu Maximilian Baust Хорхе Кардосо на авторите: Никола Рики Jonny Hancox Уенчи Ли Фауст Милетари Холгер Р. Рот Шади Албаркуни Спиридон Бакас Матийо Н. Галтие Беннет А. Ландман Клаус Майер-Хайн Себастиан Оуселин Мика Шелър Ronald M. Summers Андрю Тръмп Дагуан Су Максимилиан Бауст Хорхе Кардосо абстрактна Съществуващите медицински данни не се експлоатират изцяло от ML главно защото се намират в силоси с данни и проблемите с неприкосновеността на личния живот ограничават достъпа до тези данни. Въпреки това, без достъп до достатъчно данни, ML ще бъде възпрепятствано да достигне пълния си потенциал и в крайна сметка да направи прехода от изследвания към клинична практика. Тази статия разглежда ключовите фактори, допринасящи за този проблем, изследва как федералното обучение (FL) може да осигури решение за бъдещето на цифровото здраве и подчертава предизвикателствата и съображенията, които трябва да бъдат разгледани. Въведение Изследвания в областта на изкуствения интелект (AI), и по-специално напредъка в машинното обучение (ML) и дълбокото обучение (DL) Съвременните модели DL съдържат милиони параметри, които трябва да бъдат научени от достатъчно големи курирани набори от данни, за да се постигне клинична точност, като същевременно са безопасни, справедливи, справедливи и обобщават добре до невидими данни , , , . 1 2 3 4 5 Например, обучението на детектор на тумори, базиран на AI, изисква голяма база данни, обхващаща пълния спектър от възможни анатомии, патологии и входящи типове данни. . Even if data anonymisation could bypass these limitations, it is now well understood that removing metadata such as patient name or date of birth is often not enough to preserve privacy . It is, for example, possible to reconstruct a patient’s face from computed tomography (CT) or magnetic resonance imaging (MRI) data Друга причина, поради която споделянето на данни не е систематично в здравеопазването, е, че събирането, поддръжката и поддържането на набор от висококачествени данни отнема значително време, усилия и разходи.Поради това такива набори от данни могат да имат значителна бизнес стойност, което прави по-малко вероятно те да бъдат споделяни свободно. 6 7 8 Федерално обучение (FL) , , е парадигма за учене, която се стреми да реши проблема с управлението на данните и неприкосновеността на личния живот чрез обучение на алгоритми съвместно, без да се обменят самите данни. , наскоро спечели трайност за приложения за здравеопазване , , , , , , , FL позволява съвместно придобиване на прозрения, например под формата на модел на консенсус, без да се преместват данните на пациентите извън защитните стени на институциите, в които те пребивават. Последните изследвания показват, че моделите, обучени от FL, могат да постигнат нива на ефективност, сравними с тези, обучени на централно хоствани набори от данни и по-добри от моделите, които виждат само изолирани едноинституционални данни. , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 FL агрегационен сървър – типичният FL работен поток, в който федерация от тренировъчни възли получават глобалния модел, препращат частично обучените си модели на централен сървър периодично за агрегиране и след това продължават обучението по консенсусния модел, който сървърът връща. FL peer to peer—alternative formulation of FL in which each training node exchanges its partially trained models with some or all of its peers and each does its own aggregation. Централизирано обучение – общият работен поток за обучение, в който сайтовете за придобиване на данни даряват данните си в централно езеро с данни, от което те и други могат да извличат данни за местно, независимо обучение. a b c По този начин успешното прилагане на FL може да има значителен потенциал за позволяване на прецизна медицина в голям мащаб, което води до модели, които водят до безпристрастни решения, оптимално отразяват физиологията на индивида и са чувствителни към редки заболявания, като същевременно зачитат проблемите на управлението и неприкосновеността на личния живот. Ние виждаме федеративно бъдеще за цифровото здраве и с тази перспектива хартия, ние споделяме нашата консенсус гледна точка с цел да се осигури контекст и подробности за общността по отношение на ползите и въздействието на FL за медицински приложения (раздел "Дата-ориентирана медицина изисква федеративни усилия"), както и подчертаване на ключовите съображения и предизвикателства от прилагането на FL за цифрово здраве (раздел "Технически съображения"). Медицината на базата на данни изисква федерални усилия ML и по-специално DL се превръщат в де факто подход за откриване на знания в много индустрии, но успешното внедряване на приложения, базирани на данни, изисква големи и разнообразни набори от данни. Въпреки това, медицинските набори от данни са трудни за получаване (подсекция „Зависимостта от данните“). FL се занимава с този проблем, като позволява съвместно обучение без централизиране на данни (подсекция „Обещанието за федеративни усилия“) и вече е намерила пътя си към цифровите здравни приложения (подсекция „Текущи усилия на FL за цифрово здраве“) Тази нова учебна парадигма изисква внимание от, но също така предлага ползи за различните заинтересовани страни в здравеопазването (секция „Влияние върху заинтересованите страни“). Зависимост от данните Докато това е добре известно изискване, най-съвременните алгоритми обикновено се оценяват върху внимателно подбрани набори от данни, често произхождащи само от няколко източника. Това може да въведе предразсъдъци, където демографските данни (напр. пол, възраст) или техническите дисбаланси (напр. протокол за придобиване, производител на оборудване) изкривяват прогнозите и влияят неблагоприятно на точността за определени групи или места. Необходимостта от големи бази данни за обучение по изкуствен интелект е породила много инициативи, които се стремят да обединят данни от множество институции. Тези данни често се натрупват в така наречените Data Lakes. Те са построени с цел да се възползва или от търговската стойност на данните, например, придобиването на IBM Merge Healthcare , или като ресурс за икономически растеж и научен прогрес, например, Националната безопасна пристанище на NHS Шотландия Френски център за здравни данни , и Health Data Research UK . 21 22 23 24 Значителни, макар и по-малки, инициативи включват Human Connectome Биобанк на Великобритания Архив за изобразяване на рак (TCIA) Них CXR8 Задълбочена депресия Атлас на генома на рака (TCGA) Инициатива за невроизобразяване на болестта на Алцхаймер (ADNI) Освен големите медицински предизвикателства Предизвикателството на Камелия Международно мултимодално сегментиране на мозъчни тумори (BraTS) , , Медицинска сегментация Decathlon . Public medical data is usually task- or disease-specific and often released with varying degrees of license restrictions, sometimes limiting its exploitation. 25 26 27 28 29 30 31 32 33 34 35 36 37 Централизирането или освобождаването на данни обаче поражда не само регулаторни, етични и правни предизвикателства, свързани с неприкосновеността на личния живот и защитата на данните, но и технически.Анонимизирането, контрола на достъпа и безопасното предаване на данните за здравеопазването е нетривиална и понякога невъзможна задача.Анонимизираните данни от електронния здравен регистър могат да изглеждат безвредни и съответстващи на GDPR/PHI, но само няколко елемента от данните могат да позволят повторната идентификация на пациента. Същото важи и за геномните данни и медицинските изображения, които ги правят уникални като пръстови отпечатъци. Следователно, освен ако процесът на анонимизация не унищожи достоверността на данните, което може да ги направи безполезни, не може да се изключи повторна идентификация на пациента или изтичане на информация.Входният достъп за одобрени потребители често се предлага като предполагаемо решение на този проблем.Въпреки това, в допълнение към ограничаването на наличността на данните, това е практически възможно само в случаите, когато съгласието, предоставено от собствениците на данните, е безусловно, тъй като изтеглянето на данни от тези, които може да са имали достъп до данните, е практически неприложимо. 7 38 Обещанието на федералните усилия Обещанието на FL е просто – да се справят с предизвикателствата на поверителността и управлението на данните, като позволяват ML от несъвместно разположени данни. В FL настройката всеки администратор на данни не само дефинира собствените си процеси на управление и свързаните с тях политики за поверителност, но също така контролира достъпа до данни и има способността да ги оттегли. Това включва както обучението, така и фазата на валидиране. По този начин FL може да създаде нови възможности, например като позволи мащабно валидиране в рамките на институциите или като позволи ново проучване на редки заболявания, където нивата на инциденти са ниски и наборите от данни във всяка институция са твърде малки. Преместването на модела към данните, а не обратното, има друго голямо предимство: Както е описано в Фиг. , a FL workflow can be realised with different topologies and compute plans. The two most common ones for healthcare applications are via an aggregation server , , Peer to peer наближава , Във всички случаи FL имплицитно предлага известна степен на неприкосновеност на личния живот, тъй като участниците в FL никога не получават пряк достъп до данни от други институции и получават само параметри на модела, които са обобщени върху няколко участника.В работен поток на FL със сървър за обобщение, участващите институции могат дори да останат непознати един на друг. , , , Затова механизми като диференциална неприкосновеност на личния живот , или са предложени уроци от криптирани данни за по-нататъшно подобряване на неприкосновеността на личния живот в FL среда (вж. раздел „Технически съображения“). и FL техники са нарастваща област на изследвания , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL topologies—communication architecture of a federation. Централизиран: Агрегационният сървър координира тренировъчните итерации и събира, агрегира и разпространява моделите към и от тренировъчните възли (Hub & Spoke). Decentralised: each training node is connected to one or more peers and aggregation occurs on each node in parallel. Иерархични: федеративните мрежи могат да се състоят от няколко подфедерации, които могат да бъдат изградени от комбинация от Peer-to-Peer и Aggregation Server федерации ( FL изчислителни планове — траектория на един модел в рамките на няколко партньора. Циклично обучение и циклично трансферно обучение. Aggregation server, Пъзелът на Peer. a b c d e f g Текущи усилия на FL за цифрово здраве Since FL is a general learning paradigm that removes the data pooling requirement for AI model development, the application range of FL spans the whole of AI for healthcare. By providing an opportunity to capture larger data variability and to analyse patients across different demographics, FL may enable disruptive innovations for the future but is also being employed right now. In the context of electronic health records (EHR), for example, FL helps to represent and to find clinically similar patients , , както и прогнозиране на хоспитализации поради сърдечни събития Смъртността и времето за престой на ICU Приложимостта и предимствата на FL също са демонстрирани в областта на медицинската визуализация, за сегментиране на целия мозък в МРТ. , as well as brain tumour segmentation , Напоследък техниката е използвана за fMRI класификация, за да се намерят надеждни биомаркери, свързани с болестта. и предложено като обещаващ подход в контекста на COVID-19 . 13 47 14 19 15 16 17 18 48 It is worth noting that FL efforts require agreements to define the scope, aim and technologies used which, since it is still novel, can be difficult to pin down. In this context, today’s large-scale initiatives really are the pioneers of tomorrow’s standards for safe, fair and innovative collaboration in healthcare applications. Те включват консорциуми, които имат за цел да напредват Изследвания, като например проекта Trustworthy Federated Data Analytics (TFDA) Платформа за съвместно изобразяване на Германския консорциум за рак , които позволяват децентрализирани изследвания в германските изследователски институции по медицински изображения. Друг пример е международното изследователско сътрудничество, което използва FL за разработване на модели на ИИ за оценка на мамографиите . The study showed that the FL-generated models outperformed those trained on a single institute’s data and were more generalisable, so that they still performed well on other institutes’ data. However, FL is not limited just to academic environments. Академичен 49 50 51 Чрез свързване на здравни заведения, които не се ограничават до изследователски центрове, FL може да има директни Влияние. текущият проект HealthChain , for example, aims to develop and deploy a FL framework across four hospitals in France. This solution generates common models that can predict treatment response for breast cancer and melanoma patients. It helps oncologists to determine the most effective treatment for each patient from their histology slides or dermoscopy images. Another large-scale effort is the Federated Tumour Segmentation (FeTS) initiative , which is an international federation of 30 committed healthcare institutions using an open-source FL framework with a graphical user interface. The aim is to improve tumour boundary detection, including brain glioma, breast tumours, liver tumours and bone lesions from multiple myeloma patients. Клинични 52 53 Another area of impact is within изследвания и преводи. FL позволява съвместни изследвания за дори конкурентни компании. В този контекст една от най-големите инициативи е проектът Melloddy Това е проект, който има за цел да разгърне многозадачен FL в наборите от данни на 10 фармацевтични компании.Чрез обучение на общ предсказуем модел, който отразява как химическите съединения се свързват с протеини, партньорите възнамеряват да оптимизират процеса на откриване на лекарства, без да разкриват своите много ценни вътрешни данни. industrial 54 Въздействие върху заинтересованите страни FL включва промяна на парадигмата от централизираните езера от данни и е важно да се разбере нейното въздействие върху различните заинтересовани страни в екосистемата на FL. Клиницистите Клиницистите обикновено са изложени на подгрупа от населението въз основа на тяхното местоположение и демографска среда, което може да предизвика предразсъдъци относно вероятността от определени заболявания или тяхната взаимосвързаност. Чрез използването на системи, базирани на ML, например като втори читател, те могат да увеличат собствения си опит с експертни познания от други институции, като гарантират последователност на диагнозата, която не може да бъде постигната днес. Докато това се отнася до системата, базирана на ML като цяло, системите, обучени по федеративен начин, потенциално са в състояние да дадат още по-малко предразсъдъци и по-висока чувствителност към редки случаи, тъй като вероятно са били изложени на по-пълно разпространение на данни. Patients Patients are usually treated locally. Establishing FL on a global scale could ensure high quality of clinical decisions regardless of the treatment location. In particular, patients requiring medical attention in remote areas could benefit from the same high-quality ML-aided diagnoses that are available in hospitals with a large number of cases. The same holds true for rare, or geographically uncommon, diseases, that are likely to have milder consequences if faster and more accurate diagnoses can be made. FL may also lower the hurdle for becoming a data donor, since patients can be reassured that the data remains with their own institution and data access can be revoked. Hospitals and practices Hospitals and practices can remain in full control and possession of their patient data with complete traceability of data access, limiting the risk of misuse by third parties. However, this will require investment in on-premise computing infrastructure or private-cloud service provision and adherence to standardised and synoptic data formats so that ML models can be trained and evaluated seamlessly. The amount of necessary compute capability depends of course on whether a site is only participating in evaluation and testing efforts or also in training efforts. Even relatively small institutions can participate and they will still benefit from collective models generated. Researchers and AI developers Researchers and AI developers stand to benefit from access to a potentially vast collection of real-world data, which will particularly impact smaller research labs and start-ups. Thus, resources can be directed towards solving clinical needs and associated technical problems rather than relying on the limited supply of open data sets. At the same time, it will be necessary to conduct research on algorithmic strategies for federated training, e.g., how to combine models or updates efficiently, how to be robust to distribution shifts , , . FL-based development implies also that the researcher or AI developer cannot investigate or visualise all of the data on which the model is trained, e.g., it is not possible to look at an individual failure case to understand why the current model performs poorly on it. 11 12 20 Доставчици на здравни услуги Healthcare providers in many countries are affected by the on-going paradigm shift from volume-based, i.e., fee-for-service-based, to value-based healthcare, which is in turn strongly connected to the successful establishment of precision medicine. This is not about promoting more expensive individualised therapies but instead about achieving better outcomes sooner through more focused treatment, thereby reducing the cost. FL has the potential to increase the accuracy and robustness of healthcare AI, while reducing costs and improving patient outcomes, and may therefore be vital to precision medicine. Manufacturers Manufacturers of healthcare software and hardware could benefit from FL as well, since combining the learning from many devices and applications, without revealing patient-specific information, can facilitate the continuous validation or improvement of their ML-based systems. However, realising such a capability may require significant upgrades to local compute, data storage, networking capabilities and associated software. Технически съображения FL is perhaps best-known from the work of Konečnỳ et al. , but various other definitions have been proposed in the literature , , , Работен поток на FL (фиг. ) могат да бъдат реализирани чрез различни топологии и изчислителни планове (Фиг. В този раздел ще обсъдим по-подробно какво е FL, както и ще подчертаем ключовите предизвикателства и технически съображения, които възникват при прилагането на FL в цифровото здраве. 55 9 11 12 20 1 2 Дефиниция на федералното обучение FL е парадигма за учене, в която много страни се обучават съвместно, без да е необходимо да се обменят или централизират набори от данни. местни загуби, изчислени от частни данни , which is residing at the individual involved parties and never shared among them: K XK къде > 0 denote the respective weight coefficients. ВК На практика всеки участник обикновено получава и усъвършенства модел на глобален консенсус, като провежда няколко кръга оптимизация на местно ниво и преди споделяне на актуализации, директно или чрез параметричен сървър. ) , . The actual process for aggregating parameters depends on the network topology, as nodes might be segregated into sub-networks due to geographical or legal constraints (see Fig. Стратегиите за агрегиране могат да разчитат на един агрегиращ възел (модели на центрове и говорители) или на няколко възела без никаква централизация.Пример е peer-to-peer FL, където съществуват връзки между всички или подмножество участници и актуализациите на модела се споделят само между пряко свързани сайтове. , Забележка: Стратегиите за агрегиране не изискват непременно информация за пълното актуализиране на модела; клиентите могат да изберат да споделят само подмножество от параметрите на модела, за да намалят обхвата на комуникацията и да гарантират по-добро запазване на поверителността. или да произвеждат многозадачни алгоритми за обучение, които имат само част от техните параметри, научени по федеративен начин. 1 9 12 2 15 56 10 Единна рамка, която позволява различни схеми за обучение, може да отдели изчислителните ресурси (данни и сървъри) от , as depicted in Fig. Последният определя траекторията на един модел в рамките на няколко партньора, за да бъде обучен и оценен по конкретни набори от данни. compute plan 2 Предизвикателства и съображения Despite the advantages of FL, it does not solve all issues that are inherent to learning on medical data. A successful model training still depends on factors like data quality, bias and standardisation . These issues have to be solved for both federated and non-federated learning efforts via appropriate measures, such as careful study design, common protocols for data acquisition, structured reporting and sophisticated methodologies for discovering bias and hidden stratification. In the following, we touch upon the key aspects of FL that are of particular relevance when applied to digital health and need to be taken into account when establishing FL. For technical details and in-depth discussion, we refer the reader to recent surveys , , . 2 11 12 20 Data heterogeneity Медицинските данни са особено разнообразни – не само поради разнообразието от модели, измерения и характеристики като цяло, но дори и в рамките на конкретен протокол поради фактори като различия в придобиването, марката на медицинското устройство или местната демография. FL може да помогне за справяне с определени източници на предразсъдъци чрез потенциално увеличено разнообразие от източници на данни, но нехомогенното разпределение на данните представлява предизвикателство за FL алгоритми и стратегии, тъй като много от тях приемат независимо и идентично разпределени (IID) данни сред участниците. Те са склонни да се провалят при тези условия. , , , отчасти побеждавайки самата цел на стратегиите за съвместно обучение.Но последните резултати показват, че обучението по FL все още е осъществимо , even if medical data is not uniformly distributed across the institutions , или включва локален биас Изследванията, насочени към решаване на този проблем, включват например: , part-data-sharing strategy and FL with domain-adaptation . Another challenge is that data heterogeneity may lead to a situation in which the global optimal solution may not be optimal for an individual local participant. The definition of model training optimality should, therefore, be agreed by all participants before training. Федерална 9 9 57 58 59 16 17 51 Федпрокс 57 58 18 Privacy and security Healthcare data is highly sensitive and must be protected accordingly, following appropriate confidentiality procedures. Therefore, some of the key considerations are the trade-offs, strategies and remaining risks regarding the privacy-preserving potential of FL. Privacy vs. performance: It is important to note that FL does not solve all potential privacy issues and—similar to ML algorithms in general—will always carry some risks. Privacy-preserving techniques for FL offer levels of protection that exceed today’s current commercially available ML models . However, there is a trade-off in terms of performance and these techniques may affect, for example, the accuracy of the final model . Furthermore, future techniques and/or ancillary data could be used to compromise a model previously considered to be low-risk. 12 10 Ниво на доверие: Като цяло, участващите страни могат да влязат в два вида FL сътрудничество: — за консорциумите на FL, в които всички страни се считат за надеждни и са обвързани от приложимо споразумение за сътрудничество, можем да премахнем много от по-неблагоприятните мотиви, като например умишлени опити за извличане на чувствителна информация или умишлено подкопаване на модела. Trusted —in FL systems that operate on larger scales, it might be impractical to establish an enforceable collaborative agreement. Some clients may deliberately try to degrade performance, bring the system down or extract information from other parties. Hence, security strategies will be required to mitigate these risks such as, advanced encryption of model submissions, secure authentication of all parties, traceability of actions, differential privacy, verification systems, execution integrity, model confidentiality and protections against adversarial attacks. Недоверчиви Information leakage: By definition, FL systems avoid sharing healthcare data among participating institutions. However, the shared information may still indirectly expose private data used for local training, e.g., by model inversion от актуализациите на модела, самите градиенти или противникови атаки , . FL is different from traditional training insofar as the training process is exposed to multiple parties, thereby increasing the risk of leakage via reverse-engineering if adversaries can observe model changes over time, observe specific model updates (i.e., a single institution’s update), or manipulate the model (e.g., induce additional memorisation by others through gradient-ascent-style attacks). Developing counter-measures, such as limiting the granularity of the updates and adding noise , и осигуряване на адекватна диференцирана поверителност , може да е необходимо и все още е активна област на изследване . 60 61 62 63 16 18 44 12 Traceability and accountability Както при всички критични за безопасността приложения, репродуктивността на системата е важна за FL в здравеопазването. За разлика от централизираното обучение, FL изисква многостранни изчисления в среди, които показват значително разнообразие по отношение на хардуер, софтуер и мрежи. Проследимостта на всички системни активи, включително историята на достъпа до данни, конфигурациите на обучението и хиперпараметричното настройване по време на процесите на обучение, е задължителна. Особено в ненадеждни федерации, проследимостта и процесите на отчетност изискват целостта на изпълнението. След като процесът на обучение достигне взаимно договорените критерии за оптималност на модела, може също така да е полезно да се измери размера на приноса от всеки участник, Едно от последствията от FL е, че изследователите не са в състояние да разследват данните, върху които моделите се обучават, за да получат смисъл от неочаквани резултати. Освен това, като се вземат статистически измервания на техните данни за обучение като част от работния поток за разработване на модел, ще трябва да бъдат одобрени от сътрудничещите страни, тъй като не нарушават неприкосновеността на личния живот.Въпреки че всеки сайт ще има достъп до собствените си сурови данни, федерациите могат да решат да предоставят някакъв вид защитен интра-възел за преглед, за да отговорят на тази нужда, или може да предоставят някакъв друг начин за увеличаване на обяснимостта и тълкувателността на глобалния модел. 64 Архитектура на системата Unlike running large-scale FL amongst consumer devices such as McMahan et al. , институционалните участници в здравеопазването са оборудвани с относително мощни изчислителни ресурси и надеждни мрежи с по-висок пропуск, които позволяват обучение на по-големи модели с много по-локални стъпки за обучение и споделяне на повече информация за модели между възли.Тези уникални характеристики на FL в здравеопазването също носят предизвикателства като гарантиране на целостта на данните при комуникация чрез използване на излишни възли, проектиране на безопасни методи за криптиране, за да се предотврати изтичането на данни, или проектиране на подходящи графици за възли, за да се направи най-доброто използване на разпределени изчислителни устройства и да се намали времето за безработица. 9 The administration of such a federation can be realised in different ways. In situations requiring the most stringent data privacy between parties, training may operate via some sort of “honest broker” system, in which a trusted third party acts as the intermediary and facilitates access to data. This setup requires an independent entity controlling the overall system, which may not always be desirable, since it could involve additional cost and procedural viscosity. However, it has the advantage that the precise internal mechanisms can be abstracted away from the clients, making the system more agile and simpler to update. In a peer-to-peer system each site interacts directly with some or all of the other participants. In other words, there is no gatekeeper function, all protocols must be agreed up-front, which requires significant agreement efforts, and changes must be made in a synchronised fashion by all parties to avoid problems. Additionally, in a trustless-based architecture the platform operator may be cryptographically locked into being honest by means of a secure protocol, but this may introduce significant computational overheads. Заключението ML, и по-специално DL, доведе до широк спектър от иновации в областта на цифровото здравеопазване. Тъй като всички ML методи се възползват значително от възможността за достъп до данни, които приближават истинското глобално разпространение, FL е обещаващ подход за получаване на мощни, точни, безопасни, стабилни и безпристрастни модели. Чрез позволяване на множество страни да се обучават съвместно, без да се налага да обменят или централизират набори от данни, FL подрежда проблемите, свързани с изтичането на чувствителни медицински данни. В резултат на това може да отвори нови изследователски и бизнес пътища и има потенциал за подобряване на грижите за пациентите в световен мащаб. Въпреки това, вече днес FL има въздействие върху почти Въпреки това, ние наистина вярваме, че потенциалното му въздействие върху прецизната медицина и в крайна сметка подобряването на медицинската помощ е много обещаващо. 12 Докладване на резюме Допълнителна информация за проекта е на разположение в linked to this article. Резюме на изследванията в областта на природата Референции LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning Признания Тази работа е подкрепена от Лондонския център за научни изследвания и иновации в областта на медицинските изображения и изкуствения интелект за ценностите на здравеопазването в Обединеното кралство, от Центъра за медицинско инженерство Wellcome/EPSRC (WT203148/Z/16/Z), от Флагманската програма Wellcome (WT213038/Z/18/Z), от Интрамуралната изследователска програма на Националния институт по здравеопазване (NIH) Клиничен център, от Националния институт по рак на NIH под награден номер U01CA242871, от Националния институт по неврологични разстройства и инсулт на NIH под награден номер R01NS042645, както и от Инициативата и Фонда за мрежи на Хелмхолц (проект „Надеждни Тази статия е достъпна в натура под лиценза CC by 4.0 Deed (Attribution 4.0 International). Тази хартия е Създаден е под лиценза CC by 4.0 Deed (Attribution 4.0 International). На разположение в природата