The AI Breakthrough That Lets Hospitals Train Algorithms Without Sharing Patient Data

Автори : Нікола Ріке Jonny Hancox Wenqi Li Fausto Milletarì Холгер Р. Рот Шаді Албаркуні Spyridon Bakas Матьє Н. Гальтьє Беннет А. Лендман Клаус Майєр-Хайн Sébastien Ourselin Micah Sheller Рональд М. Сумерс Andrew Trask Daguang Xu Maximilian Baust M. Jorge Cardoso Автори : Нікола Ріке Джонні Ханкокс Іван Лі Фаусто Міллетари Холгер Р. Рот Шаді Албаркуні Спіридон Бакас Матьє Н. Гальтьє Беннет А. Лендман Клаус Майєр-Хайн Sébastien Ourselin Міка Шеллер Рональд М. Сумерс Andrew Trask Дагуан Сю Максиміліан Бауст Хорхе Кардосо абстрактні Машинне навчання на основі даних (ML) з'явилося як перспективний підхід для побудови точних і міцних статистичних моделей з медичних даних, які збираються в величезних обсягах сучасними системами охорони здоров'я. Існуючі медичні дані не повністю використовуються ML в першу чергу тому, що він знаходиться в силосах даних і конфіденційність турбує обмеження доступу до цих даних. Однак, без доступу до достатніх даних, ML буде запобігати досягненню свого повного потенціалу і, врешті-решт, від переходу від досліджень до клінічної практики. Ця стаття розглядає ключові фактори, що сприяють цій проблемі, досліджує, як федеративне навчання (FL) може забезпечити рішення для майбутнього цифрового здоров'я і Введення Дослідження в галузі штучного інтелекту (AI), а особливо досягнення в галузі машинного навчання (ML) та глибокого навчання (DL) Сучасні моделі DL містять мільйони параметрів, які необхідно вивчити з достатньо великих кураторських наборів даних, щоб досягти точності клінічного рівня, одночасно будучи безпечними, справедливими, справедливими і генералізуючи добре до невидимих даних , , , . 1 2 3 4 5 Наприклад, підготовка детектора пухлин на основі AI вимагає великої бази даних, що охоплює повний спектр можливих анатомій, патологій та типів вхідних даних. Навіть якщо анонімність даних може обійти ці обмеження, тепер добре відомо, що видалення метаданих, таких як ім'я пацієнта або дата народження, часто недостатньо для збереження конфіденційності. . It is, for example, possible to reconstruct a patient’s face from computed tomography (CT) or magnetic resonance imaging (MRI) data Інша причина, чому обмін даними не є систематичним у сфері охорони здоров'я, полягає в тому, що збирання, курація та підтримка високоякісного набору даних займає значний час, зусилля та витрати.Внаслідок цього такі набори даних можуть мати значну ділову цінність, що робить менш ймовірним, що вони будуть вільно обмінюватися. 6 7 8 Federated learning (FL) , , є парадигмою навчання, яка прагне вирішити проблему управління даними та конфіденційності шляхом навчання алгоритмів спільно, не обмінюючись самими даними. , він нещодавно отримав тягу для медичних додатків , , , , , , , FL дозволяє здобувати уявлення спільно, наприклад, у вигляді моделі консенсусу, не переміщаючи дані пацієнтів за межі брандмауерів установ, в яких вони проживають. Останні дослідження показали, що моделі, підготовлені FL, можуть досягати рівня продуктивності, порівнянного з тими, які навчаються на централізованих наборах даних, і перевершують моделі, які бачать тільки ізольовані одноінституційні дані. , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 Агрегаційний сервер FL — типовий робочий процес FL, в якому федерація вузлів навчання отримує глобальну модель, пересилає свої частково підготовлені моделі на центральний сервер періодично для агрегації, а потім продовжує навчання на моделі консенсусу, яку повертає сервер. FL peer to peer—alternative formulation of FL in which each training node exchanges its partially trained models with some or all of its peers and each does its own aggregation. Централізоване навчання — загальний робочий процес навчання, в якому сайти, які отримують дані, пожертвують свої дані в центральне озеро даних, з якого вони та інші можуть витягувати дані для місцевого, незалежного навчання. a b c Успішне впровадження FL, таким чином, може мати значний потенціал для дозволу точної медицини у великих масштабах, що призводить до моделей, які приносять неупереджені рішення, оптимально відображають фізіологію індивіда, і є чутливими до рідкісних захворювань при повазі до питань управління та конфіденційності. Ми бачимо федеративне майбутнє для цифрового здоров'я, і з цією перспективною статтею ми поділяємо наш консенсусний погляд з метою надання контексту та подробиць для спільноти щодо переваг та впливу ФЛ для медичних застосувань (розділ «Медицина на основі даних вимагає федеративних зусиль»), а також висвітлення ключових міркувань та проблем впровадження ФЛ для цифрового здоров'я (розділ «Технічні міркування»). Data-driven medicine requires federated efforts ML і особливо DL стають де-факто підходом до відкриття знань у багатьох галузях, але успішне впровадження даних-орієнтованих додатків вимагає великих і різноманітних наборів даних. проте, медичні набори даних важко отримати (підрозділ «Залежність від даних»). FL вирішує цю проблему, дозволяючи спільне навчання без централізації даних (підрозділ «Обіцянка федеративних зусиль») і вже знайшов свій шлях до цифрових медичних додатків (підрозділ «Поточні зусилля FL для цифрового здоров'я»). Ця нова парадигма навчання вимагає розгляду, але також пропонує переваги для різних зацікавлених сторін охорони здоров'я (розділ «Вплив на зацікавлених сторін»). Залежність від даних Хоча це відома вимога, найсучасніші алгоритми зазвичай оцінюються на ретельно підібраних наборах даних, які часто походять лише з декількох джерел. Це може ввести упередження, де демографічні дані (наприклад, стать, вік) або технічні дисбаланси (наприклад, протокол придбання, виробник обладнання) спотворюють прогнози і негативно впливають на точність для певних груп або місць. Необхідність великих баз даних для навчання AI породила багато ініціатив, які прагнуть об'єднати дані з декількох установ.Ці дані часто збираються в так звані Data Lakes.Ці були побудовані з метою використання комерційної цінності даних, наприклад, придбання IBM Merge Healthcare , or as a resource for economic growth and scientific progress, e.g., NHS Scotland’s National Safe Haven Французький центр даних з охорони здоров'я , and Health Data Research UK . 21 22 23 24 Substantial, albeit smaller, initiatives include the Human Connectome Британський біобанк Архів зображення раку (Cancer Imaging Archive, TCIA) Новий CXR8 Глибока депресія , the Cancer Genome Atlas (TCGA) , the Alzheimer’s Disease Neuroimaging Initiative (ADNI) , as well as medical grand challenges Виклик «Камеліон» Міжнародний виклик мультимодальної сегментації пухлин мозку (BraTS) , , Медична сегментація Decathlon Публічні медичні дані зазвичай специфічні для завдання або захворювання і часто випускаються з різним ступенем обмежень ліцензування, іноді обмежуючи їх експлуатацію. 25 26 27 28 29 30 31 32 33 34 35 36 37 Centralising or releasing data, however, poses not only regulatory, ethical and legal challenges, related to privacy and data protection, but also technical ones. Anonymising, controlling access and safely transferring healthcare data is a non-trivial, and sometimes impossible task. Anonymised data from the electronic health record can appear innocuous and GDPR/PHI compliant, but just a few data elements may allow for patient reidentification . The same applies to genomic data and medical images making them as unique as a fingerprint Тому, якщо процес анонімності не руйнує вірність даних, що, ймовірно, робить їх непотрібними, повторну ідентифікацію пацієнта або витік інформації не можна виключити.Відкритий доступ для затверджених користувачів часто пропонується як припутне рішення цієї проблеми.Однак, крім обмеження доступності даних, це практичне лише у випадках, коли згода, надана власниками даних, є беззастережною, оскільки відкликання даних від тих, хто міг мати доступ до даних, практично неможливе. 7 38 Обіцянки федеративних зусиль Обіцянка FL проста – вирішувати проблеми конфіденційності та управління даними, дозволяючи ML з несумісних даних. У FL налаштуванні кожен контролер даних не тільки визначає свої власні процеси управління даними та пов’язані з ними політики конфіденційності, але також контролює доступ до даних і має можливість відкликати їх. Це включає як навчання, так і фазу підтвердження. Таким чином, FL може створювати нові можливості, наприклад, дозволяючи масштабне, внутрішньоінституційне підтвердження, або дозволяючи нове дослідження рідкісних захворювань, де показники інцидентів низькі, а набори даних у кожному закладі занадто малі. Переміщення моделі на дані, а не навпаки, має ще одну велику перевагу: високорозмірні, інтенсивні медичні да Як показано на фіг. , a FL workflow can be realised with different topologies and compute plans. The two most common ones for healthcare applications are via an aggregation server , , Наближення Peer to Peer , У всіх випадках FL недвозначно пропонує певний ступінь конфіденційності, оскільки учасники FL ніколи не отримують прямий доступ до даних від інших установ і отримують лише параметри моделі, які агрегуються по декількох учасниках.У робочому процесі FL з сервером агрегації учасні установи можуть навіть залишатися невідомими один одному. , , , Тому такі механізми, як диференціальна конфіденційність , або було запропоновано вивчення зашифрованих даних для подальшого посилення конфіденційності в середовищі FL (див. розділ «Технічні міркування»). Технічні технології є зростаючою сферою досліджень. , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL topologies—communication architecture of a federation. Централізований: агрегаційний сервер координує ітерації навчання та збирає, агрегує та розподіляє моделі до і з вузлів навчання (Hub & Spoke). Децентралізований: кожен навчальний вузол пов'язаний з одним або декількома однолітками, а агрегація відбувається на кожному вузлі паралельно. Ієрархічна: федеративні мережі можуть складатися з декількох підфедерацій, які можуть бути побудовані з суміші Peer-to-Peer і агрегаційних серверних федерацій ( )). FL compute plans—trajectory of a model across several partners. Циклічне навчання / Циклічне навчання. Агрегаційний сервер Peer to Peer. a b c d e f g Сучасні зусилля FL для цифрового здоров'я Since FL is a general learning paradigm that removes the data pooling requirement for AI model development, the application range of FL spans the whole of AI for healthcare. By providing an opportunity to capture larger data variability and to analyse patients across different demographics, FL may enable disruptive innovations for the future but is also being employed right now. У контексті електронних медичних записів (EHR), наприклад, FL допомагає представляти та знаходити клінічно схожих пацієнтів. , , as well as predicting hospitalisations due to cardiac events Смертність і час перебування в ICU Застосовуваність і переваги ФЛ також були продемонстровані в області медичного зображення, для сегментації всього мозку в МРТ. , а також сегментація пухлини мозку , Нещодавно метод був використаний для класифікації fMRI для пошуку надійних біомаркерів, пов'язаних з хворобою. і запропоновано як перспективний підхід в контексті COVID-19 . 13 47 14 19 15 16 17 18 48 Варто відзначити, що зусилля FL вимагають угод щодо визначення сфери, мети та використовуваних технологій, які, оскільки вони все ще новітні, можуть бути важко визначити.У цьому контексті сьогоднішні масштабні ініціативи дійсно є піонерами завтрашніх стандартів для безпечної, справедливої та інноваційної співпраці в медичних додатках. До них відносяться консорціуми, які прагнуть просувати research, such as the Trustworthy Federated Data Analytics (TFDA) project Платформа спільного зображення Німецького консорціуму раку , які дозволяють децентралізовані дослідження в німецьких медичних імітаційних дослідницьких установах. Інший приклад - міжнародне дослідницьке співробітництво, яке використовує FL для розробки моделей штучного інтелекту для оцінки мамографій Дослідження показало, що моделі, що генеруються FL, перевершили ті, які навчалися за даними одного інституту, і були більш узагальнюваними, тому вони все ще добре справлялися з даними інших інститутів. Академічний 49 50 51 Зв'язуючи медичні установи, не обмежуючись науково-дослідними центрами, FL може мати прямий impact. The on-going HealthChain project , for example, aims to develop and deploy a FL framework across four hospitals in France. This solution generates common models that can predict treatment response for breast cancer and melanoma patients. It helps oncologists to determine the most effective treatment for each patient from their histology slides or dermoscopy images. Another large-scale effort is the Federated Tumour Segmentation (FeTS) initiative , which is an international federation of 30 committed healthcare institutions using an open-source FL framework with a graphical user interface. The aim is to improve tumour boundary detection, including brain glioma, breast tumours, liver tumours and bone lesions from multiple myeloma patients. Клінічна 52 53 Another area of impact is within дослідження та переклад. FL дозволяє проводити спільні дослідження навіть для конкуруючих компаній. У цьому контексті однією з найбільших ініціатив є проект Melloddy Це проект, спрямований на розгортання багатозадачного FL по всьому набору даних 10 фармацевтичних компаній.Завдяки підготовці спільної прогнозної моделі, яка визначає, як хімічні сполуки зв'язуються з білками, партнери мають намір оптимізувати процес відкриття препаратів, не розкриваючи свої високоцінні внутрішні дані. промисловості 54 Impact on stakeholders FL comprises a paradigm shift from centralised data lakes and it is important to understand its impact on the various stakeholders in a FL ecosystem. Clinicians Клініки зазвичай піддаються впливу підгрупи населення на основі їхнього розташування та демографічного середовища, що може викликати упереджені припущення щодо ймовірності певних захворювань або їх взаємозв'язку. Використовуючи системи, засновані на МЛ, наприклад, як другий читач, вони можуть збільшити свій власний досвід за допомогою експертних знань з інших установ, забезпечивши послідовність діагностики, яка не досягається сьогодні. Хоча це стосується системи, заснованої на МЛ в цілому, системи, підготовлені федеративним способом, потенційно здатні приносити ще менше упереджених рішень і більшу чутливість до рідкісних випадків, оскільки вони, ймовірно, були піддані більш повному поширенню даних. Однак, це вимагає деяких зуси пацієнтів Пацієнти зазвичай лікуються локально. Встановлення ФЛ в глобальному масштабі може забезпечити високу якість клінічних рішень незалежно від місця лікування. Зокрема, пацієнти, які потребують медичної допомоги в віддалених районах, можуть отримати вигоду від тих самих високоякісних діагнозів, що допомагають МЛ, які доступні в лікарнях з великою кількістю випадків. Те ж саме стосується рідкісних або географічно рідкісних захворювань, які, ймовірно, матимуть більш м'які наслідки, якщо можна зробити більш швидкі та точні діагнози. Лікарні та практики Hospitals and practices can remain in full control and possession of their patient data with complete traceability of data access, limiting the risk of misuse by third parties. However, this will require investment in on-premise computing infrastructure or private-cloud service provision and adherence to standardised and synoptic data formats so that ML models can be trained and evaluated seamlessly. The amount of necessary compute capability depends of course on whether a site is only participating in evaluation and testing efforts or also in training efforts. Even relatively small institutions can participate and they will still benefit from collective models generated. Дослідники та розробники Researchers and AI developers stand to benefit from access to a potentially vast collection of real-world data, which will particularly impact smaller research labs and start-ups. Thus, resources can be directed towards solving clinical needs and associated technical problems rather than relying on the limited supply of open data sets. At the same time, it will be necessary to conduct research on algorithmic strategies for federated training, e.g., how to combine models or updates efficiently, how to be robust to distribution shifts , , Розробка на основі FL також означає, що дослідник або розробник штучного інтелекту не можуть досліджувати або візуалізувати всі дані, на яких навчається модель, наприклад, неможливо розглянути окремий випадок невдачі, щоб зрозуміти, чому поточна модель погано працює на ній. 11 12 20 Постачальники охорони здоров'я Healthcare providers in many countries are affected by the on-going paradigm shift from volume-based, i.e., fee-for-service-based, to value-based healthcare, which is in turn strongly connected to the successful establishment of precision medicine. This is not about promoting more expensive individualised therapies but instead about achieving better outcomes sooner through more focused treatment, thereby reducing the cost. FL has the potential to increase the accuracy and robustness of healthcare AI, while reducing costs and improving patient outcomes, and may therefore be vital to precision medicine. Виробники Виробники програмного та апаратного забезпечення для охорони здоров'я також могли б отримати вигоду від FL, оскільки об'єднання навчання з багатьох пристроїв та додатків, не розкриваючи конкретну інформацію про пацієнта, може сприяти постійній валідації або вдосконаленню своїх систем, заснованих на ML. Однак реалізація такої можливості може вимагати значних оновлень до локальних обчислень, зберігання даних, можливостей мереж та пов'язаного з ними програмного забезпечення. Технічні міркування ФЛ, мабуть, найвідоміша за роботою Конечни та ін. У літературі було запропоновано декілька інших визначень. , , , Використання робочого процесу (Fig. ) можуть бути реалізовані за допомогою різних топологій і обчислювальних планів (рис. У цьому розділі ми детальніше обговоримо, що таке FL, а також підкреслимо ключові виклики та технічні роздуми, які виникають при застосуванні FL в цифровому здоров'ї. 55 9 11 12 20 1 2 Визначення федеративного навчання FL - це парадигма навчання, в якій декілька сторін навчаються спільно без необхідності обмінюватися чи централізувати набори даних.Загальна формулювання FL читається наступним чином: Дозвольте позначити глобальну функцію втрат, отриману за допомогою зваженої комбінації локальні збитки, обчислювані з приватних даних , which is residing at the individual involved parties and never shared among them: K XK where > 0 denote the respective weight coefficients. ВК In practice, each participant typically obtains and refines a global consensus model by conducting a few rounds of optimisation locally and before sharing updates, either directly or via a parameter server. The more rounds of local training are performed, the less it is guaranteed that the overall procedure is minimising (Eq. ) , Фактичний процес агрегації параметрів залежить від топології мережі, оскільки вузли можуть бути розділені на підмережі через географічні або юридичні обмеження (див. ). Aggregation strategies can rely on a single aggregating node (hub and spokes models), or on multiple nodes without any centralisation. An example is peer-to-peer FL, where connections exist between all or a subset of the participants and model updates are shared only between directly connected sites , Зазначимо, що стратегії агрегації не обов'язково вимагають інформації про повне оновлення моделі; клієнти можуть вирішити поділитися тільки піднабором параметрів моделі заради зменшення комунікації, забезпечення кращого збереження конфіденційності. або виробляти багатозадачні алгоритми навчання, у яких тільки частина їх параметрів вивчається федеративним способом. 1 9 12 2 15 56 10 A unifying framework enabling various training schemes may disentangle compute resources (data and servers) from the Як показано на фіг. . The latter defines the trajectory of a model across several partners, to be trained and evaluated on specific data sets. compute plan 2 Виклики та роздуми Незважаючи на переваги FL, він не вирішує всіх проблем, які притаманні вивченню медичних даних.Успішне модельне навчання все ще залежить від таких факторів, як якість даних, упередження та стандартизація Ці питання повинні бути вирішені як для федеративних, так і для нефедеративних зусиль навчання за допомогою відповідних заходів, таких як ретельний дизайн дослідження, спільні протоколи для збору даних, структуроване звітування та вишукані методології для виявлення прихильності та прихованої стратифікації.У наступному, ми торкаємося ключових аспектів FL, які мають особливе значення, коли вони застосовуються до цифрового здоров'я і повинні бути враховані при створенні FL. Для технічних деталей та поглибленої дискусії, ми посилаємо читача до недавніх опитувань , , . 2 11 12 20 Data heterogeneity Медичні дані особливо різноманітні — не тільки через різноманітність модальностей, розмірностей і характеристик в цілому, але навіть в межах конкретного протоколу через такі фактори, як відмінності в придбанні, бренд медичного пристрою або місцева демографія. FL може допомогти вирішити певні джерела прихильності через потенційно збільшене різноманіття джерел даних, але нерівномірний розподіл даних становить виклик для алгоритмів і стратегій FL, оскільки багато хто припускає незалежні і однаково розподілені (IID) дані по всьому учаснику. Вони змушені провалитися в таких умовах. , , , частково побивши саму мету стратегій спільного навчання.Останні результати, однак, вказують на те, що навчання FL все ще можливе , even if medical data is not uniformly distributed across the institutions , або включає в себе місцевий біос Дослідження, що стосуються цієї проблеми, включають, наприклад, , part-data-sharing strategy і FL з доменною адаптацією . Another challenge is that data heterogeneity may lead to a situation in which the global optimal solution may not be optimal for an individual local participant. The definition of model training optimality should, therefore, be agreed by all participants before training. ФЕДАВГ 9 9 57 58 59 16 17 51 ФЕДРОКС 57 58 18 Privacy and security Healthcare data is highly sensitive and must be protected accordingly, following appropriate confidentiality procedures. Therefore, some of the key considerations are the trade-offs, strategies and remaining risks regarding the privacy-preserving potential of FL. конфіденційність проти продуктивності: важливо відзначити, що FL не вирішує всіх потенційних проблем конфіденційності і, подібно до алгоритмів ML в цілому, завжди несе певні ризики. . However, there is a trade-off in terms of performance and these techniques may affect, for example, the accuracy of the final model Крім того, майбутні методи та/або додаткові дані можуть бути використані для компромісу моделі, яку раніше вважали низькоризиковою. 12 10 Level of trust: Broadly speaking, participating parties can enter two types of FL collaboration: —for FL consortia in which all parties are considered trustworthy and are bound by an enforceable collaboration agreement, we can eliminate many of the more nefarious motivations, such as deliberate attempts to extract sensitive information or to intentionally corrupt the model. This reduces the need for sophisticated counter-measures, falling back to the principles of standard collaborative research. Довіряють — У системах FL, які працюють у великих масштабах, може бути непрактично встановити примусову угоду про співпрацю. Деякі клієнти можуть навмисно намагатися знизити продуктивність, знизити систему або вилучити інформацію від інших сторін. Отже, для пом'якшення цих ризиків будуть потрібні стратегії безпеки, такі як розширене шифрування поданих моделей, безпечна автентифікація всіх сторін, відстежуваність дій, диференціальна конфіденційність, системи перевірки, цілісність виконання, конфіденційність моделей та захист від нападів противника. Не довіряють Інформаційні витоки: за визначенням, системи FL уникають обміну даними про охорону здоров'я між учасними установами. проте, обмін інформацією все ще може непрямо викривати приватні дані, що використовуються для місцевого навчання, наприклад, шляхом інверсії моделі з моделей оновлень, самі градієнти or adversarial attacks , FL відрізняється від традиційного тренінгу тим, що процес тренінгу піддається впливу декількох сторін, тим самим збільшуючи ризик витоку через зворотну інженерію, якщо противники можуть спостерігати зміни моделі з часом, спостерігати за конкретними оновленнями моделі (тобто оновленням однієї установи) або маніпулювати моделлю (наприклад, індукувати додаткове запам'ятовування іншими через атаки в стилі підйому). , забезпечення адекватної диференційованої конфіденційності , може знадобитися і залишається активною областю досліджень . 60 61 62 63 16 18 44 12 Traceability and accountability As per all safety-critical applications, the reproducibility of a system is important for FL in healthcare. In contrast to centralised training, FL requires multi-party computations in environments that exhibit considerable variety in terms of hardware, software and networks. Traceability of all system assets including data access history, training configurations, and hyperparameter tuning throughout the training processes is thus mandatory. In particular in non-trusted federations, traceability and accountability processes require execution integrity. After the training process reaches the mutually agreed model optimality criteria, it may also be helpful to measure the amount of contribution from each participant, such as computational resources consumed, quality of the data used for local training, etc. These measurements could then be used to determine relevant compensation, and establish a revenue model among the participants . One implication of FL is that researchers are not able to investigate data upon which models are being trained to make sense of unexpected results. Moreover, taking statistical measurements of their training data as part of the model development workflow will need to be approved by the collaborating parties as not violating privacy. Although each site will have access to its own raw data, federations may decide to provide some sort of secure intra-node viewing facility to cater for this need or may provide some other way to increase explainability and interpretability of the global model. 64 Архітектура системи Unlike running large-scale FL amongst consumer devices such as McMahan et al. Інституційні учасники охорони здоров'я оснащені відносно потужними обчислювальними ресурсами та надійними мережами з більш високим потоком, що дозволяє тренувати більші моделі з набагато більш локальними етапами навчання та ділитися більшою кількістю інформації про моделі між вузлами.Ці унікальні характеристики FL в охороні здоров'я також приносять виклики, такі як забезпечення цілісності даних при спілкуванні за допомогою надмірних вузлів, розробка безпечних методів шифрування для запобігання витоку даних або розробка відповідних планувальників вузлів для кращого використання розподілених обчислювальних пристроїв та скорочення часу бездіяльності. 9 Адміністрація такої федерації може бути реалізована різними способами. У ситуаціях, що вимагають найсуворішої конфіденційності даних між сторонами, навчання може працювати через якусь систему "чесного брокера", в якій надійна третя сторона діє як посередник і полегшує доступ до даних. Цей налаштування вимагає незалежного суб'єкта, який контролює загальну систему, що може не завжди бути бажаним, оскільки це може призвести до додаткових витрат і процедурної в'язкості. Однак, воно має перевагу, що точні внутрішні механізми можуть бути абстраговані від клієнтів, роблячи систему більш гнучкою і простішою для оновлення. У системі peer-to-peer кожен сайт взаємодіє безпосередньо з деякими або всіма ін Conclusion ML, і особливо DL, призвело до широкого спектру інновацій у сфері цифрового охорони здоров'я. Оскільки всі методи ML отримують велику користь від можливості доступу до даних, що наближається до справжнього глобального розподілу, FL є перспективним підходом до отримання потужних, точних, безпечних, надійних і неупереджених моделей. Дозволяючи декільком сторонам навчатися спільно без необхідності обмінюватися або централізувати набори даних, FL чітко вирішує питання, пов'язані з егресом чутливих медичних даних. Як наслідок, він може відкрити нові шляхи досліджень та бізнесу і має потенціал для поліпшення догляду за пацієнтами у всьому світі. Однак вже сьогодні FL впливає на майже всіх зацікавлених . Despite this, we truly believe that its potential impact on precision medicine and ultimately improving medical care is very promising. 12 Звітне резюме Further information on research design is available in the пов'язана з цією статтею. Nature Research Reporting Summary Референції LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning визнання This work was supported by the UK Research and Innovation London Medical Imaging & Artificial Intelligence Centre for Value-Based Healthcare, by the Wellcome/EPSRC Centre for Medical Engineering (WT203148/Z/16/Z), by the Wellcome Flagship Programme (WT213038/Z/18/Z), by the Intramural Research Programme of the National Institutes of Health (NIH) Clinical Center, by the National Cancer Institute of the NIH under award number U01CA242871, by the National Institute of Neurological Disorders and Stroke of the NIH under award number R01NS042645, as well as by the Helmholtz Initiative and Networking Fund (project “Trustworthy Federated Data Analytics”) and the PRIME programme of the German Academic Exchange Service (DAAD) with funds from the German Federal Ministry of Education and Research (BMBF). The content and opinions expressed in this publication is solely the responsibility of the authors and do not necessarily represent those of the institutions they are affiliated with, e.g., the U.S. Department of Health and Human Services or the National Institutes of Health. Open access funding provided by Projekt DEAL. This paper is under CC by 4.0 Deed (Attribution 4.0 International) license. available on nature This paper is under CC by 4.0 Deed (Attribution 4.0 International) license. available on nature