O avance da IA que permite aos hospitais adestrar algoritmos sen compartir datos de pacientes

Os autores: Rianxo Rico Jonny Hancox Wenqi Li Fausto Milletarì Holger R. Roth Shadi Albarqouni Spyridon Bakas Mathieu N. Galtier Bennett A. Landman Klaus Maier-Hein Sébastien Ourselin Micah Sheller Ronald M. Summers Andrés Trask Daguang Xu Maximilian Baust M. Jorge Cardoso Os autores: Rianxo Rico Xoán Hancox Xesús Li Fausto Milletarì Páxina de Holger R. Roth Rianxo Albarqouni Espiridón Baco Matías N. Galtier Páxina de Bennett A. Landman Xosé Maier-Hein Sébastien Ourselin Micah Sheller Páxina Ronald M. Summers Páxina Andrés Trask Daguang Xu Maximilián Baust Jorge Cardoso Abstraccións O aprendizaxe automático baseado en datos (ML) emerxeu como un enfoque prometedor para a construción de modelos estatísticos precisos e robustos a partir de datos médicos, que son recollidos en grandes volumes polos sistemas de saúde modernos. Os datos médicos existentes non son plenamente explotados por ML principalmente porque se atopa en silos de datos e as preocupacións de privacidade restrinxen o acceso a estes datos. Con todo, sen acceso a datos suficientes, ML será impedido de alcanzar o seu pleno potencial e, finalmente, de facer a transición da investigación á práctica clínica. Este artigo considera os factores clave que contribúen a este problema, explora como o aprendizaxe federado (FL) pode proporcionar unha solución para o futuro da saúde dixital e destaca os retos e consideracións que deben ser abordados. Introdución Investigación sobre intelixencia artificial (IA), e especialmente os avances en aprendizaxe automática (ML) e aprendizaxe profunda (DL) Os modelos DL modernos inclúen millóns de parámetros que deben ser aprendidos a partir de conxuntos de datos curados suficientemente grandes para lograr a precisión clínica, mentres que son seguros, xustos, equitativos e xeneralizan ben a datos invisibles. , , , . 1 2 3 4 5 Por exemplo, a formación dun detector de tumores baseado en IA require unha gran base de datos que abarca o espectro completo de posibles anatomías, patoloxías e tipos de datos de entrada. Aínda que a anonimización dos datos puidese evitar estas limitacións, agora é ben entendido que eliminar metadatos como o nome do paciente ou a data de nacemento a miúdo non é suficiente para preservar a privacidade. É posible, por exemplo, reconstruír o rostro dun paciente a partir de tomografía computacional (CT) ou datos de resonancia magnética (IRM). Outra razón pola que o intercambio de datos non é sistemático na atención sanitaria é que a recollida, a conservación e o mantemento dun conxunto de datos de alta calidade leva tempo, esforzo e gasto considerables. 6 7 8 Aprendizaxe federada (FL) , , é un paradigma de aprendizaxe que busca abordar o problema da gobernanza de datos e a privacidade adestrando algoritmos de forma colaborativa sen intercambiar os datos en si. , recentemente gañou tracción para aplicacións de saúde , , , , , , , FL permite obter coñecementos de forma colaborativa, por exemplo, na forma dun modelo de consenso, sen mover os datos do paciente máis aló dos firewalls das institucións nas que reside. Investigacións recentes demostraron que os modelos adestrados por FL poden alcanzar niveis de rendemento comparables aos adestrados en conxuntos de datos aloxados centralmente e superiores aos modelos que só ven datos illados monoinstitucionais. , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 O fluxo de traballo FL típico no cal unha federación de nodos de adestramento recibe o modelo global, reenvía os seus modelos parcialmente adestrados a un servidor central intermitentemente para a agregación e, a continuación, continúa o adestramento sobre o modelo de consenso que o servidor devolve. FL peer to peer: fórmula alternativa de FL na que cada nodo de adestramento intercambia os seus modelos parcialmente adestrados con algúns ou todos os seus pares e cada un fai a súa propia agregación. Formación centralizada: o fluxo de traballo xeral de formación non FL no que os sitios de adquisición de datos doan os seus datos a un lago de datos central do que eles e outros poden extraer datos para a formación local e independente. a b c Unha implementación exitosa de FL podería, polo tanto, ter un potencial significativo para permitir a medicina de precisión a gran escala, levando a modelos que produzan decisións imparciais, reflicten de forma óptima a fisioloxía dun individuo e son sensibles a enfermidades raras respectando as preocupacións de gobernanza e privacidade. Con todo, FL aínda require unha consideración técnica rigorosa para garantir que o algoritmo proceda de forma óptima sen comprometer a seguridade ou a privacidade do paciente. Imaxinamos un futuro federado para a saúde dixital e con este documento de perspectiva, compartimos a nosa visión de consenso co obxectivo de proporcionar contexto e detalles para a comunidade sobre os beneficios e o impacto de FL para aplicacións médicas (sección "A medicina baseada en datos require esforzos federados"), así como salientando as principais consideracións e desafíos da implementación de FL para a saúde dixital (sección "Consideracións técnicas"). A medicina baseada en datos require esforzos federados Con todo, os conxuntos de datos médicos son difíciles de obter (subsección "A dependencia de datos"). FL aborda este problema permitindo a aprendizaxe colaborativa sen centralizar datos (subsección "A promesa de esforzos federados") e xa atopou o seu camiño para aplicacións de saúde dixitais (subsección "Actuais esforzos de FL para a saúde dixital"). A dependencia dos datos Os enfoques baseados en datos dependen de datos que representan realmente a distribución de datos subxacente do problema. Aínda que este é un requisito ben coñecido, os algoritmos de última xeración adoitan ser avaliados en conxuntos de datos coidadosamente curados, a miúdo procedentes de poucas fontes. Isto pode introducir prexuízos onde a demografía (por exemplo, sexo, idade) ou desequilibrios técnicos (por exemplo, protocolo de adquisición, fabricante de equipos) distorsionan as previsións e afectan negativamente a precisión de certos grupos ou sitios. A necesidade de grandes bases de datos para a formación de IA xerou moitas iniciativas que buscan agrupar datos de varias institucións. Estes datos son frecuentemente acumulados en chamados lagos de datos. Estes foron construídos co obxectivo de aproveitar o valor comercial dos datos, por exemplo, a adquisición de IBM Merge Healthcare , ou como un recurso para o crecemento económico e o progreso científico, por exemplo, NHS National Safe Haven de Escocia Centro francés de datos de saúde , e Health Data Research Reino Unido . 21 22 23 24 Iniciativas substanciais, aínda que máis pequenas, inclúen o Connectome Humano Biobank do Reino Unido Arquivo de imaxes do cancro (TCIA) NIH CXR8 NIH DeepLesion Atlas do xenoma do cancro (TCGA) Iniciativa de Neuroimpresión da Enfermidade de Alzheimer (ADNI) , así como os grandes retos médicos como o desafío camelyon O desafío internacional de segmentación de tumores cerebrais multimodais (BraTS) , , ou a segmentación médica Decathlon Os datos médicos públicos son xeralmente específicos para tarefas ou enfermidades e, a miúdo, libéranse con diferentes graos de restricións de licenza, ás veces limitando a súa explotación. 25 26 27 28 29 30 31 32 33 34 35 36 37 Centralizar ou liberar datos, con todo, supón non só desafíos regulamentarios, éticos e legais, relacionados coa privacidade e protección de datos, senón tamén técnicos. Anonimización, control de acceso e transferencia segura de datos de saúde é unha tarefa non trivial, e ás veces imposible. O mesmo vale para os datos xenómicos e as imaxes médicas que os fan tan únicos como unha pegada dixital. . Therefore, unless the anonymisation process destroys the fidelity of the data, likely rendering it useless, patient reidentification or information leakage cannot be ruled out. Gated access for approved users is often proposed as a putative solution to this issue. However, besides limiting data availability, this is only practical for cases in which the consent granted by the data owners is unconditional, since recalling data from those who may have had access to the data is practically unenforceable. 7 38 A promesa dos esforzos federados A promesa de FL é simple: abordar os retos de privacidade e gobernanza de datos permitindo ML a partir de datos non co-localizados. nunha configuración FL, cada controlador de datos non só define os seus propios procesos de gobernanza e as políticas de privacidade asociadas, senón que tamén controla o acceso aos datos e ten a capacidade de revogalo. Isto inclúe tanto o adestramento como a fase de validación. Deste xeito, FL podería crear novas oportunidades, por exemplo, permitindo a validación a gran escala dentro das institucións ou permitindo novas investigacións sobre enfermidades raras, onde as taxas de incidencia son baixas e os conxuntos de datos en cada institución son demasiado pequenos. Mover o modelo aos datos e non ao revés ten outra vantaxe importante: os datos médicos de alta dimensión e de almacenamento intensivo non teñen que ser duplicados Como se mostra en FIG. , un fluxo de traballo FL pode ser realizado con diferentes topoloxías e plans de computación.Os dous máis comúns para aplicacións de saúde son a través dun servidor de agregación , , e peer to peer aproximacións , En todos os casos, FL ofrece implicitamente un certo grao de privacidade, xa que os participantes da FL nunca acceden directamente aos datos doutras institucións e só reciben parámetros de modelo que son agregados a través de varios participantes. , , , Por tanto, mecanismos como a privacidade diferencial , ou se propuxeron aprendizaxes a partir de datos cifrados para mellorar aínda máis a privacidade nunha configuración FL (cf. sección "Consideracións técnicas"). e as técnicas FL son un campo crecente de investigación , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 Topoloxías FL: arquitectura de comunicación dunha federación. Centralizado: o servidor de agregación coordina as iteracións de adestramento e recolle, agrega e distribúe os modelos a e desde os Nodos de adestramento (Hub & Spoke). Descentralizado: cada nodo de adestramento está conectado a un ou máis pares e a agregación ocorre en paralelo en cada nodo. Xerarquicamente: as redes federadas poden estar compostas por varias sub-federacións, que poden ser construídas a partir dunha mestura de Peer-to-Peer e federacións de servidores de agregación ( Plans de computación FL: traxectoria dun modelo a través de varios socios. Formación secuencial/aprendizaxe de transferencia cíclica. Servidores de integración, Coñecer o peer. a b c d e f g Os esforzos actuais de FL para a saúde dixital Dado que FL é un paradigma de aprendizaxe xeral que elimina o requisito de agrupamento de datos para o desenvolvemento de modelos de IA, a gama de aplicacións de FL abarca toda a IA para o coidado da saúde. Ao proporcionar unha oportunidade para capturar maior variabilidade de datos e analizar pacientes en diferentes demografías, FL pode permitir innovacións disruptivas para o futuro pero tamén está sendo empregado agora. No contexto dos rexistros electrónicos de saúde (EHR), por exemplo, FL axuda a representar e atopar pacientes clinicamente similares , , así como predicir hospitalizacións debido a eventos cardíacos , mortalidade e tempo de permanencia ICU A aplicabilidade e vantaxes de FL tamén foron demostradas no campo da imaxe médica, para a segmentación cerebral enteira en RMN. , así como a segmentación do tumor cerebral , Recentemente, a técnica foi empregada para a clasificación fMRI para atopar biomarcadores fiables relacionados coa enfermidade. e suxerido como un enfoque prometedor no contexto de COVID-19 . 13 47 14 19 15 16 17 18 48 É de notar que os esforzos da FL requiren acordos para definir o alcance, o obxectivo e as tecnoloxías utilizadas que, xa que aínda son novas, poden ser difíciles de definir. These include consortia that aim to advance Proxecto Trustworthy Federated Data Analytics (TFDA) e a plataforma de imaxe conxunta do Consorcio Alemán de Cancro , que permiten a investigación descentralizada en todas as institucións de investigación de imaxe médica alemá. Outro exemplo é unha colaboración internacional de investigación que utiliza FL para o desenvolvemento de modelos de IA para a avaliación de mamogramas O estudo mostrou que os modelos xerados por FL superaron aos adestrados nos datos dun único instituto e eran máis xeneralizables, de xeito que aínda realizaban ben nos datos doutros institutos. académico 49 50 51 Ao conectar institucións de saúde, non limitadas a centros de investigación, FL pode ter impacto.O proxecto en curso HealthChain , por exemplo, ten como obxectivo desenvolver e implantar un marco FL en catro hospitais en Francia. Esta solución xera modelos comúns que poden predecir a resposta ao tratamento para pacientes con cancro de mama e melanoma. Axuda aos oncólogos a determinar o tratamento máis eficaz para cada paciente a partir das súas imaxes de histoloxía ou dermoscopia. Outro esforzo a gran escala é a iniciativa Federated Tumour Segmentation (FeTS) , que é unha federación internacional de 30 institucións de saúde comprometidas usando un marco FL de código aberto cunha interface de usuario gráfica. O obxectivo é mellorar a detección de límites tumorais, incluíndo glioma cerebral, tumores mamarios, tumores hepáticos e lesións óseas de pacientes con mieloma múltiple. Clínica 52 53 Outra área de influencia está dentro investigación e tradución. FL permite a investigación colaborativa para empresas, mesmo competidoras. Neste contexto, unha das maiores iniciativas é o proxecto Melloddy É un proxecto que ten como obxectivo a implantación de FL multi-task en todos os conxuntos de datos de 10 compañías farmacéuticas.Ao adestrar un modelo preditivo común, que inferir como os compostos químicos se unen ás proteínas, os socios pretenden optimizar o proceso de descubrimento de fármacos sen revelar os seus moi valiosos datos internos. industrial 54 Impacto sobre as partes interesadas FL comprende un cambio de paradigma de lagos de datos centralizados e é importante comprender o seu impacto sobre os diversos actores nun ecosistema FL. Clínicos Os clínicos adoitan estar expostos a un subgrupo da poboación baseado na súa localización e no seu entorno demográfico, o que pode causar suposicións preconcebidas sobre a probabilidade de certas enfermidades ou a súa interconexión. Usando sistemas baseados en ML, por exemplo, como un segundo lector, poden aumentar a súa propia experiencia con coñecementos expertos doutras institucións, asegurando unha coherencia de diagnóstico non alcanzable hoxe. Mentres isto se aplica ao sistema baseado en ML en xeral, os sistemas adestrados dun xeito federado son potencialmente capaces de producir decisións aínda menos preconcebidas e maior sensibilidade a casos raros, xa que probablemente estiveron expostos a unha distribución de datos máis completa. pacientes Os pacientes adoitan ser tratados localmente. Establecer FL a escala global podería garantir unha alta calidade de decisións clínicas independentemente da localización do tratamento. En particular, os pacientes que requiren atención médica en áreas remotas poderían beneficiarse dos mesmos diagnósticos de alta calidade que están dispoñibles en hospitais con un gran número de casos. O mesmo se aplica a enfermidades raras, ou xeograficamente raras, que son susceptibles de ter consecuencias máis leves se se poden facer diagnósticos máis rápidos e máis precisos. FL tamén pode reducir o obstáculo para converterse nun doador de datos, xa que os pacientes poden estar seguros de que os datos permanecen coa súa propia institución e o acceso aos datos pode ser revogado. Hospitais e prácticas Os hospitais e as prácticas poden permanecer en pleno control e posesión dos seus datos do paciente con completa rastrexabilidade do acceso aos datos, limitando o risco de uso indebido por terceiros. Con todo, isto requirirá un investimento en infraestruturas de computación no lugar ou na prestación de servizos de nube privada e a adherencia a formatos de datos estandarizados e sinópticos para que os modelos ML poidan ser adestrados e avaliados sen problemas. A cantidade de capacidade de computación necesaria depende, por suposto, de se un sitio está só participando nos esforzos de avaliación e proba ou tamén nos esforzos de formación. Mesmo as institucións relativamente pequenas poden participar e aínda se beneficiarán dos modelos colectivos xerados. Investigadores e desenvolvedores Os investigadores e os desenvolvedores de IA poden beneficiarse do acceso a unha potencial colección de datos do mundo real, o que certamente impactará en laboratorios de investigación máis pequenos e start-ups.Así, os recursos poden dirixirse cara á solución de necesidades clínicas e problemas técnicos asociados en lugar de depender da oferta limitada de conxuntos de datos abertos. , , O desenvolvemento baseado en FL tamén implica que o investigador ou o desenvolvedor de IA non pode investigar ou visualizar todos os datos sobre os que se adestra o modelo, por exemplo, non é posible mirar un caso individual de fallo para entender por que o modelo actual funciona mal nel. 11 12 20 Healthcare providers Os provedores de coidados de saúde en moitos países están afectados polo cambio de paradigma en curso de baseado en volume, é dicir, baseado en tarifas por servizo, a coidados de saúde baseados en valor, que á súa vez está fortemente ligado ao establecemento exitoso da medicina de precisión. Non se trata de promover terapias individualizadas máis caras, senón de conseguir mellores resultados máis cedo a través dun tratamento máis focalizado, reducindo así o custo. Fabricantes Os fabricantes de software e hardware de coidados de saúde tamén poderían beneficiarse da FL, xa que a combinación da aprendizaxe de moitos dispositivos e aplicacións, sen revelar información específica do paciente, pode facilitar a validación ou mellora continua dos seus sistemas baseados en ML. Consideracións técnicas FL é quizais máis coñecido a partir do traballo de Konečnỳ et al. , pero varias outras definicións foron propostas na literatura , , , Un fluxo de traballo FL (Fig. ) pode ser realizado a través de diferentes topoloxías e plans de computación (Fig. ), pero o obxectivo permanece o mesmo, é dicir, combinar o coñecemento aprendido a partir de datos non co-localizados. nesta sección, discutiremos con máis detalle o que é FL, así como salientando os principais retos e consideracións técnicas que xorden ao aplicar FL na saúde dixital. 55 9 11 12 20 1 2 Definición de Aprendizaxe Federada FL é un paradigma de aprendizaxe no que varias partes adestran colaborativamente sen a necesidade de intercambiar ou centralizar conxuntos de datos.Unha formulación xeral de FL le como segue: Denota unha función de perda global obtida a través dunha combinación ponderada de perdas locais, calculadas a partir de datos privados , que reside nas partes involucradas e nunca se comparte entre elas: K xk onde > 0 denota os respectivos coeficientes de peso. WK Na práctica, cada participante normalmente obtén e refina un modelo de consenso global realizando algunhas roldas de optimización localmente e antes de compartir actualizacións, xa sexa directamente ou a través dun servidor de parámetros. ) , O proceso real de agregación de parámetros depende da topoloxía da rede, xa que os nodos poden ser segregados en sub-redes debido a limitacións xeográficas ou legais (ver FIG. As estratexias de agregación poden depender dun só nodo de agregación (modelos hub e speaker), ou de varios nodos sen centralización ningunha.Un exemplo é o FL peer-to-peer, onde existen conexións entre todos ou un subconxunto de participantes e as actualizacións do modelo só se comparten entre sitios directamente conectados. , Nota: As estratexias de agregación non requiren necesariamente información sobre a actualización completa do modelo; os clientes poderían optar por compartir só un subconxunto dos parámetros do modelo para reducir a comunicación en xeral, asegurar unha mellor preservación da privacidade. ou para producir algoritmos de aprendizaxe multi-tarefa tendo só parte dos seus parámetros aprendidos dun xeito federado. 1 9 12 2 15 56 10 A unifying framework enabling various training schemes may disentangle compute resources (data and servers) from the como se mostra na FIG. Este último define a traxectoria dun modelo a través de varios socios, para ser adestrado e avaliado en conxuntos de datos específicos. Plan de Computación 2 Retos e consideracións A pesar das vantaxes de FL, non resolve todos os problemas inherentes á aprendizaxe de datos médicos.Un adestramento de modelo exitoso aínda depende de factores como a calidade dos datos, os prexuízos e a normalización Estes problemas deben ser resoltos para os esforzos de aprendizaxe federados e non federados a través de medidas apropiadas, como un deseño de estudo coidadoso, protocolos comúns para a adquisición de datos, información estruturada e metodoloxías sofisticadas para descubrir prexuízos e estratificación oculta. , , . 2 11 12 20 Heterogeneidade de datos Os datos médicos son particularmente diversos, non só pola variedade de modalidades, dimensións e características en xeral, senón tamén dentro dun protocolo específico debido a factores como as diferenzas de adquisición, a marca do dispositivo médico ou a demografía local. FL pode axudar a abordar certas fontes de prexuízos a través da potencial diversidade de fontes de datos, pero a distribución de datos inhomogénea supón un desafío para os algoritmos e estratexias de FL, xa que moitos están asumindo datos distribuídos de forma independente e idéntica (IID) entre os participantes. Están dispostos a fracasar nestas condicións , , , en parte derrotando o propio propósito das estratexias de aprendizaxe colaborativa.Os resultados recentes, con todo, indican que o adestramento FL aínda é factible , aínda que os datos médicos non se distribúan uniformemente entre as institucións , ou inclúe un bias local A investigación que aborda este problema inclúe, por exemplo, , part-data-sharing strategy e FL con adaptación de dominio Outro desafío é que a heteroxeneidade dos datos pode levar a unha situación na que a solución óptima global pode non ser óptima para un participante local individual. Feijoo 9 9 57 58 59 16 17 51 Fedex 57 58 18 Privacidade e seguridade Healthcare data is highly sensitive and must be protected accordingly, following appropriate confidentiality procedures. Therefore, some of the key considerations are the trade-offs, strategies and remaining risks regarding the privacy-preserving potential of FL. Privacy vs. performance: It is important to note that FL does not solve all potential privacy issues and—similar to ML algorithms in general—will always carry some risks. Privacy-preserving techniques for FL offer levels of protection that exceed today’s current commercially available ML models . However, there is a trade-off in terms of performance and these techniques may affect, for example, the accuracy of the final model Ademais, as futuras técnicas e/ou datos auxiliares poderían ser utilizados para comprometer un modelo anteriormente considerado como de baixo risco. 12 10 Nivel de confianza: En xeral, as partes participantes poden entrar en dous tipos de colaboración FL: - Para os consorcios FL nos que todas as partes son consideradas dignas de confianza e están vinculadas por un acordo de colaboración aplicable, podemos eliminar moitas das motivacións máis desfavorables, como intentos deliberados de extraer información sensible ou de corromper deliberadamente o modelo. confiado —Nos sistemas FL que operan en grandes escalas, pode ser impracticable establecer un acordo de colaboración executábel. Algúns clientes poden tentar deliberadamente degradar o rendemento, reducir o sistema ou extraer información doutras partes. Polo tanto, se esixirán estratexias de seguridade para mitigar estes riscos como, cifrado avanzado de envíos de modelos, autenticación segura de todas as partes, rastrexabilidade de accións, privacidade diferencial, sistemas de verificación, integridade de execución, confidencialidade de modelos e protección contra ataques adversarios. Non fiable Fuga de información: Por definición, os sistemas FL evitan compartir datos de saúde entre as institucións participantes. con todo, a información compartida aínda pode expoñer indirectamente datos privados utilizados para a formación local, por exemplo, por inversión de modelos. das actualizacións do modelo, os propios gradientes ataques adversarios , FL é diferente do adestramento tradicional na medida en que o proceso de adestramento está exposto a múltiples partes, aumentando así o risco de fuga a través de enxeñaría inversa se os adversarios poden observar cambios de modelo ao longo do tempo, observar actualizacións de modelos específicos (é dicir, a actualización dunha única institución), ou manipular o modelo (por exemplo, inducir a memorización adicional por outros a través de ataques de estilo gradiente ascendente). , e garantir unha privacidade diferenciada adecuada , pode ser necesario e aínda é unha área activa de investigación . 60 61 62 63 16 18 44 12 Rastreabilidade e responsabilidade Como en todas as aplicacións críticas á seguridade, a reproducibilidade dun sistema é importante para FL na saúde. A diferenza do adestramento centralizado, FL require cálculos multipartidarios en ambientes que exhiben unha considerable variedade en termos de hardware, software e redes. A trazabilidade de todos os activos do sistema, incluíndo o historial de acceso aos datos, as configuracións de adestramento e o axuste de hiperparámetros ao longo dos procesos de adestramento é, polo tanto, obrigatoria. En particular en federacións non fiables, a trazabilidade e os procesos de responsabilidade requiren integridade de execución. Despois de que o proceso de adestramento alcance os criterios de optimización do modelo mutuamente acordados, tamén pode ser útil medir a cantidade de contribución de cada participante, como os recursos computacionais consumidos, a Ademais, a toma de medicións estatísticas dos seus datos de formación como parte do fluxo de traballo de desenvolvemento do modelo terá que ser aprobado polas partes colaboradoras como non violando a privacidade. Aínda que cada sitio terá acceso aos seus propios datos brutos, as federacións poden decidir proporcionar algún tipo de facilidade de visualización intra-nodo segura para atender a esta necesidade ou pode proporcionar algún outro xeito de aumentar a explicabilidade e interpretabilidade do modelo global. 64 Arquitectura do sistema A diferenza de executar FL a gran escala entre dispositivos de consumo como McMahan et al. Os participantes das institucións de saúde están equipados con recursos computacionais relativamente poderosos e redes fiables de maior rendemento que permiten adestrar modelos máis grandes con moitos máis pasos de adestramento locais e compartir máis información de modelo entre os nodos. Estas características únicas de FL na saúde tamén traen retos como garantir a integridade dos datos ao comunicarse mediante o uso de nodos redundantes, deseñar métodos de cifrado seguros para previr a fuga de datos, ou deseñar axustes de nodos adecuados para facer o mellor uso dos dispositivos computacionais distribuídos e reducir o tempo de inactividade. 9 A administración de tal federación pode realizarse de diferentes xeitos. En situacións que requiren a máis estrita privacidade de datos entre as partes, o adestramento pode operar a través dun tipo de sistema de "corredor honesto", no que un terceiro de confianza actúa como intermediario e facilita o acceso aos datos. Esta configuración require unha entidade independente que controla o sistema global, o que pode non ser sempre desexable, xa que pode implicar custos adicionais e viscosidade procedimental. Con todo, ten a vantaxe de que os mecanismos internos precisos poden ser abstraídos dos clientes, o que fai que o sistema sexa máis áxil e máis sinxelo de actualizar. Nun sistema peer-to-peer cada sitio interacciona directamente con algúns ou todos os outros participantes. En outras palabras, non hai función de gateway, todos os protocolos deben ser acordados Conclusión ML, e especialmente DL, levou a unha ampla gama de innovacións no ámbito da saúde dixital. Como todos os métodos de ML se benefician moito da capacidade de acceder a datos que se aproxima á verdadeira distribución global, FL é un enfoque prometedor para obter modelos poderosos, precisos, seguros, robustos e imparciais. Ao permitir que varias partes entrenen de forma colaborativa sen a necesidade de intercambiar ou centralizar conxuntos de datos, FL aborda problemáticas relacionadas coa expansión de datos médicos sensibles. Como consecuencia, pode abrir novas vías de investigación e negocios e ten potencial para mellorar o coidado dos pacientes a nivel mundial. Con todo, xa hoxe, FL ten un impacto en case todos os interesados e todo o ciclo de tratamento, desde a mellora da análise da imaxe médica proporcionando aos médicos mellores ferramentas de diagnóstico, a verdadeira medicina . Despite this, we truly believe that its potential impact on precision medicine and ultimately improving medical care is very promising. 12 Resumo da reportaxe Further information on research design is available in the ligado a este artigo. Resumo da investigación Natureza Referencias LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning Recoñecemento Este traballo foi apoiado polo Reino Unido Research and Innovation London Medical Imaging & Artificial Intelligence Centre for Value-Based Healthcare, polo Departamento Wellcome/EPSRC Centre for Medical Engineering (WT203148/Z/16/Z), polo Wellcome Flagship Programme (WT213038/Z/18/Z), polo Programa de Investigación Intramural do Centro Clínico dos Institutos Nacionais de Saúde (NIH), polo Instituto Nacional do Cancro do NIH baixo o número de concesión U01CA242871, polo Instituto Nacional de Trastornos Neurolóxicos e Accidente Cerebral do NIH baixo o número de concesión R01NS042645, así como polo Fondo de Investigación e Rede de Helmholtz (proxecto "Trustworthy Federated Data Analytics") e o programa PRIME do Servizo Académico Alemán Este artigo está dispoñible en natureza baixo a licenza CC by 4.0 Deed (Attribution 4.0 International). Este documento é A súa licenza é CC by 4.0 Deed (Attribution 4.0 International). Dispoñible na natureza