人工智能突破让医院训练算法而不共享患者数据

作者 : Nicola Rieke Jonny Hancox Wenqi Li Fausto Milletarì Holger R. Roth Shadi Albarqouni Spyridon Bakas Mathieu N. Galtier Bennett A. Landman Klaus Maier-Hein Sébastien Ourselin Micah Sheller Ronald M. Summers Andrew Trask Daguang Xu Maximilian Baust M. Jorge Cardoso 作者 : 尼古拉·里克 乔尼·汉科克斯 李小姐 法斯托·米勒塔里 霍尔格·R·罗斯 阿尔巴基亚 阿尔巴基亚 斯皮里顿巴卡斯 马修·N·加尔蒂尔 贝内特·A·兰德曼 克劳斯·梅尔·海因 塞巴斯蒂安·奥尔塞林 米卡·谢勒 罗纳德·M·萨默斯 安德鲁·特拉斯克 江南 Xu 马克西米尔·巴斯特 乔治·卡多索 抽象 数据驱动的机器学习(ML)已成为从医疗数据中构建准确和坚实的统计模型的一个有前途的方法,现代医疗保健系统大量收集这些数据。现有的医疗数据不是由ML充分利用的,主要是因为它位于数据中,隐私问题限制了对这些数据的访问。然而,如果没有获得足够的数据,ML将被阻止实现其全部潜力,并最终从研究到临床实践的过渡。 介绍 人工智能(AI)的研究,特别是机器学习(ML)和深度学习(DL)的进步 现代DL模型包含数以百万计的参数,需要从足够大的编制数据集中学习,以达到临床级准确性,同时安全、公平、公平,并将数据广泛到不可见。 , , , . 1 2 3 4 5 例如,训练基于人工智能的肿瘤探测器需要一个大数据库,涵盖可能的解剖学,病理学和输入数据类型的全部范围。 即使数据匿名化可以绕过这些限制,现在已经很清楚,删除患者姓名或出生日期等元数据往往不足以保持隐私。 例如,可以通过计算机扫描(CT)或磁共振成像(MRI)数据重建患者的脸部。 另一个原因是数据共享在医疗保健中不系统的原因是,收集、编辑和维护高质量的数据集需要大量的时间、努力和费用,因此,这些数据集可能具有显著的商业价值,使它们不太可能被自由共享。 6 7 8 联邦学习(FL) , , 这是一个学习范式,旨在通过协作训练算法来解决数据治理和隐私问题,而不交换数据本身。 ,它最近获得了医疗保健应用的吸引力 , , , , , , , FL 可协作获取见解,例如以共识模型形式获取见解,而不会将患者数据移动到其所在机构的防火墙之外。 最近的研究表明,由FL训练的模型可以达到与中央托管数据集训练的模型相似的性能水平,并且优于只看到孤立单机构数据的模型。 , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 FL聚合服务器 - 典型的 FL 工作流,其中一个培训节点联盟接收了全球模型,将其部分训练的模型间歇性地提交到中央服务器进行聚合,然后继续在服务器返回的共识模型上进行培训。 FL peer to peer - FL的替代式,其中每个训练节点与部分或所有同行交换其部分训练的模型,每个节点进行自己的聚合。 集中式培训 - 一般的非FL培训工作流程,其中数据获取网站将数据捐赠给一个中央数据湖,他们和其他人可以从中提取数据用于本地,独立的培训。 a b c 因此,成功实施FL有可能在大规模实现精密医学的巨大潜力,从而产生能够做出公正决策的模型,最优地反映个人生理学,并敏感于罕见疾病,同时尊重治理和隐私问题。 我们预测数字健康的联邦化未来,并通过这个前瞻性论文,我们分享我们的共识观点,目的是为社区提供背景和细节,关于FL对医疗应用的益处和影响(“数据驱动的医学需要联邦化努力”的部分),以及突出实施FL对于数字健康的关键考虑和挑战(“技术考虑”的部分)。 数据驱动医学需要联邦努力 然而,医疗数据集很难获得(“数据依赖”子部分)。FL通过允许协作学习而不集中数据(“联邦努力的承诺”)解决这个问题,并已经找到了数字健康应用的途径(“当前的FL数字健康努力”子部分)。 依赖数据 数据驱动的方法依赖于真正代表问题的底层数据分布的数据。虽然这是一个已知的要求,但最先进的算法通常是根据精心策划的数据集进行评估,通常只来自少数来源。这可能会引入偏见,其中人口统计(如性别,年龄)或技术失衡(如收购协议,设备制造商)扭曲预测,并对某些群体或网站的准确性产生负面影响。 人工智能培训的大型数据库的需求引发了许多寻求汇集来自多个机构的数据的举措,这些数据通常被聚集到所谓的数据湖中,这些数据被建成以利用数据的商业价值,例如IBM的Merge Healthcare收购。 ,或作为经济增长和科学进步的资源,例如,NHS苏格兰国家安全港 法国卫生数据中心 , and Health Data Research UK . 21 22 23 24 实质性,虽然较小,倡议包括人际连接 英国生物银行 癌症成像档案(TCIA) 我的CXR8 《深度》 癌症基因组图谱(TCGA) 阿尔茨海默病神经成像倡议(ADNI) 以及重大医疗挑战 像卡梅里昂的挑战 国际多式大脑肿瘤细分(BraTS)挑战 , , 或医学细分 Decathlon 公共医疗数据通常是任务或疾病特定的,并且经常发布不同程度的许可限制,有时限制其利用。 25 26 27 28 29 30 31 32 33 34 35 36 37 然而,集中或发布数据不仅会带来与隐私和数据保护相关的监管、道德和法律挑战,而且还会带来技术挑战。匿名化、控制访问和安全地传输医疗保健数据是一个非微妙的,有时也是不可能的任务。 同样适用于基因组数据和医疗图像,使其像指纹一样独特。 因此,除非匿名化过程破坏数据的真实性,可能使其无用,否则无法排除患者的重新识别或信息泄露。对于被批准的用户,门户访问通常被提议作为这个问题的假设解决方案。 7 38 联邦努力的承诺 FL的承诺是简单的:通过允许ML从非共同位置的数据中解决隐私和数据治理挑战。在FL设置中,每个数据控制者不仅定义了自己的治理流程和相关隐私政策,而且还控制了数据访问率,并且有能力撤销数据。这包括培训和验证阶段。这样,FL可以创造新的机会,例如,允许大规模的机构内部验证,或允许对罕见疾病进行新研究,在这种情况下,事件率很低,每个机构的数据集太小。 如图中所示。 ,一个FL工作流可以通过不同的拓扑和计算计划实现,医疗保健应用最常见的两种是通过聚合服务器 , , 和 peer 到 peer 接近 , 在所有情况下,FL暗示地提供一定程度的隐私,因为FL的参与者从来没有直接访问来自其他机构的数据,而且只接收模型参数,这些参数在多个参与者中汇总。 , , , 因此,像差异性隐私这样的机制 , 或建议从加密数据中学习,以进一步增强FL环境中的隐私(参见“技术考虑”部分)。 和FL技术是一个不断增长的研究领域 , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL topologies - 联邦的通信架构。 集中式:聚合服务器协调训练迭代并收集、聚合和分发模型到和从培训节点(Hub & Spoke)。 去中心化:每个培训节点连接到一个或多个同行,并在每个节点上并行发生聚合。 四、分类:分类:分类:分类:分类:分类:分类:分类:分类:分类:分类:分类:分类:分类:分类 FL计算计划 - 跨多个合作伙伴模型的轨迹。 连续培训/循环转移学习。 集成服务器, 点击点击点击点 a b c d e f g 数字健康的当前FL努力 由于FL是一个普遍的学习范式,消除了人工智能模型开发的数据聚合要求,因此FL的应用范围涵盖了医疗保健的整个AI。 例如,在电子健康记录(EHR)的背景下,FL有助于代表和找到临床上相似的患者。 , ,以及预测因心脏事件引起的住院 死亡率和ICU停留时间 FL的适用性和优势在医学成像领域也已被证明,用于MRI中的全脑细分。 ,以及大脑肿瘤细分 , 最近,该技术被用于fMRI分类,以找到可靠的与疾病相关的生物标志物。 and suggested as a promising approach in the context of COVID-19 . 13 47 14 19 15 16 17 18 48 值得注意的是,FL的努力需要达成协议,以定义所使用的范围、目标和技术,因为它仍然是新颖的,但在这种背景下,今天的大规模举措确实是明天的安全,公平和创新合作标准的先驱。 其中包括旨在推进 值得信赖的联邦数据分析(TFDA)项目 德国癌症联盟联合成像平台 ,可在德国医学成像研究机构进行分散研究,另一个例子是使用FL开发人工智能模型来评估乳房图像的国际研究合作。 该研究表明,由FL生成的模型比单个研究所的数据训练的模型更出色,并且可以更普遍化,因此他们仍然在其他研究所的数据上表现良好。 学术 49 50 51 By linking healthcare institutions, not restricted to research centres, FL can have direct 影响力:正在进行的健康链项目 ,例如,旨在开发和部署在法国四家医院的FL框架。该解决方案生成可预测乳腺癌和黑色素瘤患者的治疗反应的通用模型。它有助于肿瘤学家从他们的 histology 幻灯片或皮肤镜图像中确定每个患者的最有效的治疗方法。 ,这是一个由30个致力于医疗保健机构组成的国际联盟,使用具有图形用户界面的开源FL框架,旨在改善肿瘤边界检测,包括大脑瘤,乳腺肿瘤,肝肿瘤和多重骨髓瘤患者的骨损伤。 clinical 52 53 影响的另一个领域是内部 研究和翻译 FL 允许合作研究,即使是竞争对手的公司. 在这种背景下,最大的举措之一是 Melloddy 项目 它是一项旨在在10家制药公司数据集中部署多任务FL的项目,通过培训一个共同的预测模型,该模型可以推断化学化合物如何与蛋白质结合,合作伙伴打算优化药物发现过程,而不透露其非常有价值的内部数据。 工业 54 对利益相关者的影响 FL包括从集中数据湖的范式转变,重要的是了解其对FL生态系统的不同利益相关者的影响。 临床医生 临床医生通常会根据其位置和人口环境暴露于一小组的人口中,这可能导致对某些疾病的概率或相互关联的偏见。通过使用基于ML的系统,例如作为第二读者,他们可以通过其他机构的专家知识来增加自己的专业知识,确保诊断的一致性今天无法实现。虽然这适用于基于ML的系统一般来说,以联邦的方式训练的系统有可能产生更少偏见的决策和更高的对罕见案例的敏感性,因为他们可能暴露于更完整的数据分布。 病人 患者通常是本地治疗的。在全球范围内建立FL可以确保高质量的临床决定,无论治疗地点。特别是,需要在偏远地区的医疗照顾的患者可以从同一高质量的ML辅助诊断中受益,这些诊断在大批病例的医院可用。同样适用于罕见或地理不常见的疾病,如果可以做出更快和更准确的诊断,可能会产生更轻微的后果。 医院与实践 医院和实践可以保持完全控制和持有他们的病人数据,完全可跟踪数据访问,限制第三方滥用的风险。然而,这将需要对本地计算基础设施或私人云服务提供的投资,并遵守标准化和合影数据格式,以便ML模型可以无缝地训练和评估。所需的计算能力的数量当然取决于网站是否只参与评估和测试工作或培训工作。 研究人员和AI开发人员 研究人员和人工智能开发人员将受益于访问潜在庞大的真实数据集,这肯定会影响较小的研究实验室和初创公司,因此,资源可以针对解决临床需求和相关的技术问题,而不是依赖于开放数据集的有限供应。 , , 基于FL的开发也意味着研究人员或人工智能开发人员无法调查或可视化模型训练的所有数据,例如,无法查看一个单独的失败案例,以了解当前模型为什么表现不佳。 11 12 20 医疗保健提供者 许多国家的医疗保健提供者受到持续的范式转变的影响,即从量为基础的,即基于服务费的,到基于价值的医疗保健,这与精密医学的成功建立密切相关。 制造商 医疗保健软件和硬件的制造商也可以从FL中受益,因为结合许多设备和应用程序的学习,而不透露患者特定的信息,可以促进他们基于ML的系统的持续验证或改进。 技术考虑 FL也许最出名的是Konečnỳ et al的作品。 ,但在文学中提出了各种其他定义 , , , 一个 FL 工作流(图。 ) can be realised via different topologies and compute plans (Fig. 在本节中,我们将更详细地讨论什么是FL,以及突出应用FL在数字健康中的关键挑战和技术考虑。 55 9 11 12 20 1 2 联邦学习定义 FL是一个学习范式,其中多方协作训练,而无需交换或集中数据集。 局部损失,从私人数据计算 ,是居住在个人参与者,从来没有在他们之间共享: K xk 哪里 > 0 表示相应的重量系数。 WK 在实践中,每个参与者通常通过在本地进行几轮优化,并在直接或通过参数服务器共享更新之前获得和完善一个全球共识模型。 ) , 汇总参数的实际过程取决于网络 topology,因为由于地理或法律限制,节点可能会分离为子网络(参见图)。 聚合策略可以依赖于单个聚合节点(hub 和语音模型),或在没有任何集中性的多个节点上。一个例子是对等的FL,其中所有参与者或子集之间存在连接,并且模型更新只在直接连接的网站之间共享。 , 注意,聚合策略不一定需要关于完整模型更新的信息;客户可能只选择共享模型参数的子集,以减少通讯总量,确保更好的隐私保护。 或生成多任务学习算法,只有一部分参数以联邦的方式学习。 1 9 12 2 15 56 10 允许各种培训方案的统一框架可以将计算资源(数据和服务器)从系统中分开。 如图中所示。 后者定义了跨多个合作伙伴的模型轨迹,以特定数据集进行培训和评估。 计算机计划 2 挑战与考虑 尽管FL具有优点,但它并不能解决有关医学数据学习的所有问题,成功的模型培训仍然取决于数据质量、偏见和标准化等因素。 这些问题必须通过适当的措施来解决联邦和非联邦的学习努力,例如谨慎的研究设计,数据采集的共同协议,结构化报告和发现偏见和隐藏分层的复杂方法。 , , . 2 11 12 20 数据异性 医疗数据尤其多样化,不仅是因为各种方式、尺寸和特征的多样性,而且甚至在特定的协议内,由于诸如收购差异、医疗器械品牌或当地人口统计等因素,FL可能有助于通过数据源的潜在多样性增加来解决某些偏见来源,但不均匀的数据分布对FL算法和策略构成挑战,因为许多人假定参与者之间独立且分布一致的(IID)数据。 are prone to fail under these conditions , , ,部分打败了协作学习策略的目的,但最近的结果表明,FL培训仍然可行。 ,即使医疗数据在各机构之间不均匀分布 , 或包括本地偏见 解决这个问题的研究包括,例如, 部分数据共享战略 和 FL 与域名适应 另一个挑战是数据异质性可能导致全球最佳解决方案可能不适合个别本地参与者,因此,培训模型优化的定义应在培训前由所有参与者达成一致。 9 9 57 58 59 16 17 51 费德克斯 57 58 18 隐私与安全 医疗保健数据是高度敏感的,必须受到相应的保护,遵循适当的保密程序。 隐私与性能:重要的是要注意,FL并不能解决所有潜在的隐私问题,与一般的ML算法类似,它总是会带来一些风险。 . However, there is a trade-off in terms of performance and these techniques may affect, for example, the accuracy of the final model 此外,未来技术和/或辅助数据可能会被用来破坏以前被认为是低风险的模型。 12 10 信任水平:一般来说,参与者可以进入两种类型的FL合作: 对于FL联盟,其中所有各方被认为是值得信赖的,并受到可执行的协作协议的约束,我们可以消除许多更恶劣的动机,例如故意试图提取敏感信息或故意破坏模型。 信任 某些客户可能故意试图降低性能,降低系统或从其他方提取信息,因此,将需要采取安全策略来减轻这些风险,例如,模型提交的先进加密,所有方的安全身份验证,行动可追踪性,差异性隐私,验证系统,执行完整性,模型保密性和对敌攻击的保护。 不信任 信息泄露:根据定义,FL系统避免在参与机构之间共享医疗保健数据,但是,共享的信息仍然可能间接暴露用于本地培训的私人数据,例如通过模型逆转 模型更新,梯度本身 or adversarial attacks , FL与传统训练不同,因为训练过程暴露于多方,从而增加了通过逆向工程泄露的风险,如果对手可以观察模型变化,观察特定模型更新(即单个机构的更新),或操纵模型(例如,通过梯度上升式攻击诱导其他人进行额外的记忆)。 , 确保适当的差异性隐私 ,可能需要并且仍然是一个活跃的研究领域 . 60 61 62 63 16 18 44 12 追踪性和问责性 与所有安全关键应用一样,一个系统的可重复性对FL在医疗保健中至关重要。与集中培训不同,FL在环境中需要多方计算,在硬件、软件和网络方面存在显著的差异。包括数据访问历史、培训配置和超参数调节在内的所有系统资产的可追溯性在整个培训过程中是强制性的。特别是在非受信任的联盟中,可追溯性和问责性过程需要执行完整性。在培训过程达到相互同意的模型优化标准后,还可能有助于衡量每个参与者的贡献量,例如计算资源消耗,用于本地培训的数据质量等。这些测量可以用来确定报酬相关性,并在参与者之间建立收入模式。 FL的一个含义是,研究人员无法调查模型正在接受培训的数据,以产生意想不到的结果。此外,作为模型开发工作流程的一部分,对他们的培训数据进行统计测量需要得到合作方的批准,因为这不违反隐私。尽管每个网站都会有自己的原始数据,但联盟可能会决定提供某种安全的节点内查看设施来满足这一需求,或者可能提供某种其他方式来增加全球模型的解释性和解释性。 64 系统架构 与在McMahan等消费设备中运行大型FL不同。 ,医疗保健机构的参与者配备了相对强大的计算资源和可靠的更高输出网络,允许培训更大的模型,具有更多本地培训步骤,并在节点之间共享更多的模型信息。 9 这种联盟的管理可以以不同的方式实现。在需要各方之间最严格的数据隐私的情况下,培训可能通过某种“诚实经纪人”系统运作,其中一个受信任的第三方作为中间人并促进数据的访问。此设置需要一个独立的实体来控制整体系统,这可能并不总是可取的,因为它可能涉及额外的成本和程序粘度。然而,它有一个优点,即精确的内部机制可以从客户端中抽象出来,使系统更敏捷,更容易更新。在一个对等的系统中,每个网站都直接与一些或所有其他参与者进行交互。换句话说,没有关口功能,所有协议必须先前达成协议,这需要显著的协议努力,并且所有当事人必须以同步的方式进行更改,以避免问题。此外,在基于 结论 ML,特别是DL,在数字医疗保健领域带来了广泛的创新。由于所有ML方法都从接近真正的全球分布的数据访问能力中受益很大,FL是获得强大、准确、安全、强大和公正的模型的一个有前途的方法。通过允许多方进行协作培训,而无需交换或集中数据集,FL仔细解决与敏感医疗数据脱颖而出的问题。因此,它可以开辟新的研究和商业途径,并有可能在全球范围内改善患者护理。然而,今天,FL已经对几乎所有利益相关者和整个治疗周期产生影响,从改善医学图像分析为临床医生提供更好的诊断工具,超过真正的精确医学,通过帮助寻找类似的患者,到协作和加速药物发现,减少药品公司的时间和市场成本。 尽管如此,我们坚信其对精密医学和最终改善医疗保健的潜在影响是非常有希望的。 12 报告总结 有关研究设计的更多信息可在 链接到这篇文章 自然研究报告总结 参考 LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning 认可 This work was supported by the UK Research and Innovation London Medical Imaging & Artificial Intelligence Centre for Value-Based Healthcare, by the Wellcome/EPSRC Centre for Medical Engineering (WT203148/Z/16/Z), by the Wellcome Flagship Programme (WT213038/Z/18/Z), by the Intramural Research Programme of the National Institutes of Health (NIH) Clinical Center, by the National Cancer Institute of the NIH under award number U01CA242871, by the National Institute of Neurological Disorders and Stroke of the NIH under award number R01NS042645, as well as by the Helmholtz Initiative and Networking Fund (project “Trustworthy Federated Data Analytics”) and the PRIME programme of the German Academic Exchange Service (DAAD) with funds from the German Federal Ministry of Education and Research (BMBF). The content and opinions expressed in this publication is solely the responsibility of the authors and do not necessarily represent those of the institutions they are affiliated with, e.g., the U.S. Department of Health and Human Services or the National Institutes of Health. Open access funding provided by Projekt DEAL. 本文在 CC by 4.0 Deed (Attribution 4.0 International) 许可证下可用。 本文在 CC by 4.0 Deed (Attribution 4.0 International) 许可证下可用。