作者:
(1)Yikuan Li,硕士,西北大学范伯格医学院和西门子医疗解决方案;
(2)Hanyin Wang,医学学士,西北大学范伯格医学院;
(3) Halid Z. Yerebakan 博士,西门子医疗系统公司;
(4)Yoshihisa Shinagawa 博士,西门子医疗系统公司;
(5)袁罗,博士,FAMIA,西北大学范伯格医学院。
由于缺乏标准化格式和共同的语义理解,跨不同平台和系统集成和交换健康数据仍然具有挑战性。当关键健康信息嵌入非结构化数据而不是组织良好的结构化格式时,这一挑战变得更加重要。将非结构化健康数据(如临床记录)标准化为 FHIR 资源可以缓解不同医疗服务提供者之间的歧义,从而提高互操作性。然而,这绝非易事。先前的研究 1,2 尝试使用自然语言处理和机器学习工具的组合将临床记录转换为 FHIR 资源,通过涉及临床命名实体识别、术语编码、数学计算、结构格式化和人工校准的多步骤过程。然而,这些方法需要额外的人力来整合来自多种工具的结果,并且只取得了中等的表现,F1 分数在不同元素中从 0.7 到 0.9 不等。为此,我们打算利用大型语言模型 (LLM) 直接从自由文本输入生成 FHIR 格式的资源。 LLM 的利用有望简化以前的多步骤流程,提高 FHIR 资源自动生成的效率和准确性,并最终提高健康数据互操作性。
数据注释据我们所知,FHIR 标准中没有从上下文数据生成的大量公开可用的数据集。因此,我们选择注释包含 FHIR 格式的自由文本输入和结构化输出的数据集。自由文本输入来自 MIMICIII 数据集的出院摘要。3 得益于 2018 年 n2c2 药物提取挑战赛 4 (主要涉及命名实体识别任务),药物声明中的元素已被识别。我们的注释基于这些 n2c2 注释,并将自由文本标准化为多个临床术语编码系统,例如 NDC、RxNorm 和 SNOMED。我们将上下文和代码组织成 FHIR 药物声明资源。转换后的 FHIR 资源经过官方 FHIR 验证器(https://validator.fhir.org/)的验证,以确保符合 FHIR 标准,包括结构、数据类型、代码集、显示名称等。这些经过验证的结果被视为黄金标准转换结果,可用于测试 LLM。数据使用不存在道德问题,因为 MIMIC 和 n2c2 数据集均向授权用户公开。
大型语言模型我们使用 OpenAI 的 GPT-4 模型作为 FHIR 格式转换的 LLM。我们使用五个单独的提示来指示 LLM 将输入的自由文本分别转换为药物(包括药物代码、强度和形式)、途径、时间表、剂量和原因。所有提示都遵循具有以下结构的模板:任务说明、.JSON 格式的预期输出 FHIR 模板、4-5 个转换示例、模型可以从中进行选择的完整代码列表,然后是输入文本。由于我们的实验中没有微调或特定领域的适应性,我们最初让 LLM 生成一个小的子集(N=100)。然后,我们手动检查了 LLM 生成的 FHIR 输出与我们的人工注释之间的差异。识别出常见错误并用于改进提示。重要的是要注意,我们无法访问药品名称的 NDC、RxNorm 和 SNOMED 药物代码的完整列表,以及原因的 SNOMED 查找代码。此外,即使我们有如此全面的列表,它们也会超出 LLM 的 token 限制。因此,我们没有要求 LLM 对这些实体进行编码;相反,我们指示他们识别输入文本中提到的上下文。对于其他元素,例如药物途径和形式,数量达数百个,我们允许 LLM 直接对其进行编码。在评估 LLM 生成的输出时,我们的主要标准是精确匹配率,这需要在代码、结构等所有方面与人工注释精确对齐。此外,我们报告了特定元素出现的精确度、召回率和 F1 分数。我们通过 Azure OpenAI 服务访问 GPT-4 API,符合 MIMIC 数据的负责任使用指南。我们使用的特定模型是“2023-05-15”版本的“gpt-4-32k”。每个文本输入都单独转换为 MedicationStatement 资源。为了优化效率,我们进行了多次异步 API 调用。
注释和 FHIR 生成的结果如表 1 所示。总之,我们注释了 3,671 种药物资源,涵盖 625 多种不同的药物并与 354 种原因相关。大型语言模型 (LLM) 在所有元素上实现了超过 90% 的令人印象深刻的准确率和超过 0.96 的 F1 得分。在之前的研究中,F1 得分在 Timing.repeat 中达到 0.750,在 Timing.route 中达到 0.878,在 Timing Dosage 中达到 0.899。1 LLM 将这些 F1 分数提高了至少 8%。值得注意的是,之前的研究使用了较小的私有数据集,没有采用最严格的评估指标(如完全匹配率),跳过了术语编码,并且需要大量训练。进一步调查后,我们还对术语编码(本质上涉及超过 100 个类别的分类任务)、数学转换(例如,当输入提到“TID,分配 30 片药片”时推断持续时间为 10 天)、格式一致性(结果无法以 .JSON 格式解释的可能性不到 0.3%)和基数(LLM 可以处理 1:N 和 1:1 关系)的高精度印象深刻。
输出的准确性在很大程度上取决于所使用的指令提示。根据我们大量的试验和错误,我们提出以下建议:i)提供涵盖各种异构边缘情况的多样化转换示例;ii)使用强硬的语言,例如“必须”,以确保输出符合预期的格式和规则;iii)通过查看一小部分结果不断更新和完善提示,这有助于识别常见错误并提高整体准确性;iv)对词汇外的编码要谨慎。当 LLM 无法找到相近的匹配时,他们可能会尝试通过发明不存在的代码来迎合用户。
在本研究中,我们通过将自由文本输入转换为 FHIR 资源,为利用 LLM 增强健康数据互操作性奠定了基础。未来的研究将旨在通过将这些成功扩展到其他 FHIR 资源并比较各种 LLM 模型的性能来巩固这些成功。
1. Hong N, Wen A, Shen F, Sohn S, Liu S, Liu H, Jiang G. 使用基于 FHIR 的类型系统集成结构化和非结构化 EHR 数据:以药物数据为例的研究。AMIA 转化科学峰会论文集。2018;2018:74。
2. Hong N, Wen A, Shen F, Sohn S, Wang C, Liu H, Jiang G. 开发可扩展的基于 FHIR 的临床数据规范化管道,用于标准化和集成非结构化和结构化电子健康记录数据。JAMIA open。2019 年 12 月;2(4):570-9。
3. Johnson AE、Pollard TJ、Shen L、Lehman LW、Feng M、Ghassemi M、Moody B、Szolovits P、Anthony Celi L、Mark RG。MIMIC-III,可免费访问的重症监护数据库。科学数据。2016 年 5 月 24 日;3(1):1-9。
4. Henry S, Buchan K, Filannino M, Stubbs A, Uzuner O. 2018 n2c2 共享任务,研究电子健康记录中的不良药物事件和药物提取。《美国医学信息学协会杂志》。2020 年 1 月;27(1):3-12。
该论文可在 arxiv 上根据 CC 4.0 许可获取。