paint-brush
대규모 언어 모델을 통한 건강 데이터 상호 운용성 향상: FHIR 연구~에 의해@escholar
515 판독값
515 판독값

대규모 언어 모델을 통한 건강 데이터 상호 운용성 향상: FHIR 연구

너무 오래; 읽다

LLM(대형 언어 모델)이 구조화되지 않은 임상 노트를 FHIR(Fast Healthcare Interoperability Resources)로 직접 변환하여 데이터 상호 운용성과 효율성을 향상함으로써 의료에 혁신을 가져오는 방법을 알아보세요. 이 연구에서는 LLM(대형 언어 모델), 특히 OpenAI의 GPT-4를 사용하여 구조화되지 않은 임상 노트를 FHIR 리소스로 변환하는 방법을 탐구합니다. 엄격한 주석 및 테스트를 통해 LLM은 이전 방법을 능가하는 90% 이상의 정확도를 달성했습니다. 권장사항에는 다양한 프롬프트와 지속적인 개선이 포함됩니다. 이 혁신은 의료 데이터 상호 운용성을 크게 향상시킬 것을 약속합니다.
featured image - 대규모 언어 모델을 통한 건강 데이터 상호 운용성 향상: FHIR 연구
EScholar: Electronic Academic Papers for Scholars HackerNoon profile picture
0-item

저자:

(1) Yikuan Li, 석사, Northwestern University Feinberg 의과대학 및 Siemens Medical Solutions;

(2) Hanyin Wang, 노스웨스턴 대학교 파인버그 의과대학 학사;

(3) Halid Z. Yerebakan, PhD, Siemens Medical Solutions;

(4) 시나가와 요시히사(Yoshihisa Shinagawa) 박사, 지멘스 메디컬 솔루션(Siemens Medical Solutions);

(5) 위안 루오(Yuan Luo) 박사, 노스웨스턴 대학교 파인버그 의과대학 FAMIA.

링크 표

소개

행동 양식

결과 및 논의

결론 및 참고자료

소개

표준화된 형식이 없고 의미론적 이해가 공유되지 않기 때문에 다양한 플랫폼과 시스템에 걸쳐 건강 데이터를 통합하고 교환하는 것은 여전히 어려운 일입니다. 중요한 건강 정보가 잘 구성된 정형 형식이 아닌 비정형 데이터에 포함되어 있을 때 이러한 과제는 더욱 중요해집니다. 임상 기록과 같은 구조화되지 않은 건강 데이터를 FHIR 리소스로 표준화하면 다양한 의료 제공자 간의 모호성을 완화할 수 있으므로 상호 운용성이 향상됩니다. 그러나 이는 결코 쉬운 일이 아닙니다. 이전 연구 1, 2에서는 임상 명명 엔터티 인식, 용어 코딩, 수학적 계산, 구조적 형식화 및 인간 교정을 포함하는 다단계 프로세스를 통해 자연어 처리와 기계 학습 도구의 조합을 사용하여 임상 노트를 FHIR 리소스로 변환하려고 시도했습니다. 그러나 이러한 접근 방식은 여러 도구의 결과를 통합하기 위해 추가적인 인적 노력이 필요하며 다양한 요소에서 F1 점수가 0.7~0.9 범위인 중간 수준의 성능만 달성했습니다. 이를 위해 우리는 LLM(대형 언어 모델)을 활용하여 자유 텍스트 입력에서 FHIR 형식의 리소스를 직접 생성할 계획입니다. LLM의 활용은 기존의 다단계 프로세스를 단순화하고 자동 FHIR 자원 생성의 효율성과 정확성을 향상시켜 궁극적으로 건강 데이터 상호 운용성을 향상시킬 것으로 예상됩니다.


행동 양식

데이터 주석 우리가 아는 한, FHIR 표준에는 상황별 데이터에서 생성된 대규모 공개 데이터 세트가 없습니다. 따라서 우리는 FHIR 형식의 자유 텍스트 입력과 구조화된 출력을 모두 포함하는 데이터 세트에 주석을 추가하기로 선택했습니다. 자유 텍스트 입력은 MIMICIII 데이터의 방전 요약에서 파생되었습니다. 3 기본적으로 명명된 엔터티 인식 작업과 관련된 2018 n2c2 약물 추출 챌린지 4 덕분에 약물 명세서의 요소가 식별되었습니다. 우리의 주석은 이러한 n2c2 주석을 기반으로 하며 무료 텍스트를 NDC, RxNorm 및 SNOMED와 같은 여러 임상 용어 코딩 시스템으로 표준화했습니다. 우리는 컨텍스트와 코드를 FHIR medicineStatement 리소스로 구성했습니다. 변환된 FHIR 리소스는 공식 FHIR 검사기(https://validator.fhir.org/)의 검증을 거쳐 구조, 데이터 유형, 코드 세트, 표시 이름 등을 포함한 FHIR 표준을 준수하는지 확인했습니다. 이러한 검증된 결과는 최고의 표준 변환 결과로 간주되었으며 LLM에 대한 테스트에 사용될 수 있습니다. MIMIC 및 n2c2 데이터 세트는 모두 승인된 사용자에게 공개적으로 제공되므로 데이터 사용과 관련된 윤리적 문제는 없습니다.


대규모 언어 모델 FHIR 형식 변환을 위한 LLM으로 OpenAI의 GPT-4 모델을 사용했습니다. 우리는 5개의 별도 프롬프트를 사용하여 입력된 자유 텍스트를 약물(medicationCode, 강도 및 형태 포함), 경로, 일정, 복용량 및 이유로 각각 변환하도록 LLM에 지시했습니다. 모든 프롬프트는 작업 지침, .JSON 형식의 예상 출력 FHIR 템플릿, 4~5개의 변환 예, 모델이 선택할 수 있는 포괄적인 코드 목록, 입력 텍스트 등의 구조를 가진 템플릿을 준수합니다. 실험에는 미세 조정이나 도메인별 적응이 없었기 때문에 처음에는 LLM이 작은 하위 집합(N=100)을 생성하도록 했습니다. 그런 다음 LLM에서 생성된 FHIR 출력과 사람이 작성한 주석 간의 불일치를 수동으로 검토했습니다. 일반적인 실수가 식별되어 프롬프트를 개선하는 데 사용되었습니다. 약물 이름에 대한 NDC, RxNorm 및 SNOMED 약물 코드의 전체 목록과 이유로 인해 SNOMED 검색 코드에 대한 액세스 권한이 없다는 점을 기억하는 것이 중요합니다. 또한 이러한 포괄적인 목록이 있더라도 LLM의 토큰 제한을 초과했을 것입니다. 따라서 우리는 이러한 엔터티를 코딩하는 작업을 LLM에 맡기지 않았습니다. 대신에 우리는 입력 텍스트에 언급된 맥락을 식별하도록 지시했습니다. 기타 요소(예: 약물 경로 및 형태)의 경우 수백 개의 번호를 부여하여 LLM이 직접 코딩할 수 있도록 허용했습니다. LLM에서 생성된 출력을 평가할 때 주요 기준은 정확한 일치율이었습니다. 이를 위해서는 코드, 구조 등을 포함한 모든 측면에서 사람이 작성한 주석과 정확하게 일치해야 합니다. 또한 특정 요소 발생에 대한 정밀도, 재현율 및 F1 점수를 보고했습니다. MIMIC 데이터에 대한 책임 있는 사용 지침에 따라 Azure OpenAI 서비스를 통해 GPT-4 API에 액세스했습니다. 우리가 사용한 특정 모델은 '2023-05-15' 버전의 'gpt-4-32k'였습니다. 각 텍스트 입력은 개별적으로 MedicationStatement 리소스로 변환되었습니다. 효율성을 최적화하기 위해 여러 개의 비동기 API 호출을 수행했습니다.



결과 및 논의

주석 및 FHIR 생성 결과는 표 1에 나와 있습니다. 요약하면, 우리는 625개가 넘는 개별 약물을 다루고 354가지 이유와 관련된 3,671개의 약물 자원에 주석을 달았습니다. LLM(Large Language Model)은 모든 요소에서 90%가 넘는 인상적인 정확도와 0.96을 초과하는 F1 점수를 달성했습니다. 이전 연구에서 F1 점수는 timing.repeat에서 0.750, timing.route에서 0.878, timing Dose에서 0.899에 도달했습니다. 1 LLM은 F1 점수를 최소 8% 향상시켰습니다. 이전 연구에서는 더 작은 규모의 개인 데이터세트를 사용했고, 정확한 일치율과 같은 가장 엄격한 평가 지표를 사용하지 않았고, 용어 코딩을 생략했으며, 광범위한 교육이 필요했다는 점은 주목할 가치가 있습니다. 추가 조사에서 우리는 용어 코딩(본질적으로 100개 이상의 클래스가 포함된 분류 작업 포함), 수학적 변환(예: 입력에 'TID가 언급될 때 10일 기간 추론, 30정 분배)의 높은 정확도에 깊은 인상을 받았습니다. '), 형식 적합성(결과를 .JSON 형식으로 해석할 수 없는 확률은 0.3% 미만), 카디널리티(LLM은 1:N 및 1:1 관계를 모두 처리할 수 있음)입니다.


출력의 정확성은 사용된 지침 프롬프트에 따라 크게 달라집니다. 광범위한 시행착오를 바탕으로 다음과 같은 권장사항을 제시합니다. i) 광범위한 이종 엣지 케이스를 포괄하는 다양한 변환 사례를 제공합니다. ii) 출력이 예상되는 형식과 규칙을 준수하는지 확인하기 위해 "MUST"와 같은 강력한 언어를 사용합니다. iii) 작은 하위 집합의 결과를 검토하여 프롬프트를 지속적으로 업데이트하고 개선합니다. 이는 일반적인 실수를 식별하고 전반적인 정확성을 높이는 데 도움이 될 수 있습니다. iv) 어휘 범위를 벗어난 코딩에 주의하십시오. LLM은 가까운 일치 항목을 찾을 수 없을 때 존재하지 않는 코드를 만들어 사용자에게 서비스를 제공하려고 시도할 수 있습니다.


결론

본 연구에서는 자유 텍스트 입력을 FHIR 리소스로 변환하여 의료 데이터 상호 운용성을 향상시키기 위해 LLM을 활용하는 기반을 제공했습니다. 향후 연구에서는 이러한 성공을 바탕으로 세대를 추가 FHIR 리소스로 확장하고 다양한 LLM 모델의 성능을 비교하는 것을 목표로 할 것입니다.

참조

1. Hong N, Wen A, Shen F, Sohn S, Liu S, Liu H, Jiang G. FHIR 기반 유형 시스템을 사용하여 구조화된 EHR 데이터와 구조화되지 않은 EHR 데이터 통합: 약물 데이터를 사용한 사례 연구. 중개과학 절차에 관한 AMIA 정상회담. 2018;2018:74.


2. Hong N, Wen A, Shen F, Sohn S, Wang C, Liu H, Jiang G. 비정형 및 정형 전자 건강 기록 데이터를 표준화하고 통합하기 위한 확장 가능한 FHIR 기반 임상 데이터 정규화 파이프라인 개발. JAMIA 오픈. 2019년 12월;2(4):570-9.


3. Johnson AE, Pollard TJ, Shen L, Lehman LW, Feng M, Ghassemi M, Moody B, Szolovits P, Anthony Celi L, Mark RG. MIMIC-III는 자유롭게 접근 가능한 중환자 데이터베이스입니다. 과학적인 데이터. 2016년 5월 24;3(1):1-9.


4. Henry S, Buchan K, Filannino M, Stubbs A, Uzuner O. 2018 n2c2는 전자 건강 기록의 약물 부작용 및 약물 추출에 대한 작업을 공유했습니다. 미국 의료 정보학 협회 저널. 2020년 1월;27(1):3-12.




이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.