paint-brush
Mejora de la interoperabilidad de los datos sanitarios con modelos de lenguaje grandes: un estudio del FHIRpor@escholar
528 lecturas
528 lecturas

Mejora de la interoperabilidad de los datos sanitarios con modelos de lenguaje grandes: un estudio del FHIR

Demasiado Largo; Para Leer

Descubra cómo los modelos de lenguaje grande (LLM) revolucionan la atención médica al transformar directamente notas clínicas no estructuradas en recursos rápidos de interoperabilidad en atención médica (FHIR), mejorando la interoperabilidad y la eficiencia de los datos. El estudio explora el uso de modelos de lenguaje grande (LLM), específicamente GPT-4 de OpenAI, para convertir notas clínicas no estructuradas en recursos FHIR. A través de rigurosas anotaciones y pruebas, el LLM logró más del 90% de precisión, superando los métodos anteriores. Las recomendaciones incluyen diversas indicaciones y un refinamiento continuo. Esta innovación promete mejorar significativamente la interoperabilidad de los datos de salud.
featured image - Mejora de la interoperabilidad de los datos sanitarios con modelos de lenguaje grandes: un estudio del FHIR
EScholar: Electronic Academic Papers for Scholars HackerNoon profile picture
0-item

Autores:

(1) Yikuan Li, MS, Facultad de Medicina Feinberg de la Universidad Northwestern y Siemens Medical Solutions;

(2) Hanyin Wang, BMed, Facultad de Medicina Feinberg de la Universidad Northwestern;

(3) Halid Z. Yerebakan, PhD, Siemens Medical Solutions;

(4) Yoshihisa Shinagawa, PhD, Siemens Medical Solutions;

(5) Yuan Luo, PhD, FAMIA, Facultad de Medicina Feinberg de la Universidad Northwestern.

Tabla de enlaces

Introducción

Métodos

Resultados y discusiones

Conclusión y referencias

Introducción

La integración y el intercambio de datos de salud entre diversas plataformas y sistemas siguen siendo un desafío debido a la ausencia de formatos estandarizados y una comprensión semántica compartida. Este desafío se vuelve más significativo cuando la información de salud crítica está integrada en datos no estructurados en lugar de formatos estructurados bien organizados. La estandarización de datos de salud no estructurados, como notas clínicas, en recursos FHIR puede aliviar la ambigüedad entre diferentes proveedores de salud y, por lo tanto, mejorar la interoperabilidad. Sin embargo, no es en absoluto una tarea fácil. Estudios anteriores 1,2 han intentado transformar notas clínicas en recursos FHIR utilizando una combinación de procesamiento de lenguaje natural y herramientas de aprendizaje automático a través de procesos de varios pasos que involucran reconocimiento de entidades clínicas con nombre, codificación de terminología, cálculos matemáticos, formato estructural y calibraciones humanas. Sin embargo, estos enfoques requieren un esfuerzo humano adicional para consolidar los resultados de múltiples herramientas y solo han logrado rendimientos moderados, con puntuaciones F1 que oscilan entre 0,7 y 0,9 en diferentes elementos. Con este fin, pretendemos aprovechar los modelos de lenguaje grande (LLM) para generar directamente recursos con formato FHIR a partir de entrada de texto libre. Se espera que la utilización de LLM simplifique los procesos que anteriormente contaban con varios pasos, mejore la eficiencia y precisión de la generación automática de recursos FHIR y, en última instancia, mejore la interoperabilidad de los datos de salud.


Métodos

Anotación de datos Hasta donde sabemos, no existe ningún conjunto de datos ampliamente disponible públicamente en el estándar FHIR que se genere a partir de datos contextuales. Por lo tanto, hemos optado por anotar un conjunto de datos que contiene tanto entrada de texto libre como salida estructurada en formatos FHIR. La entrada de texto libre se derivó de los resúmenes de descarga de la base de datos MIMICIII. 3 Gracias al desafío de extracción de medicamentos n2c2 de 2018 4 , que esencialmente implica tareas de reconocimiento de entidades nombradas, se han identificado elementos en las declaraciones de medicamentos. Nuestras anotaciones se basaron en estas anotaciones n2c2 y estandarizaron el texto libre en múltiples sistemas de codificación de terminología clínica, como NDC, RxNorm y SNOMED. Organizamos los contextos y códigos en recursos de declaraciones de medicamentos FHIR. Los recursos FHIR convertidos fueron validados por el validador oficial de FHIR (https://validator.fhir.org/) para garantizar el cumplimiento de los estándares FHIR, incluida la estructura, el tipo de datos, los conjuntos de códigos, los nombres para mostrar y más. Estos resultados validados se consideraron los resultados de transformación estándar de oro y podrían usarse para compararlos con los LLM. No existen preocupaciones éticas con respecto al uso de datos, ya que tanto el conjunto de datos MIMIC como el n2c2 están disponibles públicamente para los usuarios autorizados.


Modelo de lenguaje grande Utilizamos el modelo GPT-4 de OpenAI como LLM para la transformación del formato FHIR. Utilizamos cinco indicaciones separadas para indicarle al LLM que transforme el texto libre ingresado en medicación (incluido el código de medicación, la concentración y la forma), ruta, horario, dosis y motivo, respectivamente. Todas las indicaciones se adhirieron a una plantilla con la siguiente estructura: instrucciones de la tarea, plantillas FHIR de salida esperada en formato .JSON, 4-5 ejemplos de conversión, una lista completa de códigos a partir de los cuales el modelo puede realizar selecciones y luego el texto de entrada. Como no hubo ajustes ni adaptaciones específicas de dominio en nuestros experimentos, inicialmente hicimos que el LLM generara un pequeño subconjunto (N = 100). Luego, revisamos manualmente las discrepancias entre el resultado FHIR generado por LLM y nuestras anotaciones humanas. Se identificaron errores comunes y se utilizaron para perfeccionar las indicaciones. Es importante tener en cuenta que no tuvimos acceso a las listas completas de códigos de medicamentos NDC, RxNorm y SNOMED para nombres de medicamentos, ni a los códigos de búsqueda de SNOMED por motivos. Además, incluso si tuviéramos listas tan completas, habrían excedido los límites de tokens para los LLM. Por lo tanto, no asignamos a los LLM la tarea de codificar estas entidades; en cambio, les dimos instrucciones de identificar los contextos mencionados en el texto de entrada. Para otros elementos, por ejemplo, rutas y formas de medicamentos, que se cuentan por cientos, permitimos que los LLM los codificaran directamente. Al evaluar el resultado generado por el LLM, nuestro criterio principal fue la tasa de coincidencia exacta, lo que requiere una alineación precisa con las anotaciones humanas en todos los aspectos, incluidos códigos, estructuras y más. Además, informamos puntuaciones de precisión, recuperación y F1 para apariciones de elementos específicos. Accedimos a las API de GPT-4 a través del servicio Azure OpenAI, alineándonos con las pautas de uso responsable de los datos MIMIC. El modelo concreto que utilizamos fue 'gpt-4-32k' en su versión '2023-05-15'. Cada entrada de texto se transformó individualmente en un recurso de Declaración de medicamento. Para optimizar la eficiencia, realizamos múltiples llamadas API asincrónicas.



Resultados y discusiones

Los resultados de la anotación y la generación de FHIR se presentan en la Tabla 1. En resumen, anotamos 3671 recursos de medicación, que cubren más de 625 medicamentos distintos y se asocian con 354 motivos. El modelo de lenguaje grande (LLM) logró una impresionante tasa de precisión de más del 90 % y una puntuación F1 superior a 0,96 en todos los elementos. En estudios anteriores, las puntuaciones F1 alcanzaron 0,750 en sincronización.repetición, 0,878 en sincronización.ruta y 0,899 en sincronización de dosis. 1 El LLM mejoró estos puntajes de F1 en al menos un 8%. Vale la pena señalar que los estudios anteriores utilizaron un conjunto de datos privado más pequeño, no emplearon las métricas de evaluación más estrictas, como la tasa de coincidencia exacta, omitieron la codificación terminológica y requirieron una capacitación extensa. Tras una investigación más profunda, también quedamos impresionados por la alta precisión en la codificación terminológica (que esencialmente implica una tarea de clasificación con más de 100 clases), la conversión matemática (por ejemplo, inferir una duración de 10 días cuando la entrada menciona "TID, dispensa 30 tabletas '), conformidad del formato (con menos de un 0,3% de probabilidad de que los resultados no se puedan interpretar en formato .JSON) y cardinalidad (el LLM puede manejar relaciones 1:N y 1:1).


La precisión del resultado depende en gran medida de las indicaciones de instrucción utilizadas. Basándonos en nuestras extensas pruebas y errores, tenemos las siguientes recomendaciones: i) proporcionar diversos ejemplos de conversión que abarquen una amplia gama de casos extremos heterogéneos; ii) utilizar un lenguaje fuerte, como “DEBE”, para garantizar que el resultado se ajuste a los formatos y reglas esperados; iii) actualizar y perfeccionar continuamente las indicaciones revisando los resultados de un pequeño subconjunto, lo que puede ayudar a identificar errores comunes y mejorar la precisión general; iv) tenga cuidado con las codificaciones fuera del vocabulario. Los LLM pueden intentar atender a los usuarios inventando códigos que no existen cuando no pueden encontrar una coincidencia cercana.


Conclusión

En este estudio, proporcionamos las bases para aprovechar los LLM para mejorar la interoperabilidad de los datos de salud transformando la entrada de texto libre en recursos FHIR. Los estudios futuros tendrán como objetivo aprovechar estos éxitos ampliando la generación a recursos FHIR adicionales y comparando el rendimiento de varios modelos LLM.

Referencia

1. Hong N, Wen A, Shen F, Sohn S, Liu S, Liu H, Jiang G. Integración de datos EHR estructurados y no estructurados utilizando un sistema de tipo basado en FHIR: un estudio de caso con datos de medicación. Cumbres AMIA sobre Actas de Ciencia Traslacional. 2018;2018:74.


2. Hong N, Wen A, Shen F, Sohn S, Wang C, Liu H, Jiang G. Desarrollo de un canal de normalización de datos clínicos escalable basado en FHIR para estandarizar e integrar datos de registros médicos electrónicos estructurados y no estructurados. JAMIA abierta. Diciembre de 2019; 2 (4): 570-9.


3. Johnson AE, Pollard TJ, Shen L, Lehman LW, Feng M, Ghassemi M, Moody B, Szolovits P, Anthony Celi L, Mark RG. MIMIC-III, una base de datos de cuidados críticos de libre acceso. Datos científicos. 24 de mayo de 2016;3(1):1-9.


4. Henry S, Buchan K, Filannino M, Stubbs A, Uzuner O. 2018 n2c2 tarea compartida sobre eventos adversos de medicamentos y extracción de medicamentos en registros médicos electrónicos. Revista de la Asociación Estadounidense de Informática Médica. 2020 enero;27(1):3-12.




Este documento está disponible en arxiv bajo licencia CC 4.0.