Autores:  (1) Yikuan Li, MS, Facultad de Medicina Feinberg de la Universidad Northwestern y Siemens Medical Solutions;  (2) Hanyin Wang, BMed, Facultad de Medicina Feinberg de la Universidad Northwestern;  (3) Halid Z. Yerebakan, PhD, Siemens Medical Solutions;  (4) Yoshihisa Shinagawa, PhD, Siemens Medical Solutions;  (5) Yuan Luo, PhD, FAMIA, Facultad de Medicina Feinberg de la Universidad Northwestern.  Tabla de enlaces   Introducción   Métodos   Resultados y discusiones   Conclusión y referencias  Introducción  La integración y el intercambio de datos de salud entre diversas plataformas y sistemas siguen siendo un desafío debido a la ausencia de formatos estandarizados y una comprensión semántica compartida. Este desafío se vuelve más significativo cuando la información de salud crítica está integrada en datos no estructurados en lugar de formatos estructurados bien organizados. La estandarización de datos de salud no estructurados, como notas clínicas, en recursos FHIR puede aliviar la ambigüedad entre diferentes proveedores de salud y, por lo tanto, mejorar la interoperabilidad. Sin embargo, no es en absoluto una tarea fácil. Estudios anteriores 1,2 han intentado transformar notas clínicas en recursos FHIR utilizando una combinación de procesamiento de lenguaje natural y herramientas de aprendizaje automático a través de procesos de varios pasos que involucran reconocimiento de entidades clínicas con nombre, codificación de terminología, cálculos matemáticos, formato estructural y calibraciones humanas. Sin embargo, estos enfoques requieren un esfuerzo humano adicional para consolidar los resultados de múltiples herramientas y solo han logrado rendimientos moderados, con puntuaciones F1 que oscilan entre 0,7 y 0,9 en diferentes elementos. Con este fin, pretendemos aprovechar los modelos de lenguaje grande (LLM) para generar directamente recursos con formato FHIR a partir de entrada de texto libre. Se espera que la utilización de LLM simplifique los procesos que anteriormente contaban con varios pasos, mejore la eficiencia y precisión de la generación automática de recursos FHIR y, en última instancia, mejore la interoperabilidad de los datos de salud.  Métodos    Hasta donde sabemos, no existe ningún conjunto de datos ampliamente disponible públicamente en el estándar FHIR que se genere a partir de datos contextuales. Por lo tanto, hemos optado por anotar un conjunto de datos que contiene tanto entrada de texto libre como salida estructurada en formatos FHIR. La entrada de texto libre se derivó de los resúmenes de descarga de la base de datos MIMICIII. 3 Gracias al desafío de extracción de medicamentos n2c2 de 2018 4 , que esencialmente implica tareas de reconocimiento de entidades nombradas, se han identificado elementos en las declaraciones de medicamentos. Nuestras anotaciones se basaron en estas anotaciones n2c2 y estandarizaron el texto libre en múltiples sistemas de codificación de terminología clínica, como NDC, RxNorm y SNOMED. Organizamos los contextos y códigos en recursos de declaraciones de medicamentos FHIR. Los recursos FHIR convertidos fueron validados por el validador oficial de FHIR (https://validator.fhir.org/) para garantizar el cumplimiento de los estándares FHIR, incluida la estructura, el tipo de datos, los conjuntos de códigos, los nombres para mostrar y más. Estos resultados validados se consideraron los resultados de transformación estándar de oro y podrían usarse para compararlos con los LLM. No existen preocupaciones éticas con respecto al uso de datos, ya que tanto el conjunto de datos MIMIC como el n2c2 están disponibles públicamente para los usuarios autorizados. Anotación de datos    Utilizamos el modelo GPT-4 de OpenAI como LLM para la transformación del formato FHIR. Utilizamos cinco indicaciones separadas para indicarle al LLM que transforme el texto libre ingresado en medicación (incluido el código de medicación, la concentración y la forma), ruta, horario, dosis y motivo, respectivamente. Todas las indicaciones se adhirieron a una plantilla con la siguiente estructura: instrucciones de la tarea, plantillas FHIR de salida esperada en formato .JSON, 4-5 ejemplos de conversión, una lista completa de códigos a partir de los cuales el modelo puede realizar selecciones y luego el texto de entrada. Como no hubo ajustes ni adaptaciones específicas de dominio en nuestros experimentos, inicialmente hicimos que el LLM generara un pequeño subconjunto (N = 100). Luego, revisamos manualmente las discrepancias entre el resultado FHIR generado por LLM y nuestras anotaciones humanas. Se identificaron errores comunes y se utilizaron para perfeccionar las indicaciones. Es importante tener en cuenta que no tuvimos acceso a las listas completas de códigos de medicamentos NDC, RxNorm y SNOMED para nombres de medicamentos, ni a los códigos de búsqueda de SNOMED por motivos. Además, incluso si tuviéramos listas tan completas, habrían excedido los límites de tokens para los LLM. Por lo tanto, no asignamos a los LLM la tarea de codificar estas entidades; en cambio, les dimos instrucciones de identificar los contextos mencionados en el texto de entrada. Para otros elementos, por ejemplo, rutas y formas de medicamentos, que se cuentan por cientos, permitimos que los LLM los codificaran directamente. Al evaluar el resultado generado por el LLM, nuestro criterio principal fue la tasa de coincidencia exacta, lo que requiere una alineación precisa con las anotaciones humanas en todos los aspectos, incluidos códigos, estructuras y más. Además, informamos puntuaciones de precisión, recuperación y F1 para apariciones de elementos específicos. Accedimos a las API de GPT-4 a través del servicio Azure OpenAI, alineándonos con las pautas de uso responsable de los datos MIMIC. El modelo concreto que utilizamos fue 'gpt-4-32k' en su versión '2023-05-15'. Cada entrada de texto se transformó individualmente en un recurso de Declaración de medicamento. Para optimizar la eficiencia, realizamos múltiples llamadas API asincrónicas.  Modelo de lenguaje grande  Resultados y discusiones  Los resultados de la anotación y la generación de FHIR se presentan en la Tabla 1. En resumen, anotamos 3671 recursos de medicación, que cubren más de 625 medicamentos distintos y se asocian con 354 motivos. El modelo de lenguaje grande (LLM) logró una impresionante tasa de precisión de más del 90 % y una puntuación F1 superior a 0,96 en todos los elementos. En estudios anteriores, las puntuaciones F1 alcanzaron 0,750 en sincronización.repetición, 0,878 en sincronización.ruta y 0,899 en sincronización de dosis. 1 El LLM mejoró estos puntajes de F1 en al menos un 8%. Vale la pena señalar que los estudios anteriores utilizaron un conjunto de datos privado más pequeño, no emplearon las métricas de evaluación más estrictas, como la tasa de coincidencia exacta, omitieron la codificación terminológica y requirieron una capacitación extensa. Tras una investigación más profunda, también quedamos impresionados por la alta precisión en la codificación terminológica (que esencialmente implica una tarea de clasificación con más de 100 clases), la conversión matemática (por ejemplo, inferir una duración de 10 días cuando la entrada menciona "TID, dispensa 30 tabletas '), conformidad del formato (con menos de un 0,3% de probabilidad de que los resultados no se puedan interpretar en formato .JSON) y cardinalidad (el LLM puede manejar relaciones 1:N y 1:1).  La precisión del resultado depende en gran medida de las indicaciones de instrucción utilizadas. Basándonos en nuestras extensas pruebas y errores, tenemos las siguientes recomendaciones: i) proporcionar diversos ejemplos de conversión que abarquen una amplia gama de casos extremos heterogéneos; ii) utilizar un lenguaje fuerte, como “DEBE”, para garantizar que el resultado se ajuste a los formatos y reglas esperados; iii) actualizar y perfeccionar continuamente las indicaciones revisando los resultados de un pequeño subconjunto, lo que puede ayudar a identificar errores comunes y mejorar la precisión general; iv) tenga cuidado con las codificaciones fuera del vocabulario. Los LLM pueden intentar atender a los usuarios inventando códigos que no existen cuando no pueden encontrar una coincidencia cercana.  Conclusión  En este estudio, proporcionamos las bases para aprovechar los LLM para mejorar la interoperabilidad de los datos de salud transformando la entrada de texto libre en recursos FHIR. Los estudios futuros tendrán como objetivo aprovechar estos éxitos ampliando la generación a recursos FHIR adicionales y comparando el rendimiento de varios modelos LLM.  Referencia  1. Hong N, Wen A, Shen F, Sohn S, Liu S, Liu H, Jiang G. Integración de datos EHR estructurados y no estructurados utilizando un sistema de tipo basado en FHIR: un estudio de caso con datos de medicación. Cumbres AMIA sobre Actas de Ciencia Traslacional. 2018;2018:74.  2. Hong N, Wen A, Shen F, Sohn S, Wang C, Liu H, Jiang G. Desarrollo de un canal de normalización de datos clínicos escalable basado en FHIR para estandarizar e integrar datos de registros médicos electrónicos estructurados y no estructurados. JAMIA abierta. Diciembre de 2019; 2 (4): 570-9.  3. Johnson AE, Pollard TJ, Shen L, Lehman LW, Feng M, Ghassemi M, Moody B, Szolovits P, Anthony Celi L, Mark RG. MIMIC-III, una base de datos de cuidados críticos de libre acceso. Datos científicos. 24 de mayo de 2016;3(1):1-9.  4. Henry S, Buchan K, Filannino M, Stubbs A, Uzuner O. 2018 n2c2 tarea compartida sobre eventos adversos de medicamentos y extracción de medicamentos en registros médicos electrónicos. Revista de la Asociación Estadounidense de Informática Médica. 2020 enero;27(1):3-12.  Este documento está disponible en arxiv bajo licencia CC 4.0.

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

EScholar Technologies

EScholar

Este audio es producido en el idioma original de la historia!

Mejora de la interoperabilidad de los datos sanitarios con modelos de lenguaje grandes: un estudio del FHIR

About Author

COMENTARIOS

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN

Related Stories

Navegando por las aguas: desarrollo de aplicaciones RAG de nivel de producción con lagos de datos

Liberando el poder de la IA. Una revisión sistemática de técnicas de vanguardia: resumen e introducción

El modelo Bitcoin UTXO, impulsando un ecosistema único

Las capas invisibles: por qué las entrevistas con los usuarios son un activo irremplazable

Navegando por las aguas: desarrollo de aplicaciones RAG de nivel de producción con lagos de datos

Liberando el poder de la IA. Una revisión sistemática de técnicas de vanguardia: resumen e introducción

El modelo Bitcoin UTXO, impulsando un ecosistema único

Las capas invisibles: por qué las entrevistas con los usuarios son un activo irremplazable

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps