Авторы:
(1) Икуань Ли, магистр медицинских наук, Медицинская школа Файнберга Северо-Западного университета и компания Siemens Medical Solutions;
(2) Ханьинь Ван, бакалавр медицинских наук, Медицинский факультет Файнберга Северо-Западного университета;
(3) Халид З. Йеребакан, доктор философии, Siemens Medical Solutions;
(4) Ёсихиса Синагава, доктор философии, Siemens Medical Solutions;
(5) Юань Луо, доктор философии, FAMIA, Медицинский факультет Файнберга Северо-Западного университета.
Интеграция и обмен медицинскими данными между различными платформами и системами остаются сложными из-за отсутствия стандартизированных форматов и общего семантического понимания. Эта проблема становится еще более серьезной, когда критическая медицинская информация встроена в неструктурированные данные, а не в хорошо организованные структурированные форматы. Стандартизация неструктурированных медицинских данных, таких как клинические записи, в ресурсах FHIR может устранить неоднозначность среди различных поставщиков медицинских услуг и, следовательно, улучшить совместимость. Однако это отнюдь не легкая задача. Предыдущие исследования 1,2 пытались преобразовать клинические записи в ресурсы FHIR, используя комбинацию обработки естественного языка и инструментов машинного обучения посредством многоэтапных процессов, включающих распознавание клинических названий объектов, кодирование терминологии, математические расчеты, структурное форматирование и калибровку человеком. Однако эти подходы требуют дополнительных человеческих усилий для консолидации результатов, полученных от нескольких инструментов, и дают лишь умеренные результаты: оценки F1 варьируются от 0,7 до 0,9 в различных элементах. С этой целью мы намерены использовать модели большого языка (LLM) для прямой генерации ресурсов в формате FHIR на основе ввода произвольного текста. Ожидается, что использование LLM упростит ранее многоэтапные процессы, повысит эффективность и точность автоматического создания ресурсов FHIR и, в конечном итоге, улучшит совместимость медицинских данных.
Аннотация к данным Насколько нам известно, в стандарте FHIR не существует общедоступного набора данных, созданного на основе контекстных данных. Поэтому мы решили аннотировать набор данных, содержащий как входные данные в виде произвольного текста, так и структурированные выходные данные в форматах FHIR. Ввод в виде произвольного текста был получен из сводных данных о разрядах базы данных MIMICIII. 3 Благодаря задаче по извлечению лекарств n2c2 2018 года 4 , которая по существу включает в себя задачи по распознаванию названных объектов, элементы в заявлениях о лекарствах были идентифицированы. Наши аннотации основаны на этих аннотациях n2c2 и стандартизируют свободный текст в несколько систем кодирования клинической терминологии, таких как NDC, RxNorm и SNOMED. Мы организовали контексты и коды в ресурсы FHIR DrugStatement. Преобразованные ресурсы FHIR прошли проверку официальным валидатором FHIR (https://validator.fhir.org/) для обеспечения соответствия стандартам FHIR, включая структуру, тип данных, наборы кодов, отображаемые имена и многое другое. Эти проверенные результаты считались результатами трансформации «золотого стандарта» и могли использоваться для проверки на соответствие LLM. Никаких этических проблем в отношении использования данных не существует, поскольку наборы данных MIMIC и n2c2 общедоступны для авторизованных пользователей.
Модель большого языка Мы использовали модель GPT-4 OpenAI в качестве LLM для преобразования формата FHIR. Мы использовали пять отдельных подсказок, чтобы дать команду LLM преобразовать вводимый произвольный текст в лекарство (включая код лекарства, дозировку и форму), маршрут, расписание, дозировку и причину соответственно. Все подсказки привязаны к шаблону со следующей структурой: инструкции по выполнению задач, ожидаемые выходные шаблоны FHIR в формате .JSON, 4–5 примеров преобразования, полный список кодов, из которых модель может делать выбор, а затем входной текст. Поскольку в наших экспериментах не было точной настройки или адаптации к конкретной предметной области, мы изначально попросили LLM сгенерировать небольшое подмножество (N = 100). Затем мы вручную проверили несоответствия между результатами FHIR, сгенерированными LLM, и нашими человеческими аннотациями. Распространенные ошибки были выявлены и использованы для уточнения подсказок. Важно отметить, что у нас не было доступа ко всем спискам кодов NDC, RxNorm и SNOMED Medication для названий лекарств, а также кодов SNOMED Finding по причинам. Кроме того, даже если бы у нас были такие полные списки, они бы превысили лимиты токенов для LLM. Таким образом, мы не поручали LLM кодировать эти объекты; вместо этого мы попросили их идентифицировать контексты, упомянутые во входном тексте. Что касается других элементов, например, маршрутов и форм лекарств, число которых исчисляется сотнями, мы разрешили магистрантам напрямую кодировать их. При оценке результатов, сгенерированных LLM, нашим основным критерием была точная степень совпадения, что требует точного согласования с человеческими аннотациями во всех аспектах, включая коды, структуры и многое другое. Кроме того, мы сообщили о показателях точности, полноты и F1 для конкретных вхождений элементов. Мы получили доступ к API GPT-4 через службу Azure OpenAI в соответствии с рекомендациями по ответственному использованию данных MIMIC. Конкретной моделью, которую мы использовали, была gpt-4-32k в версии «2023-05-15». Каждый текстовый ввод был индивидуально преобразован в ресурс MedicationStatement. Чтобы оптимизировать эффективность, мы сделали несколько асинхронных вызовов API.
Результаты аннотации и создания FHIR представлены в таблице 1. Таким образом, мы аннотировали 3671 ресурс по лекарствам, охватывающий более 625 различных лекарств и связанных с 354 причинами. Модель большого языка (LLM) достигла впечатляющего уровня точности более 90 % и оценки F1, превышающей 0,96 по всем элементам. В предыдущих исследованиях показатели F1 достигали 0,750 в режиме «время.повтор», 0,878 в режиме «время.маршрут» и 0,899 в режиме «время.доза». 1 LLM улучшил эти показатели Формулы-1 как минимум на 8%. Стоит отметить, что предыдущие исследования использовали меньший набор частных данных, не использовали самые строгие показатели оценки, такие как коэффициент точного соответствия, пропускали кодирование терминологии и требовали обширного обучения. При дальнейшем исследовании мы также были впечатлены высокой точностью терминологического кодирования (которое по существу включает в себя задачу классификации с более чем 100 классами), математического преобразования (например, вывод продолжительности в 10 дней, когда во входных данных упоминается «TID, выдать 30 таблеток». '), соответствие формата (с вероятностью менее 0,3 %, что результаты не могут быть интерпретированы в формате .JSON) и мощность (LLM может обрабатывать отношения как 1:N, так и 1:1).
Точность вывода во многом зависит от используемых подсказок команд. Основываясь на наших обширных пробах и ошибках, у нас есть следующие рекомендации: i) предоставить разнообразные примеры преобразования, охватывающие широкий спектр гетерогенных крайних случаев; ii) используйте резкие выражения, такие как «ДОЛЖЕН», чтобы гарантировать, что выходные данные соответствуют ожидаемым форматам и правилам; iii) постоянно обновлять и уточнять подсказки, анализируя результаты небольшой подгруппы, что может помочь выявить типичные ошибки и повысить общую точность; iv) будьте осторожны с кодированием вне словарного запаса. LLM могут попытаться удовлетворить пользователей, изобретая несуществующие коды, если они не могут найти близкого соответствия.
В этом исследовании мы предоставили основы использования LLM для повышения совместимости медицинских данных путем преобразования ввода произвольного текста в ресурсы FHIR. Будущие исследования будут направлены на развитие этих успехов путем расширения генерации дополнительных ресурсов FHIR и сравнения производительности различных моделей LLM.
1. Хун Н., Вэнь А., Шен Ф., Сон С., Лю С., Лю Х., Цзян Г. Интеграция структурированных и неструктурированных данных EHR с использованием системы типов на основе FHIR: тематическое исследование с данными о лекарствах. Саммиты AMIA по трансляционным научным исследованиям. 2018;2018:74.
2. Хун Н., Вэнь А., Шен Ф., Сон С., Ван С., Лю Х., Цзян Г. Разработка масштабируемого конвейера нормализации клинических данных на основе FHIR для стандартизации и интеграции неструктурированных и структурированных электронных медицинских записей. ДЖАМИЯ открыта. 2019 декабрь;2(4):570-9.
3. Джонсон А.Э., Поллард Т.Дж., Шен Л., Леман Л.В., Фенг М., Гассеми М., Муди Б., Соловиц П., Энтони Сели Л., Марк Р.Г. MIMIC-III, свободно доступная база данных интенсивной терапии. Научные данные. 2016, 24 мая;3(1):1-9.
4. Генри С., Бьюкен К., Филаннино М., Стаббс А., Узунер О. 2018 n2c2, общая задача по нежелательным явлениям, связанным с приемом лекарств, и извлечению лекарств из электронных медицинских записей. Журнал Американской ассоциации медицинской информатики. Январь 2020 г.;27(1):3–12.
Этот документ доступен на arxiv под лицензией CC 4.0.