Машинное обучение в медицине: дайджест за 16 – 22 декабря 2024 г.
Модели, бенчмарки и датасеты
🟩 MedMax: датасет для обучения мультимодальных медицинских моделей.
MedMax – крупный датасет, содержащий 1.47 млн. образцов медицинских изображений, соответствующие им аннотации, вопросы и ответы и текстовые медицинские заключения.
MedMax разработан для преодоления недостаточности объема данных и узкой специализацией существующих ресурсов. В качестве источников использовались PMC-OA, Quilt, LLaVA-Med, PubMedVision, MIMIC-CXR и новый набор данных MedMax-Instruct для генерации чередующегося текстово-графического контента, созданный на основе GPT-4o.
Для оценки эффективности медицинских LLM, на основе MedMax был разработан бенчмарк из задач: VQA, генерация изображений и создание к ним аннотаций, мультимодальная генерация и визуального диалога.
Тестовая модель, обученная на MedMax, продемонстрировала улучшение результативности: на 26% по сравнению с Chameleon и на 18,3% по сравнению с GPT-4o, по 12 задачам VQA.
🟩 RadiologyLlama-70B: модель генерации отчетов в радиологии.
RadiologyLlama-70B – специализированная LLM, предназначенная для помощи радиологам в генерации отчетов, поддержке принятия клинических решений и коммуникации с пациентами.
RadiologyLlama-70B была обучена на наборе данных из более чем 6,5 млн. деидентифицированных радиологических отчетов из Массачусетской больницы общего профиля (MGH) за период 2008-2018 гг., содержащих методы визуализации: КТ, МРТ, рентген и флюороскопию.
При подготовке данных извлекались заключения из отчетов и соответствующие снимки для создания пар “ввод-вывод”. Инструкции для донастройки состояли из 20 различных запросов на формирование снимков, с добавлением кодов исследований и вводных фраз для разнообразия.
Оценка проводилась с использованием ROUGE-L, BERTScore и оценки на основе GPT-4o.
ROUGE-L оценивал перекрытие наиболее длинных общих последовательностей между сгенерированными и эталонными заключениями. BERTScore вычислял сходство контекстных эмбедингов. Оценка с помощью GPT-4o сравнивала точность и сходство сгенерированных заключений с ожидаемыми реальными заключениями по шкале от 0 до 10, где более высокий балл указывает на лучшее соответствие.
Результаты показали, что RadiologyLlama-70B превзошла базовую модель, с увеличением ROUGE-L на 100%, BERTScore на 4-5% и более чем на 1 пункт по оценке GPT-4o.
🟩 Multi-OphthaLingua и CLARA: мультиязычный бенчмарк для оценки офтальмологических QA и RAG-система снижения предвзятости LLM.
Multi-OphthaLingua – первый мультиязычный набор данных для оценки качества QA в офтальмологии. Цель его создания – снижение предвзятости, свойственной LLM.
Multi-OphthaLingua состоит из 1184 вопроса, переведенных на 7 языков: английский, испанский, филиппинский, португальский, китайский, французский и хинди.
Вопросы охватывают широкий спектр офтальмологических тем, от фундаментальных основ до клинической практики и хирургии. Квалифицированные офтальмологи – носители соответствующих языков, участвовали в разработке и проверке каждого вопроса и ответа, что гарантирует их нейтральность, точность и соответствие культурным особенностям. Наличие парных вопросов на всех языках дает возможность кросс-лингвального сравнения результатов.
На созданном датасете была проведена оценка 6 LLM: Llama-2 70B, Llama-3 70B, Mixtral 8x7B, Qwen-2 72B, GPT 3.5 и GPT 4.
Результаты показали значительные различия в производительности моделей в зависимости от языка. Наиболее низкие показатели были зафиксированы для филиппинского языка и хинди. В частности, точность ответов GPT-4 на филиппинском составила 51,8%, на хинди – 50,6%, в то время как на английском языке она достигла 63,4%.
Для решения выявленных проблем была предложена CLARA (Cross-Lingual Reflective Agentic system) – методология устранения предвзятости на этапе инференса.
CLARA использует многоагентную архитектуру из агентов перевода, оценки, расширения знаний и корректировки. Система объединяет в себе предварительный перевод, RAG, поиск информации в интернете и процедуру самопроверки.
CLARA использует взвешенный RAG, где вес определяется степенью неуверенности в корректности перевода и использует специализированный офтальмологический словарь для обработки терминологии. В целях расширения базы знаний система задействует PubMed, медицинские учебники и Wikipedia. Итерационный процесс оценки позволяет определить, насколько полезна полученная информация для ответа на вопрос, а агент переформулировки помогает обрабатывать запросы повышенной сложности.
Эксперименты подтвердили, что CLARA превосходит прямое применение LLM, Web-ToolCall и Translate-COT, как по точности, так и по уменьшению кросс-лингвистических различий. Например, CLARA позволила сократить разрыв в производительности между английским и филиппинским языками с 7,9% до 5,1%, при этом точность на филиппинском языке увеличилась с 61,6% до 67,1%.
🟩 FactEHR: датасет для оценки способности LLM к декомпозиции фактов.
FactEHR – набор данных, предназначенный для оценки возможностей LLM в задаче декомпозиции фактов из клинических текстов. Набор состоит из 2168 клинических записей 4 типов, собранных в 3 медицинских учреждениях.
FactEHR содержит 8665 декомпозиций фактов, сгенерированных 4-мя LLM и 987 266 пар для оценки текстовых выводов, из которых 1036 пар были аннотированы медицинскими экспертами.
Датасет проверили на 4 LLM в задаче декомпозиции фактов: GPT-4o, o1-mini, Gemini-1.5-Flash-002 и Llama3-8b-Instruct в 4 видах документов: протоколы процедур, сестринские записи, заметки о динамике состояния пациента и выписные эпикризы. Для каждого документа, LLM генерировали наборы фактов, которые затем сравнивались по длине, сходству и атомарности.
Для оценки текстового вывода использовалась GPT-4o. С целью определения точности и полноты декомпозиций фактов применялись метрики точности и полноты фактов, основанные на текстовой импликации.
Полученные результаты выявили значительную вариативность в качестве декомпозиции фактов между различными LLM.
Различие в количестве сгенерированных фактов достигало 2,6 раз. Модели GPT-4o и o1-mini показали более высокие результаты по всем типам записей, чем Gemini-1.5 и Llama3-8B. Коэффициент вариации (CV) количества фактов, полученных от LLM, оказался максимальным для выписных эпикризов (0.45), что свидетельствует о значительных различиях между LLM при обработке сложных документов.
Фреймворки и методологии
🟦 ReflecTool: фреймворк для создания клинических агентов.
ReflecTool – фреймворк для повышения эффективности клинических агентов посредством интеграции специализированных инструментов и механизмов самоанализа.
ReflecTool реализуется в 2 этапа: оптимизация и вывод. На этапе оптимизации агент, используя инструментарий, состоящий из баз данных, калькуляторов, датасетов, функций запроса и поиска, решает задачи из ограниченной выборки, формируя успешные траектории с применением самоанализа.
Успешные траектории сохраняются в долговременной памяти, где параллельно накапливается опыт использования этих инструментов.
На этапе вывода ReflecTool осуществляет поиск схожих успешных прецедентов в долговременной памяти для оптимизации выбора инструментов. Эффективность применения инструментов достигается методами итеративного уточнения и отбора кандидатов на основе “накопленного опыта”.
Для оценки фреймворка была разработана эталонная платформа ClinicalAgent Bench (CAB) из 18 задач, охватывающих 5 клинических областей: знания и рассуждения, мультимодальность, численный анализ, понимание данных и надежность.
CAB требует от агентов способности интегрировать информацию из медицинских изображений, электронные медицинские карты (ЭМК) и клинического текста, а также снижать вероятность галлюцинаций.
Экспериментальные исследования на CAB продемонстрировали, что ReflecTool превосходит как LLM (более чем на 10 %), так и существующие агентные методы (на 3%).
🟦 Process-Supervised Reward Model: улучшение качества генерации клинических заметок с помощью LLM.
Process-Supervised Reward Model (PRM) – методика пошаговой проверки качества клинических заметок, созданных LLM. Этот метод, в отличие от Outcome-Supervised Reward Model (ORM), оценивающей результат целиком, присваивает оценку каждому шагу генерации, что позволяет точно выявлять ошибки и повышает прозрачность процесса.
В прикладной демонстрации метода использовалась модель LLaMA-3.1 8B instruct и датасет PRM-Clinic, специально разработанный набор данных структурированных заметок, преобразованные в иерархию шагов, с добавлением синтетических ошибок (неточности, галлюцинации, бесполезность) для имитации реальных сценариев.
В ходе экспериментов PRM продемонстрировал превосходство над Gemini-Pro 1.5 и ORM.
Точность выбора эталонных заметок из ошибочных составила 98.8% для PRM, в сравнении с 61.3% для ORM и 93.8% для Gemini-Pro 1.5.
Точность выбора предпочтительных заметок врачей достигла 56.2% для PRM против 51.2% для ORM и 50.0% для Gemini-Pro 1.5.
🟦 LLM как эксперт: метод получения априорных знаний для прогностических моделей.
Метод использования LLM для определения априорных распределений параметров в прогностических моделях, что особенно полезно в условиях ограниченных данных. В отличие от обучения in-context learning, предложенный метод позволяет использовать LLM в качестве «эксперта» в предметной области, извлекая знания, которые могут улучшить прогностические модели.
Основная идея состоит в использование LLM для генерации гауссовых априорных распределений для каждого параметра модели на основе описаний задачи и последующее создание смеси этих распределений. Для этого описание задачи перефразируется языковой моделью множество раз, чтобы получить распределение релевантных описаний.
В экспериментах на датасетах из разных областей результаты показали, что априорные распределения, полученные с помощью LLM, позволяют достичь лучшей точности прогнозирования при меньшем количестве обучающих данных по сравнению с неинформативными априорными распределениями.
Например, при прогнозировании инфекций, использование LLM-априорных знаний, позволило уменьшить количество необходимых меток для достижения той же точности, что и при использовании неинформативного априорного распределения на 55% и на 200 дней раньше.
В рамках исследования сравнивались распределения, полученные с помощью LLM, с внутренними распределениями моделей, используемых для обучения in-context. Для этого, с помощью оценки максимального правдоподобия, извлекались априорные и апостериорные распределения параметров внутренней модели LLM.
Обнаружено, что эти распределения значимо отличаются, что указывает на то, что LLM использует другое априорное распределение для прогнозов in-context, чем то, которое оно предоставляет при определении априорного распределения для отдельной прогностической модели.
🟦 ICS: сегментация медицинских изображений с контекстным обучением.
In-context Cascade Segmentation (ICS) – метод для улучшения сегментации последовательных медицинских изображений (КТ и МРТ) при минимальных требованиях к аннотации.
Метод основан на UniverSeg, который выполняет сегментацию с несколькими примерами без дополнительного обучения. ICS итеративно добавляет результаты вывода каждого среза в набор поддержки, распространяя информацию вперед и назад по последовательности, что дает согласованность между срезами. ICS не требует повторного обучения, что снижает вычислительные затраты.
Эксперименты проводились на наборе HVSMR, содержащем 60 кардиоваскулярных МРТ сканов с масками сегментации для 8 областей сердца. Оценка производилась с использованием коэффициента Дайса (DSC).
ICS показал значительно более высокие значения DSC по сравнению с базовым методом UniverSeg в областях LA, RA, AO, PA и SVC. Например, в области PA метод ICS показал лучшую согласованность между срезами и точность захвата анатомически сложных структур, что подтверждается значениями DSC – 0.4745 в ICS против 0.3807 у базовой модели. При этом в областях LV и IVC существенных различий не наблюдалось.
🟦 HC-LLM: генерация радиологических отчетов с учетом исторической информации.
HC-LLM- фреймворк на основе LLM для генерации радиологических отчетов, использующий временные особенности, извлеченные из исторически последовательных рентгеновских снимков грудной клетки и их отчетов.
HC-LLM извлекает общие и специфические признаки из рентгеновских снимков и отчетов в 2 временных точках. Для этого используются внутримодальные (сходство признаков внутри одного типа данных) и межмодальные (сопоставление признаков между изображениями и текстами) условия.
Внутримодальные ограничения обеспечивают согласованность общих признаков с течением времени, а межмодальные (контрастивные и структурные) выравнивают общие и специфические признаки между изображениями и отчетами.
Контрастивное ограничение помогает разделить признаки внутри одной модальности (например, на изображении). Это делает признаки более выразительными и помогает лучше понять, что они представляют.
Структурное ограничение гарантирует, что геометрические отношения между признаками изображений соответствуют отношениям между признаками текста
Экспериментальные тесты с моделями LLAMA2-7B, LLAMA2-13B, BioMedGPT-LM-7B и Vicuna-13B проводились на наборе данных MIMIC, который содержит 94 169 образцов от 26 625 пациентов. Фреймворк достиг высоких результатов по большинству метрик оценки качества генерации текста (NLG): BLEU, METEOR и ROUGE-L.
LLM-приложения
🟥Система рекомендаций на основе MoE.
Концепт создания персонализированных рекомендательных систем для здравоохранения, объединяющий Mixture-of-Experts (MoE) и LLMs для обработки мультимодальных данных.
Система нацелена улучшить точность и персонализацию рекомендаций, предоставляя рекомендации по здоровому питанию на основе текстовых описаний, изображений продуктов и персональных данных пользователей.
Для обучения и тестирования системы был создан небольшой набор данных “Health Food Recommendations”, содержащий 177 записей. Данные включают демографическую информацию о пользователях, их текстовые описания, описания продуктов и соответствующие изображения.
Архитектура системы состоит из предобученных моделей BERT (для обработки текстовых данных) и ViT (для анализа изображений) и модуля MoE (выбор эксперта и формирование рекомендации).
BERT преобразует текст в векторные представления, используя комбинацию векторов слов, сегментов и позиций, а ViT сегментирует изображения на блоки, которые затем встраиваются в последовательность.
Полученные представления конкатенируются и объединяются со структурированными данными пользователя, после чего передаются в модуль MоE.
MоE состоит из слоя коллаборативной фильтрации, который обрабатывает векторные представления, нескольких экспертных слоев и вентильного слоя, который определяет, какие эксперты наиболее релевантны для данной задачи.
Система оценивалась по метрикам Precision@K, NDCG, и MAP@5. Результаты показали, что спроектированный концепт превосходит решения, использующие только MOE или LLM, по всем ключевым показателям. В частности, отдельная LLM с мультимодальными данными достигла Precision@5 0.69, а целевой концепт – 0.73.
🟥 MCQG-SRefine: генерация медицинских тестов формата USMLE.
MCQG-SRefine – фреймворк на основе GPT-4, предназначенный для преобразования медицинских случаев в вопросы в экзаменационном стиле USMLE, уменьшая количество излишней информации, убирая подсказки и делая вопросы более сложными.
Фреймворк использует итеративный процесс самокритики и самокоррекции и состоит из 3 основных стадий: начальная генерация вопросов, критика и коррекция.
На этапе инициализации GPT-4 генерирует контекст, вопрос, правильный ответ и варианты ответов, используя базу данных MedQA для примеров. Затем модель оценивает сгенерированные компоненты и вносит исправления на основе полученных отзывов, основываясь на заранее заданных критериях. Для улучшения качества MCQG-SRefine использует специально разработанные подсказки и руководствуется рекомендациями NBME, выделив 41 целевую тему, охватывающую все потенциальные экзаменационные области.
В тестировании, вопросы, созданные MCQG-SRefine, получили на 72.5% больше предпочтений от экспертов по сравнению с вопросами, сгенерированными непосредственно GPT-4. Также наблюдалось значительное увеличение сложности вопросов: количество легких вопросов уменьшилось на 80%, средних увеличилось в 2.25 раза, а сложных в 4 раза.
Альтернативой дорогостоящей экспертной оценке использовался метод LLM-as-Judge с 10 ключевыми критериями, что в общем повысило корреляцию с экспертной оценкой (значение каппа Коэна увеличилось с 0.226 до 0.539).
MCQG-SRefine показал улучшения по 10 критериям. Результаты LLM-as-Judge (сравнение) показали, что MCQG-SRefine превосходит GPT-4 с показателем в 79.8% (с человеческими темами и ключевыми моментами) и в 80.1% (с машинными темами и ключевыми моментами).
🟥 LookDeep Health: AI-платформа для непрерывного мониторинга пациентов.
LookDeep Health – платформа для непрерывного и пассивного мониторинга пациентов в больничных условиях с использованием компьютерного зрения. Платформа анализирует видео в реальном времени, предоставляя информацию о поведении и взаимодействиях пациентов.
Данные собирались в сотрудничестве с 11 больницами и включают записи более 300 пациентов с высоким риском падений на протяжении 1000 дней наблюдений.
Платформа использует CV-модели для обнаружения объектов в палатах (людей, мебели), классификации ролей (“пациент”, “персонал”, “другие”), оценки движения и отслеживания пересечения границ.
Обнаружение объектов выполняет архитектура YOLOv4, обученная на более чем 40 000 кадрах, с последующей доработкой на данных COCO. Классификация ролей выполнялась путем добавления информации о ролях к меткам объектов. За оценку движения отвечает алгоритм Гуннара-Фарнебека.
Логические прогнозы, такие как “пациент один” или “пациент под наблюдением персонала”, выводятся на основе результатов обнаружения объектов и их классификации с использованием 5-секундного фильтра сглаживания.
Оценка производительности LookDeep Health показала, что модель достигла F1-меры в 0.92 для обнаружения объектов и 0.98 для классификации ролей “пациент”.
Точность определения состояния “пациент один” составила 0.92 по F1-мере. При сравнении с ручными логами наблюдений средняя точность логистической регрессии составила 0.82 ± 0.15 для метрики “пациент один”.
Исследования и обзоры
🟫 Влияние уровня объяснимости ИИ на доверие и точность диагностики рака молочной железы.
В работе анализируется воздействие различных уровней объяснимости систем поддержки принятия врачебных решений (СППВР) на основе ИИ на уровень доверия и точность постановки диагноза рака молочной железы среди медицинских специалистов.
В исследовании участвовало 28 онкологов, имеющих различный профессиональный опыт в области диагностики целевой патологии. Эксперимент состоял из 4 этапов с последовательным увеличением уровня объяснимости, начиная с предоставления диагностического заключения и заканчивая подробной информацией о локализации новообразования с указанием степени достоверности.
На 1 этапе (базовом) онкологи самостоятельно интерпретировали маммограммы без применения инструментов ИИ. На последующих этапах СППВР предоставляла заключения, классифицированные как «здоров», «доброкачественная опухоль» или «злокачественная опухоль».
Пояснения к заключениям варьировались: без каких-либо дополнительных сведений (Вариант I), с оценками вероятностей (Вариант II), с указанием точной локализации новообразования (Вариант III) и с информацией о локализации, включающей оценки с низкой и высокой степенью уверенности (Вариант IV).
Система ИИ была основана на архитектуре U-Net для сегментации изображений и CNN для классификации. Обучение проводилось на открытом наборе данных, состоящем из 780 УЗИ рака молочной железы, что обеспечило точность диагностики 81%.
Результаты исследования показали, что повышение уровня объяснимости не всегда способствует росту доверия и точности диагностики.
В частности, 4этап, характеризующийся наибольшей детализацией, продемонстрировал существенное снижение уровня понимания принципов работы системы ИИ по сравнению с 1 этапом.
Второй и четвертый варианты пояснений привели к снижению субъективной оценки точности ИИ относительно первого этапа.
В то же время, использование СППВР в целом повышало точность диагностики в сравнении с самостоятельной интерпретацией.
Анализ показал, что возраст и профессиональный стаж онкологов коррелировали с их осведомленностью об ИИ. Участники старшей возрастной группы, как правило, отмечали более высокий уровень знакомства с технологиями ИИ и воспринимали их как более понятные и точные.
Полученные результаты указывают на необходимость осторожного подхода к интеграции механизмов объяснимости в СППВР, поскольку негативное воздействие избыточной информации может нивелировать потенциальные преимущества.
Было установлено, что наиболее простые интерфейсы СППВР оказались наиболее эффективными с точки зрения общей производительности и доверия к системе.
🟫 Исследование федеративного обучения с RAG для LLM в медицинской сфере.
Федеративное обучение (FL) обеспечивает конфиденциальность данных и масштабируемость за счет децентрализованного обучения, а RAG улучшает точность генерации текста, получая информацию из внешних баз знаний.
В работе сравнивались 4 подхода: централизованная LLM, централизованная LLM с RAG, федеративная LLM и федеративная LLM с RAG. Структура федеративной LLM использует клиент-специфичные системы RAG для децентрализованного поиска и генерации. Эксперименты проводились с использованием набора данных Medical Meadow Flashcards и фреймворка Flower. Клиент-специфичные системы RAG были интегрированы с использованием PubMed Central® (PMC).
Для обработки документов использовались 85 PDF-файлов из PMC, которые были разделены на фрагменты по 1000 символов с перекрытием в 50 символов. Для поиска применялись методы BM25 и FAISS, а также их ансамбль с весами 80% и 20% соответственно.
В качестве целевой LLM использовалась квантованная в 4-bit Mistral 7B, с максимальной длиной ответа в 512 токенов и температурой 0. Для обучения FL было создано 20 виртуальных клиентов с неравномерным распределением данных, с размерами от 900 до 3148 медицинских карточек.
Оценка производилась по метрикам: Context Recall, Factual Correctness, Faithfulness, Semantic Similarity, и Answer Relevancy.
Результаты показали, что федеративные LLM с RAG достигают производительности, сравнимой или превосходящей централизованные архитектуры, и превосходят модели без RAG по всем показателям. Конфигурация FL с 6 клиентами и RAG показала наилучшие результаты.
🟫 Обзор методов агрегации эмбедингов для анализа гистопатологических изображений в клинической практике.
Сравнительный анализ 10 методов агрегации эмбеддингов на уровне слайдов для задач вычислительной патологии (CPath), включая диагностическую оценку, классификацию биомаркеров и прогнозирование исходов.
Исследование оценивало влияние базовых моделей на производительность агрегационных методов на 9 клинически значимых датасетах, собранных из 2 медицинских центров.
В рамках исследования применялись эмбеддинги, полученные из 4 моделей: tres50_imagenet (ImageNet), CTransPath (гистологические изображения), dinosmall (гистологические изображения) и UNI (гистологические изображения).
Агрегация выполнялась 10 методами, которые были разделены на категории: ключевые экземпляры, внимание, кластеризация, самовнимание и графовые методы. Анализ включал как методы, использующие пространственную информацию, так и не учитывающие ее.
Результаты показали, что эмбединги, полученные из домен-специфичных моделей (CTransPath, dinosmall, UNI), превосходят tres50_imagenet на большинстве задач.
Модели, использующие пространственную информацию, демонстрируют значительное улучшение производительности при использовании эмбедингов, обученных на ImageNet.
При этом, нет единого метода агрегации, который превосходил бы остальные во всех задачах.