ML в медицине: дайджест за 3 – 10 ноября 2024 г.
Модели, бенчмарки и датасеты
🟩 GSCo: совместное использование LLM общего назначения и экспертных моделей в медицинской визуализации.
GSCo (Generalist-Specialist Collaboration) – система, которая использует преимущества моделей общего назначения (GFM) и экспертных моделей для повышения точности анализа медицинских изображений.
В процессе создания GFM была разработана MedDr – самая большая на данный момент модель общего назначения с открытым исходным кодом для медицины. MedDr обучалась на наборе данных из 2 млн. пар “изображение – текст” различных медицинских модальностей. Параллельно были созданы небольшие экмпертные модели для конкретных задач.
На этапе совместного инференса используются два механизма: MoED (Mixture-of-Expert Diagnosis) и RAD (Retrieval-Augmented Diagnosis). MoED использует прогнозы экспертных моделей как справочную информацию, а RAD применяет их для поиска похожих случаев. Результаты MoED и RAD объединяются и предоставляются MedDr в качестве контекстной информации.
Чтобы оценить MedDr и GSCo был создан датасет из 28 наборов данных и 250 000 тестовых изображений из 10 медицинских модальностей.
Результаты экспериментов показали, что MedDr превосходит другие GFM в решении многих задач медицинской визуализации. GSCo демонстрирует высокую производительность по сравнению как с GFM, так и со специализированными моделями, особенно в задачах диагностики заболеваний вне области обучения.
🟩 PASSION: датасет дерматологии южноафриканского населения.
PASSION – набор данных из 4901 фотографий заболеваний кожи 1653 пациентов, собранный в странах Африки к югу от Сахары. Он сделан в условиях, приближенных к телемедицине и охватывает детские заболевания кожи: экзему, грибковые инфекции, чесотку и импетиго.
В PASSION включены данные пациентов с фототипами кожи IV, V и VI по шкале Фицпатрика, что делает его ценным ресурсом для обучения и оценки моделей ИИ, предназначенных для работы с пациентами с темной кожей. Особое внимание уделено педиатрической популяции, так как дети наиболее подвержены кожным заболеваниям.
В проекте PASSION также представлена базовая модель машинного обучения, обученная на этом датасете. В качестве основы была использована ResNet-50, предварительно обученная на ImageNet.
Для оценки способностей модели использовались протоколы:
- предсказывать кожные заболевания и выявлять случаи импетигинизации;
- обобщать данные с двух центров сбора на более широкую популяцию;
- обобщать данные от разных возрастных групп (детей и подростков) на более широкую популяцию.
Результаты показали, что модель достигает высокой точности в предсказании кожных заболеваний (сбалансированная точность 0.70) и выявлении импетигинизации (F1-мера 0.63). Вариативность производительности модели в зависимости от фототипа кожи и пола оказалась незначительной.
🟩 MediQ: бенчмарк клинического мышления.
MEDIQ – интерактивный бенчмарк для оценки способности LLM к сбору информации посредством дополнительных вопросов.
MEDIQ симулирует клиническое взаимодействие, состоящее из системы “Пациент” и адаптивной системы “Эксперт”. Система “Эксперт”, получая потенциально неполную информацию, воздерживается от постановки диагноза при недостаточной уверенности и вместо этого запрашивает недостающие сведения через дополнительные вопросы.
Для преобразования существующих медицинских бенчмарков в интерактивный формат предлагается специальный конвейер.
Эксперименты с использованием Llama-3, GPT-3.5 и GPT-4, показали, что простое добавление запросов на дополнительные вопросы приводит к снижению точности на 11,3% по сравнению с неинтерактивным режимом с той же ограниченной информацией. Это свидетельствует о нетривиальности адаптации LLM к интерактивным сценариям поиска информации.
Ключевой проблемой является определение момента, когда следует задать дополнительный вопрос, а не давать прямой ответ. Стратегии оценки уверенности – генерация обоснования и самосогласованность, позволяют повысить точность диагностики на 22,3%.
Бенчмарк позволяет оценивать способность к интерактивному сбору информации, а предложенная система “Эксперт” демонстрирует потенциал стратегий воздержания от ответов при недостаточной уверенности.
🟩 BrainSegFounder: 3D-анализ изображений мозга.
BrainSegFounder – базовая модель для сегментации мультимодальных нейроизображений с двухэтапным подходом к предварительному обучению.
На первом этапе модель обучается на масштабном наборе данных МРТ головного мозга из биомедицинского банка данных UK Biobank, содержащего изображения 41 400 участников.
Второй этап направлен на выявление специфических для заболевания признаков: геометрическая форма опухолей и поражений и их пространственное расположение в мозге.
Для оценки BrainSegFounder были использованы датасеты BraTS (Brain Tumor Segmentation) и ATLAS v2.0 (Anatomical Tracings of Lesions After Stroke).
Результаты тестирования показали превосходство BrainSegFounder над существующими методами сегментации нейроизображений, включая решения, основанные на обучении с учителем.
BrainSegFounder продемонстрировал точность в задачах сегментации опухолей головного мозга и выявления областей поражения после инсульта, превзойдя показатели предыдущих победителей соревнований BraTS и ATLAS v2.0.
🟩 Zebra-Llama: контекстно-зависимая LLM для редких заболеваний.
Модель фокусируется на синдроме Элерса-Данлоса (СЭД) в качестве основной специализации. СЭД, которым страдает 1 из 5000 человек, иллюстрирует сложности редких заболеваний с его разнообразными симптомами, множеством подтипов и развивающимися диагностическими критериями.
Zebra-Llama реализует новую методологию контекстно-зависимой тонкой настройки, обученную на вопросах, полученных из медицинской литературы, опыта пациентов и клинических ресурсов, а также на ответах, подготовленных экспертами.
Для обучения модели использовались данные из PubMed, форумов пациентов Inspire и дискуссий в социальных сетях Reddit, которые были преобразованы в структурированные триплеты «вопрос-контекст-ответ». Сгенерированные ответы были тщательно проверены экспертами в предметной области. В процессе обучения применялся метод PEFT (LoRA), в качестве базовой модель выступала Llama 3.
Оценка проводилась на датасете из 51 реальных вопросов, собранных от пациентов с СЭД и практикующих спрециалистов-врачей. Результаты показали, что Zebra-Llama значительно превосходит базовую Llama-3.1-8B-Instruct по полноте (77,5% против 70,1%), точности (83,0% против 78,8%), ясности (74,7% против 72,0%) и надежности цитирования (70,6% против 52,3%).
Дополнительно была проведена автоматизированная оценка с GPT-4, результаты которой показали умеренное согласие с экспертными оценками.
🔸Arxiv 🔸Model 🔸RAG API 🔸Jupyter notebook Demo 🔸Github
Фреймворки и методологии
🟦 AutoProteinEngine: платформа на основе LLMs для автоматизированного машинного обучения в инженерии белков.
AutoProteinEngine (AutoPE) – объединяет LLM с AutoML для решения задач, связанных с выбором модели для последовательностей белков, графовых представлений, автоматической оптимизацией гиперпараметров и автоматическим поиском данных в базах данных белков. AutoPE позволяет биологам без опыта работы с DL взаимодействовать с моделями DL, используя естественный язык.
В AutoPE могут быть использованы LLM ESM (2 и 3), семейство AlphaFold и TourSynbio-7B. Выбор конкретной модели зависит от поставленной задачи инженерии, которую необходимо решить. AutoPE автоматически выбирает и настраивает соответствующую модель из специализированного набора.
AutoPE использует традиционные алгоритмы ML логистической регрессии, KNN, SVM и RF.
Для оценки AutoPE были выбраны 2 белка для задач классификации и регрессии.
Для задачи классификации использовался бразеин, белок-подсластитель высокой интенсивности.
Задача регрессии использовала данные белка дикого типа STM1221, фермента, который специфически удаляет ацетильные группы из белков-мишеней.
AutoPE оценивался двумя подходами: zero-shot inference и ручной тонкой настройкой.
В задаче классификации AutoPE продемонстрировал отличные результаты по производительности(F1 – 0.7306, ROC-AUC – наилучшие показатели, SRCC – 0.4621).
В задаче регрессии AutoPE также продемонстрировал высокую производительность по всем показателям ( RMSE – 0.3488, MAE – 0.1999, Коэффициент детерминации R² – 0.6805)
🟦 Label Critic: контроль качества разметки в медицинских датасетах с помощью LLM.
Label Critic – метод, использующий VLM для автоматического выявления и сравнения ошибок в разметке органов на КТ-изображениях.
Label Critic основан на 2 идеях: (1) большинство ошибок, допущенных алгоритмами ИИ, легко обнаружить, и (2) сравнение нескольких вариантов разметки позволяет выбрать наиболее качественный.
Вместо того чтобы требовать от радиологов создания аннотаций с нуля, система предлагает им проверять и редактировать только те случаи, где “лучшая” разметка ИИ содержит ошибки.
Процесс Label Critic включает этапы:
- Проецирование 3D КТ-скана и разметки в 2D: используются фронтальные проекции, напоминающие рентгеновские снимки.
- Расчет коэффициента Дайса-Сёренсена (DSC) между разметками: сравнение пропускается, если DSC выше порогового значения.
- Анализ с помощью LVLM: используются специально разработанные промпты, включающие анатомические описания, пошаговые инструкции, примеры правильной и неправильной разметки.
Для оценки эффективности Label Critic были созданы 2 набора данных: AtlasBench и JHHBench, содержащие ошибки как в разметке, выполненной ИИ, так и в ручной разметке.
Результаты показали высокую точность метода: 97,5% на JHHBench и 93,5% на AtlasBench. Label Critic не только успешно выявляет ошибки, но и выбирает наилучший вариант разметки, что существенно сокращает объем ручной работы для радиологов.
🟦 MEG: Методика дополнения LLM медицинскими QA.
MEG – параметрически эффективный метод для насыщения LLM дополнительными медицинскими знаниями.
MEG использует легковесную сеть сопоставления для интеграции эмбедингов графов в LLM, что позволяет ей использовать внешние знания экономически эффективным способом.
В основе MEG – Mistral-Instruct-7B и графовая модель GraphSAGE. Для генерации эмбедингов графов используется Unified Medical Language System (UMLS).
Обучение модели MEG происходит в два этапа. На первом этапе, с помощью метода transfer learning, обучается отображение эмбедингов графов в векторное пространство LLM. На втором этапе – fine-tuning на наборах данных MedQA, PubMedQA, MedMCQA и MMLU-Medical.
Оценка метода проводилась на 4 наборах данных с медицинскими вопросами с множественным выбором. Результаты показали, что LLM значительно выигрывают от фактической обоснованности, обеспечиваемой эмбедингами графов знаний.
MEG достигает в среднем +10,2% точности по сравнению с базовым уровнем Mistral-Instruct и +6,7% по сравнению со специализированной BioMistral.
🟦 Medprompt: анализ эффективности OpenAI o1-preview в медицинских задачах.
Medprompt – методика управления LLM для достижения максимальной эффективности в медицине. Medprompt использует цепочки рассуждений и ансамблирование, чтобы улучшить результаты инференса GPT-4 в медицинских задачах. Появление новой модели OpenAI o1-preview, которая изначально обучена выполнять рассуждения перед генерацией ответов, ставит вопрос о необходимости усложнения стратегий управления.
Была проведена систематическая оценка o1-preview на различных медицинских тестах: MedQA, JMLE-2024 (национальный экзамен медицинской сертификации в Японии) и USMLE (экзамен для получения медицинской лицензии в США).
Результаты показали, что o1-preview превосходит GPT-4 с Medprompt на большинстве тестов, даже при использовании простых промптов. Это свидетельствует о том, что o1-preview обладает собственными механизмами рассуждений и потребность в сложных методах управления для нее менее востребована.
Использование few-shot prompting, эффективного для GPT-4, снижало производительность o1-preview. То есть, контекстное обучение может быть неэффективным для моделей с собственными механизмами рассуждений. Ансамблирование, хотя и остается жизнеспособным методом, является ресурсоемким и требует оптимизации.
Анализ затрат и точности различных стратегий показал, что o1-preview обеспечивает высокую точность, но при более высокой стоимости, чем GPT-4o.
GPT-4o – сбалансированное решение с хорошей производительностью при более низкой цене. Важно отметить, что o1-preview достигла почти предельной эффективности на многих существующих медицинских тестах, для нее необходима разработка новых. более сложных тестов.
LLM-приложения
🟥CataractBot: чат-бот для помощи пациентам, перенесшим операцию по удалению катаракты.
CataractBot, чат-бот на базе WhatsApp, работающий по принципу «сопровождающий эксперт» с использованием LLM для поддержки пациентов, перенесших операцию по удалению катаракты.
Чат-бот был разработан Microsoft в сотрудничестве с офтальмологической клиникой в Индии. Он использует RAG для предоставления релевантных ответов на вопросы, опираясь на курируемую базу знаний.
CataractBot поддерживает мультимодальный ввод (текст и голос) и многоязычность, обслуживая пациентов, говорящих на английском, хинди, каннада, тамильском и телугу языках.
Ключевой особенностью CataractBot является система верификации, где каждый ответ, сгенерированный LLM, проверяется и при необходимости корректируется врачами или координаторами пациентов. Эта функция обеспечивает достоверность информации и повышает доверие пользователей к системе. Пациенты получают немедленный ответ от бота, а затем, асинхронно, верифицированный ответ от эксперта. Редакции, внесенные экспертами, используются для обновления базы знаний, что со временем повышает точность бота.
В рамках исследования in-the-wild с участием 49 пациентов и 6 экспертов (врачей и координаторов) была проведена оценка эффективности CataractBot.
Результаты показали высокую удовлетворенность пациентов, которые оценили круглосуточную доступность информации, экономию времени и возможность задавать вопросы без стеснения.
Врачи и координаторы также отметили преимущества бота: конфиденциальность и гибкость в работе. Мультимодальность и многоязычность оказались особенно полезными для пожилых пациентов и пациентов с низким уровнем грамотности.
🟥 CheX-GPT: использование LLM для маркировки рентгенограмм грудной клетки.
CheX-GPT – классификатор, предназначенный для автоматической маркировки рентгенограмм грудной клетки (CXR) с использованием LLM.
На первом этапе для маркировки CXR отчетов используется GPT-4 со специально разработанными промптами, включающих примеры для контекстного обучения. На втором этапе, используя псевдометки, созданные GPT-4, обучается более компактный классификатор CheX-GPT на основе архитектуры BERT.
CheX-GPT обучался на подмножестве набора данных MIMIC-CXR, содержащем 50 000 уникальных отчетов CXR.
Для оценки производительности был создан набор данных MIMIC-500, состоящий из 500 отчетов CXR, аннотированных вручную экспертами.
Результаты показали, что CheX-GPT достигает показателей F1 (90,48%) по большинству категорий диагностики, превосходя CheXpert и CheXbert.
CheX-GPT также продемонстрировал высокую эффективность по сравнению с GPT-4, значительно сократив время инференса и снизив эксплуатационные расходы.
🟥 CardioAI: мультимодальная система на основе ИИ для мониторинга кардиотоксичности, вызванной лечением рака.
CardioAI – система, объединяющая носимые устройства и голосовые помощники на базе LLMs для мониторинга симптомов в амбулаторных условиях. Система включает в себя модуль прогнозирования риска с использованием объяснимого ИИ, который генерирует оценки риска кардиотоксичности и предоставляет краткие объяснения для поддержки принятия решений врачами.
В рамках разработки CardioAI было проведено исследование с участием 11 врачей для понимания их потребностей и анализа рабочих процессов. На основе полученных данных был создан интерактивный прототип, который собирает данные о жизненно важных показателях с носимых устройств и качественные данные о симптомах, сообщаемые пациентами через голосового помощника.
Модуль прогнозирования риска использует архитектуру Transformer для расчета вероятности кардиотоксичности на основе статической информации о пациенте и временных данных. Интерпретируемость модели обеспечивается методом Шепли (Shapley value method), который выявляет ключевые факторы, влияющие на прогноз риска.
Прототип CardioAI был оценен 4 врачами с помощью эвристической оценки. Результаты показали, что система хорошо интегрируется в существующие рабочие процессы, снижает информационную перегрузку и позволяет врачам принимать более обоснованные решения. Врачи высоко оценили простоту использования системы, доступность информации и возможность упреждающего принятия решений.
🟥 HealthQ: система для оценки способностей LLM к поддержанию диалога.
HealthQ – система оценки навыков LLM в формулировке медицинских вопросов во время диалога с пациентом. HealthQ анализирует не только качество сгенерированных вопросов, но и их влияние на получение более полных ответов от пациента.
HealthQ использует три основных модуля: симуляцию пациента, оценку вопросов LLM-судьей и оценку на основе суммирования.
Симуляция пациента генерирует первоначальное высказывание пациента на основе его известных симптомов и истории болезни. LLM-судья, имеющий доступ к полной информации о пациенте, оценивает сгенерированные LLM-врачом вопросы по пяти критериям: специфичность, полезность, релевантность, охват и беглость.
Оценка на основе суммирования использует метрики ROUGE и NER для сравнения ответов пациента с полной информацией о его состоянии.
Для тестирования HealthQ были использованы 2 набора данных: ChatDoctor и MTS-Dialog. На основе этих данных были созданы векторные базы знаний для обучения и тестирования различных LLM-цепочек, включая RAG, CoT и ReAct.
Результаты экспериментов показали, что RAG с рефлексией и CoT, превосходят базовые методы по всем метрикам. Они способны генерировать более специфичные, релевантные и информативные вопросы, что приводит к получению более полных ответов от пациента.
Исследования и обзоры
🟫 Использование LLMs в медицинской робототехнике: обзор и перспективы.
Одной из ключевых областей применения LLM в робототехнике является мультимодальное взаимодействие “человек-робот” (HRI). LLM способны генерировать динамические ответы на запросы пользователей и синхронизировать невербальные сигналы (жесты, выражения лица) с вербальной коммуникацией. Примеры такой интеграции включают использование GPT-3 для создания адаптивных диалогов в социальных роботах и GPT-3.5 для создания интерфейса на естественном языке для управления хирургическими роботами, например daVinci .
Благодаря способности LLM извлекать знания из больших наборов данных и устанавливать связи между понятиями, роботы могут лучше понимать окружающую среду, действия и задачи. Например, модель GPT-3 была успешно использована в исследовании, где робот NICOL учился распознавать визуально похожие объекты на основе мультимодальных данных .
Наконец, LLM могут содействовать планированию и выполнению безопасных действий роботов в медицинской среде. LLM могут генерировать планы действий на основе семантического понимания окружающей среды и запросов пользователей, адаптируясь к динамическим изменениям в реальном времени. В одном из исследований GPT-3 была использована для управления роботом Franka Emika Panda, который учился передавать грязную посуду человеку, учитывая санитарные нормы .
Вывод исследования – интеграция LLM в роботов для здравоохранения является многообещающим направлением, которое может привести к созданию более эффективных и безопасных систем для помощи пациентам и медицинскому персоналу.
🟫 Критический взгляд на доменно-адаптивное обучение LLM и VLM для медицины.
В последнее время наблюдается повышенный интерес к разработке специализированных LLM и VLM для применения в медицине. Ожидается, что доменно-адаптивное дообучение (DAPT) на медицинских текстах и изображениях позволит улучшить эффективность моделей в решении задач медицинской QA.
В исследовании Университета Карнеги, Университета Хопкинса и Mistral Ai подвергается сомнению эффективность DAPT для медицинской специализации LLM и VLM. В нем сравнивается производительность 7 медицинских LLM и 2 VLM в режиме zero-shot и few-shot обучения.
Для обеспечения справедливого сравнения выполнялось попарное сравнение моделей с оптимизацией промпта и выбора примеров для каждой модели независимо.
Результаты показали, что все медицинские VLM и практически все медицинские LLM не демонстрируют устойчивого превосходства над своими базовыми моделями в задачах медицинской QA.
Было обнаружено, что оптимизация промпта для медицинской модели, без учета статистической неопределенности, может привести к завышенной оценке эффективности DAPT.
Полученные данные свидетельствуют о том, что современные модели могут уже обладать значительными возможностями в области медицинских знаний и логического мышления.
Стоит принимать во внимание ограничения этого исследования: ограниченный набор сравниваемых моделей, фокус на задачах медицинской QA с выбором ответа и отсутствие оценки эффективности DAPT при тонкой настройке.
🟫 Исследование применимости LLM для специализированной онкологической помощи.
В работе Google Research исследуется эффективность AMIE, исследовательской системы ИИ для диалоговой диагностики, в области лечения рака молочной железы без специальной тонкой настройки моделей для этой сложной области.
AMIE – система диалогового диагностического медицинского ИИ, основанная на PaLM 2.
Для проведения исследования был создан набор из 50 синтетических виньеток рака молочной железы, представляющих различные случаи первичного лечения и рефрактерных к лечению заболеваний, и отражающих ключевую информацию, доступную для принятия решений на междисциплинарном консилиуме по опухолям.
Разработана подробная клиническая методика для оценки планов лечения: качество обобщения случая, безопасность предлагаемого плана лечения и рекомендации по химиотерапии, лучевой терапии, хирургии и гормональной терапии.
AMIE была дополнена возможностью поиска в Интернете во время инференса, чтобы собирать соответствующие и актуальные клинические знания и уточнять свои ответы с помощью многоэтапного конвейера самокритики. Качество ответов AMIE сравнивалось с ответами ординаторов по медицине и онкологов общей практики.
В оценках AMIE превзошла ординаторов и стипендиатов, продемонстрировав практический потенциал системы.
Однако общая производительность AMIE была ниже, чем у лечащих онкологов, что указывает о необходимости дальнейших исследований, прежде чем рассматривать возможность ее применения на практике.