Машинное обучение в медицине: дайджест за 1 – 7 декабря 2024 г
Модели, бенчмарки и датасеты
🟩 SOAR: бенчмарк для оценки LLM в задачах аннотации типов клеток.
Бенчмарк SOAR состоит из двух компонентов:
SOAR-RNA: оценка возможностей LLM в аннотации типов клеток на основе данных секвенирования РНК единичных клеток (scRNA-seq). SOAR-RNA основан на 1191 типе клеток из 37 различных тканей.
SOAR-MultiOmics: оценка способности LLM анализировать мультиомиксные данные, которые не могут быть непосредственно интерпретированы модели.
В процессе создания SOAR была проведена оценка 8 настроенных LLM на 11 датасетах различных типов и видов клеток.
Для усложнения анализа коэкспрессии генов применялся метод CoT при формулировании промптов для LLM. Это позволило моделям пошагово анализировать гены и обосновывать свои результаты.
Для обработки мультиомиксных данных, не доступных моделях исходном виде, была разработана методика кросс-модального преобразования с VAE. VAE преобразует данные из других модальностей (например, scATAC-seq) в формат scRNA-seq, что позволяет анализировать их с помощью LLM.
Результаты экспериментов показали, что LLM могут обеспечить надежную интерпретацию данных scRNA-seq без дополнительной настройки. Применение CoT значительно улучшает производительность моделей. Более того, кросс-модальное преобразование позволяет LLM эффективно анализировать мультиомиксные данные.
🟩 Повышение точности диагностики рентгенограмм грудной клетки с помощью анализа направления взгляда врачей.
Новая DL-архитектура для диагностики заболеваний по рентгенограммам грудной клетки и прогнозирования карт визуального внимания врачей.
Авторами разработана двухэнкодерная многозадачная сеть UNet, которая использует DenseNet201 и кодер на основе блоков Residual and Squeeze-and-Excitation (Res SE) для извлечения разнородных признаков для прогнозирования карты визуального внимания, а многомасштабный классификатор слияния признаков выполняет классификацию заболеваний.
На первом этапе DenseNet-201 предварительно обучается с использованием contrastive learning для повышения эффективности извлечения признаков. На втором этапе Res SE-UNet обучается прогнозировать карту визуального внимания, используя замороженный DenseNet-201. На третьем этапе многомасштабный классификатор обучается на основе объединенных признаков DenseNet-201 и Res SE-UNet.
Для обучения и оценки архитектуры использовался датасет «chest X-ray dataset with eye-tracking and report dictation», содержащий 1083 рентгенограммы грудной клетки с данными отслеживания взгляда врачей.
В качестве метрик оценки использовались AUC (площадь под кривой ROC) и точность классификации для диагностики заболеваний, KL-дивергенция, коэффициент корреляции Пирсона (PCC) и сходство гистограмм (HS) для оценки качества прогнозирования карты визуального внимания.
Результаты оценки показали, что архитектура превосходит существующие методы по точности диагностики (AUC = 0.93) и качеству прогнозирования карт визуального внимания (PCC = 0.58). Ablation studies подтвердили эффективность Res SE блоков, предварительно обученного DenseNet-201 и многоэтапной стратегии обучения.
🟩 EchoONE: унифицированная модель для сегментации множества плоскостей эхокардиографии.
EchoONE – модель, способная сегментировать структуры сердца в нескольких эхокардиографических плоскостях, используя единую архитектуру. Модель основана на Segment Anything Model (SAM). EchoONE включает в себя три ключевых компонента:
Архитектура сегментации на базе SAM, состоящая из трансформерного энкодера изображения и декодера маски, энкодера разреженных подсказок и энкодера маски для плотных подсказок.
Модуль PC-Mask (prior-composable mask learning) для генерации плотных подсказок с учетом семантики изображения. PC-Mask анализирует скрытые признаки изображений, кластеризует их и использует центры кластеров в качестве прототипов структур сердца в различных плоскостях. Для каждого нового изображения PC-Mask вычисляет его сходство с прототипами и генерирует плотную подсказку, адаптированную к структуре сердца на данном изображении.
Локальная ветвь CNN, которая настраивает энкодер изображения SAM и адаптирует декодер маски к эхокардиографическим изображениям. Ветвь CNN включает в себя модуль LFFA (local feature fusion and adaption), который объединяет локальные признаки CNN с признаками трансформерного декодера, что повышает точность сегментации и ускоряет сходимость модели.
Для обучения и оценки EchoONE использовался набор данных, содержащий три общедоступных датаеса (CAMUS, HMC QU и EchoNet-Dynamic) и четыре частных набора данных. В качестве метрик оценки использовались коэффициент Дайса (mDice), среднее пересечение по объединению (mIoU) и расстояние Хаусдорфа-95 % (HD95).
Результаты оценки показали, что EchoONE превосходит существующие модели сегментации, демонстрируя точность и устойчивость к различным плоскостям и структурам сердца.
Фреймворки и методологии
🟦 RARE: RAG-ризонинг.
RARE (Retrieval-Augmented Reasoning Enhancement) – метод, разработанный для повышения точности рассуждений и фактической достоверности LLM. RARE представляет собой автономный языковой агент, не требующий дополнительного обучения или тонкой настройки базовой LLM.
RARE основан на структуре “генератор-дискриминатор”, используемой в методе rStar, и включает в себя генератор, дополненный поиском информации, и оценщик фактической достоверности. Генератор, в свою очередь, основан на алгоритме MCTS и использует семь типов действий для формирования рассуждений.
Два из этих действий, A6 и A7, используют поиск информации для обогащения рассуждений внешними знаниями. A6 генерирует запросы на основе исходного утверждения и использует полученные документы для формулировки ответа. A7 уточняет сгенерированные подвопросы и переотвечает на них с учетом поиска информации. Оценщик фактической достоверности, вдохновленный методом SAFE (Search Augmented Factuality Evaluator), оценивает достоверность каждой траектории рассуждений, сравнивая ее с полученными доказательствами.
RARE был протестирован на различных задачах медицинского и здравого смысла рассуждения, используя модели LLaMA 3.1 и 3.2 различных размеров. Результаты показали, что RARE значительно повышает точность моделей LLaMA, позволяя им достигать конкурентоспособных результатов по сравнению с GPT-4 и GPT-4o.
На медицинских задачах RARE с LLaMA3.1 70B опередил GPT-4 на наборах данных MedQA и MMLU-Medical. На задачах здравого смысла RARE превзошел Claude-3.5 Sonnet и GPT-4o Mini.
🟦 STORM: cтратегия организации модальностей для классификации редких событий.
STORM – алгоритм, основанный на энтропии, который решает проблему выбора модальности для классификации редких событий. STORM систематически оценивает информационное содержание отдельных модальностей и их комбинаций, идентифицируя наиболее дискриминантные признаки, необходимые для задач классификации редких классов.
В медицине первоначальный выбор модальностей часто находится в компетенции экспертов. Эксперты могут определить конкретные модальности или признаки, которые считаются важными для конкретной задачи, например, выбор определенных отведений ЭКГ для диагностики ишемической болезни сердца. Однако, возникает вопрос об информативности всех выбранных модальностей и о потенциальном вкладе других модальностей, не рекомендованных экспертами.
STORM использует энтропию для количественной оценки вклада каждой модальности. Алгоритм состоит из двух основных шагов.
Первый шаг – это использование экспертных знаний для выбора наиболее подходящих модальностей и признаков. Второй шаг – применение энтропийного алгоритма для выбора оптимальной комбинации модальностей.
STORM использует энтропию класса для оценки дисбаланса классов и важности информации в каждой модальности. Если энтропия класса сильно различается, это может указывать на дисбаланс классов, что является сигналом для дальнейшего исследования в базовой модальности и экспертных представлениях.
STORM использует метрику дисбаланса энтропии (ηMd), которая измеряет разницу между максимальной энтропией класса и средней энтропией класса для данного классификатора. Алгоритм выбирает классификаторы с наименьшим значением ηMd.
Эффективность STORM была продемонстрирована на задаче обнаружения зоны начала приступа (ЗНП) с использованием фМРТ в состоянии покоя. Результаты показали, что не все модальности, включая те, которые были рекомендованы экспертами, одинаково улучшают производительность. STORM определил, что только базовая модальность и одна экспертная пространственная модальность (D1) были информативными, в то время как экспертная временная модальность (D2) оказалась ненужной.
🟦 TransFair: прогноз прогрессирования глазных заболеваний.
TransFair – модель классификации с двухэтапным подходом к переносу демографической справедливости из классификации в прогнозирование прогрессирования заболеваний глаз с использованием изображений сетчатки.
Этап 1: Справедливая классификация с помощью FairEN
На первом этапе обучена модель классификации FairEN («учитель») для достижения справедливости в классификации заболеваний глаз. FairEN основана на архитектуре EfficientNet, дополненной механизмом внимания, учитывающим демографические характеристики.
Этап 2: Прогноз прогрессирования с переносом справедливости
На втором этапе «учитель» используется для обучения модели прогнозирования FairEN («ученик») с помощью дистилляции знаний. Дистилляция знаний минимизирует расстояния между латентными признаками модели классификации и модели прогнозирования прогрессирования.
Для оценки моделей использовались наборы данных Harvard-GF, FairVision и Harvard-GDP, содержащие изображения оптической когерентной томографии (OCT) и карты толщины слоя нервных волокон сетчатки (RNFLT). Результаты показали, что FairEN улучшает как производительность, так и справедливость в задачах классификации заболеваний глаз. TransFair также эффективно повышает демографическую справедливость при прогнозировании прогрессирования заболеваний.
🟦 PePR: оценка эффективности моделей с учетом потребления ресурсов.
Для оценки эффективности DL-моделей с учетом потребления ресурсов предлагается новый показатель – PePR (Performance Per Resource Unit), который определяется как отношение нормализованной производительности модели (P) к ее нормализованному потреблению ресурсов (R).
PePR (R,P) = P / (1 + R)
В качестве ресурсов могут использоваться энергопотребление (PePR-E), выбросы углекислого газа (PePR-C), объем данных (PePR-D), объем памяти (PePR-M) или время обучения (PePR-T). PePR позволяет учитывать компромисс между производительностью и потреблением ресурсов. Модели с низким потреблением ресурсов и высокой производительностью стремятся к единице в PePR.
Для демонстрации эффективности PePR-score авторы провели эксперименты с 131 моделями для классификации изображений, на трех наборах данных медицинских изображений: Derma, LIDC и Pneumonia.
Модели были разделены на две группы: масштабные (> 24.6M параметров) и маломасштабные (≤ 24.6M параметров).
Результаты показали, что при использовании предварительно обученных весов и ограниченном бюджете обучения (10 эпох) маломасштабные модели обеспечивают более высокий PePR-E, чем масштабные модели, при сохранении сравнимой производительности.
🟦 Оценка качества рентгенологических заключений с помощью сопоставления клинических данных с изображением.
Предлагаемый метод оценки рентгенологических заключений учитывает анатомическую локализацию, латеральность и степень выраженности патологических изменений, описанных в заключении. Метод включает два этапа:
Извлечение шаблонов детальных находок (FFL) из текста заключения с использованием специализированного лексикона рентгенологических терминов. FFL представляют собой структурированные описания, содержащие информацию о типе, локализации, латеральности и степени выраженности каждого обнаруженного изменения.
Сопоставление FFL с анатомическими областями на рентгенограмме. Для этого используется разметка с ограничивающими рамками (bounding boxes) для 36 анатомических областей, представленных в датасете ChestImagenome.
Для оценки качества сгенерированного отчета проводится сравнение его FFL шаблонов с шаблонами, извлеченными из эталонного заключения, составленного врачом. Оценка качества включает текстовые и визуальные метрики:
- Текстовая метрика основана на F1-мере, вычисляемой для FFL шаблонов сгенерированного и эталонного отчетов.
- Визуальная метрика основана на IOU (Intersection over Union) – показателе пересечения ограничивающих рамок анатомических областей, соответствующих FFL шаблонам.
Итоговая оценка качества отчета представляет собой среднее арифметическое F1-меры и средней IOU.
Проведенные эксперименты на наборе ChestImagenome с использованием различных генераторов рентгенологических отчетов показали, что данный метод позволяет более точно оценивать качество сгенерированных отчетов и выявлять фактические ошибки. Высокая чувствительность метода к изменениям в описании находок, их локализации и степени выраженности делает его ценным инструментом для контроля качества и верификации автоматически сгенерированных рентгенологических заключений.
LLM-приложения
🟥 MedChain: LLM-агент и бенчмарк для принятия клинических решений.
MedChain – набор данных из 12 163 клинических случаев, содержащий пять ключевых этапов клинического рабочего процесса. MedChain отличается от существующих бенчмарков особенностями реальной клинической практики: персонализацией, интерактивностью и последовательностью.
Персонализация подразумевает, что каждый случай включает подробную информацию о конкретном пациенте. Интерактивность означает, что информацию необходимо активно собирать посредством динамических консультаций с пациентом. Последовательность гарантирует, что решения на каждом этапе влияют на последующие шаги.
Для решения реальных задач принятия решений предложен MedChain-Agent – система, которая интегрирует механизм обратной связи и модуль MedCase-RAG для обучения на предыдущих случаях и адаптации своих ответов.
MedChain-Agent демонстрирует способность адаптироваться к динамическому сбору информации и обработке последовательных клинических задач, значительно превосходя существующие подходы.
MedChain-Agent использует три типа агентов: общие агенты, которые обладают знаниями в конкретных областях, агент обобщения, который объединяет выводы общих агентов, и агент обратной связи, который оценивает результаты каждой задачи.
MedCase-RAG – это метод RAG-поиска с дополнением, который преобразует каждый медицинский случай в 12-мерный вектор признаков. В отличие от традиционных методов, MedCase-RAG динамически расширяет свою базу данных и использует структурированный подход к представлению данных. Это позволяет эффективно извлекать релевантные случаи и помогает модели принимать обоснованные решения.
Эксперименты показали, что MedChain-Agent значительно превосходит существующие методы в решении последовательных задач принятия решений. Интеграция MedChain-Agent с LLM с открытым исходным кодом продемонстрировала значительное превосходство над GPT-4o-mini.
🟥 QG-Summ: автореферирование медицинских записей с самоконтролем, управляемое запросами.
QG-Summ – подход к абстрактному реферированию записей медперсонала в электронных медкартах пациентов с самоконтролем, управляемый запросами. Метод использует связанные с пациентом клинические запросы для руководства и, следовательно, не нуждается в справочных материалах для обучения.
QG-Summ использует базовую трансформерную модель с архитектурой кодер-декодер. Для повышения понимания клинического текста кодер базовой модели дообучается на задаче реконструкции записей медсестер. Затем модель обучается в режиме SFT, где в качестве основы обучения используется расхождение между ответами на запросы, основанными на исходных записях и их рефератах. Это гарантирует, что при ответе на определенный запрос, связанный с пациентом, использование реферата даст ответ, аналогичный полученному при использовании записи медсестры.
Для учета контекста пациента в модель интегрируются два блока дополнения: «Слияние временной информации» (TIF) и «Дополнение информации о пациенте» (PIA). TIF использует информацию из предыдущих записей пациента, а PIA интегрирует метаданные пациента с помощью кросс-внимания.
Обучение и оценка подхода используют базу данных ЭМК MIMIC-III. Управление процессом реферирования выполняется двумя типами запросов, связанных с пациентом: прогнозирование повторной госпитализации и классификация фенотипа. В качестве базовых моделей используются BART-Large-CNN, Pegasus, GPT-4 и BioMistral-7B. Для оценки качества рефератов используются автоматические метрики (точность, полнота, фактуальная согласованность) и ручная оценка врачом-клиницистом.
Результаты автоматической оценки показывают, что QG-Summ обеспечивает хороший баланс между полнотой и фактуральной согласованностью рефератов. GPT-4 хорошо справляется с сохранением информации из исходных записей, но генерирует менее лаконичные рефераты. Ручная оценка показывает, что QG-Summ значительно превосходит BART по всем показателям, а GPT-4 и BioMistral – по согласованности и релевантности.
🟥 CLINICSUM: генерация медицинских заключений из диалогов врача и пациента.
CLINICSUM – фреймворк, разработанный для автоматической генерации медицинских заключений на основе расшифровок диалогов между врачом и пациентом.
CLINICSUM использует двухмодульную архитектуру:
Модуль фильтрации на основе поиска: извлекает информацию в формате SOAP (Subjective, Objective, Assessment, and Plan) из транскриптов диалогов. Для этого используется ансамблевый подход, объединяющий методы sparse и dense поиска, учитывая как лексические, так и семантические особенности текста.
Модуль вывода: использует доработанные LLM (LLAMA-3, Mistral-Nemo, Mistral-7B и Gemma-2-9B) для генерации структурированного медицинского заключения на основе извлеченной информации.
Для обучения LLM авторы создали набор данных из 1473 пар “диалог-заключение”, объединив два общедоступных датасета (FigShare и MTS-Dialog) и дополнив их заключениями, проверенными экспертами. Обучение проводилось с использованием метода Parameter Efficient Fine-Tuning (PEFT), в частности Low Rank Adaptation (LoRA), что позволило эффективно обучить модель на одном потребительском GPU.
Эффективность CLINICSUM была оценена как с помощью автоматических метрик (ROUGE, BERTScore), так и экспертной оценкой.
Результаты показали, что CLINICSUM, особенно в сочетании с моделью LLAMA-3, превосходит GPT-4-Turbo, GPT-4-O-Mini, GPT-3.5-Turbo по показателям точности, полноты и F-меры. Эксперты также отдали предпочтение заключениям, сгенерированным CLINICSUM.
Исследования и обзоры
🟫 Проблемы производительности LLM для здравоохранения с учетом демографической справедливости.
В работе оцениваются современные LLM с использованием трех распространенных платформ обучения на шести различных задачах здравоохранения.
Авторы исследования сформулировали шесть задач на основе четырех наборов данных, включающих демографическую информацию: возраст, пол и этническая принадлежность для задач прогнозирования смертности и повторной госпитализации (MIMIC-IV), прогнозирования результатов коучинга по здоровью (Health Coaching Datasets), диагностике психических заболеваний (Bipolar Disorder and Schizophrenia Interviews), и ответов на медицинские вопросы (MedQA). В исследовании использовались три современные LLM: GPT-4, Claude-3 и LLaMA-3.
LLM оценивались с помощью трех распространенных платформ: контекстного обучения с цепочкой рассуждений, эффективной настройки параметров (PEFT) с использованием LoRA и LLM в качестве агента, использующего внешние фактические знания.
Результаты показали существенные трудности в применении LLM к реальным задачам здравоохранения. LLM испытывают трудности с достижением высокой точности по всем задачам, а некоторые реализации едва превосходят случайное угадывание. Наблюдаются устойчивые проблемы справедливости, со значительными различиями в производительности между демографическими группами, особенно в отношении этнической принадлежности.
Явное предоставление демографической информации моделям LLM приводит к неоднозначным результатам и не всегда улучшает ни точность прогнозирования, ни справедливость.
Исследование также выявило способность LLM делать выводы о демографической информации из разговоров с серьезными предубеждениями, что вызывает опасения по поводу их потенциального влияния на медицинские прогнозы.
🟫 Применение эмбединг-моделей для классификации медицинских текстов.
В исследовании проанализирована эффективность применения эмбеддинг-моделей для точной классификации медицинских текстов без необходимости специального обучения на медицинских данных или использования аннотированных наборов.
Для генерации медицинских данных были использованы gpt-3.5-turbo, LLaMA 2 70b-chat и flan-t5-xl. Полученные тексты были преобразованы в векторные представления с помощью эмбедингов text-embedding-ada-002 и textembedding-gecko@001 и сохранены в векторной базе данных Pinecone.
Точность классификации оценивалась специально разработанным тестом на устойчивость, в котором сравнивались различные комбинации LLM для генерации запросов и эталонных данных.
Результаты тестов показали, что наличие подробных и полных эталонных данных в векторной базе значительно повышает точность классификации. Модель text-embedding-ada-002 с большей размерностью вложения (1536) продемонстрировала более высокую точность по сравнению с моделью textembedding-gecko@001 (768).
Исследование подтвердило эффективность использования эмбедингов и векторных баз данных для классификации медицинских текстов. Данный подход позволяет создавать эффективные классификаторы без необходимости обучения сложных LLM с миллиардами параметров.
🟫 BlockMedCare: блокчейн, ИИ и IoT для здравоохранения будущего.
BlockMedCare – концепт, который использует блокчейн Ethereum, ИИ и IoT для управления электронными медицинскими картами.
Система BlockMedCare состоит из трех слоев: пользовательского интерфейса, бизнес-логики и доступа к данным. Пользовательский интерфейс позволяет пациентам, врачам и администраторам взаимодействовать с системой на мобильных и настольных устройствах. Слой бизнес-логики обрабатывает запросы пользователей, обеспечивает согласованность данных и взаимодействует с блокчейном. Слой доступа к данным отвечает за проверку транзакций, создание блоков и поддержание консенсуса в сети.
BlockMedCare использует несколько механизмов безопасности для защиты данных пациентов. Цифровые подписи, контроль доступа на основе ролей (RBAC) и многоуровневая архитектура гарантируют безопасный и контролируемый доступ к информации.
Система может интегрироваться с устройствами IoT и ИИ. IoT-устройства обеспечивают непрерывный мониторинг состояния пациентов и передачу данных в систему в режиме реального времени, а ИИ может использоваться для анализа больших объемов данных и предоставления персонализированных рекомендаций по лечению.