ML в медицине: дайджест за 8 – 15 декабря 2024 г

Модели, бенчмарки и датасеты

🟩 Модель диагностики хронического заболевания почек.

ML в медицине: дайджест за 8 - 15 декабря 2024 г

Хроническая болезнь почек (ХБП) – серьезная проблема, и ее раннее выявление крайне важно для успешного лечения.

В статье представлена модель глубокого обучения для точной диагностики ХБП, основанная на исследовании ученых из Бангладеш и США.

Для обучения модели использовался набор данных «CT KIDNEY DATASET: Normal-Cyst-Tumor and Stone», содержащий 12 446 изображений компьютерной томографии. Набор данных состоит из изображения кист (3 709 случаев), нормальных почек (5 077 случаев), камней (1 377 случаев) и опухолей (2 283 случая).

Чтобы повысить разнообразие обучающих данных, использовались методы аугментации изображений: масштабирование, поворот, отражение и смещение. Набор данных был разделен на обучающую (80%) и тестовую (20%) выборки.

С этими наборами использовались несколько моделей: EfficientNetV2, InceptionNetV2, MobileNetV2 и Vision Transformer (ViT). Каждая модель обучалась в течение 50 эпох.

Результаты показали, что ViT достигла наилучшей точности — 91,5%. MobileNetV2 — 90%. Чтобы повысить точность, была разработана ансамблевая модель, объединяющая все четыре модели. Ансамблевая модель показала точность 96%.

Для объяснения прогнозов модели был использован метод Explainable AI (XAI). Он позволил выявить области на изображениях, которые наиболее важны для постановки диагноза.

🔸Arxiv

🟩 RNAgrail: графовая нейронная сеть и диффузионная модель для предсказания 3D-структуры РНК.

ML в медицине: дайджест за 8 - 15 декабря 2024 г

RNAgrail – инструмент для прогнозирования структуры РНК, разработки новых РНК, а также для исследования взаимодействий РНК с другими молекулами.

RNAgrail использует локальные 3D-дескрипторы – небольшие фрагменты РНК, представляющие пространственное окружение каждого нуклеотида. Такой подход позволяет модели учиться на примере разнообразных структур РНК и предсказывать трехмерную структуру молекул из новых семейств РНК.

RNAgrail включает в себя 3 основных компонента: языковую модель РНК (RiNALMo), графовую нейронную сеть и трансформер.

RiNALMo генерирует векторные представления нуклеотидов, учитывающие их контекст. GNN обрабатывает информацию о взаимодействиях между атомами, как близко расположенными, так и удаленными. Трансформер, подобный Invariant Point Attention (IPA) из AlphaFold, дополнительно улучшает качество прогнозирования.

RNAgrail обучается с использованием probabilistic diffusion model (DDPM) и 5-бусинчатой модели РНК. В обучающую выборку включены 33 518 дескрипторов рРНК и тРНК. Тестовая выборка содержит 10 583 дескриптора из других семейств РНК.

RNAgrail превосходит AlphaFold 3 по точности предсказаний. Среднее значение RMSD для RNAgrail равно 6,50 Å, в то время как для AlphaFold 3 – 7,39 Å.

RNAgrail также демонстрирует лучшие результаты и по другим метрикам: eRMSD (1,31 против 1,63) и INF (0,96 против 0,67). RNAgrail также может учитывать дополнительные ограничения, например, взаимодействия типа Watson-Crick-Franklin, что позволяет повысить точность модели.

RNAgrail – это программа с открытым исходным кодом, доступная на GitHub. Она может быть использована для прогнозирования структуры РНК, разработки новых РНК, а также для исследования взаимодействий РНК с другими молекулами.

🔸MLSB 🔸Github

🟩 LLaSA: Анализ активности пациента по инерционным датчикам с помощью MLLM.

ML в медицине: дайджест за 8 - 15 декабря 2024 г

LLaSA (Large Language and Sensor Assistant)- MLLM, разработанная для анализа активности человека. Модель объединяет возможности LIMU-BERT, алгоритма для обработки данных с инерционных датчиков (IMU), и Llama, позволяя интерпретировать показания датчиков и отвечать на вопросы, связанные с движениями и действиями человека.

Для обучения LLaSA разработаны два специализированных набора данных: SensorCaps и OpenSQA. SensorCaps содержит 35 960 текстовых описаний, полученных из данных IMU, а OpenSQA включает 179 727 пар вопросов и ответов, учитывающих контекст датчиков и активности.

Пайплайн LLaSA состоит из 3 этапов:

  • Кодирование данных датчиков: данные IMU обрабатываются моделью LIMU-BERT, создавая векторное представление.
  • Обработка текстового запроса: текстовый запрос токенизируется с помощью Llama, формируя векторное представление запроса.
  • Генерация ответа: объединенные векторные представления данных датчиков и запроса подаются в языковую модель Vicuna 1.5 (Llama), которая генерирует текстовый ответ, основанный на анализе данных и контексте запроса.

Эффективность LLaSA проверялась на закрытых и открытых задачах. В закрытых задачах распознавания активности человека (HAR) на основе данных IMU, LLaSA достигла более высокого показателя F1 по сравнению с GPT-3.5-Turbo, GPT-4o-mini и Vicuna-7b-16K. Наилучший результат F1 0.84, был достигнут на наборе данных HHAR.

В открытых задачах ответов на вопросы на основе данных IMU, LLaSA продемонстрировала высокую удовлетворенность фокусной группы пользователей, сопоставимую с GPT-4o-mini, при использовании гораздо меньшего контекстного окна (2K токенов).

🔸Arxiv 🔸Github


Фреймворки и методологии

🟦 TOP-Training: целенаправленный метод обучения LLM для извлечения ответов на вопросы в медицинской области.

ML в медицине: дайджест за 8 - 15 декабря 2024 г

TOP-Training (Target-Oriented Pretraining) – метод обучения LLM, который основан на генерации синтетических данных, специально адаптированных к целевой задаче.

Сначала из целевого датасета Medical-EQA извлекаются ключевые сущности. Затем с помощью LLM (в этом исследовании – Galactica) создаются синтетические тексты, содержащие эти сущности и имитирующие стилистику целевого набора данных (например, научные статьи для COVID-QA и радиологические отчеты для RadQA).

Полученный синтетический корпус используется для предварительного обучения LLM (BERT/RoBERTa), за которым следуют два этапа тонкой настройки:

Первый этап: файнтюн на наборе SQuAD для обучения модели общей задаче ответов на вопросы.

Второй этап: тонкая настройка на датасете Medical-EQA (COVID-QA или RadQA) для решения конкретной задачи.

Эксперименты на наборах данных COVID-QA и RadQA продемонстрировали эффективность этого метода обучения. Результаты тестов превзошли базовые модели и показал конкурентоспособные результаты по сравнению с традиционными методами, несмотря на использование значительно меньших объемов данных. TOP-Training продемонстрировал устойчивость к разным размерам и конфигурациям синтетических данных, а также разным архитектурам LLM.

🔸Arxiv

🟦 Hybrid RAG: гибридная архитектура RAG для управления данными.

ML в медицине: дайджест за 8 - 15 декабря 2024 г

Hybrid RAG использует MLLM и технологию кросс-чейна, которая позволяет участникам процесса безопасно обмениваться данными.

Архитектура имеет иерархическую структуру, состоящую из главной цепочки и нескольких подцепей. Главная цепочка управляет сбором данных и обновлением моделей, а подцепи обрабатывают запросы от больниц в разных регионах. Больницы загружают данные в подцепи, которые передают их в главную цепь для обучения MLLM. После обучения больницы и медицинский центр получают доступ к API или файлам весов MLLM через промежуточную цепь.

Для повышения качества анализа данных используется гибридный мультимодальный модуль RAG. Он выполняет задачи:

Хранение данных: больницы и медицинский центр преобразуют данные в векторы с помощью специальной модели и хранят их в базе данных.

Поиск данных: при получении запроса система RAG преобразует его в вектор и находит похожие векторы в базе данных.

Ранжирование результатов: система использует метрику Multi-modal Information Similarity (MIS) для фильтрации и ранжирования результатов поиска.

Подготовка входных данных: система объединяет исходный запрос с найденными данными.

Формирование ответа: MLLM обрабатывает подготовленные данные и генерирует ответ.

Оценка качества данных выполняется метрикой Age of Information (AoI), которая показывает время между сбором данных в больнице и окончанием обучения MLLM.

Чтобы простимулировать больницы к предоставлению актуальных данных используется модель теории контрактов. В этой модели поставщик услуг MLLM разрабатывает набор контрактов и предлагает их больницам. Каждая больница выбирает подходящий контракт.

Для определения наилучшего контракта используются алгоритмы глубокого обучения с подкреплением, основанные на генеративных диффузионных моделях (GDM). GDM позволяют создавать контракты, которые максимизируют выгоду поставщика услуг MLLM.

Эксперименты показали, что гибридный модуль RAG улучшает качество ответов модели LLaVA-Med, особенно при анализе рентгеновских снимков с известными патологиями, а GDM-алгоритм превосходит DRL-PPO в разработке контрактов, обеспечивая поставщику услуг MLLM большую выгоду.

🔸Arxiv

🟦 MMedPO: метод повышения точности медицинских VLM.

ML в медицине: дайджест за 8 - 15 декабря 2024 г

MMedPO (Multimodal Medical Preference Optimization) – метод, который учитывает клиническую релевантность при оптимизации предпочтений. MMedPO формирует данные о предпочтениях, используя два типа несоответствий:

Правдоподобные, но медицински неточные текстовые ответы, сгенерированные с помощью Med-LVLMs или GPT-4o.

Игнорирование области поражения на изображениях, достигаемое за счет локального добавления шума, чтобы сымитировать нарушение понимания критических областей изображения.

Клиническая значимость каждого примера определяется с помощью оценок, полученных от нескольких Med-LLMs и визуальных инструментов. Эти оценки используются в качестве весов в процессе оптимизации предпочтений, что дает в итоге более эффективное согласование.

Эксперименты показали, что MMedPO существенно повышает фактическую точность Med-LVLMs.

В задачах Med-VQA и генерации отчетов наблюдается улучшение в среднем на 14,2% и 51,7% соответственно. MMedPO улучшает фокусировку модели на визуальной информации, особенно на областях поражения. Это позволяет модели извлекать больше информации из изображений и генерировать более точные ответы.

🔸Arxiv 🔸Github

🟦 GMNA: анализ геномных данных с использованием сети ошибочной классификации.

ML в медицине: дайджест за 8 - 15 декабря 2024 г

Genome Misclassification Network Analysis (GMNA) – метод сравнительной геномики основанный на анализе сетей ошибочной классификации. GMNA использует вероятность ошибочной классификации, вычисляемой обученной моделью ИИ, для оценки связи между группами геномных последовательностей.

В основе GMNA лежит концепция «неразличимости», которая количественно определяет сходство между группами геномов. Чем чаще модель ИИ ошибочно классифицирует геномы из двух разных групп, тем выше их неразличимость, и, следовательно, тем больше общих генетических характеристик они имеют.

Для демонстрации GMNA использовался набор данных из 551 230 полных геномных последовательностей SARS-CoV-2 из 198 географических регионов. В качестве моделей ИИ были выбраны Naive Bayes и CNN. Предварительная обработка данных включала кодирование k-мерами для Naive Bayes и дополнение и one-hot кодирование для CNN.

Результаты показали, что геномы SARS-CoV-2 демонстрируют сильную пространственную зависимость. Геномы из соседних регионов часто ошибочно классифицируются, что указывает на их генетическое сходство. Этот вывод подтверждается сравнением с конфигурационной моделью, где связи между регионами рандомизированы.

В ходе экспериментов была выявлена корреляция между неразличимостью геномов и центральностью стран в сети авиаперелетов. Страны с большей центральностью в сети авиаперелетов демонстрируют более высокую неразличимость геномов, что подчеркивает влияние путешествий на генетические вариации.

🔸Arxiv

🟦 Цифровые отпечатки для обучения ИИ в медицинской визуализации.

ML в медицине: дайджест за 8 - 15 декабря 2024 г

Развитие ИИ в области анализа медицинских изображений стремительно прогрессирует, но сталкивается с проблемой разрозненности информации. Знания о методах и результатах разбросаны по публикациям, а требования конфиденциальности ограничивают обмен данными.

Для решения этой проблемы предлагается метод безопасной передачи знаний, основанный на “цифровых отпечатках задач (ЦОЗ)”. ЦОЗ – это сжатое представление характеристик набора данных, позволяющее оценить сходство между различными задачами анализа изображений.

Система работает по принципу “облака знаний”, в котором хранятся “отпечатки” и информация об успешных стратегиях обучения моделей. В такой системе легко найти релевантные знания, сгенерировав “отпечаток” своей задачи и сравнив его с имеющимися в системе.

Для сравнения ЦОЗ используется метрика – bKLD (binned Kullback-Leibler Divergence). bKLD вычисляет “расстояние” между задачами на основе различий в распределении признаков изображений.

Эффективность метода подтверждена на 71 задаче с использованием 12 типов медицинских изображений. ЦОЗы успешно идентифицируют релевантные знания и способствуют совместному обучению моделей.

🔸Arxiv

🟦 Прогнозирование посещений отделения неотложной помощи пациентами с диабетом 2 типа с помощью машинного обучения.

ML в медицине: дайджест за 8 - 15 декабря 2024 г

Исследование разработки и валидации моделей машинного обучения (МО) для прогнозирования посещений отделения неотложной помощи (ОНП) пациентами с сахарным диабетом второго типа(СД2). В исследовании использовались данные из хранилища клинических данных HealthShare Exchange (HSX), содержащие демографическую информацию, диагнозы и показатели жизнедеятельности пациентов с СД2 за период с 2017 по 2021 год. Выборка исследования включала 34 151 пациента и 703 065 посещений.

Для построения моделей был разработан рабочий процесс, интегрирующий данные электронных медицинских карт с социальными детерминантами здоровья. Из 2555 признаков для построения моделей были отобраны 87 наиболее информативных. Для прогнозирования риска посещения ОНП были использованы алгоритмы МО: CatBoost, ансамблевое обучение, метод k-ближайших соседей (KNN), метод опорных векторов (SVC), случайный лес и XGBoost, с применением десятикратной перекрестной проверки.

Наилучшие результаты по кривой ROC показали случайный лес, XGBoost и ансамблевое обучение (0.82), за ними следуют CatBoost (0.81), KNN (0.72) и SVC (0.68).

Ансамблевое обучение и случайный лес продемонстрировали наилучшую прогностическую эффективность с точки зрения дискриминации, калибровки и клинической применимости. Наиболее важными признаками оказались возраст, разница между интервалами посещений, интервалы посещений, абдоминальная и тазовая боль (код R10 по МКБ-10) и индекс концентрации на экстремумах (ICE).

Разработанные модели могут быть использованы для прогнозирования будущей нагрузки на ОНП и помощи врачам в выявлении критических факторов, связанных с организацией ОНП.

🔸Arxiv


LLM-приложения

🟥 BRAD: цифровой помощник для биоинформатики на основе LLM.

ML в медицине: дайджест за 8 - 15 декабря 2024 г

BRAD (Bioinformatics Retrieval Augmented Digital assistant) – это прототип цифрового помощника, который объединяет LLM с инструментами для анализа биологических данных. BRAD предоставляет пользователю чат-интерфейс для взаимодействия с агентом, который способен извлекать информацию из различных источников: документов, предоставленных пользователем, онлайн-репозиториев научной литературы, программных конвейеров и общедоступных баз данных. Модульная архитектура BRAD позволяет интегрировать разнообразные инструменты и ресурсы, делая его более функциональным по сравнению с другими RAG-системами.

BRAD использует технологию Retrieval Augmented Generation (RAG) для получения информации из внешних источников.

Модуль Document Chat применяет RAG для извлечения данных из документов, научных статей и PDF-файлов.

Модуль Search позволяет выполнять поиск по онлайн-базам данных arXiv, PubMed, bioRxiv, Enrichr и Gene Ontology. Для повышения качества ответов, извлеченная информация включается в шаблон запроса, который затем передается LLM.

BRAD содержит инструмент Software tool, который позволяет агенту взаимодействовать с внешним программным обеспечением, например, с конвейером выбора биомаркеров. В отличие от типичных LLM, которые генерируют текстовые предложения, агент BRAD создает таблицу на основе данных из программного обеспечения. Это уникальный пример интеграции возможностей LLM с конвейером программного обеспечения.

BRAD доступен в виде пакета Python с удобным графическим интерфейсом. Пользовательский интерфейс позволяет загружать документы для создания новых RAG-баз данных и настраивать методы поиска и дополнения.

🔸Arxiv 🔸Github 🔸Documentation

🟥 BioResearcher: система автоматизации медицинских исследований.

ML в медицине: дайджест за 8 - 15 декабря 2024 г

BioResearcher – система для автоматизации медицинских исследований, потребность которой обусловлена необходимостью упростить обработку постоянно растущего объема научных публикаций и данных.

BioResearcher использует модульную многоагентную архитектуру, основанную на GPT-4o.

Система состоит из 4 модулей: поиска, обработки литературы, разработки экспериментов и программирования. Каждый модуль включает в себя специализированных агентов, выполняющих конкретные задачи. Например, агент поиска находит научные статьи и наборы данных, агент фильтрации отбирает наиболее релевантные материалы, агент генерации отчетов преобразует статьи в стандартизированные отчеты, а агент анализа отчетов изучает эти отчеты, учитывая цель, условия и требования исследования.

Для анализа сложных данных BioResearcher применяет иерархический подход. Модуль обработки литературы преобразует статьи в структурированные отчеты, что упрощает их анализ и обеспечивает единообразие. Модуль разработки экспериментов использует RAG для поэтапного изучения информации.

В BioResearcher есть LLM-рецензент для контроля качества. Этот агент анализирует результаты на каждом этапе и вносит необходимые коррективы.

Чтобы оценить BioResearcher были разработаны новые метрики из 5 параметров качества протокола (полнота, уровень детализации, правильность, логическая и структурная обоснованность) и 2 метрики для оценки автоматизации: уровень успеха выполнения и уровень ошибок.

Проведенная оценка показала, что BioResearcher успешно выполняет задания в 63,07% случаев, что на 22% лучше, чем у типичных агентных систем.

🔸Arxiv


Исследования и обзоры

🟫 T5-модели: преимущества и ограничения в обработке медицинских текстов.

ML в медицине: дайджест за 8 - 15 декабря 2024 г

Исследовательская работа Университета Хопкинса в которой исследуется эффективность специализированных клинических T5 моделей для обработки электронных медицинских записей (ЭМЗ) и проведен сравнительный анализ на 7 клинических и биомедицинских задачах 2 клинических моделей T5 (MIMIC-T5 и SciFive+MIMIC-T5) с базовыми моделями T5 (T5-Den, T5-Sup) и FLAN-T5.

MIMIC-T5, обученная с нуля на данных MIMIC-III и MIMIC-IV, показала лучшие результаты (на 1-1.5 пункта) на клинических задачах (MedNLI, RadQA, CLIP) по сравнению с T5-Sup.

SciFive+MIMIC-T5, адаптированная из биомедицинской модели SciFive и дополнительно обученная на MIMIC-III, продемонстрировала неоднозначные результаты. На биомедицинских задачах (HOC, BC5CDR-disease, NCBI-disease) SciFive+MIMIC-T5 превосходит MIMIC-T5, вероятно, благодаря предварительному обучению на подобных данных.

При тестировании на новом клиническом наборе данных Hospital System для задачи определения стигматизирующего языка, MIMIC-T5 уступает T5-Sup и SciFive+MIMIC-T5. Это может указывать на переобученность MIMIC-T5 на данных MIMIC и ограниченную способность к обобщению на новые клинические данные.

При использовании ограниченного объема данных (1% от обучающей выборки MedNLI и 1%, 5%, 25% для задачи стигматизации) FLAN-T5 показывает наилучшие результаты среди всех моделей T5, включая клинические.

Выводы исследования:

Клинические модели, обученные с нуля на ограниченных данных, не следует использовать за пределами обучающей выборки.

Клинические модели целесообразно применять, только если имеется достаточный объем размеченных данных для конкретной задачи.

Сочетание тонкой настройки под конкретную задачу и обучения FLAN обеспечивает наилучшие результаты, особенно при ограниченном объеме данных.

Адаптация моделей общего назначения, а не обучение с нуля, является более перспективной стратегией для разработки клинических языковых моделей.

🔸Arxiv 🔸Github

🟫 Автоматизация классификации препаратов для клинических назначений с помощью LLMs.

ML в медицине: дайджест за 8 - 15 декабря 2024 г

Экспериментальное исследование interRAI и Университета Ватерлоо (Канада) автоматизации ATC кодирования, основанной на использовании LLM для решения проблемы ручной классификации медицинских препаратов в системе здравоохранения.

Система ATC (Anatomical Therapeutic Chemical) — это стандартный иерархический классификатор лекарственных средств, поддерживаемый ВОЗ. Автоматизация процесса классификации может значительно повысить эффективность работы медицинских специалистов.

Предложенный метод основан на пошаговой обработке данных с помощью LLM, где модель последовательно определяет код ATC на каждом из 5 уровней иерархии. На каждом уровне LLM выбирает наиболее подходящий код из списка доступных опций, учитывая описание препарата.

Чтобы предотвратить генерацию несуществующих кодов, LLM ограничена выбором только из валидных вариантов. Это ограничение позволяет оптимально использовать иерархическую структуру ATC и сократить пространство поиска, упрощая задачу для модели.

В качестве LLM использовались GPT-4o и Llama 3.1 70B.

GPT-4o показала высокую точность (78,4%) на наборе данных Health Canada, содержащем 5 744 пар МНН и кодов ATC лекарственных препаратов. Llama 3.1 70B достигла точности 60,3% на том же наборе данных.

Экспериментально был выполнен файнтюн модели Llama 3.1 8B на датасетах Health Canada и RABBITS, что позволило достичь точности, превосходящей показатели Llama 3.1 70B в режиме zero-shot.

Оценка эффективности на реальных клинических данных проводилась на 200 анонимных записей о назначении лекарств из Ontario Health. Результаты оценки показали, что точность модели на реальных данных сопоставима с результатами на наборе данных Health Canada, особенно на уровне 4 иерархии ATC.

🔸Arxiv

🟫 Обзор медицинских наборов данных.

ML в медицине: дайджест за 8 - 15 декабря 2024 г

В исследовании проанализированы наборы данных разных типов: текстовые, изображения с аннотациями и мультимодальные, с акцентом на распространенные медицинские задачи: электронные медицинские карты, диалоги врача и пациента, ответы на медицинские вопросы и описание медицинских изображений.

Текстовые данные – самый распространенный тип. MIMIC-III и MIMIC-IV – это открытые датасеты на английском языке, содержащие обезличенные медицинские записи более 40 000 пациентов. AmsterdamUMCdb – база интенсивной терапии на голландском. iCliniq и HealthCareMagic-100k – примеры баз данных с реальными диалогами врача и пациента из онлайн-платформ. NoteChat и SynDial – синтетические наборы данных диалогов, созданные с помощью LLM.

Датасеты для ответов на медицинские вопросы используются для оценки способности моделей понимать вопросы и давать правильные ответы. PubMedQA содержит биомедицинские вопросы и ответы, полученные из аннотаций PubMed. MedQA – это база данных, состоящая из 18 учебников на английском языке и 33 учебников на упрощенном китайском.

Биомедицинская литература – важный источник знаний о болезнях, методах лечения, лекарственных взаимодействиях и клинических испытаниях. PubMed и PubMed Central (PMC) – это популярные корпуса научных статей и аннотаций. S2ORC – набор данных с открытыми научными статьями.

Для задач извлечения отношений используются специализированные наборы BC5CDR, ADE и ChemProt. BC5CDR содержит информацию об отношениях между химическими веществами и заболеваниями. ADE и n2c2 (Track 2) – базы данных, посвященные извлечению сведений о побочных эффектах лекарств. ChemProt – база данных взаимодействий химических веществ и белков.

Авторы пришли к выводу, что существующие базы данных ограничены в языковом разнообразии и часто содержат данные преимущественно на английском или китайском языках.

🔸Arxiv

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *