Machine Learning: Медицинский дайджест за период 7.09 – 14.09 2024 года

Модели машинного обучения и бенчмарки.

🟩 BrainWave: модель для анализа сигналов головного мозга.

BrainWave – модель, обученная на 40 000 часах инвазивных (iEEG) и неинвазивных (EEG) записей мозговой активности 16 тыс пациентов. Это первая фундаментальная модель для анализа сигналов мозга, объединяющая данные из разных источников.

Архитектура BrainWave состоит из embedding-слоя, трансформерный энкодер и модуль сhannel attention . Embedding-слой преобразует сигналы в латентные представления, а трансформерный энкодер улавливает временные взаимосвязи между отрезками сигнала . Модуль сhannel attention учитывает корреляцию между разными каналами записи.

BrainWave показывала отличные результаты в задачах диагностики шизофрении, судорог, отслеживания эпилепсии и определения зоны начала приступа.

🔸Arxiv

🟩 DS-ViT: Visual Transformer для ранней диагностики болезни Альцгеймера.

Dual-Stream Vision Transformer (DS-ViT) -метод, который объединяет сегментацию и классификацию для улучшения точности обучения моделей, обрабатывающих снимки МРТ головного мозга. 

Он использует FastSurfer в качестве обучающей модели для детальной сегментации для обучаемой ViT-модели ADAPT (модель диагностики болезни Альцгеймера). 

Пайплайн DS-ViT состоит из двух компонентов: модуля dual-stream embedding и Residual Temporal Attention Block (RTAB). Модуль dual-stream embedding обрабатывает параллельно данные МРТ-сканов, нарезанные по трем ортогональным плоскостям, и данные сегментации областей мозга от FastSurfer , встраивая и объединяя их в результирующие векторы.  

RTAB, включенный в конвейер DS-ViT, фиксирует динамику изменений во времени путем анализа различий между картами признаков из последовательных МРТ-сканов.

Результаты тестирований показали, что DS-ViT производительней на 7% базовой ADAPT и может обеспечить рекомендации для пациентов в случаях, когда она демонстрирует высокую уверенность — до 86%.

🔸Arxiv

🟩 EyeCLIP: фундаментальная VLM для офтальмологических изображений.

EyeCLIP, визуально-языковая фундаментальная модель (VLM), обученная на более чем 2,77 миллионах мультимодальных офтальмологических изображений и 11 180 текстовых описаний от 128 000 пациентов.

Модель может выполнять задачи классификации заболеваний глаз, прогнозирование системных заболеваний, поиск информации по изображению и тексту и ответы на вопросы, связанные с изображениями патологии глаз.

Архитектура модели построена на CLIP, визуально-текстового энкодера и Masked Autoencoder (MAE), визуального декодера.

Тестирование EyeCLIP на 14 наборах данных подтвердило ее способность решать широкий спектр офтальмологических задач. EyeCLIP превзошел существующие специализированные модели для офтальмологии модели (RETFound) в диагностике диабетической ретинопатии, глаукомы и редких заболеваний. 

🔸Arxiv

🟩 Возможности SAM для сегментации опухолей мозга.

В исследовании изучается эффективность SAM для сегментации опухолей головного мозга на основе набора данных BraTS2019, который содержит изображения четырех модальностей (T1, T1ce, T2, FLAIR). Авторы оценивают эффективность SAM с использованием двух типов маркирования – точки и рамки и анализируют влияние количества маркирования на точность сегментации.

Результаты показывают, что SAM с маркировкой в виде рамок превосходит по точности маркировку в виде точек. Увеличение количества точек улучшает производительность до определенного предела, после которого точность начинает снижаться. Комбинирование точечных и рамочных маркировок позволяет добиться наилучших результатов. SAM демонстрирует разную точность в зависимости от модальности изображений и типа опухоли.

🔸Arxiv

🟩 MEDIC: Оценка языковых моделей для клинического применения.

MEDIC использует пять ключевых измерений клинической компетентности: медицинское мышление, этические аспекты и предвзятость, понимание данных и языка, контекстное обучение и клиническая безопасность.

Оценка проводится тестированием на задачах: ответы на закрытые и открытые вопросы, суммирование медицинских текстов и создание клинических заметок. Для оценки безопасности моделей используется набор данных Med-Safety, содержащий 900 сценариев с потенциально опасными медицинскими запросами. Эффективность моделей в задачах суммирования и генерации текста оценивается с помощью метода “перекрестного допроса”, который не требует наличия аннотированных человеком эталонных ответов.

Результаты показывают, что большие модели обычно превосходят меньшие в задачах с закрытыми вопросами, но не всегда демонстрируют преимущество в задачах, требующих медицинского мышления и оценки рисков. Важным фактором, влияющим на безопасность LLM, является согласование предпочтений (preference alignment). Модели, специально обученные для медицинских задач, как правило, менее склонны к галлюцинациям и противоречиям. 

🔸Arxiv

Приложения с использованием языковых моделей.

🟪 KARGEN: генерация отчетов рентгенографии грудной клетки с использованием графа знаний и больших языковых моделей.

KARGEN – фреймворк, объединяющий большие языковые модели с графом знаний, специально разработанным для анализа рентгенограмм грудной клетки.

Архитектура KARGEN: энкодеры визуальных признаков (Swin Transformer), модуль слияния (element-wise fusion + modality-wise fusion) и генератор отчетов. 

Энкодер визуальных признаков извлекает признаки из рентгеновского изображения, граф знаний, построенный на основе взаимосвязей между 14 заболеваниями из набора данных Chexpert, используется для извлечения признаков, связанных с этими заболеваниями. 

Модуль слияния признаков объединяет визуальные признаки с признаками заболеваний, используя либо поэлементное, либо модально-ориентированное слияние. Наконец, генератор отчетов, основанный на модели LLaMA2-7B, использует объединенные признаки для генерации подробного отчета.

KARGEN обучался на наборах данных IU-Xray и MIMIC-CXR и оценивался с использованием традиционных метрик NLG (BLEU, ROUGE, METEOR, CIDEr), а также клинически значимых метрик, таких как RadGraph F1, BERTScore и RadCliQ. 

Результаты показывают, что KARGEN превосходит современные модели R2Gen по большинству метрик, что подчеркивает важность интеграции графа знаний, специфичного для заболеваний.

🔸Arxiv

🟪 i-MedRAG: итеративный поиск информации для ответов на сложные медицинские вопросы.

i-MedRAG – архитектура RAG, предназначенная для ответов на сложные медицинские вопросы, требующие многоэтапных рассуждений. В отличие от традиционных RAG-систем, i-MedRAG использует итеративный подход к поиску информации.

В i-MedRAG LLM генерирует ряд уточняющих запросов, основываясь на исходном вопросе и истории поиска. Ответы на эти запросы, полученные с помощью традиционной RAG-системы, используются для дополнения контекста и генерации окончательного ответа на исходный вопрос.

Экспериментальная оценка i-MedRAG проводилась на наборе данных MedQA, содержащем вопросы из экзамена USMLE, и на медицинских задачах из MMLU.

Результаты показывают, что i-MedRAG превосходит по точности существующие RAG-системы и методы prompt-инженерии, достигая точности 69,68% на MedQA с GPT-3.5 в качестве LLM в режиме zero-shot.

🔸Arxiv

Методики и техники

🟦 Автоматическая сегментация клеток с использованием UNet в DeepChem.

В статье описан эксперимент создания​​ интеграции модели UNet, архитектуры, известной своей эффективностью в задачах сегментации изображений, с python библиотекой DeepChem, предназначенной для машинного и глубокого обучения в биологии и химии, для задач автоматической сегментации клеток на различных наборах данных микроскопических изображений.

В эксперименте DeepChem использовался как основа для создания пайплайна (загрузка и предобработка данных, обучение UNet модели и ее последующая оценка).

Модель обучалась с использованием функции потерь Binary Cross Entropy и оптимизатора Adam со скоростью обучения 10^-4. В качестве метрик использовались Intersection over Union (IoU), F1 Score и Area under ROC (AuROC).

Модель показала высокую производительность на наборах данных микроскопии (BBBC003, BBBC039) с показателями: F1- 0.9477 для BBBC039, F1- 0.7930 для BBBC003 и IoU – 0.9006 для BBBC039, IoU – 0.65711 для BBBC003. 

Этот результат подтверждает способности интеграции обрабатывать различные методы микроскопии и биологические объекты, ее универсальность и применимость в разных исследовательских областях.

🔸Arxiv

🟦 Двухэтапная точная настройка: повышение эффективности медицинских LLM.

В статье рассматривается проблема адаптации больших языковых моделей для медицинской сферы. Традиционные подходы, основанные на непрерывном предварительном обучении, зачастую требуют значительных вычислительных ресурсов. Авторы статьи (SpassMed Inc., Canada) предлагают двухэтапный подход к точной настройке модели Llama3-8B с использованием PEFT и наборов данных MMed-IFT и MMed-IFT-MC.

Первый этап направлен на обучение модели общим медицинским знаниям с помощью набора данных MMed-IFT, который состоит из вопросов и ответов на различные медицинские темы. На этом этапе используется метод LoRA. 

Второй этап заключается в специфичной настройке на вопросы множественного выбора в стиле медицинских лицензионных экзаменов (MLE) с использованием набора данных MMed-IFT-MC. В нем также применяется метод LoRA.

Предварительные тесты показали, что обучение Llama3-8B на общих медицинских знаниях на первом этапе значительно улучшает производительность как в англоязычных (на тесте USMLE Step 3 результат – 67.2%), так и в многоязычных средах (на тесте CMLE (Chinese MLE) точность составила 59.3% против 38.1% у базовой модели Llama-3-8B).

На момент публикации статьи, авторы провели пилотный эксперимент, используя только английскую часть набора данных MMed-IFT на первом этапе. 

🔸Arxiv

ИИ в здравоохранении

🟥 Большие языковые модели в здравоохранении: социологическое исследование.

Исследование использования LLM для получения медицинской информации проводилось группой американских университетов путем опросов через онлайн платформы (X, Reddit и Discord) и методом онлайн-интервьюирования через Zoom. 

Всего было опрошено 214 человек в возрасте от 20 до 39 лет (основная масса – 87%), из которых 52% – мужчины, 46% – женщины. 88% респондентов фокус-группы имели на момент опроса законченное высшее образование.

Результаты показали, что что LLM, такие как ChatGPT, стали популярным инструментом для поиска информации о здоровье, обогнав по популярности специализированные медицинские чат-боты. Респонденты часто использовали LLM в сочетании с другими источниками, такими как поисковые системы и онлайн-сообщества, для проверки информации.

Многие участники интервью отмечали, что LLM предоставляют более точную и удобную информацию по сравнению с поисковыми системами. LLM воспринимались как более надежный источник благодаря опыту пользователей в других областях, где эти модели демонстрировали высокую эффективность. Однако, участники с медицинским образованием отмечали, что LLM могут отставать в освещении последних научных достижений.

Вопрос об использовании LLM врачами для диагностики вызвал разногласия. Часть респондентов считала это непрофессиональным, в то время как другие поддерживали использование LLM как вспомогательный инструмент, особенно для лечения редких заболеваний и второстепенных функций, например, заполнение медицинских карт.

🔸Arxiv

+1
0
+1
2
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *