Machine Learning: Большой Медицинский дайджест 1.09-07.09 2024 г.
В этом дайджесте за первую неделю сентября 2024 года мы собрали самые интересные и важные публикации.
Пристегивайтесь, мы начинаем.
Модели машинного обучения
🟩 CancerLLM: LLM для онкологии.
CancerLLM – это языковая модель с 7 млрд. параметров для задач, связанных с онкологическими заболеваниями. Она была обучена на 2,67 млн. клинических записей и 515,5 тыс. отчетах о патологиях по 17 типам рака. Согласно проведенным тестам в процессе исследования, CancerLLM превосходит существующие модели на 7,61 % по показателю F1 (точность классификации).
🟩 MedUnA: метод создания VLM для обработки медицинских снимков.
Medical Unsupervised Adaptation (MedUnA) состоит из двух этапов.
На первом этапе описания, сгенерированные LLM, соответствующие меткам классов, передаются через текстовый энкодер BioBERT. Результирующие текстовые эмбеддинги выравниваются по меткам классов с помощью упрощенного адаптера.
На втором этапе обученный адаптер интегрируется с визуальным энкодером MedCLIP, используя entropy-based loss и prompt tuning для эффективного выравнивания визуальных эмбеддингов.
🟩 DARES: Базовая модель для роботизированной эндоскопической хирургии.
Метод, код и базовая модель для для выполнения самоконтролируемой монокулярной оценки глубины в задачах эндоскопической роботизированной хирургии.
🟩 Med-MoE: Mixture-of-Experts для медицинских VLM.
Med-MoE (Mixture-of-Experts) – легкий фреймворк для решения дискриминативных и генеративных мультимодальных медицинских задач.
Med-MoE работает в три этапа: cогласование медицинских изображений с лексемами LLMs, выбор экспертов для настройки инструкций с помощью обучаемого маршрутизатора и настройка выбранных экспертов в требуемой области.
🟩 CanvOI: Визуальная модель для онкологии.
CanvOI – VL модель для цифровой патологии, основанная на ViT-g/10, оптимизированная для онкологических гистопатологических изображений. Благодаря использованию плиток размера 380 x 380 пикселей и патчей размера 10², CanvOI эффективна в задачах обучения по нескольким экземплярам (Multiple Instance Learning).
🟩 UniUSNet: прогнозирование заболеваний на основе УЗИ.
UniUSNet – метод, код и претрейн-модель для задач классификации и сегментации ультразвуковых изображений, способный работать с различными типами УЗИ, анатомическими позициями и форматами входных данных. Обучена на более чем 9,7 тыс. аннотаций по 7 анатомическим позициям.
Бенчмарки и наборы данных для оценки
🟥 TrialBench: Датасет клинических испытаний.
23 набора мультимодальных данных, предварительно структурированных для использования в задачах файнтюна моделей, оценки и прогнозирования ключевых результатов по показателям: продолжительность испытаний, отсев пациентов, уровень смертности и одобрение испытаний.
🟥 LLM для бенчмарка по MedQA.
Исследование использования LLM для автоматизации оценки медицинских систем вопросов и ответов, традиционно требующих ручной оценки экспертов. Траектория изысканий сосредоточена на том, могут ли LLM имитировать человеческую оценку, анализируя ответы на вопросы, полученные из данных о пациентах.
Спойлер — могут, с абсолютной погрешностью 0,62 по шкале от 0 до 3.
🔸Arxiv
🟥 MedFuzz: Исследование надежности медицинских LLM.
MedFuzz от Microsoft Research – это состязательный метод проверки устойчивости LLM в эталонных тестах MedQA путем модификации вопросов таким образом, чтобы использовать нереалистичные предположения.
MedFuzz показывает, как LLM могут ошибаться таким образом, чтобы не обмануть медицинских экспертов, выявляя пробелы в их обобщении для реальных клинических условий.
🟥MedS-Bench + Medicines: Оценка работы LLM в клинических задачах и датасет для обучения.
MedS-Bench – бенчмарк и датасет для оценки эффективности моделей в решении 11 клинических задач из 3 областей: обобщение отчетов, диагностика и рекомендации по лечению.
MedS-Ins – набор данных для настройки инструкций с 5 миллионами экземпляров для 122 задач.
Набор данных MedS-Ins и лидерборд по тестам открыты для исследовательского сообщества.
🔸Arxiv 🔸Leaderboard 🔸Github 🔸Dataset MedS-Ins 🔸Dataset MedS-Bench
🟥 Оценка эффективности LLM в гастроэнтерологии.
В исследовании оценивается эффективность LLM и VLM в гастроэнтерологии на 300 вопросах с несколькими вариантами ответов, 138 из которых с изображениями.
Наибольшей точности достигли GPT-4o (73,7 %) и Claude3.5-Sonnet (74,0 %), опередив Llama3.1-405b (64 %).
Квантованные модели, на примере Phi3-14b (48,7 %), показали результаты, сравнимые с моделями с полной точностью.
Цифровые LLM двойники
🟦 Цифровой двойник для лечения редких гинекологических опухолей
В исследовании рассматривается использование LLM для создания цифровых двойников для точной медицины при редких гинекологических опухолях. Это сложная задача из-за низкой частоты встречаемости и гетерогенности случаев.
Агрегируя клинические данные, биомаркеры из документированных историй и научные данные о 400 000 пациентов, система на основе LLM генерирует персонализированные планы лечения, определяя варианты, которые традиционные методы могут упустить.
🟦 DT-GPT: Цифровой двойник для прогнозирования состояния здоровья пациента.
В исследовании представлена модель цифрового двойника – Generative Pretrained Transformer (DT-GPT), которая использует LLMs для прогнозирования динамики пациента с использованием данных электронной медицинской карты. DT-GPT превосходит современные методы машинного обучения, показывая 3,4% среднюю абсолютную погрешность в долгосрочных данных о немелкоклеточном раке легких и 1,3% в краткосрочных данных по интенсивной терапии.
DT-GPT сохраняет корреляции клинических переменных и предоставляет объяснимую информацию в инференсе.
🔸Medrxiv
Приложения с использованием языковых моделей.
🟪 HIPPO: Интерпретирующий ИИ для гистопатологии.
HIPPO – метод ИИ, разработанный для оценки моделей attention-based multiple instance learning (ABMIL) в гистопатологии. HIPPO генерирует контрфактические примеры путем модификации участков ткани на изображениях целых срезов, показывая, что модели ABMIL могут пропустить небольшие опухоли и быть введены в заблуждение неопухолевыми регионами.
🟪 LLM vs Человек в когнитивно-поведенческой терапии.
В исследовании изучалось использование LLM в качестве ассистента EBR-терапии и сравниваkfcm их эффективность с работой консультантов, использующих когнитивно-поведенческую терапию. С помощью HELPERT были сравнены сеансы терапии, проведенные LLM, с реальными сеансами, проведенными консультантами.
LLM показали более высокую приверженность методам КПТ и уменьшили “дрейф терапевта”, но не смогли продемонстрировать сочувствие, вовлеченность и культурное понимание. Сеансы, проведенные консультантами, были эмпатичными и увлекательными, но часто отклонялись от методов КПТ.
🟪 ASD-Chat: LLM для детей с аутизмом.
ASDChat – система социального взаимодействия, разработанная для помощи детям с расстройством аутистического спектра (англ. Autism Spectrum Disorder – ASD). Используя LLM для создания диалогов и опираясь на клинически верифицированную программу VB-MAPP (Verbal Behavior Milestones Assessment and Placement Program), ASDChat решает проблему отсутствия персонализации в существующих инструментах работы с ASD.
🟪Rx Strategist: Проверка рецептов на основе LLM.
Rx Strategist объединяет LLM с графами знаний и стратегиями поиска для верификации рецептов. Этот многоэтапный метод включает в себя ключевые показатели: медицинские показания показания, дозировки действующих веществ и особенности совместимости препаратов. Rx Strategist демонстрирует точность, сравнимую с опытными фармацевтами и предлагает надежное решение для снижения количества ошибок при выписке рецептов.
🟪 Калибровка специализированных медицинских LLM.
Исследование направлено на повышение надежности LLM в медицинских задачах, в частности, на устранение их склонности быть слишком самоуверенными в своих ответах. Метод под названием “Atypical Presentations Recalibration”, цель которого – помочь LLM лучше осознавать необычные или нетипичные симптомы при ответе на медицинские вопросы. Метод добавляет дополнительные подсказки, в которых LLM предлагается оценить, насколько “типичным” является симптом или сценарий, а затем использовать эту информацию для корректировки достоверности инференса.
🟪 Guardrails: применение LLM в экосистеме фармконадзора.
Guardrails – система мер, позволяющая установить меры предотвращения ошибок в области фармаконадзора для LLM на примере перевода с японского на английский язык: проверка подлинности отчетов о безопасности препаратов, сопоставление препаратов и их побочных действий, выявление неопределенностей перевода.
Результаты тестов показали, что метод улавливает и предотвращает многие потенциальные ошибки, включая несуществующие названия препаратов, неточную информацию и бессмысленные фразы. Хотя перевод LLM не был идеальным, Guardrails значительно повысили его точность и надежность в целях обеспечения безопасности лекарств.
На сегодня все, большое спасибо за внимание.
Делитесь интересными моделями в комментариях.