ИИ против деменции: как нейросети анализируют медицинские датасетыСвежая публикация в JAMA снова напомнила, насколько мощным становится связка машинного обучения и лонгитюдных медицинских исследований. Гарвард опубликовал результаты 43-летнего наблюдения за 130 000 человек, и без алгоритмов обработки данных подобный масштаб не вытянуть в принципе. 11 033 случая деменции, миллионы строк показателей, поправки на десятки конфаундеров. Это уже не Excel, это продакшен-ML.

Что сделали исследователи

Когорта собрана из двух классических американских наблюдательных проектов, NHS и HPFS. Учёные взяли 131 821 медицинского работника, среднего возраста около 46 лет на момент старта, и тянули за ними данные с 1980 по 2023 год. Опросники по питанию, физактивности, метаболическим маркерам, сну, генетике. Затем поверх собранного озера данных применили регрессионные модели Кокса с поправками на пул переменных и провели dose-response анализ.

Если переводить на язык дата-сайентиста, это классическая задача survival analysis на сильно несбалансированных данных, где целевое событие, дебют деменции, происходит у меньшинства, но именно там прячется сигнал.

Главный инсайт

Связь между потреблением кофеинового кофе и снижением риска деменции оказалась устойчивой после всех поправок. Те, кто пил больше всего кофе с кофеином, имели риск деменции в районе 18 процентов ниже по сравнению с теми, кто не пил совсем. Sweet spot dose-response кривой лежит в диапазоне 2 – 3 чашек в день. Декаф такого эффекта не дал. Чай показал отдельный, более слабый защитный паттерн. Алгоритмы вытащили нелинейную зависимость именно от молекулы кофеина.

Почему такие исследования невозможны без ИИ

43 года наблюдений за 130 тысячами человек это десятки миллионов точек данных. Чтобы вытащить устойчивый сигнал, нужны модели выживаемости с нелинейными ковариатами и временно-зависимыми переменными, бустинги и нейросети для контроля конфаундеров, causal inference подходы вроде doubly robust estimation и target maximum likelihood, пайплайны очистки и импутации пропусков на петабайтах биомедицинских данных.

Те же стеки сегодня крутятся в проектах по биомаркерам Альцгеймера, в раннем скрининге онкологии и в персонализированной фармакологии.

Catch, о котором редко говорят

Эффект работает только при здоровой когорте. Если у человека уже выраженная гипертония, тревожное расстройство или нарушения сна, та же доза кофеина может бить по сосудам и стрессовой оси. Модель видит это как взаимодействие переменных и в стратифицированных подгруппах протективный эффект исчезает.

Что забрать с собой

Большие языковые модели и хайповые генеративки это лишь верхушка айсберга. Реальная революция в здоровье медленно идёт под капотом, в моделях survival analysis и causal inference, которые пересобирают наше понимание профилактики хронических болезней.

Источник: https://x.com/realPatrickJr/status/2049566307226714258

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *