SleepFM: ИИ предсказывает 130 болезней по одной ночи сна | Sigmatic
Sigmatic
AI/ML
cs.AI q-bio.NC

SleepFM: ИИ предсказывает 130 болезней по одной ночи сна

· 8 мин чтения

Авторы: Rahul Thapa, Magnus Ruud Kjaer, Emmanuel Mignot, James Zou

SleepFM: ИИ предсказывает 130 болезней по одной ночи сна

Восемь часов подряд ваш мозг генерирует электрические волны. Сердце стучит. Мышцы подёргиваются. Лёгкие вдыхают и выдыхают 6 000 раз за ночь. Каждую секунду тело передаёт десятки сигналов по семи каналам — и почти всё это врачи выбрасывают после того, как поставят диагноз «апноэ» или «нарушение стадий сна».

Команда из Стэнфорда решила: хватит. Они собрали 585 000 часов полисомнографических записей от 65 000 пациентов в возрасте от 2 до 96 лет — и скормили всё это нейросети. Результат опубликован в Nature Medicine в январе 2026: модель SleepFM научилась предсказывать 130 заболеваний по записи одной ночи. Болезнь Паркинсона — с точностью 0,89. Рак молочной железы — 0,87. Деменция — 0,85. За годы до первого симптома.

585 000 часов сна под микроскопом

Полисомнография (ПСГ) — золотой стандарт исследования сна. Пациент проводит ночь в лаборатории с датчиками на голове, груди, ногах и пальце. Регистрируются: электроэнцефалограмма (ЭЭГ), электрокардиограмма (ЭКГ), электромиограмма (ЭМГ), движения глаз, дыхательный поток, насыщение крови кислородом и движения ног.

Основу датасета составили 35 000 пациентов Стэнфордского центра медицины сна, наблюдавшихся с 1999 по 2024 год. Некоторых из них отслеживали 25 лет после ночи в лаборатории — достаточно, чтобы узнать, кто заболел, а кто нет. К ним добавили записи из клиник Дании, Франции и трёх крупных эпидемиологических когорт: MESA, MrOS и SHHS.

Итого: 65 649 человек, 585 000 часов непрерывных физиологических данных. Каждая запись содержит до семи типов сигналов — от мозговых волн до ритма дыхания. Это самый большой датасет полисомнографии, когда-либо использованный для обучения ИИ.

Обзор архитектуры SleepFM: данные полисомнографии из нескольких центров, контрастивное обучение и дообучение для задач предсказания заболеваний

Рис. 1: Общая архитектура SleepFM. Слева — источники данных и типы сигналов. В центре — мультимодальное контрастивное обучение. Справа — дообучение для задач классификации и предсказания болезней. Источник: Thapa et al., Nature Medicine, 2026

Нейросеть учит язык сна

«SleepFM по сути изучает язык сна», — говорит Джеймс Зу, один из старших авторов исследования. Аналогия не поэтическая — она буквальная.

Foundation-модель — нейросеть, обученная на огромном массиве данных без конкретной задачи. Как GPT учится понимать язык, читая миллиарды слов, SleepFM учится понимать сон, «читая» сотни тысяч ночей.

Модель разрезает каждую запись на пятисекундные фрагменты — аналоги слов в языке. Шесть свёрточных слоёв кодируют сырой сигнал с частотой 128 Гц, затем трансформер с восемью головами внимания объединяет информацию из разных каналов. Общий размер — 4,44 миллиона параметров. По меркам языковых моделей это крохотная архитектура, но для медицинского сигнала — более чем достаточная.

Ключевой приём — контрастивное обучение с исключением (leave-one-out contrastive learning). Модель получает запись со всеми каналами, кроме одного, и пытается восстановить недостающий. Если скрыть ЭКГ — нейросеть учится выводить сердечный ритм из мозговых волн и дыхания. Скрыть ЭЭГ — предсказывает мозговую активность по остальным каналам. Так модель улавливает глубинные связи между системами организма — те самые, которые несут информацию о болезнях.

Предобучение заняло 15 часов на GPU NVIDIA A100. Дообучение под конкретную задачу — от 2 до 5 минут.

Паркинсон за семь лет до первого тремора

Авторы проверили SleepFM на 1 041 медицинском диагнозе. Из них 130 показали статистически значимую предсказательную способность с C-индексом 0,75 и выше — порог, за которым прогноз считается клинически информативным.

C-индекс (индекс конкордантности) — мера качества прогноза для событий во времени. 0,5 — случайное угадывание, 1,0 — идеальное предсказание. Значение 0,89 для болезни Паркинсона означает: в 89% случаев модель правильно определяла, кто из двух пациентов заболеет первым.

Цифры впечатляют даже скептика. Болезнь Паркинсона — 0,89. Рак простаты — 0,89. Рак молочной железы — 0,87. Деменция — 0,85. Гипертоническая болезнь сердца — 0,84. Смерть от всех причин — 0,84. Инфаркт — 0,81. Лёгкие когнитивные нарушения — 0,81.

C-индексы SleepFM для 14 клинически значимых заболеваний: от болезни Паркинсона до инсульта

Рис. 2: Сравнение предсказательной способности SleepFM (красный) с демографической моделью (серый) и моделью без предобучения (синий) для 14 ключевых заболеваний. Источник: Thapa et al., Nature Medicine, 2026

Модель одинаково уверенно работает с кардиологией, онкологией, неврологией и метаболическими нарушениями. При этом базовая модель, обученная только на возрасте, поле, ИМТ и расовой принадлежности, показывает результаты значительно хуже — разница подтверждает, что SleepFM действительно извлекает из сна информацию, которой нет в демографических данных.

О чём молчит каждая фаза сна

Самый неожиданный результат — не что модель предсказывает, а откуда берёт сигнал. Авторы разобрали вклад каждой стадии сна и каждого канала в предсказания.

Тепловая карта предсказательной способности SleepFM по категориям заболеваний: от новообразований до психических расстройств

Рис. 3: Тепловая карта C-индексов и 6-летних AUROC для основных категорий заболеваний. Источник: Thapa et al., Nature Medicine, 2026

REM-сон оказался мощнейшим предиктором деменции, хронической почечной недостаточности и дыхательной недостаточности. Стадии N1 и N2 — лёгкий сон — лучше всего предсказывали сердечную недостаточность, инсульт, стенокардию и диабет II типа. Глубокий сон (N3), вопреки ожиданиям, оказался самым слабым предиктором: только два заболевания из 62 лучших опирались в основном на эту стадию.

По каналам расклад не менее интересен. ЭКГ доминировала для 47 диагнозов — в основном кардиоваскулярных. Мозговые волны (ЭЭГ) — для 32 неврологических состояний: аутизм, деменция, Паркинсон, задержки развития. Дыхательные каналы — ещё 32 диагноза, причём среди них неожиданно оказались меланомы, что намекает на неизвестную ранее связь между паттернами дыхания во сне и системными заболеваниями.

«Больше всего информации мы получили, противопоставляя разные каналы», — отметил Эммануэль Миньо, крупнейший в мире специалист по нарколепсии и соавтор исследования.

Между прорывом и реальной клиникой

SleepFM — впечатляющий научный результат, но путь от статьи в Nature Medicine до кабинета врача длинный и непрямой. Исследование прошло рецензирование и опубликовано в Nature Medicine 6 января 2026 года, но независимая репликация на внешних когортах пока ограничена.

Главный вопрос — обобщаемость. Треть обучающих данных пришла из одного центра — Стэнфордской клиники сна. Пациенты этих лабораторий не случайная выборка: их уже направили к врачу с жалобами. Авторы проверили модель на внешней когорте SHHS (полностью исключённой из обучения), и она сохранила предсказательную способность для инсульта и сердечно-сосудистой смертности. Но при временном сдвиге — обучение до 2020 года, тест после — точность заметно снизилась. Модели устаревают так же, как и оборудование, на котором записан сигнал.

Результаты SleepFM на внешнем датасете SHHS: C-индексы для инсульта, сердечной недостаточности и кардиоваскулярной смертности

Рис. 4: Внешняя валидация на когорте SHHS, не использованной при обучении. Модель сохраняет предсказательную способность для инсульта и сердечно-сосудистой смертности. Источник: Thapa et al., Nature Medicine, 2026

Второе ограничение — интерпретируемость. Модель выдаёт числа, но не объясняет, какой именно паттерн насторожил. «Она не объясняет нам это на человеческом языке», — признаёт Джеймс Зу. Для врача, который должен обосновать диагноз перед пациентом, это серьёзный барьер. Авторы работают над отдельными инструментами интерпретации, но пока они частичные.

Наконец, нет данных о том, что использование SleepFM меняет клинические исходы. Предсказать риск — не то же самое, что снизить его. Пока не проведены проспективные испытания, где одну группу пациентов предупреждают на основе модели, а другую нет, — клиническая ценность остаётся теоретической. Регуляторного одобрения FDA или EMA у модели нет, и до него ещё далеко.

От лаборатории до фитнес-браслета

При всех оговорках, SleepFM сделал нечто принципиальное: доказал, что одна ночь сна содержит клинически значимую информацию о десятках заболеваний, не связанных с сонными расстройствами. Это не скрининг на апноэ — это полноценная диагностическая карта организма, зашифрованная в ритмах ночи.

Код модели опубликован в открытом доступе на GitHub. Авторы планируют два направления: интеграцию данных с носимых устройств (фитнес-браслеты, кольца для сна) и разработку инструментов интерпретации для клиницистов. Если SleepFM или его наследники научатся работать с упрощённым сигналом — не семь лабораторных каналов, а один-два с часов на запястье, — это изменит медицину сна навсегда.

Каждую ночь тело отправляет сотни тысяч сигналов. Впервые появился инструмент, способный их прочитать.

Часто задаваемые вопросы

Можно ли пройти тест SleepFM дома с помощью фитнес-браслета?

Пока нет. SleepFM обучен на данных лабораторной полисомнографии — семь типов датчиков, частота записи 128 Гц. Домашние устройства (Apple Watch, Oura Ring) записывают значительно меньше каналов и с меньшей точностью. Авторы планируют адаптировать модель для упрощённого сигнала, но это отдельная исследовательская задача.

Насколько точны предсказания SleepFM для конкретного человека?

C-индекс 0,89 для Паркинсона означает высокое качество ранжирования рисков в группе, но не индивидуальный диагноз. Модель определяет, кто из популяции подвержен большему риску — не ставит диагноз конкретному пациенту. Это инструмент скрининга, а не замена МРТ или биопсии.

Какие заболевания SleepFM предсказывает лучше всего?

Наивысшие C-индексы получены для болезни Паркинсона (0,89), рака простаты (0,89), рака молочной железы (0,87), деменции (0,85), гипертонической болезни сердца (0,84) и смертности от всех причин (0,84). Всего 130 диагнозов показали статистически значимую предсказательную способность.

Почему глубокий сон оказался слабым предиктором заболеваний?

Авторы предполагают, что N3 (глубокий сон) содержит менее вариабельные паттерны между пациентами. REM и лёгкий сон сильнее различаются у разных людей и поэтому несут больше диагностической информации. Кроме того, в глубоком сне доминируют медленные волны, которые менее чувствительны к системным заболеваниям.

Когда SleepFM может появиться в обычной клинике?

Не в ближайшие годы. Модели нужна независимая внешняя валидация на когортах разных стран и этнических групп, проспективные клинические испытания и одобрение регуляторов (FDA/EMA). Открытый код на GitHub позволяет другим группам начать валидацию уже сейчас — и это, вероятно, самый быстрый путь к клинике.

Источники

Оригинал

Связанные

Контекст

Данные

Читайте также

ENIGMA: как прочитать мысли за 15 минут с дешёвым датчиком на голове

Новая модель ENIGMA восстанавливает изображения из сигналов мозга (ЭЭГ) за 15 минут калибровки, используя менее 1% параметров предыдущих подходов. Работает даже с потребительскими нейрогарнитурами за $2200.

· 2 мин

    --:-- / --:--