ИИ создал 100 квадриллионов белков за один синтез
Sigmatic
biotechnology

ИИ создал 100 квадриллионов белков за один синтез

· 6 мин чтения

Авторы: Elizabeth Wood

ИИ создал 100 квадриллионов белков за один синтез

Представьте, что вы хотите найти идеальный ключ к замку. Но замок — это рецептор раковой клетки, а ключей нужно перебрать столько, что если разложить их в ряд, линия протянется от Земли до ближайшей звезды и обратно. Именно так выглядит задача дизайна белков. И именно её решили — не в теории, а в физической лаборатории — исследователи из бостонской компании JURA Bio.

Их метод Variational Synthesis за одну химическую реакцию производит 10^17 уникальных белковых последовательностей. Сто квадриллионов. Для сравнения: всё, что человечество когда-либо синтезировало в лабораториях по дизайну белков до этого, — капля в океане рядом с этим числом.

Почему белки так сложно конструировать

Белок — молекулярная машина, собранная из цепочки аминокислот. Её трёхмерная форма определяет функцию: одни белки расщепляют пищу, другие атакуют вирусы, третьи катализируют химические реакции.

Дизайн белков — одна из самых амбициозных задач биотехнологий. Вы хотите антитело, которое прицельно связывается с опухолевым маркером? Фермент, который работает при 95 °C? Пептид, который обучит иммунную систему распознавать конкретный патоген? В принципе, аминокислотная последовательность определяет всё. На практике — пространство возможных комбинаций настолько гигантское, что полный перебор невозможен даже теоретически.

До появления Variational Synthesis существовало два подхода. Первый — вычислительный: ИИ-модели вроде AlphaFold и ProGen генерируют перспективные последовательности на компьютере. Проблема в том, что такие дизайны живут только на экране. Синтезировать и проверить каждый вариант стоит дорого: один ген — от десятков до сотен долларов. Миллион вариантов? Миллиард? Никакого бюджета не хватит.

Второй подход — лабораторный: создать библиотеку случайных мутаций и протестировать их. Метод работает, но генерирует в основном мусор — случайные мутации редко попадают в функциональные области белкового пространства.

Случайность как инструмент

Элизабет Вуд и её команда в JURA Bio нашли третий путь. Ключевая идея: ДНК-синтез по своей природе является стохастическим процессом. На каждом шаге синтеза к растущей цепочке случайным образом присоединяется один из нуклеотидов. Обычно это считается ограничением. Variational Synthesis превращает это в преимущество.

Стохастический синтез — процесс, в котором на каждом шаге результат определяется вероятностью, а не жёстким алгоритмом. Пул синтезированных ДНК-молекул будет содержать триллионы уникальных последовательностей, даже если все прошли через одну и ту же реакцию.

Метод работает так: генеративная ИИ-модель обучается на данных о реальных белках (290 миллионов последовательностей антител, например). Но вместо того, чтобы просто выдать список «хороших» последовательностей, она генерирует параметры химической реакции — точные соотношения нуклеотидов на каждом шаге синтеза. Эти соотношения подобраны так, чтобы стохастический процесс производил молекулы, максимально похожие на обучающее распределение.

Результат: один прогон синтеза — и в пробирке оказывается 10^17 уникальных молекул ДНК, каждая из которых кодирует белок, спроектированный ИИ. Не виртуально. Физически.

Антитела, ферменты, вакцины — один конвейер

Команда продемонстрировала Variational Synthesis на трёх классах белков. Первый — человеческие антитела. Модель обучилась на 290 миллионах CDR-H3 последовательностей (это гипервариабельный участок антитела, отвечающий за распознавание мишени) и создала библиотеку, качество которой совпало или превысило результаты IgLM — одной из лучших языковых моделей для антител.

CDR-H3 (Complementarity-Determining Region H3) — наиболее вариабельный участок тяжёлой цепи антитела, определяющий специфичность связывания с антигеном. Именно здесь происходит «подбор ключа к замку».

Тот же метод сработал и на ДНК-полимеразах — ферментах, критичных для диагностики и секвенирования — и на пептидах, презентируемых молекулами HLA (механизм, через который иммунная система отличает инфицированные клетки от здоровых). Одна архитектура, три принципиально разных семейства белков.

Стоимость? Авторы оценивают снижение расходов на синтез в триллион раз по сравнению с поштучной генерацией. То, что раньше стоило бы 10^15 долларов (бюджет, превышающий ВВП всех стран мира вместе взятых), теперь обходится в стоимость одного лабораторного эксперимента.

Лекарства за месяцы вместо десятилетий

Традиционная разработка лекарства на основе белков занимает 10–15 лет. Белковая инженерия — лишь один из этапов, но узкое горлышко именно в ней: найти молекулу, которая работает, среди астрономического числа вариантов. Variational Synthesis атакует это узкое место напрямую.

Если можно за одну реакцию получить квадриллионы кандидатов, а затем отсеять лучших через высокопроизводительный скрининг, цикл разработки сжимается радикально. Параллельно в Шанхае (Цзяотунский университет) команда Хун Ляна построила серию моделей Venus, обученных на 9 миллиардах белковых последовательностей. Их подход уже сокращает R&D с 2–5 лет до 6–12 месяцев — и это без масштаба Variational Synthesis.

Направления, где эффект будет максимальным: онкологические антитела, ферменты для промышленной биотехнологии и вакцинные компоненты. Всё, что требует перебора огромного числа вариантов белка.

Что может пойти не так

Масштаб впечатляет, но масштаб — не всё. Статья опубликована в Nature Biotechnology в 2026 году после рецензирования; препринт был доступен с сентября 2024 года. Даже при таком уровне проверки остаются серьёзные вопросы. Первый вопрос: из квадриллиона молекул в пробирке — сколько из них реально функциональны? Variational Synthesis гарантирует, что последовательности выглядят как настоящие белки. Но «выглядеть» и «работать» — два разных глагола. Белок должен правильно свернуться, связаться с мишенью, не вызвать иммунную реакцию в организме, оставаться стабильным при хранении. Ни одно из этих свойств не следует автоматически из правильной последовательности.

Второе ограничение — сам характер стохастического синтеза. Вы не можете точно контролировать, какие именно молекулы окажутся в пробирке. Вы задаёте распределение, а не конкретный список. Для задач скрининга это достоинство. Для задач, требующих воспроизводимости конкретной молекулы, — потенциальная проблема.

И третье: JURA Bio — коммерческая компания. Их бизнес-модель зависит от того, насколько метод окажется полезным на практике. Публикация в Nature Biotechnology — сильный сигнал научного качества, но долгосрочная ценность определится результатами клинических испытаний, а не объёмом библиотеки.

От лаборатории к аптеке

Первые практические применения — скорее всего, диагностические ферменты и исследовательские реагенты: области, где скорость перебора критична, а регуляторный барьер ниже. Терапевтические антитела потребуют стандартного клинического пути — фаза I, II, III — и здесь выигрыш во времени ещё предстоит доказать.

Но направление задано. Если AlphaFold научил нас предсказывать структуру белков, а ProGen — генерировать новые последовательности на экране, то Variational Synthesis замыкает цепочку: от идеи к физической молекуле за одну реакцию. Разрыв между цифровым дизайном и биологической реальностью — главное препятствие в белковой инженерии — стал уже.

Вопрос теперь не в том, можем ли мы проектировать белки в масштабе. Вопрос — что делать с квадриллионом возможностей.

Часто задаваемые вопросы

Чем Variational Synthesis отличается от AlphaFold?

AlphaFold предсказывает трёхмерную структуру белка по его последовательности. Variational Synthesis решает обратную задачу: создаёт новые последовательности, которых раньше не существовало, и сразу производит их физически. AlphaFold — инструмент анализа, Variational Synthesis — инструмент производства.

Можно ли с помощью этого метода создать лекарство от рака?

Потенциально — да. Метод позволяет за одну реакцию получить квадриллионы вариантов антител, из которых можно отобрать те, что прицельно связываются с опухолевыми маркерами. Но путь от библиотеки антител до одобренного лекарства всё ещё включает клинические испытания, которые занимают годы.

Почему это дешевле обычного синтеза?

Обычный синтез белков — поштучная работа: каждую последовательность нужно собрать отдельно, и это стоит десятки-сотни долларов за ген. Variational Synthesis использует одну химическую реакцию, которая благодаря стохастическому процессу автоматически производит триллионы уникальных вариантов. Снижение стоимости — в триллион раз.

Что значит «стохастический синтез»?

На каждом шаге ДНК-синтеза к цепочке случайно присоединяется один из четырёх нуклеотидов. Обычно это считается источником ошибок. Variational Synthesis превращает случайность в инструмент: ИИ-модель подбирает вероятности присоединения так, чтобы из триллионов случайных молекул получились именно те белки, которые нужны.

Когда появятся лекарства, созданные этим методом?

Первые продукты — диагностические ферменты и исследовательские реагенты — могут выйти в ближайшие 1–2 года. Терапевтические белки потребуют стандартных клинических испытаний, и здесь горизонт — 5–10 лет, даже если этап дизайна радикально ускорен.

Источники

Оригинал

Связанные

Контекст

Читайте также

    --:-- / --:--