• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

«Биотех бурлит во всем мире, его кривая роста опережает развитие компьютерных технологий»

«Биотех бурлит во всем мире, его кривая роста опережает развитие компьютерных технологий»

© iStock

Более пяти лет в НИУ ВШЭ действует Международная лаборатория биоинформатики факультета компьютерных наук. За это время ее ученые добились значительных научных результатов. Здесь разработан уникальный в мировой практике тест «Кардиожизнь», позволяющий прогнозировать вероятность проявления сердечно-сосудистых заболеваний. С привлечением студентов и аспирантов Вышки ведутся исследования для создания лекарств нового поколения. Заведующая лабораторией Мария Попцова рассказала о ее работе в интервью новостной службе «Вышка.Главное».

— Когда была создана лаборатория?

— Сначала была организована научно-учебная группа в 2018 году. Примерно через полгода она была преобразована в научно-учебную лабораторию. А уже в период пандемии мы стали международной лабораторией. Тогда можно было пригласить в лабораторию иностранного ученого без его обязательного присутствия в России.

Мария Попцова
© Высшая школа экономики

В то время мы активно разрабатывали модели глубокого обучения для анализа геномных данных, и нам было важно взаимодействовать с зарубежными коллегами, обмениваться идеями и данными. Наличие статуса международной лаборатории позволило наладить сотрудничество с экспериментальной лабораторией Онкологического центра Фокс-Чейза Университета Пенсильвании, и наш совместный проект завершился публикацией статьи в ведущем мировом журнале Nature. Коллеги направляли нам экспериментальные данные, мы их обрабатывали и как биоинформатики, и как дата-сайентисты: строили модели глубокого обучения для прогнозирования крайне важного элемента в геноме — Z-ДНК, вторичной структуры ДНК, закрученной не вправо, а влево. Построенная нами модель была использована при исследовании механизма действия лекарства от рака.

— Почему вы решили выбрать научным руководителем профессора Алана Герберта? Какова его роль в работе лаборатории?

— С профессором Аланом Гербертом мы познакомились, когда подали статью в один из международных журналов, где мы предлагали нашу первую модель глубокого обучения для прогнозирования Z-ДНК. В рецензии было указано, что мы не учли несколько работ по нашей тематике. Когда стали разбирать замечания, выяснилось, что автором всех упомянутых статей был Алан Герберт, известный ученый в области вторичных структур ДНК, ключевой специалист по тематике наших исследований. Мы списались по электронной почте, затем поговорили по Zoom. Как раз летом 2020-го мы проводили летнюю школу по машинному обучению в биоинформатике, которую из-за пандемии коронавируса пришлось перенести в онлайн, и благодаря этому нам удалось собрать ученых из разных стран: США, Китая, европейских государств. Профессор Герберт увидел уровень наших докладов и согласился стать научным консультантом.

С тех пор мы активно работаем с ним онлайн. Вместе мы организовали ставшую ежегодной международную конференцию ABZ по Z-ДНК, которая все эти годы проводилась онлайн, но есть планы провести ее в будущем году очно в Оксфорде.

Алан Герберт продолжает выстраивать научное сотрудничество с учеными из других стран, хотя сейчас это нелегко. Помимо работы в университетах, он возглавляет небольшой стартап, и это тоже помогает в выстраивании международных связей.

Школа ФКН по машинному обучению в биоинформатике
© Высшая школа экономики

— Как объяснить непосвященным, что такое биоинформатика, какие научные дисциплины она соединяет?

— Изначально биоинформатика возникла как компьютерные методы обработки данных молекулярной биологии. Обычно это информация об объектах, которые находятся внутри клетки: ДНК, РНК, белки и другие макромолекулы. Практически одновременно с появлением компьютеров начались эксперименты по расшифровке состава этих макромолекул. Например, последовательность ДНК можно написать текстом на алфавите из четырех букв, а белка — на алфавите из 20 букв, и есть правило перевода одного алфавита в другой — так называемый генетический код. В конце 1960-х годов его расшифровали. Одновременно технологически научились получать последовательности ДНК и белков из разных организмов. Тогда же возникла необходимость разрабатывать алгоритмы для оценки схожести и различия последовательностей, чтобы рассчитать вероятность процессов, объясняющих, как одна строка ДНК трансформировалась в другую. Так и появилась биоинформатика. А дальше ее методы и алгоритмы развивались и усложнялись параллельно с появлением новых биотехнологий.

— В чем это выражается?

— Появилась, например, технология полногеномного секвенирования. Как следствие, возникла необходимость обрабатывать полногеномные данные и извлекать из них информацию. Например, сравнивать последовательности разных геномов или определять изменения в геноме конкретного человека — замену одной буквы, вставку или удаление маленьких и больших подстрок.

Далее появилась новая линейка экспериментальных технологий, благодаря которым можно прочитать не только последовательность ДНК, но и сигналы с других уровней кодирования информации — так называемый эпигенетический код.

Мы открывали лабораторию под изучение вторичных структур ДНК, тоже закодированных в геноме, с дальнейшей целью понять, по каким алгоритмам и правилам работает геном. Для решения данной задачи необходимо сопоставлять все уровни кодирования генетической информации. Поскольку в геноме человека насчитывается 3 млрд символов и уже сейчас доступны сотни тысяч полногеномных экспериментов по определению сигналов эпигенетического кода, возникла необходимость применения алгоритмов глубокого обучения для понимания связей между разными кодировками. В сферах, не связанных с биологией, алгоритмы глубокого обучения эволюционируют очень быстро, поэтому необходимо так же быстро адаптировать их применение к нашим биологическим задачам.

— Каковы ключевые направления исследований вашей лаборатории?

— Мы разрабатываем методы и архитектуры алгоритмов глубокого обучения для своих задач. В последние пару лет уже в геномике специально для биологии стали появляться большие языковые модели и фундаментальные модели, построенные на алгоритмах, на которых работают ChatGPT, DeepSeek и другие сложные системы ИИ.

Большие языковые модели в геномике, так же как и в языках, очень большие (Evo2, к примеру, содержит 40 млрд параметров), и, чтобы их запустить, нужен суперкомпьютер

Одна из наших задач состоит в тестировании таких гигантских моделей на геномах кардиопациентов и их внедрении в генетические тесты. Мы также занимаемся разработкой собственных моделей глубокого обучения для анализа кода вторичных структур ДНК и эпигенетики.

Среди других направлений в лаборатории развиваются исследования микроокружения опухоли на данных одноклеточного секвенирования, что позволяет понять, какие гены или программы включены, а какие выключены в отдельной клетке.

Например, если мы берем образец опухоли, то в нем есть клетки нормальной ткани, опухолевой ткани и клетки иммунной системы: лимфоциты, макрофаги, нейтрофилы и другие. Основной вопрос, на который мы хотим получит ответ, — почему и как опухоль избегает иммунного ответа. В нормальном организме клетки иммунной системы должны распознавать чужеродные опухолевые клетки и ликвидировать их, но опухолевые клетки как-то перепрограммируют клетки иммунной системы так, что они перестают распознавать и уничтожать раковые клетки. Такое поведение обусловлено действием генетических программ, подавляющих или, наоборот, активирующих иммунный ответ. Мы пытаемся такие программы выявить и изучить. Данное направление развивается пока на открытых данных, но мы планируем налаживать сотрудничество с российскими экспериментальными лабораториями.

Параллельно мы ведем исследования роли некодирующих вариантов, находящихся не в генах, кодирующих белки, а в межгенном пространстве, которое занимает 98% размера генома. Эффект таких некодирующих вариантов малоизучен. Мы разрабатываем методы глубокого обучения и используем большие языковые модели, чтобы определить эффект некодирующих вариантов, способных влиять на производство белка или, наоборот, прекращать его выработку клеткой, что может быть связано с возникновением и течением болезни.

— В каких областях медицины и биологии наиболее востребованы результаты работы лаборатории? Где они позволяют добиться серьезного прогресса в профилактике и лечении болезней?

— Одно из таких направлений — тестирование в области кардиогенетики, отстающей по сравнению с онкогенетикой. Мы развиваем данное направление около пяти лет. Нами был организован кардиогенетический консорциум, куда вошли врачи, биоинформатики и генетические лаборатории, способные секвенировать, то есть прочитывать, индивидуальный геном. В рамках проекта «100 000 российских геномов» мы работаем с кардиоцентром имени Чазова и 29-й горбольницей имени Баумана. Сейчас у нас отсеквенировано около 1000 полных геномов, которые мы исследуем на наличие вариантов, ассоциированных с кардиозаболеваниями.

На сегодняшний день известно более 900 генов, участвующих в развитии сердечно-сосудистых заболеваний. Весь наш накопленный опыт позволил нам создать генетический тест, названный «Кардиожизнь», который уже доступен на коммерческой основе. С его помощью пациент может получить информацию о наличии патогенных вариантов, ассоциированных с сердечно-сосудистыми заболеваниями.

— Каковы перспективные направления ваших исследований?

— Наша лаборатория готова расширить масштаб работ, перейдя в онкогенетику, поскольку методы генетического тестирования одинаковы для разных заболеваний. Кроме того, у нас есть опыт анализа большого массива геномных данных с помощью алгоритмов ИИ. Стоит задача найти небольшое количество маркеров, имеющих хорошую прогностическую силу. Чем меньше маркеров, способных прогнозировать заболевание, тем проще осуществлять масштабирование тестирования. Ожидается, что проводить раннюю диагностику рака возможно 8–10 маркерами. Это наша задача на ближайшее будущее.

© Высшая школа экономики

— В чем ключевые особенности разработанного лабораторией теста «Кардиожизнь»?

— Это уникальный, не имеющий аналогов в мире тест, созданием которого мы гордимся. Из числа имеющихся сегодня тестов он наиболее полно учитывает набор генов и регуляторные области. Есть стандартные программы, которые применяются для генетического тестирования в генетических компаниях. Мы же проводим исследование на порядок глубже. У одного гена может быть много разных вариантов, и мы перебираем все изоформы, поскольку даже одна и та же мутация может по-разному влиять на изоформы. В дополнение мы анализируем некодирующие варианты и определяем их влияние на экспрессию генов с применением методов ИИ. В этом уникальность теста «Кардиожизнь». При стандартном генетическом тестировании такие исследования не проводятся.

— Расскажите о ключевых направлениях работы зеркальной лаборатории с Сургутским университетом.

— Анализ и создание прогностических систем на основе методов ИИ в медицине. Данный проект вырос из кардиогенетического консорциума, когда мы узнали, что в Ханты-Мансийском автономном округе — Югре электронные медицинские карты хранятся с 2009 года. Мы стали анализировать медицинские карты пациентов, попавших в сургутский окружной кардиоцентр с диагнозом «инфаркт миокарда».

Пациентам оказывали помощь, выписывали из больницы и отслеживали дальнейшее течение событий, поскольку у многих из них был высокий риск неблагоприятных событий: повторного инфаркта, инсульта, кровотечения и смерти. Мы построили прогностическую систему оценки риска наступления такого события, обучаясь на данных 10 000 пациентов за период с 2009 года. Есть идея дообучать эту модель на данных других кардиологических центров. Мы также научились обрабатывать медицинские данные для подачи алгоритмам машинного обучения — как классическим, так и тем, на основе которых сделан ChatGPT. Этот проект хорошо масштабируется и переносится в другие регионы. Также врачи могут поставить новые задачи. Например, можно создать модель для прогноза возникновения побочных эффектов от назначения тех или иных лекарств.

В частности, в сотрудничестве с Российской медицинской академией непрерывного профессионального образования мы начали строить первые модели по предсказанию неблагоприятных событий при приеме антикоагулянтов и антидепрессантов. Это очень важно, поскольку у них много побочных эффектов, особенно у подростков.

— Используется ли ИИ в разработке лекарств?

— Еще одно направление, которым мы недавно начали заниматься, — применение методов ИИ для генерации лекарств белковой природы. Напомню, что в 2024 году Нобелевской премии по химии «за вычислительный дизайн белков и предсказание их структуры» удостоились директор Института белкового дизайна Университета Вашингтона в Сиэтле Дэвид Бейкер и сотрудники Google DeepMind Демис Хассабис и Джон Джампер. В последние годы произошел прорыв в разработке лекарств благодаря применению генеративных моделей для создания пептидов из 15–20 аминокислот, которые могут связываться с заданным участком белка. Белковые байндеры представляют собой новое поколение лекарств, которое, в отличие от нынешних, базирующихся на химических молекулах, будет иметь биологическую природу. Вместо громоздких химических антител можно будет применить байндеры для связывания с вредоносными белками. Разработанные Бейкером и его институтом модели находятся в открытом доступе. И теперь уже студенты защищают дипломы и курсовые по использованию этих моделей для открытия белок-белковых взаимодействий. Создано немало компаний, занимающихся разработкой такого рода лекарств белковой органической природы. За этим будущее. Мы тоже работаем в этой сфере, есть уже первые результаты.

Биотех бурлит во всем мире, его кривая роста опережает развитие компьютерных технологий.

Известный футуролог, топ-менеджер Google Рэй Курцвейл, прогнозирующий научно-технический прогресс и его ключевые прорывы, предсказавший появление беспилотных автомобилей и ИИ, полагает, что к середине 2030-х годов ожидается сингулярность, когда человек сольется с ИИ и возникнет новый гибридный способ сосуществования. Будут изучены важнейшие области человеческого мозга и расшифрованы алгоритмы работы клетки. Совмещение этих знаний позволит программировать клетки ткани и выращивать органы. Такая фантастика ждет нас благодаря сочетанию биотехнологий и искусственного интеллекта.

— Какие результаты фундаментальных и прикладных работ вы бы назвали ключевыми достижениями лаборатории?

— Создание «Кардиожизни», публикацию в Naturе, открытие потенциального лекарства от рака посредством включения генетической программы через вторичную структуру ДНК, создание моделей глубокого обучения для полногеномной аннотации вторичной структуры ДНК — это, кроме нас, не делал никто в мире.

— Как используются результаты научных работ лаборатории в учебном процессе университета?

— Я всегда даю студентам темы курсовых и дипломов по актуальным научным задачам. Если они их успешно решают, то становятся авторами научной публикации. На лекциях я всегда освещаю работу лаборатории, а на междисциплинарном майноре «Биоинформатика» рассказываю, как студенты могут погрузиться в науку через курсовые и дипломы. С сентября буду вести спецкурс, где мы со студентами будем подробно разбирать научные методы и прорывные идеи последних двух-трех лет.

— Насколько активно в деятельности лаборатории участвуют студенты и аспиранты Вышки?

— Весьма активно. У нас работают более 20 стажеров-исследователей: студенты старших курсов бакалавриата, магистранты и аспиранты.

Вам также может быть интересно:

Как мозг обрабатывает слово: исследователи НИУ ВШЭ сравнили читательские маршруты взрослых и детей

Исследователи Центра языка и мозга ВШЭ с помощью магнитоэнцефалографии изучили, как мозг взрослых и детей реагирует на слова при чтении. Они показали, что у детей мозг дольше обрабатывает даже часто употребляющиеся в речи слова, а слова, которые встречаются редко, и псевдослова обрабатывает одинаково — медленно и по частям. С возрастом система перестраивается: высокочастотные слова переходят на быстрый маршрут, а вот новые сочетания букв по-прежнему анализируются медленно. Исследование опубликовано в журнале Psychophysiology.

Зеленый энергопереход: от мифов к реалиям

В 2025 году в Вышке стартовал стратегический технологический проект (СТП) «Национальный центр социально-экономического и научно-технологического прогнозирования». Институт экономики природных ресурсов и изменения климата ВШЭ формирует прогнозы развития мировой и российской экономики и энергетики с учетом фактора «зеленой трансформации». Игорь Макаров, директор института и руководитель департамент мировой экономики, рассказал о глобальном ландшафте климатического регулирования, «черных лебедях» и роли ИИ в борьбе с изменением климата.

Стратегические технологические проекты Вышки в 2025 году

В 2025 году Высшая школа экономики продолжила участие в программе стратегического академического лидерства «Приоритет-2030», обеспечив фокус на технологическое лидерство согласно новой рамке программы «Приоритет-2030». Важный элемент стратегии технологического лидерства университета — стратегические технологические проекты, направленные на создание востребованных наукоемких продуктов и услуг.

Переход к устойчивому развитию требует глубокой структурной трансформации бизнеса

Группа ученых предложила оценивать ESG-трансформацию бизнеса через коэффициент смены партнеров в цепочках сырьевых и сбытовых поставок. Исследователи отмечают, что путь к устойчивости требует глубокой и зачастую затратной перестройки партнерской сети. Этот и другие доклады были представлены на III Международной ежегодной конференции “ESG Corporate Dynamics: the Challenges for Emerging Capital Markets”.

Исследователи НИУ ВШЭ выяснили, как нейросети понимают каламбуры

Международная команда с участием исследователей ФКН НИУ ВШЭ представила KoWit-24 — корпус из 2700 русскоязычных заголовков «Коммерсанта» с игрой слов. Корпус позволил оценить, как искусственный интеллект распознает и объясняет языковую игру. Эксперименты с пятью большими языковыми моделями подтвердили: даже передовые системы пока ошибаются, причем интерпретация игры слов является для них более сложной задачей, чем ее выявление. Результаты работы были представлены на конференции RANLP, cтатья доступна в репозитории Arxiv.org, датасет и код для воспроизведения экспериментов — в GitHub.

«Алгебраическая геометрия — это геометрия идеальных форм»

Созданная 15 лет назад в Вышке Лаборатория алгебраической геометрии и ее приложений изучает фундаментальную математику, формируя единый язык математической науки. Лаборатория стала известным и авторитетным научным центром, признанием ее заслуг стали доклады сотрудников на международных математических конгрессах и публикация статей в ведущих мировых математических журналах. О деятельности научного подразделения новостная служба «Вышка.Главное» побеседовала с заведующим лабораторией профессором РАН Дмитрием Калединым.

МИЭМ и «ИнфоВотч» разработали сценарии для систем защиты информации от внутренних угроз

Сценарии позволяют моделировать инциденты, выявлять и анализировать действия инсайдеров, противодействовать фишинговым атакам, выстраивать политику защиты и готовить заключения по результатам расследований. Они прошли полномасштабную апробацию в рамках чемпионата профессионального мастерства «Профессионалы».

Вышка Онлайн в четвертый раз стала победителем премии «Эффективное образование»

Проект онлайн-кампуса НИУ ВШЭ «Обучаем навыкам будущего: ИИ-портал Вышки» стал победителем в номинации «Образовательная экосистема года в области ИИ». Награда «Эффективное образование» вручается с 2017 года за лучшие проекты и практики в области корпоративного обучения и развития образования.

Создавать условия для жизни и развивать инфраструктуру: как сделать Сибирь модной

В Вышке проходит Всероссийская научно-практическая конференция «II Тобольские чтения», организованная факультетом мировой экономики и мировой политики НИУ ВШЭ. Эксперты, ученые, представители власти, бизнеса и культуры обсуждают вопросы сибиризации России — сдвига центра развития страны к Уралу и Сибири. В работе конференции принял участие заместитель руководителя Администрации Президента РФ Максим Орешкин.

ИИ в науке: страхи и чаяния российских ученых

Искусственный интеллект стал привычным инструментом в ряде стран, однако в российской науке его внедрение пока остается фрагментарным. К такому выводу пришли авторы первого в стране комплексного исследования использования технологий ИИ в научной деятельности. Они провели интервью с ведущими российскими учеными и расспросили их о сферах применения, возможностях и барьерах технологии.