Вирусы повсеместно распространены на планете, заражая широкий спектр животных, растений и бактерий. Они играют важную роль в балансе экосистем, регулируя популяцию видов-хозяев. Идентификация и характеристика вирусов обычно основывается на анализе РНК-зависимой РНК-полимеразы (RdRP), специфического компонента геномов РНК-вирусов. Несколько лет назад это позволило идентифицировать десятки тысяч видов вирусов, расширив известную «виросферу» по меньшей мере в 10 раз.
Однако, несмотря на достижения в области метагеномного секвенирования, на сегодняшний день идентифицирована лишь небольшая часть РНК-вирусов, а многие широко распространенные группы, вероятно, так и остались неопознанными. По мнению Артема Бабаяна из Университета Торонто (Канада), существует «бездонная яма» неопознанных вирусов. Отчасти это связано с тем, что стандартные метагеномные методы не могут идентифицировать сильно различающиеся RdRP.
Эти «скрытые» последовательности, получившие название «последовательности темной материи», многочисленны, и их трудно идентифицировать. Более того, для их точной характеристики необходимо разработать новые методы. Некоторые вирусы могут заражать людей, и их характеристика может помочь объяснить некоторые загадочные заболевания. Например, недавно было выдвинуто предположение о возможной вирусной причастности к болезни Альцгеймера, точная этиология которой до сих пор является предметом споров.
Для этой цели был разработан Lucaprot исследователями из Университета Сунь Ятсена (Китай) и Сиднейского университета (Австралия). «Наш метод искусственного интеллекта смог организовать и классифицировать всю эту разрозненную информацию, впервые пролив свет на значение этой “темной материи”», — объясняет Эдвард Холмс, соавтор исследования, опубликованного в журнале Cell, в пресс-релизе Сиднейского университета.
Странные вирусы, живущие в экстремальных условиях
Когда дело доходит до идентификации вирусных последовательностей, алгоритмы глубокого обучения имеют ряд преимуществ перед традиционными биоинформатическими подходами, включая большую точность, способность обрабатывать очень большие объемы данных в рекордные сроки и способность к самообучению. По словам Манг Ши из Университета Сунь Ятсена, который также является соавтором исследования: «Раньше мы полагались на утомительные биоинформационные конвейеры для обнаружения вирусов, что ограничивало разнообразие, которое мы могли изучить».
Lucaprot основан на трансформаторах — одной из самых эффективных архитектур моделей глубокого обучения, позволяющих делать прогнозы относительно данных. В отличие от рекуррентных нейронных сетей, они позволяют обрабатывать данные в случайном порядке, что значительно сокращает время обучения. Алгоритму были предоставлены данные о секвенировании и предсказании белков из ESMFold, инструмента искусственного интеллекта, разработанного компанией Meta*. Затем он был обучен распознавать вирусные RdRps и «последовательности темной материи».
Алгоритмы глубокого обучения уже использовались для идентификации вирусов по геномным и метагеномным данным. Однако их архитектуры, как правило, основывались либо на сверточных нейронных сетях (CNN), либо на рекуррентных нейронных сетях. Первые сталкиваются с трудностями при работе с последовательностями переменной длины, в то время как вторые не могут справиться с длинными последовательностями, что ограничивает их возможности по выявлению расходящихся последовательностей.
Lucaport выявил 161 979 видов и 180 супергрупп РНК-вирусов. 70 458 из них принадлежат к ранее неизвестным видам, некоторые из которых имеют странные и исключительно длинные последовательности (до 47 250 нуклеотидов). Эти новые виды также присутствуют в невероятно разнообразных средах — от воздуха до гидротермальных источников и соленых озер. Их разнообразие и плотность значительно варьируются в зависимости от экосистемы.
Это самое большое количество вирусов, идентифицированных в рамках одного исследования. Их идентификация значительно улучшит наше понимание вирусного биоразнообразия в биосфере. «Тот факт, что в экстремальных средах обитает так много видов вирусов, является еще одним примером их феноменального разнообразия и упорства, позволяющего им жить в самых сложных условиях, что может дать нам подсказку о том, как появились вирусы и другие элементарные формы жизни», — говорит Холмс.
Миллионы других видов еще предстоит обнаружить
Несмотря на количество выявленных видов вирусов, команда считает, что исследование лишь поверхностное и что миллионы других видов еще предстоит обнаружить. Поэтому на следующем этапе исследования Lucaport будет использоваться для выявления других групп вирусов. Этот подход также может быть применен для идентификации бактерий и паразитов.
С другой стороны, потенциальные хозяева вновь выявленных вирусов пока не определены. В настоящее время Ши и его коллеги разрабатывают новую модель ИИ для этой цели и надеются пролить больше света на роль этих вирусов в их экологических нишах. Также будет проведена работа по определению того, могут ли некоторые из этих вирусов инфицировать археи — эукариотические организмы, для которых не было выявлено ни одного известного РНК-вируса.
Источник: Новая Наука