2024 №4 (65)

выход в свет 22.12.2024.

СОДЕРЖАНИЕ


Вензель А.С.1,2,3, Иванисенко Т.В.1,2,3, Деменков П.С. 1,2,3, Иванисенко В.А.1,2,3

1 Институт цитологии и генетики СО РАН, 630090, Новосибирск, Россия 
2 Курчатовский геномный центр ИЦиГ СО РАН, 630090, Новосибирск, Россия 
3 Новосибирский государственный университет, 630090, Новосибирск, Россия

ПРОГРАММНЫЙ КОНВЕЙЕР ПРЕДСКАЗАНИЯ ВЛИЯНИЯ МУТАЦИЙ НА СТАБИЛЬНОСТЬ ПРОСТРАНСТВЕННЫХ СТРУКТУР БЕЛКОВ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ
ОЦЕНКИ ИЗМЕНЕНИЯ СВОБОДНОЙ ЭНЕРГИИ И ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

УДК 575.112
DOI: 10.24412/2073-0667-2024-4-6-16
EDN:: EAMKIP

В данной работе был разработан программный конвейер для предсказания влияния мутаций на стабильность пространственной структуры белка. В конвейере применяются комбинированный подход, использующий современные методы искусственного интеллекта для предсказания структуры белка, и классические алгоритмы оценки изменения свободной энергии. Конвейер включает в себя предсказание структуры белка с помощью модели ESM3 и последующий расчет изменения свободной энергии мутантных форм с помощью pyRosetta. Такой подход позволяет преодолеть ограничения существующих методов, объединяя преимущества глубокого обучения и интерпретируемость энергетических расчетов. Разработанный инструмент может найти применение в задачах структурной биоинформатики, биотехнологии и медицины, особенно в условиях ограниченного количества экспериментально определенных структур белков.

Ключевые слова: предсказание структуры белка, стабильность структуры белка, молекулярное моделирование, ESM3.

Работа поддержана бюджетным проектом ИЦиГ СО РАН № FWNR-2022-0020.

статья

Библиографическая ссылка: Вензель А. С., Иванисенко Т. В., Деменков П. С., Иванисенко В. А. Программный конвейер предсказания влияния мутаций на стабильность пространственных структур белков с использованием методов оценки изменения свободной энергии и искусственного интеллекта //"Проблемы информатики", 2024, № 4, с.6-16. DOI: 10.24412/2073-0667-2024-4-6-16. - EDN: EAMKIP


Вензель А.С.1,2,3, Иванисенко Т.В.1,2,3, Деменков П.С. 1,2,3, Иванисенко В.А.1,2,3 , Лашин С.А.1,2,3, , Иванисенко В.А.1,2,3

1 Институт цитологии и генетики СО РАН, 630090, Новосибирск, Россия 
2 Курчатовский геномный центр ИЦиГ СО РАН, 630090, Новосибирск, Россия 
3 Новосибирский государственный университет, 630090, Новосибирск, Россия

МЕТОД ПРЕДСКАЗАНИЯ КОЛИЧЕСТВА БЕЛКА В КЛЕТКАХ ДРОЖЖЕЙ НА ОСНОВЕ ИХ ГЕНОМНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

УДК 575.112
DOI: 10.24412/2073-0667-2024-4-17-26
EDN: HIAEDZ

В работе представлен новый метод предсказания количества белка в клетках пекарских дрожжей Saccharomyces cerevisiae, основанный на анализе их биологических последовательностей с использованием предобученных языковых моделей. Для обработки последовательностей были применены модели семейства ESM2 для аминокислотных последовательностей и модель GENA-LM для нуклеотидных последовательностей генов, что позволило получить информативные векторные представления входных данных. В работе оценивается влияние различных архитектур и размеров предобученных языковых моделей на точность предсказания. Предложенный метод имеет потенциал для применения в биотехнологии, оптимизации процессов биосинтеза и компьютерном дизайне штаммов-продуцентов с повышенной экспрессией генов целевых белков. Результаты исследования могут способствовать более глубокому пониманию механизмов регуляции генетической экспрессии и открывают перспективы для предсказания количества белков в других микроорганизмах.
Ключевые слова: количество белка, дрожжи, трансформер, ESM2, машинное обучение.

Работа поддержана бюджетным проектом ИЦиГ СО РАН № FWNR-2022-0020.

статья

Библиографическая ссылка: .    Вензель А. С., Клименко А. И., Иванисенко Т. В., Деменков П. С., Лашин С. А., Иванисенко В. А. Метод предсказания количества белка в клетках дрожжей на основе их геномных последовательностей //"Проблемы информатики", 2024, № 4, с.17-26. DOI: 10.24412/2073-0667-2024-4-17-26. - EDN: HIAEDZ


Деменков П. С., Мухин А. М., Иванисенко В. А., Лашин С. А., Колчанов Н. А.

Курчатовский Геномный Центр Института цитологии и генетики Сибирского отделения Российской академии наук (КГЦ ИЦиГ СО РАН) 630090, Новосибирск, Россия

ЦИФРОВАЯ ПЛАТФОРМА «МИКРОБИОТЕХ»: АРХИТЕКТУРА И НАЗНАЧЕНИЕ

УДК: 004.4
DOI: 10.24412/2073-0667-2024-4-27-36
EDN: HXJHCY

В статье рассматривается архитектура разработанной цифровой платформы «Микробиотех» для решения широкого круга задач системной и структурной биологии, обсуждается использование программного обеспечения, интегрированного в платформу для обработки и анализа больших объемов генетической информации, а также для предсказания структуры и функции белков. Использование цифровой платформы «Микробиотех» позволяет увеличить производительность исследования, улучшить точность анализа данных и способствовать развитию новых методов исследования.
Ключевые слова: информационная платформа, системная биология, биоинформатика.

Данная работа финансировалось Министерством пауки и высшего образования Российской Федерации в рамках проекта «Курчатовский центр геномных исследований мирового уровня» № 075-15-2019-1662 от 31.10.2019.

статья

Библиографическая ссылка: Деменков П. С., Мухин А. М., Иванисенко В. А., Лашин С. А., Колчанов Н. А. Цифровая платформа «Микробиотех»: архитектура и назначение. //"Проблемы информатики", 2024, № 4, с.27-36. DOI: 10.24412/2073-0667-2024-4-27-36. - EDN: HXJHCY


Иванисенко Т. В. 1,2, Деменков П. С. 1,2, Иванисенко  В. А. 1,2

1 Курчатовский Геномный Центр ФИЦ ИЦиГ СО РАН, Новосибирск 630090, Россия; 
2 ФИЦ Институт Цитологии и Генетики СО РАН, Новосибирк 630090, Россия; 

КОМБИНИРОВАННЫЙ ПОДХОД К РЕКОНСТРУКЦИИ АССОЦИАТИВНЫХ СЕТЕЙ: ОБЪЕДИНЕНИЕ GRAPHSAGE И СТАТИСТИКИ СОВМЕСТНОЙ ВСТРЕЧАЕМОСТИ

УДК: 004.85 577.2 575.112 
DOI: 10.24412/2073-0667-2024-4-37-45
EDN: LEXHCE
Исследование посвящено разработке гибридного подхода к предсказанию молекулярно-генетических взаимодействий, объединяющего графовые нейронные сети (ГНС) и анализ совместной встречаемости сущностей в научной литературе. Эффективность метода продемонстрирована на примере ассоциативной сети Escherichia coli, реконструированной с использованием системы ANDSystem и ее модуля ANDDigest. Результаты показали значительное улучшение точности предсказания взаимодействий относительно соответствия топологии исходного графа по сравнению с использованием только ГНС. Комбинация подходов позволила улучшить F1-меру с 0.815 до 0.97, а также снизить значение функции потерь с 0.405 до 0.08. Оценка на экспериментально подтвержденных «белок–белок» взаимодействиях также продемонстрировала высокую эффективность модели (F1-мера 0.9799, коэффициент корреляции Мэттьюса 0.9597). Предложенный метод может найти применение при анализе сложных биологических систем, планировании экспериментов и оптимизации биотехнологических процессов.
Ключевые слова: графовые нейронные сети, молекулярно-генетические взаимодействия, автоматический анализ текстов, Escherichia coli, ANDSystem, ANDDigest, GraphSAGE.

Работа выполнена за счет финансирования Курчатовского геномного центра ФИЦ ИЦиГ СО РАН, соглашение с Министерством образования и пауки РФ № 075-15-2019-1662. Вычисления проводились с использованием ресурсов ЦКП «Биоинформатика».

статья

Библиографическая ссылка: Иванисенко Т. В., Деменков П. С., Иванисенко  В. А. Комбинированный подход к реконструкции ассоциативных сетей: объединение GraphSAGE и статистики совместной встречаемости//"Проблемы информатики", 2024, № 4, с.37-45. DOI: 10.24412/2073-0667-2024-4-37-45. - EDN: LEXHCE


Лахова Т. Н., Казанцев Ф. В., Хлебодарова Т. М., Матушкин Ю. Г., Лашин С. А. 

Курчатовский геномный центр института цитологии и генетики СО РАН, 630090, Новосибирск, Россия
Институт цитологии и генетики СО РАН, 630090, Новосибирск, Россия
Новосибирский государственный университет, 630090, Новосибирск, Россия

ПРОГРАММНЫЙ МОДУЛЬ ДЛЯ ИССЛЕДОВАНИЯ РЕГУЛЯЦИИ МЕТАБОЛИЧЕСКИХ ПУТЕЙ БАКТЕРИИ МЕТОДАМИ МАТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ

УДК 573.22, 57.052
DOI: 10.24412/2073-0667-2024-4-46-55
EDN: LWFDRD

Математическое моделирование широко применяется в задачах микробиологической биотехнологии. Оно используется для описания и понимания потоков метаболитов и изменения их концентраций, позволяет рассматривать пути биосинтеза белков и делать прогнозы по затратам сред культивирования на выход целевых продуктов и т. д. Стандартные подходы моделирования метаболизма бактерий обычно упускают процессы регуляции, работающие на генетическом уровне. Между тем, развитие вычислительных методов геномного анализа выявляет все больше таких регуляторных отношений. Учет регуляторных отношений в процессе реконструкции моделей позволит исследовать более тонкие детали управления метаболизмом бактерий. В работе представлен программный модуль, который осуществляет генерацию фреймовых математических моделей по структуре генной сети бактерии, расширенный инструментарием учета регуляторных отношений в геноме бактерий. Генерация модели осуществляется в терминах обыкновенных дифференциальных уравнений в рамках стандарта SBML. Исследование результирующей математической модели в итоге доступно во множестве профильных сред моделирования. 
Ключевые слова: математическое моделирование, оперон, генная сеть, дифференциальные уравнения.

статья

Библиографическая ссылка: Лахова Т. Н., Казанцев Ф. В., Хлебодарова Т. М., Матушкин Ю. Г., Лашин С. А. Программный модуль для исследования регуляции метаболических путейбактерии методами математического моделирования //"Проблемы информатики", 2024, № 4, с.46-55. DOI: 10.24412/2073-0667-2024-4-46-55. - EDN: LWFDRD


Лашин С. А., Казанцев Ф. В., Лахова Т. Н., Матушкин Ю. Г.  
Курчатовский геномный центр института цитологии и генетики СО РАН, 630090, Новосибирск, Россия 
Институт цитологии и генетики СО РАН, 630090, Новосибирск, Россия 
Новосибирский государственный университет, 630090, Новосибирск, Россия 

DYNMICROBIOTECH: ПРОГРАММНЫЙ МОДУЛЬ ДЛЯ АВТОМАТИЧЕСКОЙ РЕКОНСТРУКЦИИ ФРЕЙМОВЫХ ДИНАМИЧЕСКИХ МОДЕЛЕЙ ГЕННЫХ СЕТЕЙ МИКРООРГАНИЗМОВ

УДК 573.22,57.052
DOI: 10.24412/2073-0667-2024-4-56-68
EDN: QVDKVH

Современные генетические технологии используются в промышленной биотехнологии для конструирования микробиологических штаммов-продуцентов с целевыми характеристиками на основе тесной интеграции экспериментальных и информационно-компьютерных подходов. Все большая доступность геномных данных и методов их функциональной аннотации требует разработки новых методов системной биологии, в частности, методов реконструкции генных сетей и метаболических путей, контролирующих целевые процессы и характеристики микроорганизмов, на основе информации о секвенированных геномах, а также методов построения математических моделей этих сетей и путей. В данной работе представлен программный модуль DynMicrobiotech для автоматической реконструкции фреймовых математических моделей на основе метода обобщенного химико-кинетического моделирования. Входными данными для модуля являются аннотация и разметка генома, выходными – сгенерированная модель в виде системы обыкновенных дифференциальных уравнений, записанная в формате SBML.
Ключевые слова: обобщенный химико-кинетический метод моделирования, дифференциальные уравнения, генные сети.

статья

Библиографическая ссылка: Лашин С. А., Казанцев Ф. В., Лахова Т. Н., Матушкин Ю. Г.DynMicrobiotech: программный модуль для автоматической реконструкции фреймовых динамических моделей генных сетей микроорганизмов //"Проблемы информатики", 2024, № 4, с.56-68. DOI: 10.24412/2073-0667-2024-4-56-68. - EDN: QVDKVH

 


Мухин А. М., Ощепков Д. Ю., Лашин С. А.

Курчатовский Геномный Центр Института цитологии и генетики Сибирского отделения Российской академии наук (КГЦ ИЦиГ СО РАН), 630090, Новосибирск, Россия
ФИЦ Институт Цитологии и Генетики СО РАН, 630090, Новосибирск, Россия
Новосибирский Государственный Университет, 630090, Новосибирск, Россия

ВЫЧИСЛИТЕЛЬНЫЙ КОНВЕЙЕР ПО РАСПОЗНАВАНИЮ САЙТОВ СВЯЗЫВАНИЯ ТРАНСКРИПЦИОННЫХ ФАКТОРОВ В БАКТЕРИАЛЬНЫХ ГЕНОМАХ DE NOVO

УДК 575.112
DOI: 10.24412/2073-0667-2024-4-69-83
EDN: UGUBKF

Задача поиска сайтов связывания транскрипционных факторов (ССТФ) в бактериальных геномах является одним из важнейших этапов их изучения и последующего использования в задачах биотехнологии и микробиологии. Характерная длина ССТФ – {5-20} пар нуклеотидов, и каждый транскрипционный фактор обладает способностью связываться с набором сайтов, сходных по последовательности. Поэтому поиск таких коротких последовательностей, имеющих достаточное, т. е. не случайное, сходство т. н. мотивов лежит в основе аннотации бактериальных геномов сайтами связывания. В статье описаны набор вычислительных конвейеров по поиску мотивов, которые принимают на вход данные бактериального генома и его первичной аннотации. Предлагаемые конвейеры, использующие два разных подхода (полногеномный поиск и филогенетический футпритинг) к поиску мотивов, предоставляют исследователю исчерпывающий набор настроек для получения на выходе максимально полной аннотации сайтами как всего генома, так и более детально – регуляторного района выбранного гена. Представленные конвейеры реализованы как с использованием современной платформы Nextflow, так и скриптами на языке программирования Python. Разработанная нами индексируемая база метаданных для известных бактериальных геномов с использованием встраиваемой СУБД SQLite позволяет существенно ускорить извлечение данных для дальнейших расчетов.
Ключевые слова: конвейеры, мотивы, ССТФ, геномика, Nextflow, Python, SQLite, JBrowse2, биоинформатика, филогенетический футпритинг.

Данная работа была поддержана Бюджетным Проектом FWNR-2022-0020.

статья

Библиографическая ссылка: Мухин А. М., Ощепков Д. Ю., Лашин С. А.Вычислительный конвейер по распознаванию сайтов связывания транскрипционных факторов в бактериальных геномах de novo //"Проблемы информатики", 2024, № 4, с.69-83. DOI: 10.24412/2073-0667-2024-4-69-83. - EDN: UGUBKF