2024 №4 (65)
выход в свет 22.12.2024.
СОДЕРЖАНИЕ
Вензель А.С.1,2,3, Иванисенко Т.В.1,2,3, Деменков П.С. 1,2,3, Иванисенко В.А.1,2,3
1 Институт цитологии и генетики СО РАН, 630090, Новосибирск, Россия
2 Курчатовский геномный центр ИЦиГ СО РАН, 630090, Новосибирск, Россия
3 Новосибирский государственный университет, 630090, Новосибирск, Россия
ПРОГРАММНЫЙ КОНВЕЙЕР ПРЕДСКАЗАНИЯ ВЛИЯНИЯ МУТАЦИЙ НА СТАБИЛЬНОСТЬ ПРОСТРАНСТВЕННЫХ СТРУКТУР БЕЛКОВ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ
ОЦЕНКИ ИЗМЕНЕНИЯ СВОБОДНОЙ ЭНЕРГИИ И ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
В данной работе был разработан программный конвейер для предсказания влияния мутаций на стабильность пространственной структуры белка. В конвейере применяются комбинированный подход, использующий современные методы искусственного интеллекта для предсказания структуры белка, и классические алгоритмы оценки изменения свободной энергии. Конвейер включает в себя предсказание структуры белка с помощью модели ESM3 и последующий расчет изменения свободной энергии мутантных форм с помощью pyRosetta. Такой подход позволяет преодолеть ограничения существующих методов, объединяя преимущества глубокого обучения и интерпретируемость энергетических расчетов. Разработанный инструмент может найти применение в задачах структурной биоинформатики, биотехнологии и медицины, особенно в условиях ограниченного количества экспериментально определенных структур белков.
Ключевые слова: предсказание структуры белка, стабильность структуры белка, молекулярное моделирование, ESM3.
Работа поддержана бюджетным проектом ИЦиГ СО РАН № FWNR-2022-0020.
Список литературы
- Jumper J. и др. Highly accurate protein structure prediction with AlphaFold // Nature. 2021. T. 596. № 7873. C. 583-589.
- Abramson J. и др. Accurate structure prediction of biomolecular interactions with AlphaFold 3 // Nature. 2024. C. 1-3.
- Baek M. и др. Accurate prediction of protein structures and interactions using a three-track neural network // Science. 2021. T. 373. № 6557. C. 871-876.
- Lin Z. и др. Evolutionary-scale prediction of atomic-level protein structure with a language model // Science. 2023. T. 379. № 6637. C. 1123-1130.
- Thomas P. J., Qu В. H., Pedersen P. L. Defective protein folding as a basis of human disease // Trends in biochemical sciences. 1995. T. 20. № 11. C. 456-459.
- Kellogg E. H., Leaver-Fay A., Baker D. Role of conformational sampling in computing mutation- induced changes in protein structure and stability // Proteins: Structure, Function, and Bioinformatics. 2011. T. 79. № 3. C. 830-838.
- Dehouck У. и др. PoPMuSiC 2.1: a web server for the estimation of protein stability changes upon mutation and sequence optimality // BMC bioinformatics. 2011. T. 12. C. 1-12.
- Schymkowitz J. и др. The FoldX web server: an online force field // Nucleic acids research. 2005. T. 33. № suppl_2. C. W382-W388.
- Montanucci L. и др. DDGun: an untrained method for the prediction of protein stability changes upon single and multiple point variations // BMC bioinformatics. 2019. T. 20. C. 1-10.
- Pires D. E. V., Ascher D. B., Blundell T. L. mCSM: predicting the effects of mutations in proteins using graph-based signatures // Bioinformatics. 2014. T. 30. № 3. C. 335-342.
- Nikam R. и др. ProThermDB: thermodynamic database for proteins and mutants revisited after 15 years // Nucleic Acids Research. 2021. T. 49, № DI. C. D420-D424.
- Xavier J.S. et al. ThermoMutDB: a thermodynamic database for missense mutations // Nucleic Acids Research. 2021. T. 49, № DI. C. D475-D479.
- Stourac J. и др. FireProtDB: database of manually curated protein stability data // Nucleic Acids Research. 2021. T. 49, № DI. C. D319-D324.
- Cao H. и др. DeepDDG: Predicting the Stability Change of Protein Point Mutations Using Neural Networks //J. Chem. Inf. Model. American Chemical Society, 2019. T. 59, № 4. C. 1508-1514.
- Umerenkov D. и др. PROSTATA: a framework for protein stability assessment using transformers // Bioinformatics. 2023. T. 39, № 11. C. btad671.
- Pak M. А. и др. Using AlphaFold to predict the impact of single mutations on protein stability and function // Pios one. 2023. T. 18. № 3. C. e0282689.
- Mansoor S. и др. Zero-shot mutation effect prediction on protein stability and function using RoseTTAFold // Protein Science. 2023. T. 32, № 11. C. e4780.
- Akdel M. и др. A structural biology community assessment of AlphaFold2 applications // Nature Structural & Molecular Biology. 2022. T. 29. № 11. C. 1056-1067.
- Burley S.K. и др. RCSB Protein Data Bank (RCSB.org): delivery of experimentally- determined PDB structures alongside one million computed structure models of proteins from artificial intelligence/machine learning // Nucleic Acids Research. 2023. T. 51, № DI. C. D488-D508.
- The UniProt Consortium. UniProt: the Universal Protein Knowledgebase in 2023 // Nucleic Acids Research. 2023. T. 51, № DI. C. D523-D531.
- Hayes T. и др. Simulating 500 million years of evolution with a language model //bioRxiv. 2024. C. 2024.07. 01.600583.
- Frenz В. и др. Prediction of Protein Mutational Free Energy: Benchmark and Sampling Improvements Increase Classification Accuracy // Front. Bioeng. Biotechnol. Frontiers, 2020. T. 8.
- Pancotti С. et al. Predicting protein stability changes upon single-point mutation: a thorough comparison of the available tools on a new dataset //Briefings in Bioinformatics. 2022. T. 23. № 2. C. bbab555.
- Chaudhury S., Lyskov S., Gray J.J. PyRosetta: a script-based interface for implementing molecular modeling algorithms using Rosetta // Bioinformatics. 2010. T. 26, № 5. C. 689-691.
- Alford R. F. и др. The Rosetta all-atom energy function for macromolecular modeling and design // Journal of chemical theory and computation. 2017. T. 13. № 6. C. 3031-3048.
- Zhang Y., Skolnick J. TM-align: a protein structure alignment algorithm based on the TM-score //Nucleic acids research. 2005. T. 33. № 7. C. 2302-2309.
- Kunzmann P., Hamacher K. Biotite: a unifying open source computational biology framework in Python // BMC Bioinformatics. 2018. T. 19, № 1. C. 346.
Библиографическая ссылка: Вензель А. С., Иванисенко Т. В., Деменков П. С., Иванисенко В. А. Программный конвейер предсказания влияния мутаций на стабильность пространственных структур белков с использованием методов оценки изменения свободной энергии и искусственного интеллекта //"Проблемы информатики", 2024, № 4, с.6-16. DOI: 10.24412/2073-0667-2024-4-6-16. - EDN: EAMKIP
1 Институт цитологии и генетики СО РАН, 630090, Новосибирск, Россия
2 Курчатовский геномный центр ИЦиГ СО РАН, 630090, Новосибирск, Россия
3 Новосибирский государственный университет, 630090, Новосибирск, Россия
МЕТОД ПРЕДСКАЗАНИЯ КОЛИЧЕСТВА БЕЛКА В КЛЕТКАХ ДРОЖЖЕЙ НА ОСНОВЕ ИХ ГЕНОМНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ
В работе представлен новый метод предсказания количества белка в клетках пекарских дрожжей Saccharomyces cerevisiae, основанный на анализе их биологических последовательностей с использованием предобученных языковых моделей. Для обработки последовательностей были применены модели семейства ESM2 для аминокислотных последовательностей и модель GENA-LM для нуклеотидных последовательностей генов, что позволило получить информативные векторные представления входных данных. В работе оценивается влияние различных архитектур и размеров предобученных языковых моделей на точность предсказания. Предложенный метод имеет потенциал для применения в биотехнологии, оптимизации процессов биосинтеза и компьютерном дизайне штаммов-продуцентов с повышенной экспрессией генов целевых белков. Результаты исследования могут способствовать более глубокому пониманию механизмов регуляции генетической экспрессии и открывают перспективы для предсказания количества белков в других микроорганизмах.
Ключевые слова: количество белка, дрожжи, трансформер, ESM2, машинное обучение.
Работа поддержана бюджетным проектом ИЦиГ СО РАН № FWNR-2022-0020.
Список литературы
- Vogel С., Marcotte Е.М. Insights into the regulation of protein abundance from proteomic and transcriptomic analyses // Nat Rev Genet. 2012. T. 13. № 4. C. 227-232.
- Schwanhausser В. и др. Global quantification of mammalian gene expression control // Nature. 2011. T. 473. № 7347. C. 337 342.
- Rives А. и др. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences // Proceedings of the National Academy of Sciences. 2021. T. 118. № 15. C. e2016239118.
- Ji Y. и др. DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome // Bioinformatics. 2021. T. 37. № 15. C. 2112-2120.
- Ferreira M. и др. Protein Abundance Prediction Through Machine Learning Methods // Journal of Molecular Biology. 2021. T. 433. № 22. C. 167267.
- Lin Z. и др. Evolutionary-scale prediction of atomic-level protein structure with a language model // Science. 2023. T. 379. № 6637. C. 1123-1130.
- Fishman V. и др. GENA-LM: A Family of Open-Source Foundational DNA Language Models for Long Sequences // 2023.
- Cherry J.M. и др. SGD: Saccharomyces Genome Database // Nucleic Acids Research. 1998. T. 26. № 1. C. 73 79.
- Huang Q. и др. PaxDb 5.0: Curated Protein Quantification Data Suggests Adaptive Proteome Changes in Yeasts // Molecular & Cellular Proteomics. 2023. T. 22. № 10.
- Schmirler R., Heinzinger M., Rost B. Fine-tuning protein language models boosts predictions across diverse tasks // Nat Commun. 2024. T. 15. № 1. C. 7407.
Библиографическая ссылка: . Вензель А. С., Клименко А. И., Иванисенко Т. В., Деменков П. С., Лашин С. А., Иванисенко В. А. Метод предсказания количества белка в клетках дрожжей на основе их геномных последовательностей //"Проблемы информатики", 2024, № 4, с.17-26. DOI: 10.24412/2073-0667-2024-4-17-26. - EDN: HIAEDZ
Деменков П. С., Мухин А. М., Иванисенко В. А., Лашин С. А., Колчанов Н. А.
ЦИФРОВАЯ ПЛАТФОРМА «МИКРОБИОТЕХ»: АРХИТЕКТУРА И НАЗНАЧЕНИЕ
В статье рассматривается архитектура разработанной цифровой платформы «Микробиотех» для решения широкого круга задач системной и структурной биологии, обсуждается использование программного обеспечения, интегрированного в платформу для обработки и анализа больших объемов генетической информации, а также для предсказания структуры и функции белков. Использование цифровой платформы «Микробиотех» позволяет увеличить производительность исследования, улучшить точность анализа данных и способствовать развитию новых методов исследования.
Ключевые слова: информационная платформа, системная биология, биоинформатика.
Данная работа финансировалось Министерством пауки и высшего образования Российской Федерации в рамках проекта «Курчатовский центр геномных исследований мирового уровня» № 075-15-2019-1662 от 31.10.2019.
Список литературы
- Bharadwaj, A., El Sawy, О. A., Pavlou, Р. А., & Venkatraman, N. (2013). Digital business strategy: toward a next generation of insights. MIS quarterly, 471-482.
- Yoo, Y., Henfridsson, O., & Lyytinen, K. (2010). Research commentary—the new organizing logic of digital innovation: an agenda for information systems research. Information systems research, 21(4), 724-735.
- Goecks, J., Nekrutenko, A., Taylor, J., & Galaxy Team. (2010). Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences. Genome biology, 11(8), R86.
- Gruning, B.A., Rasche, E., Rebolledo-Jaramillo, B., Eberhard, C., Houwaart, T., Chilton, J., ...& Backofen, R. (2017). Jupyter and Galaxy: Easing entry barriers into complex data analyses for biomedical researchers. PLoS computational biology, 13(5), el005425.
- Afgan, E., Baker, D., van den Beek, M., Blankenberg, D., Bouvier, D., Cech, M., ... & Goecks, J. (2016). The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic acids research, 44(W1), W3-W10.
- Lowe, R., Shirley, N., Bleackley, M., Dolan, S., & Shafee, T. (2017). Transcriptomics technologies. PLoS computational biology,
- Gruning, B., Chilton, J., Koster, J., Dale, R., Soranzo, N., van den Beek, M., ... & Backofen, R. (2019). Practical computational reproducibility in the life sciences. Cell systems, 8(3), 183-188.
- Afgan, E., Baker, D., Batut, B., van den Beek, M., Bouvier, D., Cech, M., ... & Blankenberg, D. (2018). The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2018 update. Nucleic acids research, 46(W1), W537-W544.
- Kluyver, T., Ragan-Kelley, B., Perez, F., Granger, B.E., Bussonnier, M., Frederic, J., . ..& Ivanov, P. (2016). Jupyter Notebooks-а publishing format for reproducible computational workflows. In ELPUB (pp. 87-90).
- Zaharia, M., Xin, R. S., Wendell, P., Das, T., Armbrust, M., Dave, A., ... & Ghodsi, A. (2016). Apache Spark: a unified engine for big data processing. Communications of the ACM, 59(11), 56-65.
- Varia, J., & Mathew, S. (2014). Overview of Amazon Web Services. Amazon Web Services, 16.
- Chee, B. J., Franklin, J.C., & Chee, B. J. (2009). Cloud computing: Technologies and strategies of the ubiquitous data center. CRC Press.
- Пронозин А.Ю., Салина E.A., Афонников Д. A. (2023) GBS-DP: биоинформатический конвейер для обработки данных, полученных генотипированием путем секвенирования. Вавиловский журнал генетики и селекции. 27 (7), 737-745. DOI 10.18699/VJGB-23-86
- Ivanisenko VA, Saik OV, Ivanisenko NV, Tiys ES, Ivanisenko TV, Demenkov PS, Kolchanov NA. ANDSystem: an associative network discovery system for automated literature mining in the field of biology. BMC Syst Biol. 2015;9 Suppl 2(Suppl 2):S2. doi: 10.1186/1752-0509-9-S2-S2.
Библиографическая ссылка: Деменков П. С., Мухин А. М., Иванисенко В. А., Лашин С. А., Колчанов Н. А. Цифровая платформа «Микробиотех»: архитектура и назначение. //"Проблемы информатики", 2024, № 4, с.27-36. DOI: 10.24412/2073-0667-2024-4-27-36. - EDN: HXJHCY
Иванисенко Т. В. 1,2, Деменков П. С. 1,2, Иванисенко В. А. 1,2
1 Курчатовский Геномный Центр ФИЦ ИЦиГ СО РАН, Новосибирск 630090, Россия;
2 ФИЦ Институт Цитологии и Генетики СО РАН, Новосибирк 630090, Россия;
КОМБИНИРОВАННЫЙ ПОДХОД К РЕКОНСТРУКЦИИ АССОЦИАТИВНЫХ СЕТЕЙ: ОБЪЕДИНЕНИЕ GRAPHSAGE И СТАТИСТИКИ СОВМЕСТНОЙ ВСТРЕЧАЕМОСТИ
Ключевые слова: графовые нейронные сети, молекулярно-генетические взаимодействия, автоматический анализ текстов, Escherichia coli, ANDSystem, ANDDigest, GraphSAGE.
Работа выполнена за счет финансирования Курчатовского геномного центра ФИЦ ИЦиГ СО РАН, соглашение с Министерством образования и пауки РФ № 075-15-2019-1662. Вычисления проводились с использованием ресурсов ЦКП «Биоинформатика».
Список литературы
- Bornmann L., Haunschild R., Mutz R. Growth rates of modern science: a latent piecewise growth curve approach to model publication numbers from established and new literature databases // Humanities and Social Sciences Communications. 2021. № 8. P. 224.
- Kitano H. Systems biology: a brief review // Science. 2002. V. 295, № 5560. P. 1662-1664.
- Zhou J., Cui G., Hu S., Zhang Z., Yang C., Liu Z., Wang L., Li C., Sun M. Graph neural networks: A review of methods and applications //AI Open. 2020. V. 1. P. 57-81.
- Scarselli F., Gori М., Tsoi А. С., Hagenbuchner М., Monfardini G. The graph neural network model // IEEE Transactions on Neural Networks. 2008. V. 20, № 1. P. 61-80.
- Колчанов H.A., Игнатьева E.B., Подколодная О. А., Лихошвай В. А., Матушкин Ю.Г. Генные сети // Вавиловский журнал генетики и селекции. 2013. Т. 17, № 4/2. С. 833-850.
- Zitnik М., Agrawal М., Leskovec J. Modeling polypharmacy side effects with graph convolutional networks // Bioinformatics. 2018. V. 34, № 13. P. i457-i466.
- Ivanisenko T.V., Demenkov P. S., Kolchanov N.A., Ivanisenko V.A. The new version of the ANDDigest tool with improved Al-based short names recognition // International Journal of Molecular Sciences. 2022. V. 23, № 23. P. 14934.
- Von Mering C., Jensen L. J., Snel B., Hooper S. D., Krupp M., Foglierini M. et al. STRING: known and predicted protein-protein associations, integrated and transferred across organisms // Nucleic Acids Research. 2005. V. 33, Suppl. 1. P. D433-D437.
- Ivanisenko V.A., Saik O.V., Ivanisenko N.V. et al. ANDSystem: an Associative Network Discovery System for automated literature mining in the field of biology // BMC Systems Biology. 2015. V. 9, Suppl. 2. P. S2.
- Ivanisenko V.A., Demenkov P. S., Ivanisenko T.V., Mishchenko E.L., Saik O.V. A new version of the ANDSystem tool for automatic extraction of knowledge from scientific publications with expanded functionality for reconstruction of associative gene networks by considering tissue-specific gene expression // BMC Bioinformatics. 2019. V. 20. P. 5-15.
- Hamilton W.L., Ying R., Leskovec J. Inductive representation learning on large graphs // Advances in Neural Information Processing Systems. 2017. V. 30.
- Blount Z.D. The unexhausted potential of E. coli // eLife. 2015. V. 4. P. e05826.
- Pontrelli S., Chiu T.Y., Lan E.I., Chen F.Y., Chang P., Liao J.C. Escherichia coli as a host for metabolic engineering // Metabolic Engineering. 2018. V. 50. P. 16-46.
- Choi K.R., Jang W.D., Yang D., Cho J.S., Park D., Lee S.Y. Systems metabolic engineering strategies: integrating systems and synthetic biology with metabolic engineering // Trends in Biotechnology. 2019. V. 37, № 8. P. 817-837.
- Hermjakob H., Montecchi-Palazzi L., Lewington C., Mudali S., Kerrien S., Orchard S., Vingron M., Roechert B., Roepstorff P., Valencia A., Margalit H., Armstrong J., Bairoch A., Cesareni G., Sherman D., Apweiler R. IntAct: an open source molecular interaction database // Nucleic Acids Research. 2004. V. 32, Suppl. 1. P. D452-D455.
- Wren J.D., Garner H.R. Shared relationship analysis: ranking set cohesion and commonalities within a literature-derived relationship network // Bioinformatics. 2004. V. 20, № 2. P. 191-198.
- Ivanisenko T.V., Saik O.V., Demenkov P. S., Ivanisenko N.V., Savostianov A.N., Ivanisenko V. A. ANDDigest: a new web-based module of ANDSystem for the search of knowledge in the scientific literature // BMC Bioinformatics. 2020. V. 21. P. 1-21.
- Loshchilov L, Hutter F. Decoupled Weight Decay Regularization // International Conference on Learning Representations (ICLR). 2019.
Библиографическая ссылка: Иванисенко Т. В., Деменков П. С., Иванисенко В. А. Комбинированный подход к реконструкции ассоциативных сетей: объединение GraphSAGE и статистики совместной встречаемости//"Проблемы информатики", 2024, № 4, с.37-45. DOI: 10.24412/2073-0667-2024-4-37-45. - EDN: LEXHCE
Лахова Т. Н., Казанцев Ф. В., Хлебодарова Т. М., Матушкин Ю. Г., Лашин С. А.
Курчатовский геномный центр института цитологии и генетики СО РАН, 630090, Новосибирск, Россия
Институт цитологии и генетики СО РАН, 630090, Новосибирск, Россия
Новосибирский государственный университет, 630090, Новосибирск, Россия
ПРОГРАММНЫЙ МОДУЛЬ ДЛЯ ИССЛЕДОВАНИЯ РЕГУЛЯЦИИ МЕТАБОЛИЧЕСКИХ ПУТЕЙ БАКТЕРИИ МЕТОДАМИ МАТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ
Математическое моделирование широко применяется в задачах микробиологической биотехнологии. Оно используется для описания и понимания потоков метаболитов и изменения их концентраций, позволяет рассматривать пути биосинтеза белков и делать прогнозы по затратам сред культивирования на выход целевых продуктов и т. д. Стандартные подходы моделирования метаболизма бактерий обычно упускают процессы регуляции, работающие на генетическом уровне. Между тем, развитие вычислительных методов геномного анализа выявляет все больше таких регуляторных отношений. Учет регуляторных отношений в процессе реконструкции моделей позволит исследовать более тонкие детали управления метаболизмом бактерий. В работе представлен программный модуль, который осуществляет генерацию фреймовых математических моделей по структуре генной сети бактерии, расширенный инструментарием учета регуляторных отношений в геноме бактерий. Генерация модели осуществляется в терминах обыкновенных дифференциальных уравнений в рамках стандарта SBML. Исследование результирующей математической модели в итоге доступно во множестве профильных сред моделирования.
Ключевые слова: математическое моделирование, оперон, генная сеть, дифференциальные уравнения.
Список литературы
- Faeder J.R., Blinov M.L., Hlavacek W.S. Rule-Based Modeling of Biochemical Systems with BioNetGen // Systems Biology. Methods in Molecular Biology. 2009. C. 113-167. Humana Press.
- Machado D. и др. Fast automated reconstruction of genome-scale metabolic models for microbial species and communities // Nucleic Acids Res. 2018. T. 46. № 15. C. 7542-7553.
- Колчанов H.A. и др. Генные сети // Вавиловский журнал генетики и селекции. 2013. Т. 17. № 4/2. С. 833-850.
- Ратнер В.А. Молекулярно-генетическая система управления // Природа. 2001. Т. 3. С. 1622.
- КАЗАНЦЕВ Ф. В., ДР. истема автоматизированной генерации математических моделей генных сетей // Информационный вестник ВОГИС. 2009. Т. 13. № 1. С. 163-169.
- Drager А. и ДР. SBMLsqueezer 2: context-sensitive creation of kinetic equations in biochemical networks // BMC Syst. Biol. 2015. T. 9. № 1. C. 68.
- Lakhova T.N. и др. Algorithm for the Reconstruction of Mathematical Frame Models of Bacterial Transcription Regulation // Mathematics. 2022. T. 10. № 23. C. 4480.
- Likhoshvai V., Ratushny A. Generalized hill function method for modeling molecular processes //J. Bioinform. Comput. Biol. 2007. T. 05. № 02b. C. 521-531.
- Skiena S.S. Graph Traversal // The Algorithm Design Manual. 2012. C. 145-190. Springer, London.
- Landini P. и ДР. The leucine-responsive regulatory protein (Lrp) acts as a specific repressor for oy-dependent transcription of the Escherichia coli aidB gene // Mol. Microbiol. 1996. T. 20. № 5. C. 947-955.
- Rippa V. и ДР. Specific DNA Binding and Regulation of Its Own Expression by the AidB Protein in Escherichia coli // J. Bacteriol. 2010. T. 192. № 23. C. 6136-6142.
- Hucka M. и ДР. The systems biology markup language (SBML): a medium for representation and exchange of biochemical network models // Bioinformatics. 2003. T. 19. № 4. C. 524-531.
- Keating S.M. и др. SBML Level 3: an extensible format for the exchange and reuse of biological models // Mol. Syst. Biol. 2020. T. 16. № 8.
- Welsh С. и ДР. libRoadRunner 2.0: a high performance SBML simulation and analysis library // Bioinformatics. 2023. T. 39. № 1.
- Hoops S. и ДР. COPASI—a COmplex PAthway Simulator // Bioinformatics. 2006. T. 22. № 24. С. 3067-3074.
- Ligon T.S. и др. GenSSI 2.0: multi-experiment structural identifiability analysis of SBML models // Bioinformatics. 2018. T. 34. № 8. C. 1421-1423.
Библиографическая ссылка: Лахова Т. Н., Казанцев Ф. В., Хлебодарова Т. М., Матушкин Ю. Г., Лашин С. А. Программный модуль для исследования регуляции метаболических путейбактерии методами математического моделирования //"Проблемы информатики", 2024, № 4, с.46-55. DOI: 10.24412/2073-0667-2024-4-46-55. - EDN: LWFDRD
Лашин С. А., Казанцев Ф. В., Лахова Т. Н., Матушкин Ю. Г.
Курчатовский геномный центр института цитологии и генетики СО РАН, 630090, Новосибирск, Россия
Институт цитологии и генетики СО РАН, 630090, Новосибирск, Россия
Новосибирский государственный университет, 630090, Новосибирск, Россия
DYNMICROBIOTECH: ПРОГРАММНЫЙ МОДУЛЬ ДЛЯ АВТОМАТИЧЕСКОЙ РЕКОНСТРУКЦИИ ФРЕЙМОВЫХ ДИНАМИЧЕСКИХ МОДЕЛЕЙ ГЕННЫХ СЕТЕЙ МИКРООРГАНИЗМОВ
Современные генетические технологии используются в промышленной биотехнологии для конструирования микробиологических штаммов-продуцентов с целевыми характеристиками на основе тесной интеграции экспериментальных и информационно-компьютерных подходов. Все большая доступность геномных данных и методов их функциональной аннотации требует разработки новых методов системной биологии, в частности, методов реконструкции генных сетей и метаболических путей, контролирующих целевые процессы и характеристики микроорганизмов, на основе информации о секвенированных геномах, а также методов построения математических моделей этих сетей и путей. В данной работе представлен программный модуль DynMicrobiotech для автоматической реконструкции фреймовых математических моделей на основе метода обобщенного химико-кинетического моделирования. Входными данными для модуля являются аннотация и разметка генома, выходными – сгенерированная модель в виде системы обыкновенных дифференциальных уравнений, записанная в формате SBML.
Ключевые слова: обобщенный химико-кинетический метод моделирования, дифференциальные уравнения, генные сети.
Список литературы
- Goodwin S., McPherson J.D., McCombie W.R. Coming of age: ten years of next-generation sequencing technologies // Nat. Rev. Genet. 2016. T. 17. № 6. C. 333-351.
- Quail М. и др. A tale of three next generation sequencing platforms: comparison of Ion torrent, pacific biosciences and illumina MiSeq sequencers // BMC Genomics. 2012. T. 13. № 1. C. 341.
- Cowan AE., Mendes P., Blinov M.L. ModelBricks—modules for reproducible modeling improving model annotation and provenance // npj Syst. Biol. Appl. 2019. T. 5. № 1.
- Gilbert D. и др. Towards dynamic genome-scale models // Brief. Bioinform. 2019. T. 20. № 4. C. 1167-1180.
- Karr J. R. и ДР. A Whole-Cell Computational Model Predicts Phenotype from Genotype // Cell. 2012. T. 150. № 2. C. 389-401.
- Kim W.J., Kim H.U., Lee S.Y. Current state and applications of microbial genome-scale metabolic models // Curr. Opin. Syst. Biol. 2017. T. 2. C. 10-18.
- Akberdin I.R. и ДР. In Silico Cell: Challenges and Perspectives // Math. Biol. Bioinforma. 2013. T. 8. № 1.
- Demin O., Goryanin I. Kinetic Modelling in Systems Biology. , 2008.
- Hellerstein J.L. и др. Recent advances in biomedical simulations: a manifesto for model engineering // FlOOOResearch. 2019. T. 8. C. 261.
- OCONE A., MILLAR A.J., Sanguinetti G. Hybrid regulatory models: a statistically tractable approach to model regulatory network dynamics // Bioinformatics. 2013. T. 29. № 7. C. 910-916.
- Funahashi А. и др. CellDesigner 3.5: A Versatile Modeling Tool for Biochemical Networks // Proc. IEEE. 2008. T. 96. № 8. C. 1254-1265.
- King Z.A. и др. BiGG Models: A platform for integrating, standardizing and sharing genomescale models // Nucleic Acids Res. 2016. T. 44. № DI. C. D515-D522.
- Lloyd C.M. и др. The CellML Model Repository // Bioinformatics. 2008. T. 24. № 18. C. 2122-2123.
- Malik-Sheriff R.S. и др. BioModels—15 years of sharing computational models in life science // Nucleic Acids Res. 2019.
- Henkel R., Wolkenhauer O., Waltemath D. Combining computational models, semantic annotations and simulation experiments in a graph database // Database. 2015. T. 2015. C. 1-16.
- Kirk P.D.W., Babtie A.C., Stumpf M.P.H. Systems biology (un)certainties // Science (80-. ). 2015. T. 350. № 6259. C. 386-388.
- Stanford N.J. и ДР. The evolution of standards and data management practices in systems biology // Mol. Syst. Biol. 2015. T. 11. № 12. C. 851-851.
- Beal J. и ДР. Communicating Structure and Function in Synthetic Biology Diagrams // ACS Synth. Biol. 2019. T. 8. № 8. C. 1818-1825.
- Bruggeman F.J., Westerhoff H.V. The nature of systems biology // Trends Microbiol. 2007. T. 15. № 1. C. 45-50.
- Likhoshvai V.A. и ДР. Generalized chemokinetic method for gene network simulation // Mol. Biol. 2001. T. 35. № 6. C. 919-925.
- Palsson B. The challenges of in silico biology Moving from a reductionist paradigm to one that views cells as systems will necessitate // 2000. T. 18. C. 1147-1150.
- Kurata H. и др. BioFNet: Biological functional network database for analysis and synthesis of biological systems // Brief. Bioinform. 2013. T. 15. № 5. C. 699-709.
- Ратнер B.A. Молекулярно-генетическая система управления // Природа. 2001. Т. 3. С. 16-22.
- Moodie S. и ДР. Systems Biology Graphical Notation: Process Description language Level 1 Version 1.3 //J- Integr. Bioinform. 2015. T. 12. № 2.
- Norsigian C.J. и др. BiGG Models 2020: multi-strain genome-scale models and expansion across the phylogenetic tree // Nucleic Acids Res. 2019. T. 48. № DI. C. D402-D406.
- Zhang F. и др. Systems biology markup language (SBML) level 3 package: multistate, multicomponent and multicompartment species, version 1, release 2 // J. Integr. Bioinform. 2020. T. 17. № 2 3. C. 0 74.
- ЛихошваЙ В. А. и ДР. Обобщенный химико-кинетический метод моделирования сложных биологических систем. Компьютерная модель онтогенеза бактериофага Lambda // Вычислительные технологии. 2000. Т. 5. № Специальный выпуск, посвященный 10-летней годовщине Лаборатории теоретической генетики Института цитологии и генетики СО РАН. С. 87-99.
- Казанцев Ф.В., ДР. Система автоматизированной генерации математических моделей генных сетей // Информационный вестник ВОГИС. 2009. Т. 13. № 1. С. 163-169.
- Акбердин И.Р. и др. «Электронная клетка»: проблемы и перспективы // Математическая биология и биоинформатика. 2013. Т. 8. № 1. С. 287-307.
- ЖаботинскиЙ А.М. Концентрационные автоколебания., 1974. С. 1-179. М.: Наука.
- Hucka М. и ДР. The Systems Biology Markup Language (SBML): Language Specification for Level 3 Version 1 Core //J. Integr. Bioinforma. 2015. T. 12. № 2. C. 382-549.
- Lakhova T.N. и др. Algorithm for the Reconstruction of Mathematical Frame Models of Bacterial Transcription Regulation // Mathematics. 2022. T. 10. № 23. C. 4480.
- Kanehisa M. Enzyme Annotation and Metabolic Reconstruction Using KEGG., 2017. C. 135145.
- McDonald A.G., Boyce S., Tipton K.F. ExplorEnz: the primary source of the IUBMB enzyme list // Nucleic Acids Res. 2009. T. 37. № Database. C. D593-D597.
- Wittig U. и др. SABIO-RK-database for biochemical reaction kinetics // Nucleic Acids Res. 2012. T. 40. № DI. C. D790 D796.
- Kazantsev F.V. и др. MAMMOTh: A new database for curated mathematical models of biomolecular systems //J. Bioinform. Comput. Biol. 2018. T. 16. № 01. C. 1740010 (16 pages).
- Otasek D. и др. Cytoscape Automation: empowering workflow-based network analysis // Genome Biol. 2019. T. 20. № 1. C. 185.
- Hoops S. и др. COPASI-a COmplex PAthway Simulator // Bioinformatics. 2006. T. 22. № 24. C. 3067 3074.
- Cock P.J.A. и др. Biopython: freely available Python tools for computational molecular biology and bioinformatics // Bioinformatics. 2009. T. 25. № 11. C. 1422-1423.
Библиографическая ссылка: Лашин С. А., Казанцев Ф. В., Лахова Т. Н., Матушкин Ю. Г.DynMicrobiotech: программный модуль для автоматической реконструкции фреймовых динамических моделей генных сетей микроорганизмов //"Проблемы информатики", 2024, № 4, с.56-68. DOI: 10.24412/2073-0667-2024-4-56-68. - EDN: QVDKVH
Мухин А. М., Ощепков Д. Ю., Лашин С. А.
Курчатовский Геномный Центр Института цитологии и генетики Сибирского отделения Российской академии наук (КГЦ ИЦиГ СО РАН), 630090, Новосибирск, Россия
ФИЦ Институт Цитологии и Генетики СО РАН, 630090, Новосибирск, Россия
Новосибирский Государственный Университет, 630090, Новосибирск, Россия
ВЫЧИСЛИТЕЛЬНЫЙ КОНВЕЙЕР ПО РАСПОЗНАВАНИЮ САЙТОВ СВЯЗЫВАНИЯ ТРАНСКРИПЦИОННЫХ ФАКТОРОВ В БАКТЕРИАЛЬНЫХ ГЕНОМАХ DE NOVO
Задача поиска сайтов связывания транскрипционных факторов (ССТФ) в бактериальных геномах является одним из важнейших этапов их изучения и последующего использования в задачах биотехнологии и микробиологии. Характерная длина ССТФ – {5-20} пар нуклеотидов, и каждый транскрипционный фактор обладает способностью связываться с набором сайтов, сходных по последовательности. Поэтому поиск таких коротких последовательностей, имеющих достаточное, т. е. не случайное, сходство т. н. мотивов лежит в основе аннотации бактериальных геномов сайтами связывания. В статье описаны набор вычислительных конвейеров по поиску мотивов, которые принимают на вход данные бактериального генома и его первичной аннотации. Предлагаемые конвейеры, использующие два разных подхода (полногеномный поиск и филогенетический футпритинг) к поиску мотивов, предоставляют исследователю исчерпывающий набор настроек для получения на выходе максимально полной аннотации сайтами как всего генома, так и более детально – регуляторного района выбранного гена. Представленные конвейеры реализованы как с использованием современной платформы Nextflow, так и скриптами на языке программирования Python. Разработанная нами индексируемая база метаданных для известных бактериальных геномов с использованием встраиваемой СУБД SQLite позволяет существенно ускорить извлечение данных для дальнейших расчетов.
Ключевые слова: конвейеры, мотивы, ССТФ, геномика, Nextflow, Python, SQLite, JBrowse2, биоинформатика, филогенетический футпритинг.
Данная работа была поддержана Бюджетным Проектом FWNR-2022-0020.
Список литературы
- Seemann Т. Prokka: rapid prokaryotic genome annotation // Bioinformatics. 2014. V. 30. N. 14. P. 2068-2069.
- Pachkov M., Balwierz P. J., Arnold P., Ozonov E., Nimwegen E. SwissRegulon, a database of genome-wide annotations of regulatory sites: recent updates // Nucleic Acids Research. 2012. 11. V. 41. N DI. P. D214-D220. https://academic.oup.com/nar/article-pdf/41/Dl/D214/3645388/ gksll45.pdf.
- Robison К., McGuire А. М., Church G. М. A comprehensive library of DNA-binding site matrices for 55 proteins applied to the complete Escherichia coli K-12 genomellEdited by R. Ebright // Journal of Molecular Biology. 1998. V. 284. N 2. P. 241-254. Access mode: https://www.sciencedirect.com/ science/article/pii/S002228369892160X.
- Dudek C.-A., Jahn D. PRODORIC: state-of-the-art database of prokaryotic gene regulation // Nucleic acids research. 2022. V. 50. N. DI. P. D295-D302.
- Liu B., Zhang H., Zhou C., Li G., Fennell A., Wang G., Kang Y., Liu Q., Ma Q. An integrative and applicable phylogenetic footprinting framework for cis-regulatory motifs identification in prokaryotic genomes // BMC genomics. 2016. V. 17. P. 1-12.
- Tagle D. A., Koop B. F., Goodman M., Slightom J. L., Hess D. L., Jones R. T. Embryonic e and 7 globin genes of a prosimian primate (Galago crassicaudatus): Nucleotide and amino acid sequences, developmental regulation and phylogenetic footprints // Journal of molecular biology. 1988. V. 203. N. 2. P. 439-455.
- Yang J., Chen X., McDermaid A., Ma Q. DMINDA 2.0: integrated and systematic views of regulatory DNA motif identification and analyses // Bioinformatics. 2017. V. 33. N 16. P. 2586-2588.
- Bailey T. L., Johnson J., Grant С. E., Noble W. S. The MEME Suite // Nucleic Acids Research. 2015. 05. V. 43. N. Wl. P. W39-W49. https://academic.oup.com/nar/article-pdf/43/Wl/W39/ 17435890/gkv416.pdf.
- Sayers E. W., Bolton E. E., Brister J. R., Canese K., Chan J., Comeau D., Connor R., Funk K., Kelly C., Kim S., Madej T., Marchler-Bauer A., Lanczycki C., Lathrop S., Lu Z., Thibaud-Nissen F., Murphy T., Phan L., Skripchenko Y., Tse T., Wang J., Williams R., Trawick B., Pruitt K., Sherry S. Database resources of the national center for biotechnology information. Nucleic Acids Research. 2021. 12. V. 50.N DI. P. D20-D26. https://academic.oup.com/nar/article-pdf/50/Dl/D20/42058080/ gkablll2.pdf.
- Mukhin A. M., Kazantsev F. V., Klimenko A. L, Lakhova T. N., Demenkov P. S., Lashin S. A. The Web Platform for Storing Biotechnologically Significant Properties of Bacterial Strains // International Conference on Parallel Computing Technologies / Springer. 2021. P. 445-450.
- Taboada B., Estrada K., Ciria R., Merino E. Operon-mapper: a web server for precise operon identification in bacterial and archaeal genomes // Bioinformatics. 2018. 06. V. 34. N. 23. P. 4118-4120. https://academic.oup.com/bioinformatics/article-pdf/34/23/4118/48921148/ bioinformatics\_34\_23\_4118.pdf.
- Ma Q., Liu B., Zhou C., Yin Y., Li G., Xu Y. An integrated toolkit for accurate prediction and analysis of cis-regulatory motifs at a genome scale. Bioinformatics. 2013. 07. V. 29. N 18. P. 2261-2268. https://academic.oup.com/bioinformatics/article-pdf/29/18/2261/50782707/ bio informatic s\_ 29\_18\_ 2261.pdf.
- Bailey T. L. STREME: accurate and versatile sequence motif discovery // Bioinformatics. 2021. 03. V. 37. N 18. P.2834-2840. https://academic.oup.com/bioinformatics/article-pdf/37/ 18/2834/50579626/btab203.pdf.
- Di Tommaso P., Chatzou M., Floden E. W., Barja P. P., Palumbo E., Notredame C. Nextflow enables reproducible computational workflows // Nature biotechnology. 2017. V. 35. N. 4. P. 316-319.
- Li G., Ma Q., Мао X., Yin Y., Zhu X., and Xu Y. Integration of sequence-similarity and functional association information can overcome intrinsic problems in orthology mapping across bacterial genomes // Nucleic acids research. 2011. V. 39. N. 22. P. el50-el50.
- Li G., Liu B., Ma Q., Xu Y. A new framework for identifying cis-regulatory motifs in prokaryotes // Nucleic acids research. 2011. V. 39. N 7. P. e42-e42.
- Mao X., Ma Q., Zhou C., Chen X., Zhang H., Yang J., Mao F., Lai W., Xu Y. DOOR 2.0: presenting operons and their functions through dynamic and integrated views // Nucleic acids research.2014. V. 42. N. D1. P. D654–D659.
- Peltek S., Bannikova S., Khlebodarova T. M., Uvarova Y., Mukhin A. M., Vasiliev G., Scheglov M., Shipova A., Vasilieva A., Oshchepkov D., Bryanskaya A., Popik V. The Transcriptomic Response of Cells of the Thermophilic Bacterium Geobacillus icigianus to Terahertz Irradiation // International Journal of Molecular Sciences. 2024. V. 25. N 22.
- Diesh C., Stevens G. J., Xie P., De Jesus Martinez T., Hershberg E. A., Leung A., Guo E., Dider S., Zhang J., Bridge C., et al. JBrowse 2: a modular genome browser with views of synteny and structural variation // Genome biology. 2023. V. 24. N 1. P. 74.
- Pratt H., Weng Z. LogoJS: a Javascript package for creating sequence logos and embedding them in web applications // Bioinformatics. 2020. 03. V. 36. N 11. P. 3573-3575. https://academic.oup. com/bioinformatics/article-pdf/36/11/3573/50670952/bioinformatics\_36\_11\_3573.pdf
Библиографическая ссылка: Мухин А. М., Ощепков Д. Ю., Лашин С. А.Вычислительный конвейер по распознаванию сайтов связывания транскрипционных факторов в бактериальных геномах de novo //"Проблемы информатики", 2024, № 4, с.69-83. DOI: 10.24412/2073-0667-2024-4-69-83. - EDN: UGUBKF