Modélisation des réseaux biologiques
La modélisation des réseaux biologiques est un outil d'analyse essentiel dans la visualisation et la compréhension des interactions existant dans le monde du vivant, que ce soit pour suivre des systèmes de régulation de gènes ou le fonctionnement de voies métaboliques complètes (respiration, photosynthèse, etc.).
Cependant, la construction de réseaux à partir de données expérimentales n'est parfois pas suffisante pour recouvrir un large spectre d'interactions. Une nouvelle méthode intervient alors : la reconstruction de réseaux. Le développement d'algorithmes a ainsi permis la combinaison de réseaux de petite taille pour reconstruire des réseaux couvrant un plus grand éventail d'interactions (ex : réseaux intégrant de plus nombreuses données multi-omiques).
Représentation des données
[modifier | modifier le code]Depuis les années 1990, le nombre de ressources disponibles sur les bases de données ne cesse d’augmenter. Pour répondre à cette forte augmentation, des méthodes de représentation et d’analyse ont dû être mises en place. Parmi ces dernières, on trouve la représentation des données sous forme de réseau. Comme dans la théorie des graphes classique, un réseau est composé de nœuds pouvant être reliés entre eux par des arêtes. Les nœuds sont constitués de protéines, gènes, enzymes, facteurs de transcriptions, etc., donc de composés biologiques de manière plus générale. Les arêtes, quant à elles, représentent les interactions physiques, génétiques et/ou fonctionnelles entre ces composés : cela peut être par exemple une interaction protéine-protéine.
L’un des premiers avantages de la représentation en réseau est la visualisation à l’aide des outils cités dans la partie Ressources. De plus, la représentation des données en réseau permet l'application de la théorie des graphes et donc des algorithmes d’analyse propres à ce champ aux données biologiques. L’application de telles méthodes a permis par exemple l’analyse de la topologie des réseaux biologiques qui semble mieux décrite par le modèle réseau sans échelle (ou scale-free en anglais) [1]. En effet, la probabilité qu’un nœud quelconque d’un réseau biologique participe dans k réactions suit une loi de puissance, caractéristique propre aux réseaux scale-free, dont font partie le réseau web ou les réseaux sociaux. Concrètement, cela se traduit par beaucoup de nœuds peu connectés, qui ne participent que dans peu de réactions, et quelques nœuds très connectés appelé hub, qui sont impliqués dans beaucoup de réactions. L’étude de ces hub peut donc représenter un grand intérêt.
Raffinement du réseau
[modifier | modifier le code]La représentation des données biologiques est loin d'être parfaite. Cette imperfection s'explique par la grande variabilité et la diversité des êtres vivants. De plus, les bases de données d'interactions, de réactions des gènes, des voies métaboliques et autres sont incomplètes. En effet, il n'est pas rare que certaines protéines, gènes ou réactions intermédiaires n'aient pas été identifiés. Comme la construction de réseau repose sur la mise en relation des interactions inter- ou intra-omiques pour étudier l'impact d'une modification sur le système, les informations partielles, imprécises ou manquantes provoquent une imprécision des modèles construits.
Ainsi les modèles sont incomplets. Au cours des années, des gènes, des protéines, des métabolites et des fonctions associés à ses derniers sont découverts. Ces découvertes doivent être ajoutées au réseau au fur et à mesure, cela nécessite de reconstruire le réseau avec la nouvelle information et d'à nouveau estimer les conclusions réalisées sur le réseau précédent.
Le raffinage de réseau implique dans un premier temps que les observations faites sur un réseau ne peuvent être considérées comme une preuve d'un effet car l'interprétation peut être modifiée par de nouvelles informations ajoutées au réseau. Ainsi un réseau reste un outil qui n'apporte pas une réponse exacte et constitue une preuve moins importante qu'une étude en paillasse ou sur une cohorte.
Reconstruction de réseaux
[modifier | modifier le code]La reconstruction des réseaux biologiques fait face à certains problèmes causés par le bruit et les lacunes dans les mesures (par exemple le nombre de nœuds intermédiaires, s'ils sont cachés ou inobservables, est inconnu) prises dans les réseaux dynamiques à relations non linéaires et aléatoires (les relations des nœuds dans les réseaux biologiques dynamiques sont sans exception non linéaires[2] et peuvent parfois être aléatoires, par exemple lors d’interactions protéine-protéine).
Il existe des outils pour prédire la structure de tels réseaux : ceux-ci se reposent majoritairement sur l’inférence Bayésienne[3] et la théorie de l’information[4]. La plupart de ces méthodes font fi de la signifiance des données et utilisent des heuristiques pour prédire les informations absentes ou mal renseignées des données. Une approche de reconstruction des réseaux a été développée afin d'identifier si les données sont suffisamment informatives et complètes, et estime la faisabilité de cette reconstruction[5].
Une autre façon d’effectuer de la reconstruction de réseaux peut être basée sur l’homologie. En effet, pour reconstruire des réseaux métaboliques de grande ampleur, il est avant tout nécessaire de se baser sur les informations connues de l’organisme étudié - présentes dans les bases de données citées dans la partie Ressources notamment. Cependant, il est également possible de poser l’hypothèse que des réactions existant chez un organisme proche d’un point de vue phylogénétique pourraient se retrouver également chez l’organisme étudié. Ainsi, les informations de modèles différents sont alors regroupées, et des algorithmes peuvent ensuite permettre d’évaluer la fiabilité des hypothèses d’homologie posées précédemment. Un réseau métabolique complexe peut alors être reconstruit à partir d’informations provenant de différents organismes.
Une autre méthode de reconstruction de réseaux consiste à confronter et intégrer des données provenant de différentes sources, méthode présentée dans l'article de K. Radrich et al. [6]. Cette approche se base sur le fait que les bases de données peuvent contenir des erreurs (ou GAPS) concernant les enzymes, réactions, etc. Cependant, dans le cas où deux sources sont indépendantes, il est moins vraisemblable que la même erreur soit apparue deux fois. La méthode consiste à former trois réseaux : un réseau appelé modèle de base, un réseau intermédiaire et un réseau complet. Le modèle de base ne contient que les éléments biologiques et les réactions qui ont été identifiés dans plusieurs sources différentes. Le réseau intermédiaire est constitué des éléments qui ont une forte connexion avec ceux du modèle de base mais qui n'ont été identifiés que dans une seule source. Enfin, le modèle complet contient tous les autres composés qui présentent un lien avec ceux du modèle intermédiaire.
Exemples d'applications
[modifier | modifier le code]La reconstruction et l'analyse de réseaux offrent de nombreuses possibilités pour comprendre différents modèles du vivant et les nombreuses interactions existant dans l'organisme.
Facteurs de transcription et gènes
[modifier | modifier le code]Saccharomyces cerevisiae est l'un des organismes modèles les plus étudiés en biologie. De nombreux réseaux ont été construits pour comprendre différents aspects de son fonctionnement, notamment les interactions entre facteurs de transcription et gènes à travers le cycle cellulaire, la sporulation ou la réponse au stress. Ainsi, la construction du réseau biologique a permis d'observer la participation de certains facteurs de transcription (95 sur les 142 étudiés) dans de multiples processus cellulaires. Les régulations de ces mécanismes apparaît donc comme résultant d'une somme d'interactions et non de certains facteurs pris individuellement. De plus, il est alors possible d'identifier les facteurs ayant une importance capitale sur le réseau comme ceux retrouvés dans les interactions de ces nombreux processus[7].
Synthèse de composants essentiels
[modifier | modifier le code]Une étude de construction de réseaux chez Arabidopsis thaliana, un organisme modèle de la biologie végétale, a permis d'analyser les réactions métaboliques pour en tirer différentes conclusions. Ainsi, la dite étude a pu cibler les réactions minimales nécessaires (227 sur les 1406 réactions identifiées initialement) pour synthétiser les principaux composants de la biomasse (cellulose, lignine, hemicellulose, etc.) chez cette plante. L'action de la rubisco dans des contextes non-photosynthétiques a également été retrouvée, dans des conditions où la demande en ATP est faible : la rubisco est alors vue comme agissant hors du cycle de Calvin. Enfin, l'intégration de différents réseaux a permis de souligner le coût énergétique des réactions via la pondération des arètes des différentes réactions métaboliques[8].
Impact d'un perturbateur endocrinien
[modifier | modifier le code]De nombreux réseaux permettent de mettre en évidence l'action des certaines molécules exogènes sur l'organisme humain, et leur rôle potentiel de perturbateur endocrinien. C'est le cas notamment du bisphénol A (BPA), dont l'impact à fortes dose est connu pour perturber différentes voies métaboliques, notamment celles de la reproduction et du développement. Une étude basée notamment sur la reconstruction de réseau a étudié l'impact de ce composant, mais cette fois-ci à faible dose, en comparant son action à celle de l'œstradiol. La reconstruction de réseau a ainsi permis de mettre en évidence des voies métaboliques sur lesquelles les deux molécules avaient un impact commun : des analyses plus pousées de ces-dits réseau ont révélé un impact du BPA sur les voies de production et dégradation de ApoC-III et ApoC-I, ainsi que dans les voies métaboliques de la leucine et de l'isoleucine. Ainsi, il a été montré que le BPA même à faible dose partageait un impact similaire à celui de l'œstradiol sur différentes voies métaboliques, étroitement liées à la reproduction notamment[9].
Régulation du système immunitaire
[modifier | modifier le code]Un dernier exemple a permis d'étudier les mécanismes du système immunitaire chez les mammifères. Ainsi, la reconstruction de réseaux a permis de mettre en évidence différents sous-réseaux, concernant notamment la réponse immunitaire innée associée aux PAMP, ainsi que la réponse antivirale, qui ont toutes les deux été induites dans l'étude par la LPS, un composant d'Escherichia coli. Il a été montré que le premier sous-système étudié possède des mécanismes dits de "feed-forward", et donc que son activation répondait en majorité à la présence de signaux (ici d'infection) continus. Le sous-système de la réaction antivirale quant à lui présente des boucles de "feed-forward" mais également des boucles de rétroaction, notamment pour contrôler la production de INFB1[10].
Nouvelles perspectives
[modifier | modifier le code]L’intégration de données biologiques additionnelles dont la quantité augmente de façon spectaculaire dans la conception des réseaux d’interactions annonce une avancée considérable dans le domaine de la biologie des systèmes. Parmi les nombreuses façon d’améliorer les réseaux biologiques on peut noter l’apport de l’information structurale des protéines, du contexte fonctionnel et évolutif, des conditions environnementales, de l’information temporelle ainsi que de la localisation spatiale. Cependant, des barrières computationnelles et théoriques importantes brident l’intégration, la modélisation et l’exploitation de ces données[11].
Des progrès algorithmiques importants ont eu lieu ces dernières années pour permettre de modéliser des réseaux complexes qui intègrent des données dynamiques (comme les données spatiales et temporelles)[12].
Au niveau du hardware, l’utilisation des processeurs graphiques (GPU ou Graphics Processing Unit en anglais) qui permettent de paralléliser les calculs à bas prix est de plus en plus répandue[13]. Cependant, le calcul sur GPU requiert un type d’algorithme adapté car il diffère des traditionnels calculs sur processeurs (CPU ou Central Processing Unit en anglais), demandant un travail d’adaptation parfois conséquent.
Pour pouvoir développer des réseaux ou de nombreuses informations sont croisées, l’annotation des données doit être uniforme pour maintenir la cohérence du réseau et éviter les redondances. De nombreuses méthodes d’annotation automatiques ont été développées dans ce but[14],[15], malgré cela elles sont toujours largement inférieures aux annotations humaines et mènent souvent à des erreurs[16]. Dans certaines bases de données qui contiennent des informations plus complexes comme les Adverse Outcome Pathways (AOP ou chemin aux issues défavorables), deux annotations d’un même phénomène peuvent différer, ce qui rend la modélisation encore plus difficile.
Ressources
[modifier | modifier le code]Littérature
[modifier | modifier le code]PubMed est une librairie en ligne développée par le NCBI (National Center for Biotechnology Information), qui contient une collection massive de journaux médicaux.
Bases de données
[modifier | modifier le code]Il existe plusieurs bases de données permettant d'obtenir différents types de ressources. En voici quelques-unes :
- Kyoto Encyclopedia of Genes and Genomes (ou KEGG) est une base de données bio-informatique contenant des informations de gènes, protéines, réactions et voies métaboliques.
- BioCyc est une collection de 18,030 bases de données de voies métaboliques et génomes (à compter de février 2021), dont chacune est consacrée à un organisme. EcoCyc et MetaCyc font partie de cette collection.
- EcoCyc est une base de données très détaillée du génome et de la reconstruction métabolique dEscherichia coli, incluant par descriptions des voies de signalisations et réseaux de régulations dE. coli. Cette base de données peut servir de modèle pour les (re)constructions.
- MetaCyc est une encyclopédie de voies métaboliques définies expérimentalement mais aussi d'enzymes. Elle contient 2,859 voies métaboliques de 3,185 organismes différents.
- ENZYME est une base de données de nomenclature d'enzymes faisant partie du serveur protéomique Expasy de l'Institut suisse de bioinformatique. Après la recherche d'une enzyme particulière dans la base de données, cette dernière renvoie la réaction catalysée par l'enzyme. ENZYME possède des liens directs avec les bases de données de gènes, enzymes ou littératures comme KEGG, BRENDA et PubMed.
- BRENDA est une base de données exhaustive d'enzymes qui permet de chercher l'enzyme par son nom, par sa nomenclature EC ou par son organisme.
- BiGG Models est une base de connaissances de constructions de réseaux métaboliques à l'échelle du génome, structurés biochimiquement, génétiquement et génomiquement.
- metaTIGER est une collection de profils métaboliques et informations phylogénomiques sur la taxonomie d'un large éventail d'eucaryotes. Elle apporte de nouvelles possibilités pour visionner et comparer les profils métaboliques.
- Reactome est une base de données de 2,477 voies métaboliques, 13,534 réactions, 10,929 protéines, 1,854 petites molécules, 414 drogues et 32,493 références de littératures (à compter de février 2020).
Base de données | Champs d'application | ||||
---|---|---|---|---|---|
Enzymes | Gènes | Réactions | Voies métaboliques | Métabolites | |
KEGG | X | X | X | X | X |
BioCyc | X | X | X | X | X |
EcoCyc | X | X | X | ||
MetaCyc | X | X | X | X | |
ENZYME | X | X | X | ||
BRENDA | X | X | X | ||
BiGG | X | X | X | ||
metaTIGER | X | X | X | ||
Reactome | X | X | X |
Outils de visualisation
[modifier | modifier le code]La représentation de réseau nécessite des outils de visualisation, voici une liste non exhaustive de ces derniers :
- Cytoscape[17] est un logiciel d'analyse et de visualisation de réseaux biologiques. Il supporte de nombreux formats de données et permet de générer des réseaux dont l'apparence est entièrement personnalisable. En plus de l'apparence, Cytoscape permet de calculer des propriétés basiques des graphes (degré des nœuds, centralité intermédiaire, etc.). De nombreux modules d'extension sont également disponibles et permettent de réaliser des analyses plus poussées.
- VANTED[18] comme Cytoscape est un autre logiciel d'analyse et de visualisation des réseaux. Il supporte également de nombreux formats de données et l'apparence des réseaux est aussi personnalisable.
- Pathview[19] est un package R/Bioconductor pour l'intégration et la visualisation des voies biologiques.
- PathVisio[20] permet la représentation de WikiPathways[21].
- GeneMANIA[22] permet la visualisation des interactions physiques et génétiques. Il est également utilisable en tant qu'extension de Cytoscape.
Notes et références
[modifier | modifier le code]- (en) H. Jeong, B. Tombor, R. Albert et Z. N. Oltvai, « The large-scale organization of metabolic networks », Nature, vol. 407, no 6804, , p. 651–654 (ISSN 1476-4687, DOI 10.1038/35036627, lire en ligne, consulté le )
- (en) Junjie Jiang et Ying-Cheng Lai, « Irrelevance of linear controllability to nonlinear dynamical networks », Nature Communications, vol. 10, no 1, , p. 3961 (ISSN 2041-1723, PMID 31481693, PMCID PMC6722065, DOI 10.1038/s41467-019-11822-5, lire en ligne, consulté le )
- Norbert Dojer, Anna Gambin, Andrzej Mizera et Bartek Wilczyński, « Applying dynamic Bayesian networks to perturbed gene expression data », BMC Bioinformatics, vol. 7, no 1, , p. 249 (ISSN 1471-2105, PMID 16681847, PMCID PMC1513402, DOI 10.1186/1471-2105-7-249, lire en ligne, consulté le )
- (en) A. J. Butte et I. S. Kohane, « MUTUAL INFORMATION RELEVANCE NETWORKS: FUNCTIONAL GENOMIC CLUSTERING USING PAIRWISE ENTROPY MEASUREMENTS », Biocomputing 2000, WORLD SCIENTIFIC, , p. 418–429 (ISBN 978-981-02-4188-9, DOI 10.1142/9789814447331_0040, lire en ligne, consulté le )
- (en) Ye Yuan, Guy-Bart Stan, Sean Warnick et Jorge Goncalves, « Robust dynamical network structure reconstruction », Automatica, special Issue on Systems Biology, vol. 47, no 6, , p. 1230–1235 (ISSN 0005-1098, DOI 10.1016/j.automatica.2011.03.008, lire en ligne, consulté le )
- (en) Karin Radrich, Yoshimasa Tsuruoka, Paul Dobson et Albert Gevorgyan, « Integration of metabolic databases for the reconstruction of genome-scale metabolic networks », BMC Systems Biology, vol. 4, no 1, , p. 114 (ISSN 1752-0509, PMID 20712863, PMCID PMC2930596, DOI 10.1186/1752-0509-4-114, lire en ligne, consulté le )
- (en) Nicholas M. Luscombe, M. Madan Babu, Haiyuan Yu et Michael Snyder, « Genomic analysis of regulatory network dynamics reveals large topological changes », Nature, vol. 431, no 7006, , p. 308–312 (ISSN 1476-4687, DOI 10.1038/nature02782, lire en ligne, consulté le )
- (en) Mark G. Poolman, Laurent Miguet, Lee J. Sweetlove et David A. Fell, « A Genome-Scale Metabolic Model of Arabidopsis and Some of Its Properties », Plant Physiology, vol. 151, no 3, , p. 1570–1581 (ISSN 0032-0889 et 1532-2548, PMID 19755544, DOI 10.1104/pp.109.141267, lire en ligne, consulté le )
- Nicolas J. Cabaton, Nathalie Poupin, Cécile Canlet et Marie Tremblay-Franco, « An Untargeted Metabolomics Approach to Investigate the Metabolic Modulations of HepG2 Cells Exposed to Low Doses of Bisphenol A and 17β-Estradiol », Frontiers in Endocrinology, vol. 9, (ISSN 1664-2392, PMID 30319551, PMCID 6167423, DOI 10.3389/fendo.2018.00571, lire en ligne, consulté le )
- Ido Amit, Manuel Garber, Nicolas Chevrier et Ana Paula Leite, « Unbiased reconstruction of a mammalian transcriptional network mediating the differential response to pathogens », Science (New York, N.Y.), vol. 326, no 5950, , p. 257–263 (ISSN 0036-8075, PMID 19729616, PMCID 2879337, DOI 10.1126/science.1179050, lire en ligne, consulté le )
- (en) Allison P. Heath et Lydia E. Kavraki, « Computational challenges in systems biology », Computer Science Review, vol. 3, no 1, , p. 1–17 (DOI 10.1016/j.cosrev.2009.01.002, lire en ligne, consulté le )
- Alexander Groß, Barbara Kracher, Johann M. Kraus et Silke D. Kühlwein, « Representing dynamic biological networks with multi-scale probabilistic models », Communications Biology, vol. 2, no 1, (ISSN 2399-3642, DOI 10.1038/s42003-018-0268-3, lire en ligne, consulté le )
- L. Dematte et D. Prandi, « GPU computing for systems biology », Briefings in Bioinformatics, vol. 11, no 3, , p. 323–333 (ISSN 1467-5463 et 1477-4054, DOI 10.1093/bib/bbq006, lire en ligne, consulté le )
- (en) Anastasia Baryshnikova, « Systematic Functional Annotation and Visualization of Biological Networks », bioRxiv, , p. 030551 (DOI 10.1101/030551, lire en ligne, consulté le )
- Brian J Haas, Steven L Salzberg, Wei Zhu et Mihaela Pertea, « Automated eukaryotic gene structure annotation using EVidenceModeler and the Program to Assemble Spliced Alignments », Genome Biology, vol. 9, no 1, , R7 (ISSN 1465-6906, DOI 10.1186/gb-2008-9-1-r7, lire en ligne, consulté le )
- (en) Alexandra M. Schnoes, Shoshana D. Brown, Igor Dodevski et Patricia C. Babbitt, « Annotation Error in Public Databases: Misannotation of Molecular Function in Enzyme Superfamilies », PLOS Computational Biology, vol. 5, no 12, , e1000605 (ISSN 1553-7358, PMID 20011109, PMCID PMC2781113, DOI 10.1371/journal.pcbi.1000605, lire en ligne, consulté le )
- (en) P. Shannon, « Cytoscape: A Software Environment for Integrated Models of Biomolecular Interaction Networks », Genome Research, vol. 13, no 11, , p. 2498–2504 (ISSN 1088-9051, PMID 14597658, PMCID PMC403769, DOI 10.1101/gr.1239303, lire en ligne, consulté le )
- Hendrik Rohn, Astrid Junker, Anja Hartmann et Eva Grafahrend-Belau, « VANTED v2: a framework for systems biology applications », BMC Systems Biology, vol. 6, no 1, , p. 139 (ISSN 1752-0509, PMID 23140568, PMCID PMC3610154, DOI 10.1186/1752-0509-6-139, lire en ligne, consulté le )
- Weijun Luo et Cory Brouwer, « Pathview: an R/Bioconductor package for pathway-based data integration and visualization », Bioinformatics, vol. 29, no 14, , p. 1830–1831 (ISSN 1460-2059 et 1367-4803, PMID 23740750, PMCID PMC3702256, DOI 10.1093/bioinformatics/btt285, lire en ligne, consulté le )
- (en) Martina Kutmon, Martijn P. van Iersel, Anwesha Bohler et Thomas Kelder, « PathVisio 3: An Extendable Pathway Analysis Toolbox », PLOS Computational Biology, vol. 11, no 2, , e1004085 (ISSN 1553-7358, PMID 25706687, PMCID PMC4338111, DOI 10.1371/journal.pcbi.1004085, lire en ligne, consulté le )
- (en) Marvin Martens, Ammar Ammar, Anders Riutta et Andra Waagmeester, « WikiPathways: connecting communities », Nucleic Acids Research, vol. 49, no D1, , D613–D621 (ISSN 0305-1048 et 1362-4962, PMID 33211851, PMCID PMC7779061, DOI 10.1093/nar/gkaa1024, lire en ligne, consulté le )
- Max Franz, Harold Rodriguez, Christian Lopes et Khalid Zuberi, « GeneMANIA update 2018 », Nucleic Acids Research, vol. 46, no W1, , W60–W64 (ISSN 0305-1048 et 1362-4962, PMID 29912392, PMCID PMC6030815, DOI 10.1093/nar/gky311, lire en ligne, consulté le )