English version
Flux RSS
Accueil
Accueil > Publications > Info Science > Fil d'Info Science > L’évolution des technologies « -omiques » : les gènes s’expriment en numérique, ou la bio-informatique au service d’une chimie plus durable

Fil d'Info Science

L’évolution des technologies « -omiques » : les gènes s’expriment en numérique, ou la bio-informatique au service d’une chimie plus durable

Mai 2016

Des équipes de recherche d’IFPEN en biotechnologie et en traitement de données développent des méthodologies scientifiques et des outils d’analyse bio-informatique originaux permettant de mieux comprendre le fonctionnement des champignons producteurs d’enzymes utilisés pour les biocarburants du futur. Ce travail fournit une aide précieuse dans l’analyse de quantités gigantesques de données « -omiques » pour identifier, plus rapidement, les voies enzymatiques les plus performantes.
Des informations plus détaillées sont disponibles dans les publications [1,2,3,4], ainsi que dans la vidéo : https://www.youtube.com/watch?v=ZUQj9YMPdVU

L’émergence de bioprocédés industriels représente un défi majeur dans le contexte de la « Transition énergétique » et des  « solutions de la nouvelle France industrielle ». Les actions de recherche associées incluent les procédés de production de biocarburants de 2e génération, lesquels permettent de valoriser des déchets végétaux en convertissant la ligno-cellulose (un constituant non alimentaire, issu de la paroi des plantes) en sucres précurseurs de l’éthanol.

Dans les voies de production basées sur la biomasse lignocellulosique, l’une des étapes essentielles, et surtout l’une des plus coûteuses, est la production de biocatalyseurs (des enzymes) capables de rendre cette conversion compétitive. L’amélioration de cette étape passe par une meilleure compréhension des micro-organismes producteurs d’enzymes, tels Trichoderma reesei, un champignon filamenteux (figure 1).

Figure 1 - Trichoderma reseei, un champignon filamenteux producteur d'enzymes. (A) en culture sur boîte de Petri, (B) vue au microscope

Des gros volumes de données à traiter

Les protocoles de recherche visant à la compréhension du vivant ont été profondément renouvelés par l’émergence des technologies dites « -omiques »*. Celles-ci permettent un accès inédit, et à différentes échelles, aux mécanismes biologiques fondamentaux, fournissant par là même une matière informative foisonnante et complexe sur le fonctionnement de la cellule. L’analyse du génome (séquences d’ADN), du transcriptome (expression des gènes), ou du métabolome (molécules produites par le métabolisme) en sont quelques  exemples (https://en.wikipedia.org/wiki/List_of_omics_topics_in_biology). De telles  analyses génèrent d’importants volumes de données, riches en information potentielle, mais dont l’intégration et l’interprétation mobilise des compétences transverses, à la croisée des biotechnologies et du développement d’analyse algorithmique. En effet, si les cellules d’un même organisme possèdent un génome identique, l’expression des gènes varie considérablement selon la cellule, selon la  période (croissance, reproduction, etc.) et selon les conditions dans lesquelles est placé l’organisme étudié.

D’ores et déjà, la combinaison de données génomiques (les « notes ») et transcriptomiques (la « musique ») dans des conditions représentatives de procédés industriels a permis à IFPEN et ses partenaires de recherche de révéler certains gènes essentiels (des « solistes ») impliqués dans la production d’enzymes [1,2,3]. Cette connaissance nouvelle a débouché sur le dépôt de plusieurs brevets qui visent au développement de micro-organismes plus performants, dans l’optique de procédés plus efficaces.

Cependant, une exploitation plus exhaustive de ces données massives et hétérogènes constitue un enjeu majeur. En effet, la quantité de gènes impliqués (plusieurs milliers) et le nombre exponentiel d’interactions qui en résulte conduisent souvent à s’intéresser à l’information la plus directement accessible. Cela revient à sélectionner a priori un nombre restreint de gènes très visibles, jouant « fortissimo », au risque d’en négliger d’autres, aux nuances « pianissimo ». Hors, ces derniers peuvent jouer un rôle majeur dans l’interprétation biologique de la partition génomique.
 

Le logiciel Brane Cut d’analyse bio-informatique

La collaboration des équipes de recherche d’IFPEN en Biotechnologie et Contrôle, Signal et Système a notamment conduit à l’élaboration de BRANE Cut, un nouvel outil d’analyse bio-informatique. Il représente, sous forme de graphe des mesures d’interactions croisées, et modélise les couplages biologiques attendus entre différents groupes de gènes, dans un réseau de régulation (figure 2).

Figure 2 - Réseau de gènes généré par BRANE Cut

Cette méthodologie permet, par exemple, d’établir des relations entre des gènes dits régulateurs et d’autres gènes produisant des enzymes. L’originalité de cet outil réside dans la formulation du problème d’optimisation associé aux couplages modélisés, lequel est résolu par un algorithme de coupe de graphes très rapide.

La pertinence des résultats fournis par cet outil a été validée sur des micro-organismes modèles [4], dont les mécanismes biologiques, et notamment les interactions génétiques, sont relativement bien connus. Cette validation est menée à la fois sur des données expérimentales et des données de simulation (challenges « Dialogue for Reverse Engineering Assessments and Methods » (DREAM4, DREAM5 [5]). Ces ensembles de données de référence permettent de réaliser un parangonnage (benchmark) de méthodes d’inférence de réseaux biologiques, pour lesquelles BRANE Cut offre des performances en précision supérieures à l’état de l’art, pour des mesures standard de classification (figure 3).

Figure 3 - Classification des gènes induits ou réprimés en condition lactose

Une telle validation permet d’appliquer cet outil avec confiance à l’analyse d’organismes moins bien connus. Mis en œuvre sur les souches de Trichoderma reesei, il confirme et consolide les connaissances acquises précédemment par expertise biologique [3].
Sur cette base prometteuse, le logiciel BRANE Cut est actuellement testé en analyse prédictive sur de nouveaux jeux de données « -omiques » de souches de Trichoderma reesei présentant des patrimoines génétiques et des potentiels de production de cellulases différents. Ce travail vise à identifier plus finement des groupes de gènes en interaction (« à l’unisson »), à la fois fortement et faiblement exprimés, dans la production de biocatalyseurs.

 
Publications

[1] Le Crom, S. et al., Tracking the roots of cellulase hyperproduction by the fungus Trichoderma reesei using massively parallel DNA sequencing, Proceedings of the National Academy of Sciences of the United States of America, 2009 [DOI : 10.1073/pnas.0905848106]

[2] Marie-Nelly, H. et al., High-quality genome (re) assembly using chromosomal contact data, Nature Communications, 2014 [DOI : 10.1038/ncomms6695]

[3] Poggi-Parodi, D. et al., Kinetic transcriptome analysis reveals an essentially intact induction system in a cellulase hyper-producer Trichoderma reesei strain, Biotechnology for biofuels, 2014 [DOI :10.1186/s13068-014-0173-z]

[4] Pirayre, A. et al., BRANE Cut: biologically-related a priori network enhancement with graph cuts for gene regulatory network inference, BMC Bioinformatics, 2015 [DOI : 10.1186/s12859-015-0754-2]

[5] Marbach, D. et al., Wisdom of crowds for robust gene network inference, Nature Methods, 2012 [DOI : 10.1038/nmeth.2016]
 

* Les sciences « -omiques »  permettent de générer des quantités massives de données à des niveaux biologiques multiples. Du séquençage des gènes à l’expression des protéines et des structures métaboliques, ces données peuvent couvrir tous les mécanismes impliqués dans les variations qui se produisent dans les réseaux cellulaires et qui influencent le fonctionnement des systèmes organiques dans sa totalité.


 

L'espace Découverte vous propose des clés pour comprendre les enjeux énergétiques du 21ème siècle liés à un développement durable de notre planète.

Liste de liens

  • Imprimer la page