CSTB team: Complex Systems and Translational Bioinformatics

Theoretical Bioinformatics

From CSTB team: Complex Systems and Translational Bioinformatics
Revision as of 16:47, 30 November 2016 by Thompson (talk | contribs)
Jump to navigation Jump to search

en:Theoretical Bioinformatics

INTRODUCTION

Since their beginnings in 1983, the research work in theoretical bioinformatics carried out by Christian Michel has positioned itself in the identification of properties in genes. In particular, they were the subject of 71 international papers with refereed journals in two disciplines: bioinformatics-biomathematics and theoretical-combinatorial computer science, including 12 articles as the sole author and 39 articles with two authors.

Three results are considered by the bioinformatics community to be major: (i) the discovery of circular codes in the genes and their statistical and combinatorial study; (Ii) stochastic models of gene evolution by substitution of genetic patterns for linear evolution (extension of classical nucleotide models) and its generalizations to non-linear and pseudo-chaotic evolutions; And (iii) stochastic models of gene evolution by substitution, insertion and deletion of genetic motifs. This theory of circular code is currently the subject of numerous developments in combinatorics, bioinformatics and biology by different groups of researchers.

However, results in other disciplines of bioinformatics have also been obtained: identification of signals in genes; Computer models of gene evolution (rational languages, stochastic automata, Markov mixtures); Phylogenetic distances and their methods of inference; And the development of research software in bioinformatics.

SCIENTIFIC ACTIVITIES

Research in theoretical bioinformatics is currently focused on circular codes, from bioinformatics to combinatorics; Stochastic models of gene evolution by substitution, insertion and deletion of genetic motifs; and inference of genetic networks.

Combinatorial study of the circular codes of dinucleotides and trinucleotides (Christian Michel)
A new concept in the so-called "collar" theory allows us to describe varieties of commas-free codes and circular codes. Its generalization then makes it possible to make a theoretical bridge between the codes commas-free and the circular codes, two classes of codes considered until now as disjoint. We identify a new class of codes, strong circular codes that are more constrained than commas-free codes. Dinucleotide circular codes (2 letter words on an alphabet of 4 letters) are identified and defined by properties for their prefixes and suffixes. Recently (2016), an approach by the theory of graphs allows to obtain new theorems with circular codes formed of words of any length (finite) on a finite alphabet.

Probabilistic models of gene evolution by substitution of genetic motifs (Emmanuel Benard, Christian Michel)
The classical evolution models of nucleotides (Jukes and Cantor, 1969, Kimura, 1980, 1981) are generalized to genetic patterns of any size (finite) with a mathematical approach based on Kronecker operators (product and sum). These extended models thus make it possible to determine the probability of exact occurrence (analytical solution) of a genetic pattern of any size (dinucleotides, trinucleotides, etc.) over time as a function of substitution parameters (transition and transversions) associated with Each site of the studied patterns. Evolution can be in the direct sense (from the past to the present) but also in the opposite direction (from the present to the past).

Probabilistic models of gene evolution by substitution, insertion and deletion of genetic motifs (Sophie Lèbre, Christian Michel)
There are only two or three classes of probabilistic models of gene evolution involving both substitution, insertion and deletion of nucleotides. One of the reasons is the mathematical difficulty, from a modeling point of view, but also in the determination of analytical solutions. We develop a new more general class of evolution models in which the insertion and deletion parameters are explicit parameters independent of the substitution parameters with, in addition, an insertion rate which decreases as the length of the sequence grows . '

The idea of ​​this approach is based on the introduction of a concept derived from population dynamics to obtain a system of differential equations combining the classical substitution process with the insertion / deletion process. By deriving a general solution verified for any diagonalizable substitution matrix, we obtain an analytic expression of the probability of occurrence of the nucleotides as a function of time, the eigenvalues ​​and eigenvectors of the substitution matrix, the vector of the insertion rates of Nucleotides, the total insertion rate, the initial and maximum lengths of the sequence and the vector of the initial probabilities of the nucleotides. The analytic solutions are nontrivial with Gaussian hypergeometric functions and Kronecker operators (product and sum). Various mathematical properties are obtained: time scale, time decomposition, time inversion and time transformation as a function of the length of the sequence.

Stochastic models for the inference of genetic networks (Sophie Lèbre)
Other stochastic approaches concern the reconstruction of genetic regulation networks. We have thus developed the ARTIVA (Auto Regressive TIme VArying) network model which has the particularity of proposing a variable dependency structure over time for continuous data. A Monte Carlo Method using Markov Chains (MCMC) with reversible jumps has been specifically adapted for the inference of this model from time series of gene expression. This approach has proved to be more efficient than the latest on several datasets. We then refined the model by introducing an exchange of information between the successive structures of the network. Different adaptations of this model allow to modulate the type of information sharing (inter or intra genes), thus bringing a clear improvement in the quality of the estimation.

ARTICLE DE JOURNAUX INTERNATIONAUX AVEC COMITE DE LECTURE

Les articles en pdf peuvent être téléchargés sur le site de Christian MICHEL

LOGICIEL DE RECHERCHE

GETEC (Genome Evolution by Transformation, Expansion and Contraction) (Emmanuel Benard, Sophie Lèbre, Christian Michel)
GETEC (écrit en Mathematica et webMathematica) permet de modéliser l'évolution des gènes en déterminant les probabilités d'occurrence exactes (solutions analytiques) de motifs génétiques de longueur finie, l'implémentation étant réalisée pour des longueurs de 1 à 5 (nucléotides, dinucléotides, trinucléotides, quadrinucléotides et pentanucléotides), au cours du temps en fonction (i) de paramètres de substitution (de 1 à 3 taux par site des motifs), (ii) d'un vecteur de taux d'insertion des motifs, (iii) d'un taux de délétion et (iv) d'un vecteur de probabilités initiales des motifs. La modélisation mathématique utilise en particulier les fonctions hypergéométriques Gaussiennes et les opérateurs de Kronecker (somme et produit). Les formules mathématiques peuvent comporter plusieurs milliers de termes. Ce site permet à la communauté des bioinformaticiens et des biologistes de réaliser leur propre modèle d'évolution des gènes en fonction de leur application biologique.

A ce jour, un tel logiciel de recherche n'a pas d'équivalent en bioinformatique puisqu'il permet de modéliser l'évolution des motifs et des gènes au cours du temps, dans le sens direct (du passé au présent) ou inverse (du présent au passé) et en fonction de paramètres de substitution, d'insertion et de délétion des motifs génétiques. Cette approche directe diffère des méthodes phylogénétiques et d'alignement.

THESE EN COURS

La thèse de Karim El Soufi porte sur des algorithmes de recherche et de visualisation de motifs de codes circulaires. Des motifs du code circulaire X, motifs X en abrégé, sont identifiés dans les régions 5′ et/ou 3′ des ARN de transfert (ARNt) des procaryotes et des eucaryotes et des ARN ribosomiques 16S (ARNr 16S) des procaryotes et des eucaryotes, en particulier dans le centre de décodage du ribosome. De façon inattendue, les nucléotides A1492 and A1493 universellement conservés dans les procaryotes et eucaryotes, et le nucléotide G530 conservé dans les procaryotes appartiennent à des motifs X. Une visualisation 3D des motifs X dans le ribosome montre plusieurs configurations spatiales impliquant des motifs X de l'ARNm, des motifs X de l'ARNt et des motifs X de l'ARNr 16S. Ces travaux ont fait l'objet de 2 articles de journaux internationaux avec comité de lecture et d'un article en soumission.

RESEAUX DE RECHERCHE

  • Réseau de recherche européen composé d'informaticiens, mathématiciens, physiciens et biologistes (français, allemands, italiens, espagnols) dont la thématique de recherche est le codage des gènes. Cette jeune communauté s'est réunie pour la première fois à Mannheim (Allemagne) en 2013. Elle est à l'origine de diverses collaborations scientifiques, de publications (par exemple, Michel et Seligmann, 2014; Fimmel, Michel et Strüngmann, 2016; Fimmel, Giannerini, Gonzalez et Strüngmann, 2014, 2015; etc.) et d'une issue spéciale dans la revue Philosophical Transactions A (février 2016) comportant 21 articles sur le codage-information en génétique.
  • Membre du GdR "Bioinformatique Moléculaire" et du GdR "Informatique Mathématique" dans le groupe de travail "Combinatoire des mots, algorithmique du texte et du génome" depuis plusieurs années.

THEORIE DU CODE CIRCULAIRE DANS LES GENES

La recherche d'un code dans les gènes est un problème très ancien qui a été initié en 1957 par Crick et al. avec les codes comma-free (codes sans ponctuation). L'objectif était d'expliquer comment un ensemble de 20 trinucléotides parmi 64 pouvait coder les 20 acides aminés constituant les protéines. En 1958, les mathématiciens Golomb et al. obtiennent quelques résultats théoriques sur cette classe de codes. La combinatoire explosive avec 320 (3.5 milliards) de codes possibles et la découverte du code génétique ont conduit à l'abandon du concept de codes comma-free.

Cette théorie est restée silencieuse pendant 40 ans. En 1996, nous découvrons dans les gènes une classe de codes plus générale, les codes circulaires. En 2012, une deuxième étape majeure est obtenue avec l'identification de motifs de code circulaire dans les ARN de transfert et ribosomique, en particulier dans le centre de décodage du ribosome. En effet, le dinucléotide AA (A1492 et A1493) et le nucléotide G530 qui sont universellement conservés dans le centre de décodage du ribosome des espèces (eucaryotes, procaryotes) appartiennent à des motifs de code circulaire.

Gonzalez, Giannerini et Rosa ("Circular codes revisited: A statistical approach", J. Theor. Biol, 2011, 275, 21-28) mentionnent dans le résumé de leur article

« In 1996 Arquès and Michel [...] discovered the existence of a common circular code in eukaryote and prokaryote genomes. Since then, circular code theory has provoked great interest and underwent a rapid development. »
« The results [obtenus par les auteurs dans leur article] indicate that, on average, the code proposed by Arquès and Michel has the best covering capability ... »

Gladstone ("Autocorrelation genetic syntax of eukaryotic protein-coding sequences", 2013) cite dans son travail

« Michel has theorized that two codes, the genetic code and the circular code, are used together as key components of the functioning of the ribosomal complex. He has proposed that while the genetic code conveys what amino acids to recruit to the ribosomal complex during translation, the circular code is used for frame identification and synchronization of the ribosomal complex with the ORF. Evidence has been provided that shows circular codes most likely play a role in ribosome synchronization with the ORF (Frey and Michel 2006). A recent analysis of frameshift genes found in eukaryotes and prokaryotes has found a significant correlation between frameshift signals and Michel’s proposed circular code (Ahmed, Frey et al. 2007). »
« … and our understanding of the role these circular codes play in vivo is largely a mystery. »

Fimmel et Strüngmann ("Codon distribution in error-detecting circular codes", Life, 2016, 6, 14) écrivent dans le résumé de leur article

« In 1957, Francis Crick et al. suggested an ingenious explanation for the process of frame maintenance. The idea was based on the notion of comma-free codes. Although Crick’s hypothesis proved to be wrong, in 1996, Arquès and Michel discovered the existence of a weaker version of such codes in eukaryote and prokaryote genomes, namely the so-called circular codes. Since then, circular code theory has invariably evoked great interest and made significant progress. »
« In 2015, by quantifying the approach used in 1996 and by applying massive statistical analysis of gene taxonomic groups, the circular code detected in 1996 was rediscovered extensively in genes of prokaryotes and eukaryotes and now also identified in the genes of plasmids and viruses (Michel, 2015). The codes discovered by Arquès and Michel in nature have even more interesting properties [par rapport aux codes comma-free]. With each codon, its anticodon is also in the code (self-complementarity), and they also have the error detection property in frame 1 and 2 (C3-property). »

Cette théorie du code circulaire propose que les gènes seraient constitués de deux codes:

(i) le code génétique universel et ses codes génétiques variants qui permettent de coder 61 trinucléotides des gènes en 20 acides aminés des protéines;

(ii) le code circulaire universel X et ses codes circulaires variants (Michel, 2015; Arquès and Michel, 1996) qui permettent de: (iia) synchroniser et retrouver automatiquement chacune des trois phases des gènes sur le brin direct de l'ADN (la phase de lecture et ses deux phases décalées grâce à la propriété C3); (iib) s'apparier pour synchroniser et retrouver automatiquement chacune des trois phases des gènes sur le brin complémentaire de l'ADN (propriété de complémentarité); et (iic) coder 20 trinucléotides de X en 12 acides aminés des protéines.