Équipe CSTB : Systèmes Complexes et Bioinformatique Translationnelle

Différences entre les versions de « Bioinformatique Théorique »

De Équipe CSTB : Systèmes Complexes et Bioinformatique Translationnelle
Aller à la navigation Aller à la recherche
(Page blanchie)
 
(20 versions intermédiaires par un autre utilisateur non affichées)
Ligne 1 : Ligne 1 :
[[en:Theoretical Bioinformatics]]
 
==INTRODUCTION==
 
Dès leur début en 1983, les travaux de recherche en bioinformatique théorique portée par Christian MICHEL se sont positionnés au niveau de l'identification de propriétés dans les gènes. Ils ont fait l'objet, en particulier, de 71 articles de journaux internationaux avec comité de lecture dans deux disciplines: bioinformatique-biomathématiques et informatique théorique-combinatoire, dont 12 articles comme unique auteur et 39 articles avec deux auteurs.
 
  
Trois résultats sont considérés par la communauté bioinformatique comme étant majeurs: (i) la découverte de codes circulaires dans les gènes et leur étude statistique et combinatoire; (ii) les modèles stochastiques d'évolution des gènes par substitution de motifs génétiques selon une évolution linéaire (extension des modèles classiques de nucléotides) et ses généralisations aux évolutions non-linéaire et pseudo-chaotique; et (iii) les modèles stochastiques d'évolution des gènes par substitution, insertion et délétion de motifs génétiques. Cette théorie du code circulaire fait actuellement l'objet de nombreux développements en combinatoire, bioinformatique et biologique par différents groupes de chercheurs.
 
 
Cependant, des résultats dans d'autres disciplines de la bioinformatique ont été également obtenus: identification de signaux dans les gènes; modèles informatiques d'évolution des gènes (langages rationnels, automates stochastiques, mélanges markoviens); distances phylogénétiques et leurs méthodes d'inférence; et le développement de logiciels de recherche en bioinformatique.
 
 
==ACTIVITES SCIENTIFIQUES==
 
Depuis 1983, les travaux de recherche les travaux de recherche en bioinformatique théorique ont concerné plusieurs domaines de la bioinformatique. Actuellement, ils sont centrés sur (i) les codes circulaires, des aspects en bioinformatique jusqu'en combinatoire; et (ii) les modèles stochastiques d'évolution des gènes par substitution, insertion et délétion de motifs génétiques.
 
 
'''Etude combinatoire des codes circulaires de dinucléotides et trinucléotides (Christian Michel)'''<br />
 
Nous donnons une preuve mathématique qui démontre que le modèle probabiliste de Koch et Lehmann (1997) ne peut pas générer le code circulaire X.
 
Un nouveau concept en théorie des codes dit "de collier" permet de décrire des variétés de commas-free codes et de codes circulaires.
 
Sa généralisation permet ensuite de faire un pont théorique entre les codes commas-free et les codes circulaires, deux classes de codes considérées jusqu'à présent comme disjointes.
 
La fonction de croissance (nombre et liste) des codes circulaires de trinucléotides est obtenue pour toutes les longueurs de 1 à 20, par exemple son maximum est de 23,403,485,556 codes circulaires de 13 trinucléotides.
 
Nous identifions une nouvelle classe de codes, les codes circulaires forts qui sont plus contraints que les codes commas-free. Les codes circulaires de dinucléotides (mots de 2 lettres sur un alphabet de 4 lettres) sont identifiés et définis par des propriétés pour leurs préfixes et suffixes.
 
Récemment (2015), une approche par la théorie des graphes permet d'obtenir de nouveaux théorèmes avec les codes circulaires formés de mots de longueur quelconque (finie) sur un alphabet fini.
 
 
'''Modèles probabilistes d'évolution des gènes par substitution de motifs génétiques (Emmanuel Benard, Christian Michel)'''<br />
 
Les modèles d'évolution classiques de nucléotides (Jukes et Cantor, 1969; Kimura, 1980, 1981) sont généralisés aux motifs génétiques de taille quelconque (finie) avec une approche mathématique basée sur des opérateurs de Kronecker (produit et somme). Ces modèles étendus permettent ainsi de déterminer la probabilité d'occurrence exacte (solution analytique) d'un motif génétique de taille quelconque (dinucléotides, trinucléotides, etc.) au cours du temps en fonction de paramètres de substitution (transition et transversions) associés à chaque site des motifs étudiés. L'évolution peut être dans le sens direct (du passé au présent) mais également dans le sens inverse (du présent au passé).
 
Des modèles probabilistes d'évolution des gènes sont également développés pour une évolution non-linéaire avec des paramètres de substitution dépendants du temps. Ils permettent ainsi d'accélérer ou de ralentir le processus d'évolution selon divers modes: exponentiel, sinusoïdal, etc.
 
Enfin, ces derniers modèles sont généralisés à une évolution pseudo-chaotique où un nombre aléatoire de motifs génétiques mutent à chaque intervalle de temps dt.
 
 
'''Modèles probabilistes d'évolution des gènes par substitution, insertion et délétion de motifs génétiques (Sophie Lèbre, Christian Michel)'''<br />
 
::''Il n'existe que deux ou trois classes de modèles probabilistes d'évolution des gènes comportant à la fois des processus de substitution, d'insertion et de délétion de nucléotides. Une des raisons en est la difficulté mathématique, d'un point de vue modélisation mais également dans la détermination des solutions analytiques. Nous développons une nouvelle classe plus générale de modèles d'évolution dans laquelle les paramètres d'insertion et de délétion sont des paramètres explicites indépendants des paramètres de substitution avec, de plus, un taux d'insertion qui décroît quand la longueur de la séquence croît.''<br />
 
L'idée de cette approche repose sur l'introduction d'un concept issu de la dynamique des populations permettant d'obtenir un système d'équation différentielle combinant le processus classique de substitution avec le processus d'insertion/délétion. En dérivant une solution générale vérifiée pour toute matrice de substitution diagonalisable, nous obtenons une expression analytique de la probabilité d'occurrence des nucléotides en fonction du temps, des valeurs et vecteurs propres de la matrice de substitution, du vecteur des taux d'insertion de nucléotides, du taux d'insertion total, des longueurs initiale et maximale de la séquence et du vecteur des probabilités initiales des nucléotides. Les solutions analytiques sont non triviales avec des fonctions hypergéométriques Gaussiennes et des opérateurs de Kronecker (produit et somme). Diverses propriétés mathématiques sont obtenues: échelle de temps, décomposition du temps, inversion du temps et transformation du temps en fonction de la longueur de la séquence.
 
 
'''Modèles stochastiques pour l’inférence de réseaux génétiques (Sophie Lèbre)'''<br />
 
D’autres approches stochastiques portent sur la reconstruction de réseaux de régulation génétique. Nous avons ainsi développé le modèle de réseau ARTIVA (Auto Regressive TIme VArying) qui a la particularité de proposer une structure de dépendance variable au cours du temps et ce, pour des données continues. Une méthode de Monte Carlo par Chaînes de Markov (MCMC) à sauts réversibles a été spécifiquement adaptée pour l’inférence de ce modèle à partir de séries temporelles d’expression de gènes. Cette approche s’est montrée plus performante que les dernières en date sur plusieurs jeux de données. Nous avons ensuite affiné le modèle en introduisant un échange d'information entre les structures successives du réseau. Différentes adaptations de ce modèle permettent de moduler le type de partage d’information (inter ou intra gènes), apportant ainsi une nette amélioration de la qualité de l’estimation.
 
 
==ARTICLE DE JOURNAUX INTERNATIONAUX AVEC COMITE DE LECTURE==
 
''Les articles en pdf peuvent être téléchargés sur le site de'' [http://dpt-info.u-strasbg.fr/~c.michel/ Christian MICHEL]
 
 
==LOGICIEL DE RECHERCHE==
 
[http://icube-bioinfo.u-strasbg.fr/webMathematica/GETEC/ GETEC] (Genome Evolution by Transformation, Expansion and Contraction) (Emmanuel Benard, Sophie Lèbre, Christian Michel)<br />
 
GETEC (écrit en Mathematica et webMathematica) permet de modéliser l'évolution des gènes en déterminant les probabilités d'occurrence exactes (solutions analytiques) de motifs génétiques de longueur finie, l'implémentation étant réalisée pour des longueurs de 1 à 5 (nucléotides, dinucléotides, trinucléotides, quadrinucléotides et pentanucléotides), au cours du temps en fonction (i) de paramètres de substitution (de 1 à 3 taux par site des motifs), (ii) d'un vecteur de taux d'insertion des motifs, (iii) d'un taux de délétion et (iv) d'un vecteur de probabilités initiales des motifs. La modélisation mathématique utilise en particulier les fonctions hypergéométriques Gaussiennes et les opérateurs de Kronecker (somme et produit). Les formules mathématiques peuvent comporter plusieurs milliers de termes. Ce site permet à la communauté des bioinformaticiens et des biologistes de réaliser leur propre modèle d'évolution des gènes en fonction de leur application biologique.<br />
 
::''A ce jour, un tel logiciel de recherche n'a pas d'équivalent en bioinformatique puisqu'il permet de modéliser l'évolution des motifs et des gènes au cours du temps, dans le sens direct (du passé au présent) ou inverse (du présent au passé) et en fonction de paramètres de substitution, d'insertion et de délétion des motifs génétiques. Cette approche directe diffère des méthodes phylogénétiques et d'alignement.''
 
 
==THESE EN COURS==
 
La thèse de Karim El Soufi porte sur des algorithmes de recherche et de visualisation de motifs de codes circulaires. Des motifs du code circulaire X, motifs X en abrégé, sont identifiés dans les régions 5′ et/ou 3′ des ARN de transfert (ARNt) des procaryotes et des eucaryotes et des ARN ribosomiques 16S (ARNr 16S) des procaryotes et des eucaryotes, en particulier dans le centre de décodage du ribosome. De façon inattendue, les nucléotides A1492 and A1493 universellement conservés dans les procaryotes et eucaryotes, et le nucléotide G530 conservé dans les procaryotes appartiennent à des motifs X. Une visualisation 3D des motifs X dans le ribosome montre plusieurs configurations spatiales impliquant des motifs X de l'ARNm, des motifs X de l'ARNt et des motifs X de l'ARNr 16S. Ces travaux ont fait l'objet de 2 articles de journaux internationaux avec comité de lecture et d'un article en soumission.
 
 
==RESEAUX DE RECHERCHE==
 
* Réseau de recherche européen composé d'informaticiens, mathématiciens, physiciens et biologistes (français, allemands, italiens, espagnols) dont la thématique de recherche est le codage des gènes. Cette jeune communauté s'est réunie pour la première fois à Mannheim (Allemagne) en 2013. Elle est à l'origine de diverses collaborations scientifiques, de publications (par exemple, Michel et Seligmann, 2014; Fimmel, Michel et Strüngmann, 2016; Fimmel, Giannerini, Gonzalez et Strüngmann, 2014, 2015; etc.) et d'une issue spéciale dans la revue Philosophical Transactions A (février 2016) comportant 21 articles sur le codage-information en génétique.
 
* Membre du GdR "Bioinformatique Moléculaire" et du GdR "Informatique Mathématique" dans le groupe de travail "Combinatoire des mots, algorithmique du texte et du génome" depuis plusieurs années.
 
 
==THEORIE DU CODE CIRCULAIRE DANS LES GENES==
 
La recherche d'un code dans les gènes est un problème très ancien qui a été initié en 1957 par Crick et al. avec les codes comma-free (codes sans ponctuation). L'objectif était d'expliquer comment un ensemble de 20 trinucléotides parmi 64 pouvait coder les 20 acides aminés constituant les protéines. En 1958, les mathématiciens Golomb et al. obtiennent quelques résultats théoriques sur cette classe de codes. La combinatoire explosive avec 3<sup>20</sup> (3.5 milliards) de codes possibles et la découverte du code génétique ont conduit à l'abandon du concept de codes comma-free.
 
 
Cette théorie est restée silencieuse pendant 40 ans. En 1996, nous découvrons dans les gènes une classe de codes plus générale, les codes circulaires [A22]. En 2012, une deuxième étape majeure est obtenue avec l'identification de motifs de code circulaire dans les ARN de transfert et ribosomique, en particulier dans le centre de décodage du ribosome [A53,A59]. En effet, le dinucléotide AA (A1492 et A1493) et le nucléotide G530 qui sont universellement conservés dans le centre de décodage du ribosome des espèces (eucaryotes, procaryotes) appartiennent à des motifs de code circulaire [A53,A65].
 
 
Gonzalez, Giannerini et Rosa ("Circular codes revisited: A statistical approach", J. Theor. Biol, 2011, 275, 21-28) mentionnent dans le résumé de leur article<br />
 
::''« In 1996 Arquès and Michel [...] discovered the existence of a common circular code in eukaryote and prokaryote genomes. Since then, circular code theory has provoked great interest and underwent a rapid development.'' »<br />
 
::''« The results [obtenus par les auteurs dans leur article] indicate that, on average, the code proposed by Arquès and Michel has the best covering capability ... »''
 
 
Gladstone ("Autocorrelation genetic syntax of eukaryotic protein-coding sequences", 2013) cite dans son travail<br />
 
::''« Michel has theorized that two codes, the genetic code and the circular code, are used together as key components of the functioning of the ribosomal complex. He has proposed that while the genetic code conveys what amino acids to recruit to the ribosomal complex during translation, the circular code is used for frame identification and synchronization of the ribosomal complex with the ORF. Evidence has been provided that shows circular codes most likely play a role in ribosome synchronization with the ORF (Frey and Michel 2006). A recent analysis of frameshift genes found in eukaryotes and prokaryotes has found a significant correlation between frameshift signals and Michel’s proposed circular code (Ahmed, Frey et al. 2007). »''<br />
 
::''« … and our understanding of the role these circular codes play in vivo is largely a mystery. »''
 
 
Fimmel et Strüngmann ("Codon distribution in error-detecting circular codes", Life, 2016, 6, 14) écrivent dans le résumé de leur article<br />
 
::''« In 1957, Francis Crick et al. suggested an ingenious explanation for the process of frame maintenance. The idea was based on the notion of comma-free codes. Although Crick’s hypothesis proved to be wrong, in 1996, Arquès and Michel discovered the existence of a weaker version of such codes in eukaryote and prokaryote genomes, namely the so-called circular codes. Since then, circular code theory has invariably evoked great interest and made significant progress. »''<br />
 
::''« In 2015, by quantifying the approach used in 1996 and by applying massive statistical analysis of gene taxonomic groups, the circular code detected in 1996 was rediscovered extensively in genes of prokaryotes and eukaryotes and now also identified in the genes of plasmids and viruses (Michel, 2015). The codes discovered by Arquès and Michel in nature have even more interesting properties [par rapport aux codes comma-free]. With each codon, its anticodon is also in the code (self-complementarity), and they also have the error detection property in frame 1 and 2 (''C''<sup>3</sup>-property). »''
 

Version actuelle datée du 3 juin 2019 à 16:47