Équipe CSTB : Systèmes Complexes et Bioinformatique Translationnelle

Différences entre les versions de « Bioinformatique Théorique »

De Équipe CSTB : Systèmes Complexes et Bioinformatique Translationnelle
Aller à la navigation Aller à la recherche
(Page blanchie)
 
(32 versions intermédiaires par un autre utilisateur non affichées)
Ligne 1 : Ligne 1 :
[[en:Theoretical Bioinformatics]]
 
==RECHERCHE==
 
===INTRODUCTION===
 
Dès leur début en 1983, les travaux de recherche en bioinformatique théorique se sont positionnés au niveau de l'identification de propriétés dans les gènes. Ils ont fait l'objet, en particulier, de 71 articles de journaux internationaux avec comité de lecture dans deux disciplines: bioinformatique-biomathématiques et informatique théorique-combinatoire, dont 12 articles comme unique auteur et 39 articles avec deux auteurs.
 
  
Trois résultats sont considérés par la communauté bioinformatique comme étant majeurs: (i) la découverte de codes circulaires dans les gènes et leur étude statistique et combinatoire; (ii) les modèles stochastiques d'évolution des gènes par substitution de motifs génétiques selon une évolution linéaire (extension des modèles classiques de nucléotides) et ses généralisations aux évolutions non-linéaire et pseudo-chaotique; et (iii) les modèles stochastiques d'évolution des gènes par substitution, insertion et délétion de motifs génétiques. Cette théorie du code circulaire fait actuellement l'objet de nombreux développements en combinatoire, bioinformatique et biologique par différents groupes de chercheurs.
 
 
Cependant, des résultats dans d'autres disciplines de la bioinformatique ont été également obtenus: identification de signaux dans les gènes; modèles informatiques d'évolution des gènes (langages rationnels, automates stochastiques, mélanges markoviens); distances phylogénétiques et leurs méthodes d'inférence; et le développement de logiciels de recherche en bioinformatique.
 
 
===ACTIVITES SCIENTIFIQUES===
 
Depuis 1983, les travaux de recherche ont concerné plusieurs domaines de la bioinformatique. Actuellement, ils sont centrés sur (i) les codes circulaires, des aspects en bioinformatique jusqu'en combinatoire; et (ii) les modèles stochastiques d'évolution des gènes par substitution, insertion et délétion de motifs génétiques.
 
 
'''Identification de signaux statistiques dans les gènes''' (articles [A1,3-6,7,8,11,14,16])<br />
 
De nouvelles définitions de la fonction de corrélation (en moyenne ou en phase) permettent d'obtenir des probabilités non-biaisées de motifs génétiques (contrairement à la définition classique en bijection avec le spectre de puissance).
 
Divers algorithmes sont développés pour calculer cette fonction selon la nature du problème: par un parcours de séquences, par adresse, par un calcul parallèle ou par un calcul exact selon un arbre lexicographique.
 
Plusieurs périodicités (modulo 2, 3 et 6) et une occurrence préférentielle d'un motif sont ainsi révélées dans diverses régions des génomes.
 
 
'''Identification de codes circulaires dans les gènes''' (articles [A19,21,22,30,33,61,67])<br />
 
Des fonctions de corrélation en phase identifient un ensemble X de 20 trinucléotides dans les gènes des procaryotes, eucaryotes, plasmides et virus. De façon exceptionnelle, X est un code circulaire. Tout mot construit avec un code circulaire admet une factorisation unique. Ainsi, X possède la propriété de toujours retrouver la phase de lecture d'un gène (avec une fenêtre de 13 nucléotides positionnée n'importe où dans le gène). X possède d'autres propriétés combinatoires étonnantes: il est maximal, auto-complémentaire et ''C''<sup>3</sup>.
 
Des méthodes statistiques spécifiques de recherche de codes circulaires dans les gènes sont développées ("correlation function per frame", "frame permuted trinucleotide frequencies", "occurrence probability of a complementary/permutation trinucleotide set").<br />
 
::''Ainsi, selon nos travaux, les gènes seraient composés de deux types de codes: des codes d'acide aminé (classiquement le code génétique universel) pour traduire les codons en acides aminés et des codes circulaires pour retrouver la phase de lecture des gènes.''<br />
 
::Cette théorie constitue un exemple passionnant et non trivial d’objet informatique-mathématique issu de travaux menés en bioinformatique.
 
 
'''Propriétés des codes circulaires dans les gènes''' (articles [A36,41,46,49,53,59,63-66])<br />
 
Les propriétés des codes circulaires sont étudiées dans des familles particulières de gènes. Les gènes à décalage de phase possèdent comme attendu par la théorie un décalage du signal du code circulaire. Un signal de code circulaire est identifié dans des séquences non-codantes, précisément les micro-ARN. Les gènes avec des propriétés de codes circulaires codent souvent des fonctions essentielles associées aux génomes minimaux.
 
Des motifs génétiques de codes circulaires sont identifiés dans les ARN ribosomique et de transfert.
 
 
'''Etude combinatoire des codes circulaires de dinucléotides et trinucléotides''' (articles [A27,39,40,47,50,52,54,55,57,58,60,70,71])<br />
 
Nous donnons une preuve mathématique qui démontre que le modèle probabiliste de Koch et Lehmann (1997) ne peut pas générer le code circulaire X.
 
Un nouveau concept en théorie des codes dit "de collier" permet de décrire des variétés de commas-free codes et de codes circulaires.
 
Sa généralisation permet ensuite de faire un pont théorique entre les codes commas-free et les codes circulaires, deux classes de codes considérées jusqu'à présent comme disjointes.
 
La fonction de croissance (nombre et liste) des codes circulaires de trinucléotides est obtenue pour toutes les longueurs de 1 à 20, par exemple son maximum est de 23,403,485,556 codes circulaires de 13 trinucléotides.
 
Nous identifions une nouvelle classe de codes, les codes circulaires forts qui sont plus contraints que les codes commas-free. Les codes circulaires de dinucléotides (mots de 2 lettres sur un alphabet de 4 lettres) sont identifiés et définis par des propriétés pour leurs préfixes et suffixes.
 
Récemment (2015), une approche par la théorie des graphes permet d'obtenir de nouveaux théorèmes avec les codes circulaires formés de mots de longueur quelconque (finie) sur un alphabet fini.
 
 
'''Modèles informatiques d'évolution des gènes''' (articles [A8-10,12,20])<br />
 
Des modèles informatiques d'évolution de gènes issus de la théorie des langages permettent de simuler des propriétés statistiques non-aléatoires observées dans les gènes, par exemple des périodicités. Ces modèles sont basés sur un processus de construction de gènes dits "primitifs" à l'aide de langages rationnels, d'automates stochastiques et de mélanges indépendant ou markovien de motifs génétiques (simulant les briques "primitives" des gènes), suivi de processus aléatoires de substitution, d'insertion et de suppression de motifs génétiques.
 
 
'''Modèles probabilistes d'évolution des gènes par substitution de motifs génétiques''' (articles [A13,15,17,23,24,31,32,34,35,37,42,43,45,51])<br />
 
Les modèles d'évolution classiques de nucléotides (Jukes et Cantor, 1969; Kimura, 1980, 1981) sont généralisés aux motifs génétiques de taille quelconque (finie) avec une approche mathématique basée sur des opérateurs de Kronecker (produit et somme). Ces modèles étendus permettent ainsi de déterminer la probabilité d'occurrence exacte (solution analytique) d'un motif génétique de taille quelconque (dinucléotides, trinucléotides, etc.) au cours du temps en fonction de paramètres de substitution (transition et transversions) associés à chaque site des motifs étudiés. L'évolution peut être dans le sens direct (du passé au présent) mais également dans le sens inverse (du présent au passé).
 
Des modèles probabilistes d'évolution des gènes sont également développés pour une évolution non-linéaire avec des paramètres de substitution dépendants du temps. Ils permettent ainsi d'accélérer ou de ralentir le processus d'évolution selon divers modes: exponentiel, sinusoïdal, etc.
 
Enfin, ces derniers modèles sont généralisés à une évolution pseudo-chaotique où un nombre aléatoire de motifs génétiques mutent à chaque intervalle de temps dt.
 
 
'''Modèles probabilistes d'évolution des gènes par substitution, insertion et délétion de motifs génétiques''' (articles [A48,56,62,65,68])<br />
 
::''Il n'existe que deux ou trois classes de modèles probabilistes d'évolution des gènes comportant à la fois des processus de substitution, d'insertion et de délétion de nucléotides. Une des raisons en est la difficulté mathématique, d'un point de vue modélisation mais également dans la détermination des solutions analytiques. Nous développons une nouvelle classe plus générale de modèles d'évolution dans laquelle les paramètres d'insertion et de délétion sont des paramètres explicites indépendants des paramètres de substitution avec, de plus, un taux d'insertion qui décroît quand la longueur de la séquence croît.''<br />
 
L'idée de cette approche repose sur l'introduction d'un concept issu de la dynamique des populations permettant d'obtenir un système d'équation différentielle combinant le processus classique de substitution avec le processus d'insertion/délétion. En dérivant une solution générale vérifiée pour toute matrice de substitution diagonalisable, nous obtenons une expression analytique de la probabilité d'occurrence des nucléotides en fonction du temps, des valeurs et vecteurs propres de la matrice de substitution, du vecteur des taux d'insertion de nucléotides, du taux d'insertion total, des longueurs initiale et maximale de la séquence et du vecteur des probabilités initiales des nucléotides. Les solutions analytiques sont non triviales avec des fonctions hypergéométriques Gaussiennes et des opérateurs de Kronecker (produit et somme). Diverses propriétés mathématiques sont obtenues: échelle de temps, décomposition du temps, inversion du temps et transformation du temps en fonction de la longueur de la séquence.
 
 
'''Distances phylogénétiques et méthodes d'inférence''' (articles [A35,37,44])<br />
 
Les modèles probabilistes développés précédemment permettent de généraliser la classique distance phylogénétique définie pour un site (Jukes et Cantor, 1969; Kimura, 1980, 1981) à une suite de sites de longueur quelconque. Cette distance phylogénétique généralisée conduit à de nouvelles méthodes de distance performantes pour inférer des arbres phylogénétiques.
 
 
'''Développement de logiciels de recherche en bioinformatique''' (articles [A9,28,45,65,68])
 
 
===ARTICLE DE JOURNAUX INTERNATIONAUX AVEC COMITE DE LECTURE===
 
''Les articles en pdf peuvent être téléchargés sur le site de'' [http://dpt-info.u-strasbg.fr/~c.michel/ Christian MICHEL]
 
 
===LOGICIEL DE RECHERCHE===
 
[http://icube-bioinfo.u-strasbg.fr/webMathematica/GETEC/ GETEC] (Genome Evolution by Transformation, Expansion and Contraction) (Benard E., Lèbre S., Michel C.J., 2015; basé sur les articles [A37,45,51,65,68])<br />
 
GETEC (écrit en Mathematica et webMathematica) permet de modéliser l'évolution des gènes en déterminant les probabilités d'occurrence exactes (solutions analytiques) de motifs génétiques de longueur finie, l'implémentation étant réalisée pour des longueurs de 1 à 5 (nucléotides, dinucléotides, trinucléotides, quadrinucléotides et pentanucléotides), au cours du temps en fonction (i) de paramètres de substitution (de 1 à 3 taux par site des motifs), (ii) d'un vecteur de taux d'insertion des motifs, (iii) d'un taux de délétion et (iv) d'un vecteur de probabilités initiales des motifs. La modélisation mathématique utilise en particulier les fonctions hypergéométriques Gaussiennes et les opérateurs de Kronecker (somme et produit). Les formules mathématiques peuvent comporter plusieurs milliers de termes. Ce site permet à la communauté des bioinformaticiens et des biologistes de réaliser leur propre modèle d'évolution des gènes en fonction de leur application biologique.<br />
 
::''A ce jour, un tel logiciel de recherche n'a pas d'équivalent en bioinformatique puisqu'il permet de modéliser l'évolution des motifs et des gènes au cours du temps, dans le sens direct (du passé au présent) ou inverse (du présent au passé) et en fonction de paramètres de substitution, d'insertion et de délétion des motifs génétiques. Cette approche directe diffère des méthodes phylogénétiques et d'alignement.''
 
 
===ENCADREMENT ET ANIMATION RECHERCHE===
 
'''Direction, animation laboratoires et équipes de recherche'''
 
* Je suis responsable d'une équipe-thématique de recherche en Bioinformatique Théorique depuis 1991 (soit 25 ans). Ses thématiques de recherche, les codes circulaires et les modèles probabilistes d'évolution des gènes, constituent une spécificité nationale et internationale.
 
* Je suis membre du Conseil Scientifique du Département d'Informatique Recherche (DIR) à l'Université de Strasbourg, de 2011 à 2015.
 
* Membre du bureau et du conseil du laboratoire LSIIT (Laboratoire des Sciences de l'Image, de l'Informatique et de la Télédétection, ICube actuellement) à l'Université de Strasbourg, de 2001 à 2008.
 
* Co-responsable d'une équipe de recherche dans les Systèmes Dynamiques Discrets pour deux universités, l'UTBM (Université de Technologie de Belfort-Montbéliard) et l'IUT de Belfort de l'Université de Franche-Comté, de 1998 à 2000.
 
* Directeur adjoint du laboratoire LARIS (LAboratoire de Recherche en Informatique de Sevenans) à l'UTBM, de 1996 à 1998.
 
 
'''Direction de thèse'''<br />
 
J'encadre la thèse de Karim El Soufi sur des algorithmes de recherche et de visualisation de motifs de codes circulaires. Des motifs du code circulaire X, motifs X en abrégé, sont identifiés dans les régions 5′ et/ou 3′ des ARN de transfert (ARNt) des procaryotes et des eucaryotes et des ARN ribosomiques 16S (ARNr 16S) des procaryotes et des eucaryotes, en particulier dans le centre de décodage du ribosome. De façon inattendue, les nucléotides A1492 and A1493 universellement conservés dans les procaryotes et eucaryotes, et le nucléotide G530 conservé dans les procaryotes appartiennent à des motifs X. Une visualisation 3D des motifs X dans le ribosome montre plusieurs configurations spatiales impliquant des motifs X de l'ARNm, des motifs X de l'ARNt et des motifs X de l'ARNr 16S. Ces travaux ont fait l'objet de 2 articles de journaux internationaux avec comité de lecture [A65,A69] et d'un article en soumission [A72].
 
 
'''Réseaux de recherche'''
 
* Réseau de recherche européen composé d'informaticiens, mathématiciens, physiciens et biologistes (français, allemands, italiens, espagnols) dont la thématique de recherche est le codage des gènes. Cette jeune communauté s'est réunie pour la première fois à Mannheim (Allemagne) en 2013. Elle est à l'origine de diverses collaborations scientifiques, de publications (par exemple, Michel et Seligmann, [A63]; Fimmel, Michel et Strüngmann, [A71,A72]; Fimmel, Giannerini, Gonzalez et Strüngmann, 2014, 2015; etc.) et d'une issue spéciale dans la revue Philosophical Transactions A (février 2016) comportant 21 articles sur le codage-information en génétique.
 
* Membre du GdR "Bioinformatique Moléculaire" et du GdR "Informatique Mathématique" dans le groupe de travail "Combinatoire des mots, algorithmique du texte et du génome" depuis plusieurs années.
 
 
'''Serveur'''<br />
 
Je suis responsable de l'installation et de la maintenance du serveur de bioinformatique théorique: configuration du serveur Apache, des logiciels de calcul formel (Mathematica, WebMathematica, etc.), sauvegarde du site, etc. Trois logiciels de recherche sont disponibles sur le site web: GETEC (Genome Evolution by Transformation, Expansion and Contraction), DNAdistree et FPTF (Frame Permutated Trinucleotide Frequency).
 
 
===THEORIE DU CODE CIRCULAIRE DANS LES GENES===
 
La recherche d'un code dans les gènes est un problème très ancien qui a été initié en 1957 par Crick et al. avec les codes comma-free (codes sans ponctuation). L'objectif était d'expliquer comment un ensemble de 20 trinucléotides parmi 64 pouvait coder les 20 acides aminés constituant les protéines. En 1958, les mathématiciens Golomb et al. obtiennent quelques résultats théoriques sur cette classe de codes. La combinatoire explosive avec 3<sup>20</sup> (3.5 milliards) de codes possibles et la découverte du code génétique ont conduit à l'abandon du concept de codes comma-free.
 
 
Cette théorie est restée silencieuse pendant 40 ans. En 1996, nous découvrons dans les gènes une classe de codes plus générale, les codes circulaires [A22]. En 2012, une deuxième étape majeure est obtenue avec l'identification de motifs de code circulaire dans les ARN de transfert et ribosomique, en particulier dans le centre de décodage du ribosome [A53,A59]. En effet, le dinucléotide AA (A1492 et A1493) et le nucléotide G530 qui sont universellement conservés dans le centre de décodage du ribosome des espèces (eucaryotes, procaryotes) appartiennent à des motifs de code circulaire [A53,A65].
 
 
Gonzalez, Giannerini et Rosa ("Circular codes revisited: A statistical approach", J. Theor. Biol, 2011, 275, 21-28) mentionnent dans le résumé de leur article<br />
 
::''« In 1996 Arquès and Michel [...] discovered the existence of a common circular code in eukaryote and prokaryote genomes. Since then, circular code theory has provoked great interest and underwent a rapid development.'' »<br />
 
::''« The results [obtenus par les auteurs dans leur article] indicate that, on average, the code proposed by Arquès and Michel has the best covering capability ... »''
 
 
Gladstone ("Autocorrelation genetic syntax of eukaryotic protein-coding sequences", 2013) cite dans son travail<br />
 
::''« Michel has theorized that two codes, the genetic code and the circular code, are used together as key components of the functioning of the ribosomal complex. He has proposed that while the genetic code conveys what amino acids to recruit to the ribosomal complex during translation, the circular code is used for frame identification and synchronization of the ribosomal complex with the ORF. Evidence has been provided that shows circular codes most likely play a role in ribosome synchronization with the ORF (Frey and Michel 2006). A recent analysis of frameshift genes found in eukaryotes and prokaryotes has found a significant correlation between frameshift signals and Michel’s proposed circular code (Ahmed, Frey et al. 2007). »''<br />
 
::''« … and our understanding of the role these circular codes play in vivo is largely a mystery. »''
 
 
Fimmel et Strüngmann ("Codon distribution in error-detecting circular codes", Life, 2016, 6, 14) écrivent dans le résumé de leur article<br />
 
::''« In 1957, Francis Crick et al. suggested an ingenious explanation for the process of frame maintenance. The idea was based on the notion of comma-free codes. Although Crick’s hypothesis proved to be wrong, in 1996, Arquès and Michel discovered the existence of a weaker version of such codes in eukaryote and prokaryote genomes, namely the so-called circular codes. Since then, circular code theory has invariably evoked great interest and made significant progress. »''<br />
 
::''« In 2015, by quantifying the approach used in 1996 and by applying massive statistical analysis of gene taxonomic groups, the circular code detected in 1996 was rediscovered extensively in genes of prokaryotes and eukaryotes and now also identified in the genes of plasmids and viruses (Michel, 2015). The codes discovered by Arquès and Michel in nature have even more interesting properties [par rapport aux codes comma-free]. With each codon, its anticodon is also in the code (self-complementarity), and they also have the error detection property in frame 1 and 2 (''C''<sup>3</sup>-property). »''
 

Version actuelle datée du 3 juin 2019 à 16:47