Équipe CSTB : Systèmes Complexes et Bioinformatique Translationnelle

Christian Michel

De Équipe CSTB : Systèmes Complexes et Bioinformatique Translationnelle
Aller à la navigation Aller à la recherche

Christian MICHEL.jpg

Professeur Christian MICHEL

RECHERCHE

INTRODUCTION

Dès leur début en 1983, mes travaux de recherche en bioinformatique se sont positionnés au niveau de l'identification de propriétés statistiques et mathématiques dans les gènes. Ils ont fait l'objet, en particulier, de 91 articles publiés dans des revues internationales à comité de lecture et dans deux disciplines: bioinformatique-biomathématiques et informatique théorique-mathématiques appliquées dans le domaine des codes (environ 200 théorèmes, lemmes, propositions), dont 15 articles comme unique auteur et 44 articles avec deux auteurs.

Trois de mes résultats sont considérés par la communauté bioinformatique comme étant majeurs: (i) la découverte de codes circulaires dans les gènes et leur étude statistique et combinatoire; (ii) les modèles stochastiques d'évolution des gènes par substitution de motifs génétiques selon une évolution linéaire (extension des modèles classiques de nucléotides grâce aux opérateurs de Kronecker) et ses généralisations aux évolutions non-linéaire et pseudo-chaotique; et (iii) les modèles stochastiques d'évolution des gènes par substitution, insertion et délétion de motifs génétiques dont les solutions analytiques impliquent des fonctions hypergéométriques gaussiennes. Cette théorie du code circulaire fait l'objet de nombreux développements en combinatoire, bioinformatique et biologie par différents groupes de chercheurs. Nous l'avons appliquée en 2020 pour l'identification des gènes fonctionnels du coronavirus COVID-19 (résultat publié dans Virology Journal).

Des résultats dans d'autres disciplines de la bioinformatique ont été également obtenus: identification de signaux dans les gènes; modèles informatiques d'évolution des gènes (langages rationnels, automates stochastiques, mélanges markoviens); distances phylogénétiques et leurs méthodes d'inférence; et le développement de logiciels de recherche en bioinformatique.

ACTIVITES SCIENTIFIQUES

Depuis 1983, mes travaux de recherche ont concerné plusieurs domaines de la bioinformatique. Actuellement, ils sont centrés sur les codes circulaires, des aspects en bioinformatique jusqu'en combinatoire.

Identification de signaux statistiques dans les gènes (articles [A1,3-8,11,14,16])
De nouvelles définitions de la fonction de corrélation (en moyenne ou en phase) permettent d'obtenir des probabilités non-biaisées de motifs génétiques (contrairement à la définition classique en bijection avec le spectre de puissance). Divers algorithmes sont développés pour calculer cette fonction selon la nature du problème: par parcours de séquences, par adresse, par un calcul parallèle ou par un calcul exact selon un arbre lexicographique. Plusieurs périodicités (modulo 2, 3 et 6) et une occurrence préférentielle d'un motif sont ainsi révélées dans diverses régions des génomes.

Identification de codes circulaires dans les gènes (articles [A19,21,22,30,33,61,67,74,83,85,89])
Des fonctions de corrélation en phase identifient un ensemble X de 20 trinucléotides dans les gènes des procaryotes, archées, eucaryotes, plasmides et virus. De façon exceptionnelle, X est un code circulaire. Tout mot construit avec un code circulaire admet une factorisation unique. Ainsi, X possède la propriété de toujours retrouver la phase de lecture d'un gène (avec une fenêtre de 13 nucléotides positionnée n'importe où dans le gène). X possède d'autres propriétés combinatoires étonnantes: il est maximal, auto-complémentaire et C3. Des méthodes statistiques spécifiques de recherche de codes circulaires dans les gènes sont développées ("correlation function per frame", "frame permuted trinucleotide frequencies", "occurrence probability of a complementary/permutation trinucleotide set").

Ainsi, selon nos travaux, un code de la phase des gènes codant 12 acides aminés aurait précédé le code génétique actuel.

Cette théorie constitue un exemple passionnant et non trivial d’objet informatique-mathématique issu de travaux menés en bioinformatique.

Identification de motifs de codes circulaires (articles [A53,59,65,72,73,77,79,80,82,84,87,88])
Des motifs de codes circulaires sont identifiés dans les ARN ribosomique et de transfert, les gènes et les génomes (régions non codantes les protéines).

Propriétés des codes circulaires dans les gènes (articles [A36,41,46,49,63,64,66])
Les propriétés des codes circulaires sont étudiées dans des familles particulières de gènes. Les gènes à décalage de phase possèdent, comme attendu par la théorie, un décalage du signal du code circulaire. Un signal de code circulaire est identifié dans des séquences non-codantes, précisément les micro-ARN. Les gènes avec des propriétés de codes circulaires codent souvent des fonctions essentielles associées aux génomes minimaux.

Etude combinatoire des codes circulaires (articles [A27,39,40,47,50,52,54,55,57,58,60,70,71,75,76,78,81,86])
Nous donnons une preuve mathématique qui démontre que le modèle probabiliste de Koch et Lehmann (1997) ne peut pas générer le code circulaire X. Un nouveau concept en théorie des codes dit "de collier" permet de décrire des variétés de codes comma-free et de codes circulaires. Sa généralisation permet ensuite de faire un pont théorique entre les codes comma-free et les codes circulaires, deux classes de codes considérées jusqu'à présent comme disjointes. La fonction de croissance (nombre et liste) des codes circulaires de trinucléotides est obtenue pour toutes les longueurs de 1 à 20, par exemple son maximum est de 23,403,485,556 codes circulaires de cardinalité 13 trinucléotides. Nous identifions une nouvelle classe de codes, les codes comma-free forts qui sont plus contraints que les codes comma-free. Les codes circulaires de dinucléotides (mots de 2 lettres sur un alphabet à 4 lettres) sont identifiés et définis par des propriétés sur leurs préfixes et suffixes. Une approche récente par la théorie des graphes permet d'obtenir de nouveaux théorèmes avec les codes circulaires formés de mots de longueur quelconque (finie) sur un alphabet fini.

Modèles informatiques d'évolution des gènes (articles [A8-10,12,20])
Des modèles informatiques d'évolution de gènes issus de la théorie des langages permettent de simuler des propriétés statistiques non-aléatoires observées dans les gènes, par exemple des périodicités. Ces modèles sont basés sur un processus de construction de gènes dits "primitifs" à l'aide de langages rationnels, d'automates stochastiques et de mélanges indépendant ou markovien de motifs génétiques (simulant les briques "primitives" des gènes), suivi de processus aléatoires de substitution, d'insertion et de suppression de motifs génétiques.

Modèles probabilistes d'évolution des gènes par substitution de motifs génétiques (articles [A13, 15,17,23,24,31,32,34,35,37,42,43,45,51])
Les modèles d'évolution classiques de nucléotides (Jukes et Cantor, 1969; Kimura, 1980, 1981) sont généralisés aux motifs génétiques de taille quelconque (finie) avec une approche mathématique basée sur les opérateurs de Kronecker (produit et somme). Ces modèles étendus permettent ainsi de déterminer la probabilité d'occurrence exacte (solution analytique) d'un motif génétique de taille quelconque (dinucléotides, trinucléotides, etc.) au cours du temps en fonction de paramètres de substitution (transition et transversion) associés à chaque site des motifs étudiés. L'évolution peut être réalisé dans le sens direct (du passé au présent) et dans le sens inverse (du présent au passé). Des modèles probabilistes d'évolution des gènes sont également développés pour une évolution non-linéaire avec des paramètres de substitution dépendants du temps. Ils permettent ainsi d'accélérer ou de ralentir le processus d'évolution selon divers modes: exponentiel, sinusoïdal, etc. Enfin, ces derniers modèles sont généralisés à une évolution pseudo-chaotique où un nombre aléatoire de motifs génétiques mutent à chaque intervalle de temps dt.

Modèles probabilistes d'évolution des gènes par substitution, insertion et délétion de motifs génétiques (articles [A48,56,62,65,68])
Il n'existe que deux ou trois classes de modèles probabilistes d'évolution des gènes comportant à la fois des processus de substitution, d'insertion et de délétion de nucléotides. Une des raisons en est la difficulté mathématique, d'un point de vue modélisation mais également dans la détermination des solutions analytiques. Nous développons une nouvelle classe plus générale de modèles d'évolution des gènes dans laquelle les paramètres d'insertion et de délétion sont des paramètres explicites indépendants des paramètres de substitution avec, de plus, un taux d'insertion qui décroît quand la longueur de la séquence croît.
L'idée de cette approche repose sur l'introduction d'un concept issu de la dynamique des populations permettant d'obtenir un système d'équation différentielle combinant le processus classique de substitution avec le processus d'insertion/délétion. En dérivant une solution générale vérifiée pour toute matrice de substitution diagonalisable, nous obtenons une expression analytique de la probabilité d'occurrence des motifs de nucléotides en fonction du temps, des valeurs et vecteurs propres de la matrice de substitution, du vecteur des taux d'insertion de nucléotides, du taux d'insertion total, des longueurs initiale et maximale de la séquence et du vecteur des probabilités initiales des motifs de nucléotides. Les solutions analytiques sont non triviales avec des fonctions hypergéométriques Gaussiennes et des opérateurs de Kronecker (produit et somme). Diverses propriétés mathématiques sont obtenues: échelle de temps, décomposition du temps, inversion du temps et transformation du temps en fonction de la longueur de la séquence.
Ce modèle mathématique permet de formuler des hypothèses sur la structure des gènes primitifs, leur transformation (substitution), leur expansion (insertion) et leur contraction (délétion).

Distances phylogénétiques et méthodes d'inférence (articles [A35,37,44])
Les modèles probabilistes développés précédemment permettent de généraliser la classique distance phylogénétique définie pour un site (Jukes et Cantor, 1969; Kimura, 1980, 1981) à une suite de sites de longueur quelconque. Cette distance phylogénétique généralisée conduit à de nouvelles méthodes de distance performantes pour inférer des arbres phylogénétiques.

Logiciels de recherche en bioinformatique (cf. ci-dessous; articles [A9,28,45,65,68])

ARTICLES DE JOURNAUX INTERNATIONAUX AVEC COMITE DE LECTURE

Les articles en pdf peuvent être téléchargés sur le site de Christian MICHEL

LOGICIEL DE RECHERCHE

GETEC (Genome Evolution by Transformation, Expansion and Contraction) (Benard E., Lèbre S., Michel C.J., 2015; basé sur les articles [A37,45,51,65,68])
GETEC (écrit en Mathematica et webMathematica) permet de modéliser l'évolution des gènes en déterminant les probabilités d'occurrence exactes (solutions analytiques) de motifs génétiques de longueur finie, l'implémentation étant réalisée pour des longueurs de 1 à 5 (nucléotides, dinucléotides, trinucléotides, quadrinucléotides et pentanucléotides), au cours du temps en fonction: (i) de paramètres de substitution (de 1 à 3 taux par site des motifs), (ii) d'un vecteur de taux d'insertion des motifs, (iii) d'un taux de délétion et (iv) d'un vecteur de probabilités initiales des motifs. La modélisation mathématique utilise en particulier les fonctions hypergéométriques Gaussiennes et les opérateurs de Kronecker (somme et produit). Les formules mathématiques peuvent comporter plusieurs milliers de termes. Ce site permet à la communauté des bioinformaticiens et des biologistes de réaliser leur propre modèle d'évolution des gènes en fonction de leur application biologique.

A ce jour, un tel logiciel de recherche n'a pas d'équivalent en bioinformatique puisqu'il permet de modéliser l'évolution des motifs et des gènes au cours du temps, dans le sens direct (du passé au présent) ou inverse (du présent au passé) et en fonction de paramètres de substitution, d'insertion et de délétion des motifs génétiques. Cette approche directe diffère radicalement des méthodes phylogénétiques et d'alignement.

RESEAU DE RECHERCHE

Depuis 2013, je suis coresponsable d'un réseau de recherche européen composé d'informaticiens, mathématiciens, physiciens et biologistes (français, allemands, italiens, espagnols) dont la thématique de recherche est le codage des gènes.
Cette jeune communauté s'est réunie pour la première fois à Mannheim (Allemagne) en 2013. Elle est à l'origine de diverses collaborations scientifiques, de publications (par exemple, Michel et Seligmann, [A63]; Fimmel, Michel et Strüngmann, [A71,A72]; Fimmel, Giannerini, Gonzalez et Strüngmann, 2014, 2015; etc.) et d'une issue spéciale dans la revue Philosophical Transactions A (février 2016) comportant 21 articles sur le codage des gènes.
Diverses réunions de travail sont régulièrement organisées depuis 2013, physiquement (26-28.09.2013 à Mannheim, 6-7.5.2015 à Strasbourg, 14-17.06.2015 à Mannheim, 28-29.10.2015 à Strasbourg, 17-18.02.2016 à Mannheim, 23-25.01.2017 à Strasbourg, 18-19.10.2017 à Strasbourg, 26-28.11.2017 à Mannheim, 5-6.2.2019 à Strasbourg; 3-7.06.2019 à Friedrichsdorf; 26-28.11.2019 à Strasbourg) et par vidéoconférence (multisite). En raison de la pandémie en 2020, les réunions sont actuellement réalisées par vidéoconférence.
En 2017, arrivée dans le réseau de 3 nouveaux membres pour leurs activités de recherche en théorie des graphes: Sereni (DR en informatique) et de 2 doctorants en informatique Pirot et Starman. En 2019, arrivée de Gumbel (PR en informatique).

ENCADREMENT ET ANIMATION RECHERCHE (PASSES)

Direction, animation laboratoires et équipes de recherche

  • Je suis responsable d'une équipe-thématique de recherche en Bioinformatique Théorique depuis 1991 (soit 25 ans). Ses thématiques de recherche, les codes circulaires et les modèles probabilistes d'évolution des gènes, constituent une spécificité nationale et internationale.
  • Je suis membre du Conseil Scientifique du Département d'Informatique Recherche (DIR) à l'Université de Strasbourg, de 2011 à 2015.
  • Membre du bureau et du conseil du laboratoire LSIIT (Laboratoire des Sciences de l'Image, de l'Informatique et de la Télédétection, ICube actuellement) à l'Université de Strasbourg, de 2001 à 2008.
  • Co-responsable d'une équipe de recherche dans les Systèmes Dynamiques Discrets pour deux universités, l'UTBM (Université de Technologie de Belfort-Montbéliard) et l'IUT de Belfort de l'Université de Franche-Comté, de 1998 à 2000.
  • Directeur adjoint du laboratoire LARIS (LAboratoire de Recherche en Informatique de Sevenans) à l'UTBM, de 1996 à 1998.