Équipe CSTB : Systèmes Complexes et Bioinformatique Translationnelle

Christian Michel

De Équipe CSTB : Systèmes Complexes et Bioinformatique Translationnelle
Aller à la navigation Aller à la recherche

Christian MICHEL.jpg

Professeur Christian MICHEL

RECHERCHE

INTRODUCTION

Dès leur début en 1983, mes travaux de recherche en bioinformatique se sont positionnés au niveau de l'identification de propriétés statistiques et mathématiques dans les gènes. Ils ont fait l'objet, en particulier, de 91 articles publiés dans des revues internationales à comité de lecture et dans deux disciplines: bioinformatique-biomathématiques et informatique théorique-mathématiques appliquées dans le domaine des codes (environ 200 théorèmes, lemmes, propositions), dont 15 articles comme unique auteur et 44 articles avec deux auteurs.

Trois de mes résultats sont considérés par la communauté bioinformatique comme étant majeurs: (i) la découverte de codes circulaires dans les gènes et leur étude statistique et combinatoire; (ii) les modèles stochastiques d'évolution des gènes par substitution de motifs génétiques selon une évolution linéaire (extension des modèles classiques de nucléotides grâce aux opérateurs de Kronecker) et ses généralisations aux évolutions non-linéaire et pseudo-chaotique; et (iii) les modèles stochastiques d'évolution des gènes par substitution, insertion et délétion de motifs génétiques dont les solutions analytiques impliquent des fonctions hypergéométriques gaussiennes. Cette théorie du code circulaire fait l'objet de nombreux développements en combinatoire, bioinformatique et biologie par différents groupes de chercheurs. Nous l'avons appliquée en 2020 pour l'identification des gènes fonctionnels du coronavirus COVID-19 (résultat publié dans Virology Journal).

Des résultats dans d'autres disciplines de la bioinformatique ont été également obtenus: identification de signaux dans les gènes; modèles informatiques d'évolution des gènes (langages rationnels, automates stochastiques, mélanges markoviens); distances phylogénétiques et leurs méthodes d'inférence; et le développement de logiciels de recherche en bioinformatique.

ACTIVITES SCIENTIFIQUES

Depuis 1983, mes travaux de recherche ont concerné plusieurs domaines de la bioinformatique. Actuellement, ils sont centrés sur les codes circulaires, des aspects en bioinformatique jusqu'en combinatoire.

Identification de signaux statistiques dans les gènes (articles [A1,3-8,11,14,16])
De nouvelles définitions de la fonction de corrélation (en moyenne ou en phase) permettent d'obtenir des probabilités non-biaisées de motifs génétiques (contrairement à la définition classique en bijection avec le spectre de puissance). Divers algorithmes sont développés pour calculer cette fonction selon la nature du problème: par parcours de séquences, par adresse, par un calcul parallèle ou par un calcul exact selon un arbre lexicographique. Plusieurs périodicités (modulo 2, 3 et 6) et une occurrence préférentielle d'un motif sont ainsi révélées dans diverses régions des génomes.

Identification de codes circulaires dans les gènes (articles [A19,21,22,30,33,61,67,74,83,85,89])
Des fonctions de corrélation en phase identifient un ensemble X de 20 trinucléotides dans les gènes des procaryotes, archées, eucaryotes, plasmides et virus. De façon exceptionnelle, X est un code circulaire. Tout mot construit avec un code circulaire admet une factorisation unique. Ainsi, X possède la propriété de toujours retrouver la phase de lecture d'un gène (avec une fenêtre de 13 nucléotides positionnée n'importe où dans le gène). X possède d'autres propriétés combinatoires étonnantes: il est maximal, auto-complémentaire et C3. Des méthodes statistiques spécifiques de recherche de codes circulaires dans les gènes sont développées ("correlation function per frame", "frame permuted trinucleotide frequencies", "occurrence probability of a complementary/permutation trinucleotide set").

Ainsi, selon nos travaux, un code de la phase des gènes codant 12 acides aminés aurait précédé le code génétique actuel.

Cette théorie constitue un exemple passionnant et non trivial d’objet informatique-mathématique issu de travaux menés en bioinformatique.

Identification de motifs de codes circulaires (articles [A53,59,65,72,73,77,79,80,82,84,87,88])
Des motifs de codes circulaires sont identifiés dans les ARN ribosomique et de transfert, les gènes et les génomes (régions non codantes les protéines).

Propriétés des codes circulaires dans les gènes (articles [A36,41,46,49,63,64,66])
Les propriétés des codes circulaires sont étudiées dans des familles particulières de gènes. Les gènes à décalage de phase possèdent, comme attendu par la théorie, un décalage du signal du code circulaire. Un signal de code circulaire est identifié dans des séquences non-codantes, précisément les micro-ARN. Les gènes avec des propriétés de codes circulaires codent souvent des fonctions essentielles associées aux génomes minimaux.

Etude combinatoire des codes circulaires (articles [A27,39,40,47,50,52,54,55,57,58,60,70,71,75,76,78,81,86])
Nous donnons une preuve mathématique qui démontre que le modèle probabiliste de Koch et Lehmann (1997) ne peut pas générer le code circulaire X. Un nouveau concept en théorie des codes dit "de collier" permet de décrire des variétés de codes comma-free et de codes circulaires. Sa généralisation permet ensuite de faire un pont théorique entre les codes comma-free et les codes circulaires, deux classes de codes considérées jusqu'à présent comme disjointes. La fonction de croissance (nombre et liste) des codes circulaires de trinucléotides est obtenue pour toutes les longueurs de 1 à 20, par exemple son maximum est de 23,403,485,556 codes circulaires de cardinalité 13 trinucléotides. Nous identifions une nouvelle classe de codes, les codes comma-free forts qui sont plus contraints que les codes comma-free. Les codes circulaires de dinucléotides (mots de 2 lettres sur un alphabet à 4 lettres) sont identifiés et définis par des propriétés sur leurs préfixes et suffixes. Une approche récente par la théorie des graphes permet d'obtenir de nouveaux théorèmes avec les codes circulaires formés de mots de longueur quelconque (finie) sur un alphabet fini.

Modèles informatiques d'évolution des gènes (articles [A8-10,12,20])
Des modèles informatiques d'évolution de gènes issus de la théorie des langages permettent de simuler des propriétés statistiques non-aléatoires observées dans les gènes, par exemple des périodicités. Ces modèles sont basés sur un processus de construction de gènes dits "primitifs" à l'aide de langages rationnels, d'automates stochastiques et de mélanges indépendant ou markovien de motifs génétiques (simulant les briques "primitives" des gènes), suivi de processus aléatoires de substitution, d'insertion et de suppression de motifs génétiques.

Modèles probabilistes d'évolution des gènes par substitution de motifs génétiques (articles [A13,15,17,23,24,31,32,34,35,37,42,43,45,51])
Les modèles d'évolution classiques de nucléotides (Jukes et Cantor, 1969; Kimura, 1980, 1981) sont généralisés aux motifs génétiques de taille quelconque (finie) avec une approche mathématique basée sur les opérateurs de Kronecker (produit et somme). Ces modèles étendus permettent ainsi de déterminer la probabilité d'occurrence exacte (solution analytique) d'un motif génétique de taille quelconque (dinucléotides, trinucléotides, etc.) au cours du temps en fonction de paramètres de substitution (transition et transversion) associés à chaque site des motifs étudiés. L'évolution peut être réalisé dans le sens direct (du passé au présent) et dans le sens inverse (du présent au passé). Des modèles probabilistes d'évolution des gènes sont également développés pour une évolution non-linéaire avec des paramètres de substitution dépendants du temps. Ils permettent ainsi d'accélérer ou de ralentir le processus d'évolution selon divers modes: exponentiel, sinusoïdal, etc. Enfin, ces derniers modèles sont généralisés à une évolution pseudo-chaotique où un nombre aléatoire de motifs génétiques mutent à chaque intervalle de temps dt.

Modèles probabilistes d'évolution des gènes par substitution, insertion et délétion de motifs génétiques (articles [A48,56,62,65,68])
Il n'existe que deux ou trois classes de modèles probabilistes d'évolution des gènes comportant à la fois des processus de substitution, d'insertion et de délétion de nucléotides. Une des raisons en est la difficulté mathématique, d'un point de vue modélisation mais également dans la détermination des solutions analytiques. Nous développons une nouvelle classe plus générale de modèles d'évolution des gènes dans laquelle les paramètres d'insertion et de délétion sont des paramètres explicites indépendants des paramètres de substitution avec, de plus, un taux d'insertion qui décroît quand la longueur de la séquence croît.
L'idée de cette approche repose sur l'introduction d'un concept issu de la dynamique des populations permettant d'obtenir un système d'équation différentielle combinant le processus classique de substitution avec le processus d'insertion/délétion. En dérivant une solution générale vérifiée pour toute matrice de substitution diagonalisable, nous obtenons une expression analytique de la probabilité d'occurrence des motifs de nucléotides en fonction du temps, des valeurs et vecteurs propres de la matrice de substitution, du vecteur des taux d'insertion de nucléotides, du taux d'insertion total, des longueurs initiale et maximale de la séquence et du vecteur des probabilités initiales des motifs de nucléotides. Les solutions analytiques sont non triviales avec des fonctions hypergéométriques Gaussiennes et des opérateurs de Kronecker (produit et somme). Diverses propriétés mathématiques sont obtenues: échelle de temps, décomposition du temps, inversion du temps et transformation du temps en fonction de la longueur de la séquence.
Ce modèle mathématique permet de formuler des hypothèses sur la structure des gènes primitifs, leur transformation (substitution), leur expansion (insertion) et leur contraction (délétion).

Distances phylogénétiques et méthodes d'inférence (articles [A35,37,44])
Les modèles probabilistes développés précédemment permettent de généraliser la classique distance phylogénétique définie pour un site (Jukes et Cantor, 1969; Kimura, 1980, 1981) à une suite de sites de longueur quelconque. Cette distance phylogénétique généralisée conduit à de nouvelles méthodes de distance performantes pour inférer des arbres phylogénétiques.

Logiciels de recherche en bioinformatique (cf. ci-dessous; articles [A9,28,45,65,68])

ARTICLES DE JOURNAUX INTERNATIONAUX AVEC COMITE DE LECTURE

Les articles en pdf peuvent être téléchargés sur le site de Christian MICHEL

LOGICIELS DE RECHERCHE

GETEC (Genome Evolution by Transformation, Expansion and Contraction) (Benard E., Lèbre S., Michel C.J., 2015; basé sur les articles [A37,45,51,65,68])
GETEC (écrit en Mathematica et webMathematica) permet de modéliser l'évolution des gènes en déterminant les probabilités d'occurrence exactes (solutions analytiques) de motifs génétiques de longueur finie, l'implémentation étant réalisée pour des longueurs de 1 à 5 (nucléotides, dinucléotides, trinucléotides, quadrinucléotides et pentanucléotides), au cours du temps en fonction: (i) de paramètres de substitution (de 1 à 3 taux par site des motifs), (ii) d'un vecteur de taux d'insertion des motifs, (iii) d'un taux de délétion et (iv) d'un vecteur de probabilités initiales des motifs. La modélisation mathématique utilise en particulier les fonctions hypergéométriques Gaussiennes et les opérateurs de Kronecker (somme et produit). Les formules mathématiques peuvent comporter plusieurs milliers de termes. Ce site permet à la communauté des bioinformaticiens et des biologistes de réaliser leur propre modèle d'évolution des gènes en fonction de leur application biologique.

A ce jour, un tel logiciel de recherche n'a pas d'équivalent en bioinformatique puisqu'il permet de modéliser l'évolution des motifs et des gènes au cours du temps, dans le sens direct (du passé au présent) ou inverse (du présent au passé) et en fonction de paramètres de substitution, d'insertion et de délétion des motifs génétiques. Cette approche directe diffère radicalement des méthodes phylogénétiques et d'alignement.

CircularCodesChecker (Jung M., Frey G., Michel C.J., 2009) CircularCodesChecker (écrit en Java) permet de déterminer si un ensemble de trinucléotides est un code circulaire ou non.

SED et SEDweb (Stochastic Evolution of Dinucleotides) (Michel C.J., 2007; article [A37]) SED (écrit en Mathematica et webMathematica) permet de déterminer les solutions analytiques des dinucléotides en fonction du temps, de paramètres de substitution et un vecteur de probabilités initiales de dinucléotides. Il possède trois fonctionnalités: - le choix du sens de l'évolution, soit direct (du passé au présent) soit inverse (du présent au passé) - le nombre de paramètres de substitution (2, 4 ou 6 taux) - le vecteur initial de probabilités de dinucléotides, donné sous forme rationnelle ou réelle. Le logiciel de recherche SED et sa version web SEDweb que j'ai développés en 2007, est à l'origine du logiciel GETEC (cf. ci-dessus).

GMRS (Genome Motifs Research Software) (Frey G., Michel C.J., 2003; article [A30]) GMRS (écrit en Java) permet d'identifier des motifs préférentiels dans les trois phases des gènes (la phase de lecture et ses deux phases décalées) à partir d'une nouvelle fonction statistique assignant une phase préférentielle différente à chacun des trois trinucléotides permutés.

ACG (Analysis of Coding Genes) (Arquès D.G., Lacan J., Michel C.J., 1999; article [A28]) ACG (écrit en Pascal Objet) permet de rechercher des gènes dans les génomes en utilisant des fonctions statistiques et des algorithmes basés sur le code circulaire. Il permet également de déterminer leur phase par rapport au début du génome et donc, de situer les gènes les uns par rapport aux autres. Enfin, il permet l'identification de phases internes dans un gène qui sont la conséquence d'insertions ou de suppressions de nucléotides non multiples de 3.

DSE (Discrete System Evolution) (Bahi J.M., Michel C.J., 1998; article [A25]) DSE (écrit en Pascal Objet) modélise les réseaux de neurones booléens avec des itérations asynchrones selon: (i) le type de retard (distribution aléatoire uniforme dans un intervalle donné de temps), (ii) le type de stratégie: définie, aléatoire uniforme avec composante oubliée ou non, et (iii) la taille du réseau. Une interface utilisateur permet de choisir les différentes paramètres de simulation, d'afficher graphiquement les résultats, d'imprimer les résultats, etc.

AGE_EXTRACT (Arquès D.G., Michel C.J., Orieux K.; 1993) AGE_EXTRACT (écrit en Pascal) est un logiciel d'acquisition de données génétiques. Il permet d'extraire différentes populations de gènes fonctionnelles (gènes codants, introns, etc.) et/ou taxonomiques (eucaryotes, procaryotes, virus, etc.) à partir de la base de données de gènes EMBL. Il comporte plusieurs dizaines de tests de contrôle pour éliminer les données ne vérifiant pas la syntaxe EMBL. Un manuel utilisateur décrit ce logiciel. Remarque: Ce logiciel, qui en son temps était unique, ne présente plus d'intérêt à ce jour. En effet, les nombreux utilitaires bioinformatiques (logiciels, scripts, etc.) disponibles sur les sites web permettent d'acquérir les données génétiques.

AGE (Analysis of Gene Evolution) (Arquès D.G., Michel C.J., Orieux K., 1990; article [A9]) AGE (écrit en Pascal) permet d'identifier des propriétés statistiques non-aléatoires dans les gènes et de les modéliser par des processus d'évolution des gènes. Il est basé sur les fonctions de corrélation (probabilité d'occurrence d'un motif i bases quelconques après un motif). Les processus d'évolution des gènes se basent sur deux concepts: - la construction de gènes simulés dits "primitifs" avec des automates stochastiques de motifs génétiques ou des mélanges indépendant ou markovien de motifs génétiques; - l'évolution aléatoire des gènes construits: substitutions aléatoires de nucléotides, insertions et suppressions aléatoires de nucléotides ou de motifs génétiques.

GROUPE DE RECHERCHE

Depuis 2013, je suis coresponsable d'un groupe de recherche européen composé d'informaticiens, mathématiciens, physiciens et biologistes (français, allemands, italiens, espagnols) dont la thématique de recherche est le codage des gènes.
Cette jeune communauté s'est réunie pour la première fois à Mannheim (Allemagne) en 2013. Elle est à l'origine de diverses collaborations scientifiques, de publications (par exemple, Michel et Seligmann, [A63]; Fimmel, Michel et Strüngmann, [A71,A72]; Fimmel, Giannerini, Gonzalez et Strüngmann, 2014, 2015; etc.) et d'une issue spéciale dans la revue Philosophical Transactions A (février 2016) comportant 21 articles sur le codage des gènes.
Diverses réunions de travail sont régulièrement organisées depuis 2013, physiquement (26-28.09.2013 à Mannheim, 6-7.5.2015 à Strasbourg, 14-17.06.2015 à Mannheim, 28-29.10.2015 à Strasbourg, 17-18.02.2016 à Mannheim, 23-25.01.2017 à Strasbourg, 18-19.10.2017 à Strasbourg, 26-28.11.2017 à Mannheim, 5-6.2.2019 à Strasbourg; 3-7.06.2019 à Friedrichsdorf; 26-28.11.2019 à Strasbourg) et par vidéoconférence (multisite). En raison de la pandémie en 2020, les réunions sont actuellement réalisées par vidéoconférence.
En 2017, arrivée dans le groupe de recherche de 3 nouveaux membres pour leurs activités de recherche en théorie des graphes: Sereni (DR en informatique) et de 2 doctorants en informatique Pirot et Starman. En 2019, arrivée de Gumbel (PR en informatique).

ENCADREMENT ET ANIMATION RECHERCHE (PASSES)

Direction, animation laboratoires et équipes de recherche

  • Responsable d'une équipe-thématique de recherche en Bioinformatique Théorique depuis 1991 (soit 30 ans). Ses thématiques de recherche, les codes circulaires et les modèles probabilistes d'évolution des gènes, constituent une spécificité nationale et internationale.
  • Membre du Conseil Scientifique du Département d'Informatique Recherche (DIR) à l'UdS, de 2011 à 2015.
  • Membre du bureau et du conseil du laboratoire LSIIT (Laboratoire des Sciences de l'Image, de l'Informatique et de la Télédétection, ICube actuellement) à l'UdS, de 2001 à 2008.
  • Coresponsable d'une équipe de recherche dans les Systèmes Dynamiques Discrets pour deux universités, l'UTBM (Université de Technologie de Belfort-Montbéliard) et l'IUT de Belfort de l'Université de Franche-Comté, de 1998 à 2000.
  • Directeur adjoint du laboratoire LARIS (LAboratoire de Recherche en Informatique de Sevenans) à l'UTBM, de 1996 à 1998.
  • Directeur de 7 thèses en informatique.
  • Membre du GdR "Bioinformatique Moléculaire" et du GdR "Informatique Mathématique" dans le groupe de travail "Combinatoire des mots, algorithmique du texte et du génome" depuis plusieurs années.
  • Participation-organisation à 12 groupes de travail en bioinformatique, de 1991 à 1997.
  • 13 contrats de recherche, de 1990 à 2001.
  • Responsable de l'installation et de la maintenance du serveur de bioinformatique théorique: configuration du serveur Apache, des logiciels de calcul formel (Mathematica, WebMathematica, etc.), sauvegarde du site, etc. Trois logiciels de recherche sont disponibles sur le site web: GETEC (Genome Evolution by Transformation, Expansion and Contraction), DNAdistree et FPTF (Frame Permutated Trinucleotide Frequency).

Rayonnement

  • Membre de 17 jurys de thèses et HDR en informatique et mathématiques appliquées.
  • Encadrement de 14 stages master de recherche et DEA.
  • 21 principales communications invitées.
  • Relecteur d'articles depuis 1986 (35 ans), essentiellement pour les revues Mathematical Biosciences, Bulletin of Mathematical Biology, Journal of Mathematical Biology, Journal of Theoretical Biology, Theory in Biosciences, Computational Biology and Chemistry, BMC Evolutionary Biology, Entropy, Nucleic Acids Research, Biosystems, Plos ONE, Life, BMC Bioinformatics.

THEORIE DU CODE CIRCULAIRE DANS LES GENES

La recherche d'un code dans les gènes est un problème très ancien qui a été initié en 1957 par Crick et al. avec les codes comma-free (codes sans ponctuation). L'objectif était d'expliquer comment un ensemble de 20 trinucléotides (mots de 3 lettres sur un alphabet à 4 lettres) parmi 43=64 pouvait coder les 20 acides aminés (mots de 1 lettre sur un alphabet à 20 lettres) constituant les protéines. En 1958, les mathématiciens Golomb et al. obtiennent quelques résultats sur cette classe de codes. La combinatoire explosive avec 320 (3.5 milliards) de codes possibles et la découverte du code génétique ont conduit à l'abandon du concept de codes comma-free.

Cette théorie est restée silencieuse pendant 40 ans. En 1996, nous découvrons dans les gènes une classe de codes plus générale, les codes circulaires [A22]. En 2012, une deuxième étape majeure est obtenue avec l'identification de motifs de code circulaire dans les ARN de transfert et ribosomique, en particulier dans le centre de décodage du ribosome [A53,A59]. En effet, le dinucléotide AA (A1492 et A1493) et le nucléotide G530 qui sont universellement conservés dans le centre de décodage du ribosome des espèces (eucaryotes, procaryotes) appartiennent à des motifs de code circulaire [A53,A65].

Depuis 25 ans, j'ai été le principal contributeur au développement de cette théorie du code circulaire, à la fois en bioinformatique et en combinatoire sur les mots (cf. Figure 1).
Figure 1. Principaux domaines de recherche de la théorie des codes circulaires dans les gènes.

Reconnaissance internationale des travaux sur les codes circulaires Gonzalez, Giannerini et Rosa ("Circular codes revisited: A statistical approach", J. Theor. Biol, 2011, 275, 21-28) mentionnent dans le résumé de leur article

« In 1996 Arquès and Michel [...] discovered the existence of a common circular code in eukaryote and prokaryote genomes. Since then, circular code theory has provoked great interest and underwent a rapid development. »
« The results [obtenus par les auteurs dans leur article] indicate that, on average, the code proposed by Arquès and Michel has the best covering capability ... »

Gladstone ("Autocorrelation genetic syntax of eukaryotic protein-coding sequences", 2013) cite dans son travail

« Michel has theorized that two codes, the genetic code and the circular code, are used together as key components of the functioning of the ribosomal complex. He has proposed that while the genetic code conveys what amino acids to recruit to the ribosomal complex during translation, the circular code is used for frame identification and synchronization of the ribosomal complex with the ORF. Evidence has been provided that shows circular codes most likely play a role in ribosome synchronization with the ORF (Frey and Michel 2006). A recent analysis of frameshift genes found in eukaryotes and prokaryotes has found a significant correlation between frameshift signals and Michel’s proposed circular code (Ahmed, Frey et al. 2007). »
« … and our understanding of the role these circular codes play in vivo is largely a mystery. »

Fimmel et Strüngmann ("Codon distribution in error-detecting circular codes", Life, 2016, 6, 14) écrivent dans le résumé de leur article

« In 1957, Francis Crick et al. suggested an ingenious explanation for the process of frame maintenance. The idea was based on the notion of comma-free codes. Although Crick’s hypothesis proved to be wrong, in 1996, Arquès and Michel discovered the existence of a weaker version of such codes in eukaryote and prokaryote genomes, namely the so-called circular codes. Since then, circular code theory has invariably evoked great interest and made significant progress. »
« In 2015, by quantifying the approach used in 1996 and by applying massive statistical analysis of gene taxonomic groups, the circular code detected in 1996 was rediscovered extensively in genes of prokaryotes and eukaryotes and now also identified in the genes of plasmids and viruses (Michel, 2015). The codes discovered by Arquès and Michel in nature have even more interesting properties [par rapport aux codes comma-free]. With each codon, its anticodon is also in the code (self-complementarity), and they also have the error detection property in frame 1 and 2 (C3-property). »

Fimmel et Strüngmann dans un article de synthèse (2018, Biosystems 164, 186-198): The birth of circular codes in genetics.

« Till the mid of the 1990s the theory of comma-free codes was essentially discarded from research in theoretical biology and remained a subject of coding theory. However, after preparing work by Michel (1989) and Arqués and Michel (1996) used the codon bias to perform an extensive statistical analysis on the preferential frame of codons in large gene populations of prokaryotes and eukaryotes. Taking the 20 most frequent codons in preferential frame 0 (the correct reading frame) a set X0 of codons had been found that formed a code which has very remarkable mathematical properties as it became clear only later. The code X0 codes for the set {Ala, Asn, Asp, Gln, Glu, Gly, Ile, Leu, Phe, Thr, Tyr, Val} of 12 amino acids. Before we describe the properties of the code X0 in more detail and thus discuss circular code theory, we would like to mention that the statistical analysis by Arquès and Michel has been supported by more recent analyses where the same code was identified in genes of bacteria, archaea, eukaryotes, plasmids and viruses – see Michel (2015, 2017) and Arqués and Michel (1996). Moreover, motifs of X0, i.e. short sequences of codons from the code X0 were detected in tRNAs and rRNAs, most importantly in the ribosome decoding center in Michel (2012) and El Soufi and Michel (2014, 2015), and in the genomes of eukaryotes in El Soufi and Michel (2016). Last but not least, the universally conserved nucleotides A1492 and A1493 as well as the conserved nucleotide G530 in the ribosome decoding center are found in motifs of X0. All these findings are strong hints for a significant role played by the code X0 in the genetic information. »

Štambuk, Konjevoda et Pavan ("Antisense peptide technology for diagnostic tests and bioengineering research", Int. J. Mol. Sci. 2021, 22, 9106) écrivent dans leur article

« Nevertheless, an important aspect of frameshift coding related to antisense/complementary sequences needs to be addressed. In 1996, Arques and Michel [41,42] identified a complementary circular code of trinucleotides (X) which on average has the highest occurrence in the reading frame (X0) compared to the two shifted frames (X1 and X2).
« This code was found in the protein coding genes of bacteria, archaea, eukaryotes, plasmids, and viruses [42,51]. It enables the reading frames to be retrieved in genes without start codons and with a window length of ≥13 nucleotides [41,42]. The frame X0 consists of 12 amino acids (A, N, D, Q, E, G, I, L, F, T, Y, V), while frames X1 (A, R, C, I, L, K, M, P, S, T, V) and X2 (A, R, C, Q, G, H, L, P, S, W, Y) have 11 amino acids each [41,42,51]. With respect to the antisense codon and amino acid translation in the 5′ → 3′ direction, the X0 frame of the circular code is self-complementary, and X1 and X2 frames are mutually complementary [41,42]. In 1999, Štambuk showed that the combinatorial necklace model enables the use of coding theory arithmetic in the analyses of the genetic code and circular code antisense translations [24,44,45,52].
...
« The first coding rule is that X0, X1, and X2 frames of the circular code distinguish three possible reading frames of the protein-coding sequence since hidden stop codons in X1 and X2 prevent off-X0-frame protein translation—this procedure is often named ambush hypothesis [53,54], and it is thought to ensure accurate translation.
« Paradoxically, the second coding rule—related to SGC flexibility—is that stop codon readthrough may be promoted by the nucleotide environment, with glutamine (Q), tyrosine (Y), and lysine (K) inserted at UAA and UAG stop codons, whereas tryptophan (W), cysteine (C), and arginine (R) could be inserted at a UGA stop codon [55,56].
« Considering bioengineering modeling, a reduced number of amino acids in frames X0, X1, and X2 match the criteria for the use of simplified amino acid alphabets for engineering purposes and related sample space reductions [57]. Consequently, we measured the relationships of the main amino acid (aa) properties addressed by Bartonek et al. [43] in the frames X0, X1, and X2 of the complementary circular code [41,42]. The factors of amino acid polarity, secondary structure, molecular volume, diversity, and electrostatic charge by Atchley et al. [58] were correlated to scales of nucleobase/amino acid interaction preferences for guanine (GUA), purines (PUR), and pyrimidines (PYR) [43,59].
« A significant rise in the correlation of amino acid polarity to preference scales for guanine GUA, PUR, and PYR was observed in frame X0 (Table 3). In frame X1 (shifts +1 and −2), we found a strong correlation between codon and amino acid diversity factor and GUA, PUR, and PYR scales (Table 3). This observation is not surprising, since Atchley et al. [58] reported that diversity factor exhibits a highly significant correlation to amino acid physiochemical attributes and substitution matrices, and the X1 frame is specified by the second codon base, which is associated with the majority of such information [24,34,60].
However, in frame X2 (shifts +2 and −1), correlations between physiochemical factors and nucleobase preference scales were not significant. This observation is in agreement with recent findings that, contrary to X1, the frame X2 of the complementary circular code is less optimized than the SGC to reduce the effects of +2 and −1 frameshifts, in particular with respect to the physicochemical properties of amino acids [51].
« A rise in correlation among amino acid factors and nucleobase preference scales in frames X0 and X1 of the circular codes may reflect the importance of the first two bases for the variables encoding scheme [24,34,60], and points to a possible application of GUA, PUR, and PYR scales [43,59] to different genetic code analyses. In our opinion, comparative investigations of complementary circular code and SGC—concerning frameshifts, error-correction, evolution, and biological engineering—seem to be justified. »

ENSEIGNEMENT

PRESENTATION SYNTHETIQUE DES COURS ACTUELLEMENT ENSEIGNES

Programmation orientée objet (Java)
Niveau: L2, parcours fondamental informatique. Formation: initiale. Nature: cours (12 h), TD (2×12 h), TP (4×10 h). Nombre d'étudiants: environ 160.
Matières: Classes et objets: conception, constructeur, affectation et comparaison d'objets, champs et méthodes statiques, surdéfinition de méthodes, transmission d'information avec les méthodes, récursivité, classes internes, paquetage. Héritage: conception des classes dérivées, constructeur, redéfinition de méthodes, polymorphisme, superclasse objet, classes et méthodes finales, classes abstraites, interface, classes enveloppes, classes anonymes. Fichiers texte.

Pix
Niveau: L2, parcours fondamental biologique (Département Sciences de la Vie). Formation: initiale. Nature: TD (10×2 h). Nombre d'étudiants: environ 15×20=300.
Matières: Présentation du logiciel Pix.

Algorithmes du texte et recherche d’information
Niveau: M1, informatique spécialité Sciences des Données et Systèmes Complexes (SDSC). Formation: initiale. Nature: cours intégrés (20 h). Nombre d'étudiants: environ 40.
Matières: Mots particuliers: mots de Fibonacci et mots de de Bruijn. Alignement de mots: algorithme naïf et étude de complexité, comparaison de mots, alignement optimal, plus long sous-mot commun. Recherche approchée de mots: mots à jokers dans le texte et le mot, mots avec différence.

Bioinformatique
Niveau: M2, informatique spécialité Sciences des Données et Systèmes Complexes (SDSC). Formation: initiale. Nature: cours intégrés (30 h). Nombre d'étudiants: environ 40.
Matières: Codes circulaires: définitions, classes de codes (hiérarchie, autocomplémentaire, C3, etc.), preuve de la circularité par la théorie des graphes. Modèles probabilistes d’évolution des gènes à 1 et 2 paramètres. Matrices de mutation. Distances phylogénétiques.

Tuteur enseignant de 2 étudiants en master (stage recherche)

DIFFUSION PEDAGOGIQUE

Direction et animation de formations

  • Exposé (2h30) sur la bioinformatique et les codes circulaires aux enseignants ISN (Informatique et Sciences du Numérique) de l'académie d'Alsace (8.03.2017).
  • Cours sur les codes circulaires pour l'Ecole Jeunes Chercheurs du GdR Informatique Mathématique (4-8.04.2016).
  • Membre organisateur du congrès SPECIF (SIF) 2008 à Strasbourg.
  • Membre du bureau du Département Organisation et Gestion de la Production à l'Université de Technologie de Belfort-Montbéliard, de 1996 à 1998.
  • Membre et responsable de la commission matériel informatique au département Organisation et Gestion de la Production de l'IUT de Belfort, de 1991 à 1996 (responsable pendant 2 ans).

Cours polycopiés

  • Rédaction d'un cours sur les codes circulaires (CNRS éditions) pour l'Ecole Jeunes Chercheurs du GdR Informatique Mathématique (4-8.04.2016).
  • Tous mes cours magistraux ont fait l'objet de polycopiés (13 polycopiés au total). Mes cours polycopiés actuellement utilisés sont disponibles sur mon site https://dpt-info.di.unistra.fr/~c.michel/lectures.html
"Algorithmique et Programmation Orientée Objet en Java" (98 pages).
"Algorithmes du texte" (24 pages; distribué aux étudiants).
"Bioinformatique" (30 pages; distribué aux étudiants).
  • Mes anciens cours polycopiés sont disponibles sur demande: "Probabilités" (77 pages), "Statistiques" (44 pages), "Algorithmes de Recherche" (45 pages), "Théorie des Langages" (73 pages), "Bioinformatique Théorique et Appliquée" (83 pages), "Algorithmes et logiciels usuels en bioinformatique" (23 pages), "Introduction à l'Ordinateur" (156 pages), "Algorithmique et Programmation en Pascal" (87 pages), "Réseaux Informatiques" (40 pages), "Systèmes Experts et Intelligence Artificielle" (27 pages).

RESPONSABILITES COLLECTIVES (PASSEES)

Responsabilités administratives

  • Membre élu au Conseil d'Administration à l'UTBM, de 1996 à 1998 et de 1999 à 2000 (5 ans).
  • Membre élu au Conseil Scientifique à l'UTBM, de 1999 à 2000 (2 ans).
  • Membre élu au Conseil des Etudes et de la Vie Universitaire à l'UTBM, de 1999 à 2000 (2 ans).

Responsabilités dans les projets et la vie collective de l’établissement

  • Vice-président de la Commission de Spécialistes en informatique à l'UdS, de 2004 à 2008.
  • Membre du Comité d'Expert en informatique à l'UdS, de 2009 à 2019.
  • Membre d'un comité de sélection PR27 à l'IUT Robert Schumann de l'UdS en 2016.
  • Membre de comités de sélection en informatique à l'UdS en 2009, 2011.
  • Membre de comités de sélection en informatique: Lille en 2009, Besançon en 2011, 2012, 2013 et 2014.
  • Membre de 5 Commissions de Spécialistes (CS): CS en informatique à l'UdS, de 2001 à 2004; CS N°10 à l'Université Robert Schuman de Strasbourg, de 2001 à 2008; CS N°1 "Mathématiques-Informatique" à l'UTBM, de 1998 à 2000; CS N°3 "Mécanique-Energétique" à l'UTBM, de 1998 à 2000; CS à l'UTBM, de 1996 à 1997.
  • Membre de la Commission Paritaire des Enseignants à l'UTBM, de 1996 à 1998 (choix des Enseignants Chercheurs Contractuels et des Professeurs Agrégés).
  • Membre du Comité National d'Evaluation, de la Commission des Titres d'Ingénieur et de l'Inspection Générale de l'Administration de l'Education Nationale à l'UTBM, de 1996 à 1998:
  • Membre de la commission de choix des enseignants à l'IUT de Belfort, de 1993 à 1996.

Participations à des instances nationales

  • Membre du Comité National de la Recherche Scientifique en Section 7 (Sciences et Technologies de l'Information: Informatique, Automatique, Traitement du signal), élu en 2004, de 2004 à 2008.
  • Membre du Comité National de la Recherche Scientifique en Section 44 (Modélisation des systèmes biologiques, Bioinformatique), élu en 2005, de 2005 à 2008.
  • Membre de la SIF/SPECIF, de 1995-2019. Rédaction d'un rapport de conjoncture des activités du Comité national pour SPECIF en 2006.
  • Membre du jury du prix de thèse Gilles Kahn décerné par SIF/SPECIF, de 2010 à 2012.
  • Membre de comités de sélection en informatique: Lille en 2009, Besançon en 2011, 2012, 2013 et 2014.

Expert dans les agences nationales

  • Expert pour l'HCERES, évaluation du laboratoire de recherche LRI, 2018.
  • Expert pour l'AERES, évaluation des laboratoires Lim&Bio en 2008 et IBISC en 2008.
  • Expert pour l'ANR, principalement pour l'évaluation de projets en bioinformatique.
  • Expert pour le Comité National en Section 7, évaluation des laboratoires LRI en 2004, LAMI en 2005 et IBISC en 2007.

CONTACT

Professor Christian MICHEL 
Centre de Recherche en Biomédecine de Strasbourg
Theoretical Bioinformatics, CSTB, ICube
CNRS, Université de Strasbourg
1 Rue Eugène Boeckel
CS 60026
67084 Strasbourg
Email: c.michel@unistra.fr
Site: Christian MICHEL