Équipe CSTB : Systèmes Complexes et Bioinformatique Translationnelle

Différences entre les versions de « Christian Michel »

De Équipe CSTB : Systèmes Complexes et Bioinformatique Translationnelle
Aller à la navigation Aller à la recherche
Ligne 66 : Ligne 66 :
 
* Je suis membre du Conseil Scientifique du Département d'Informatique Recherche (DIR) à l'Université de Strasbourg, de 2011 à 2015.
 
* Je suis membre du Conseil Scientifique du Département d'Informatique Recherche (DIR) à l'Université de Strasbourg, de 2011 à 2015.
 
* Membre du bureau et du conseil du laboratoire LSIIT (Laboratoire des Sciences de l'Image, de l'Informatique et de la Télédétection, ICube actuellement) à l'Université de Strasbourg, de 2001 à 2008.
 
* Membre du bureau et du conseil du laboratoire LSIIT (Laboratoire des Sciences de l'Image, de l'Informatique et de la Télédétection, ICube actuellement) à l'Université de Strasbourg, de 2001 à 2008.
* Co-responsable d'une équipe de recherche dans les Systèmes Dynamiques Discrets pour deux universités, l'UTBM et l'IUT de Belfort de l'Université de Franche-Comté, de 1998 à 2000.
+
* Co-responsable d'une équipe de recherche dans les Systèmes Dynamiques Discrets pour deux universités, l'UTBM (Université de Technologie de Belfort-Montbéliard) et l'IUT de Belfort de l'Université de Franche-Comté, de 1998 à 2000.
* Directeur adjoint du laboratoire LARIS (LAboratoire de Recherche en Informatique de Sevenans) à l'Université de Technologie de Belfort-Montbéliard (UTBM), de 1996 à 1998.
+
* Directeur adjoint du laboratoire LARIS (LAboratoire de Recherche en Informatique de Sevenans) à l'UTBM, de 1996 à 1998.
  
 
'''Direction de thèse'''<br />
 
'''Direction de thèse'''<br />

Version du 28 février 2016 à 11:49

Christian MICHEL.jpg

Professeur Chistian MICHEL

RECHERCHE

INTRODUCTION

Dès leur début en 1983, mes travaux de recherche en bioinformatique se sont positionnés au niveau de l'identification de propriétés dans les gènes. Ils ont fait l'objet, en particulier, de 71 articles de journaux internationaux avec comité de lecture dans deux disciplines: bioinformatique-biomathématiques et informatique théorique-combinatoire, dont 12 articles comme unique auteur et 39 articles avec deux auteurs.

Trois de mes résultats sont considérés par la communauté bioinformatique comme étant majeurs: (i) la découverte de codes circulaires dans les gènes et leur étude statistique et combinatoire; (ii) les modèles stochastiques d'évolution des gènes par substitution de motifs génétiques selon une évolution linéaire (extension des modèles classiques de nucléotides) et ses généralisations aux évolutions non-linéaire et pseudo-chaotique; et (iii) les modèles stochastiques d'évolution des gènes par substitution, insertion et délétion de motifs génétiques. Cette théorie du code circulaire fait actuellement l'objet de nombreux développements en combinatoire, bioinformatique et biologique par différents groupes de chercheurs.

Cependant, des résultats dans d'autres disciplines de la bioinformatique ont été également obtenus: identification de signaux dans les gènes; modèles informatiques d'évolution des gènes (langages rationnels, automates stochastiques, mélanges markoviens); distances phylogénétiques et leurs méthodes d'inférence; et le développement de logiciels de recherche en bioinformatique.

ACTIVITES SCIENTIFIQUES

Depuis 1983, mes travaux de recherche ont concerné plusieurs domaines de la bioinformatique. Actuellement, ils sont centrés sur (i) les codes circulaires, des aspects en bioinformatique jusqu'en combinatoire; et (ii) les modèles stochastiques d'évolution des gènes par substitution, insertion et délétion de motifs génétiques.

Identification de signaux statistiques dans les gènes (articles [A1,3-6,7,8,11,14,16])
De nouvelles définitions de la fonction de corrélation (en moyenne ou en phase) permettent d'obtenir des probabilités non-biaisées de motifs génétiques (contrairement à la définition classique en bijection avec le spectre de puissance). Divers algorithmes sont développés pour calculer cette fonction selon la nature du problème: par un parcours de séquences, par adresse, par un calcul parallèle ou par un calcul exact selon un arbre lexicographique. Plusieurs périodicités (modulo 2, 3 et 6) et une occurrence préférentielle d'un motif sont ainsi révélées dans diverses régions des génomes.

Identification de codes circulaires dans les gènes (articles [A19,21,22,30,33,61,67])
Des fonctions de corrélation en phase identifient un ensemble X de 20 trinucléotides dans les gènes des procaryotes, eucaryotes, plasmides et virus. De façon exceptionnelle, X est un code circulaire. Tout mot construit avec un code circulaire admet une factorisation unique. Ainsi, X possède la propriété de toujours retrouver la phase de lecture d'un gène (avec une fenêtre de 13 nucléotides positionnée n'importe où dans le gène). X possède d'autres propriétés combinatoires étonnantes: il est maximal, auto-complémentaire et C3. Des méthodes statistiques spécifiques de recherche de codes circulaires dans les gènes sont développées ("correlation function per frame", "frame permuted trinucleotide frequencies", "occurrence probability of a complementary/permutation trinucleotide set").
Ainsi, selon nos travaux, les gènes seraient composés de deux types de codes: des codes d'acide aminé (classiquement le code génétique universel) pour traduire les codons en acides aminés et des codes circulaires pour retrouver la phase de lecture des gènes.
Cette théorie constitue un exemple passionnant et non trivial d’objet informatique-mathématique issu de travaux menés en bioinformatique.

Propriétés des codes circulaires dans les gènes (articles [A36,41,46,49,53,59,63-66])
Les propriétés des codes circulaires sont étudiées dans des familles particulières de gènes. Les gènes à décalage de phase possèdent comme attendu par la théorie un décalage du signal du code circulaire. Un signal de code circulaire est identifié dans des séquences non-codantes, précisément les micro-ARN. Les gènes avec des propriétés de codes circulaires codent souvent des fonctions essentielles associées aux génomes minimaux. Des motifs génétiques de codes circulaires sont identifiés dans les ARN ribosomique et de transfert.

Etude combinatoire des codes circulaires de dinucléotides et trinucléotides (articles [A27,39,40,47,50,52,54,55, 57,58,60,70,71])
Nous donnons une preuve mathématique qui démontre que le modèle probabiliste de Koch et Lehmann (1997) ne peut pas générer le code circulaire X. Un nouveau concept en théorie des codes dit "de collier" permet de décrire des variétés de commas-free codes et de codes circulaires. Sa généralisation permet ensuite de faire un pont théorique entre les codes commas-free et les codes circulaires, deux classes de codes considérées jusqu'à présent comme disjointes. La fonction de croissance (nombre et liste) des codes circulaires de trinucléotides est obtenue pour toutes les longueurs de 1 à 20, par exemple son maximum est de 23,403,485,556 codes circulaires de 13 trinucléotides. Nous identifions une nouvelle classe de codes, les codes circulaires forts qui sont plus contraints que les codes commas-free. Les codes circulaires de dinucléotides (mots de 2 lettres sur un alphabet de 4 lettres) sont identifiés et définis par des propriétés pour leurs préfixes et suffixes. Récemment (2015), une approche par la théorie des graphes permet d'obtenir de nouveaux théorèmes avec les codes circulaires formés de mots de longueur quelconque (finie) sur un alphabet fini.

Modèles informatiques d'évolution des gènes (articles [A8-10,12,20])
Des modèles informatiques d'évolution de gènes issus de la théorie des langages permettent de simuler des propriétés statistiques non-aléatoires observées dans les gènes, par exemple des périodicités. Ces modèles sont basés sur un processus de construction de gènes dits "primitifs" à l'aide de langages rationnels, d'automates stochastiques et de mélanges indépendant ou markovien de motifs génétiques (simulant les briques "primitives" des gènes), suivi de processus aléatoires de substitution, d'insertion et de suppression de motifs génétiques.

Modèles probabilistes d'évolution des gènes par substitution de motifs génétiques (articles [A13,15,17,23,24,31,32,34,35,37,42,43,45,51])
Les modèles d'évolution classiques de nucléotides (Jukes et Cantor, 1969; Kimura, 1980, 1981) sont généralisés aux motifs génétiques de taille quelconque (finie) avec une approche mathématique basée sur des opérateurs de Kronecker (produit et somme). Ces modèles étendus permettent ainsi de déterminer la probabilité d'occurrence exacte (solution analytique) d'un motif génétique de taille quelconque (dinucléotides, trinucléotides, etc.) au cours du temps en fonction de paramètres de substitution (transition et transversions) associés à chaque site des motifs étudiés. L'évolution peut être dans le sens direct (du passé au présent) mais également dans le sens inverse (du présent au passé). Des modèles probabilistes d'évolution des gènes sont également développés pour une évolution non-linéaire avec des paramètres de substitution dépendants du temps. Ils permettent ainsi d'accélérer ou de ralentir le processus d'évolution selon divers modes: exponentiel, sinusoïdal, etc. Enfin, ces derniers modèles sont généralisés à une évolution pseudo-chaotique où un nombre aléatoire de motifs génétiques mutent à chaque intervalle de temps dt.

Modèles probabilistes d'évolution des gènes par substitution, insertion et délétion de motifs génétiques (articles [A48,56,62,65,68])
Une nouvelle classe plus générale de modèles d'évolution des gènes est développée dans laquelle les paramètres d'insertion et de délétion sont des paramètres explicites indépendants des paramètres de substitution. Elle permet de formuler des hypothèses sur la structure des gènes primitifs, leur transformation (substitution), leur expansion (insertion) et leur contraction (délétion).

Distances phylogénétiques et méthodes d'inférence (articles [A35,37,44])
Les modèles probabilistes développés précédemment permettent de généraliser la classique distance phylogénétique définie pour un site (Jukes et Cantor, 1969; Kimura, 1980, 1981) à une suite de sites de longueur quelconque. Cette distance phylogénétique généralisée conduit à de nouvelles méthodes de distance performantes pour inférer des arbres phylogénétiques.

Développement de logiciels de recherche en bioinformatique (articles [A9,28,45,65,68])

ARTICLE DE JOURNAUX INTERNATIONAUX AVEC COMITE DE LECTURE

Les articles en pdf peuvent être téléchargés sur le site de Christian MICHEL

LOGICIEL DE RECHERCHE

GETEC (Genome Evolution by Transformation, Expansion and Contraction) (Benard E., Lèbre S., Michel C.J., 2015; basé sur les articles [A37,45,51,65,68])
GETEC (écrit en Mathematica et webMathematica) permet de modéliser l'évolution des gènes en déterminant les probabilités d'occurrence exactes (solutions analytiques) de motifs génétiques de longueur finie, l'implémentation étant réalisée pour des longueurs de 1 à 5 (nucléotides, dinucléotides, trinucléotides, quadrinucléotides et pentanucléotides), au cours du temps en fonction (i) de paramètres de substitution (de 1 à 3 taux par site des motifs), (ii) d'un vecteur de taux d'insertion des motifs, (iii) d'un taux de délétion et (iv) d'un vecteur de probabilités initiales des motifs. La modélisation mathématique utilise en particulier les fonctions hypergéométriques Gaussiennes et les opérateurs de Kronecker (somme et produit). Les formules mathématiques peuvent comporter plusieurs milliers de termes. Ce site permet à la communauté des bioinformaticiens et des biologistes de réaliser leur propre modèle d'évolution des gènes en fonction de leur application biologique.
A ce jour, un tel logiciel de recherche n'a pas d'équivalent en bioinformatique puisqu'il permet de modéliser l'évolution des motifs et des gènes au cours du temps, dans le sens direct (du passé au présent) ou inverse (du présent au passé) et en fonction de paramètres de substitution, d'insertion et de délétion des motifs génétiques. Cette approche directe diffère radicalement des méthodes phylogénétiques et d'alignement.

ENCADREMENT ET ANIMATION RECHERCHE

Direction, animation laboratoires et équipes de recherche

  • Je suis responsable d'une équipe-thématique de recherche en Bioinformatique Théorique depuis 1991 (soit 25 ans). Ses thématiques de recherche, les codes circulaires et les modèles probabilistes d'évolution des gènes, constituent une spécificité nationale et internationale.
  • Je suis membre du Conseil Scientifique du Département d'Informatique Recherche (DIR) à l'Université de Strasbourg, de 2011 à 2015.
  • Membre du bureau et du conseil du laboratoire LSIIT (Laboratoire des Sciences de l'Image, de l'Informatique et de la Télédétection, ICube actuellement) à l'Université de Strasbourg, de 2001 à 2008.
  • Co-responsable d'une équipe de recherche dans les Systèmes Dynamiques Discrets pour deux universités, l'UTBM (Université de Technologie de Belfort-Montbéliard) et l'IUT de Belfort de l'Université de Franche-Comté, de 1998 à 2000.
  • Directeur adjoint du laboratoire LARIS (LAboratoire de Recherche en Informatique de Sevenans) à l'UTBM, de 1996 à 1998.

Direction de thèse
J'encadre la thèse de Karim El Soufi sur des algorithmes de recherche et de visualisation de motifs de codes circulaires. Des motifs du code circulaire X, motifs X en abrégé, sont identifiés dans les régions 5′ et/ou 3′ des ARN de transfert (ARNt) des procaryotes et des eucaryotes et des ARN ribosomiques 16S (ARNr 16S) des procaryotes et des eucaryotes, en particulier dans le centre de décodage du ribosome. De façon inattendue, les nucléotides A1492 and A1493 universellement conservés dans les procaryotes et eucaryotes, et le nucléotide G530 conservé dans les procaryotes appartiennent à des motifs X. Une visualisation 3D des motifs X dans le ribosome montre plusieurs configurations spatiales impliquant des motifs X de l'ARNm, des motifs X de l'ARNt et des motifs X de l'ARNr 16S. Ces travaux ont fait l'objet de 2 articles de journaux internationaux avec comité de lecture [A65,A69] et d'un article en soumission [A72].

Réseaux de recherche

  • Réseau de recherche européen composé d'informaticiens, mathématiciens, physiciens et biologistes (français, allemands, italiens, espagnols) dont la thématique de recherche est le codage des gènes. Cette jeune communauté s'est réunie pour la première fois à Mannheim (Allemagne) en 2013. Elle est à l'origine de diverses collaborations scientifiques, de publications (par exemple, Michel et Seligmann, [A63]; Fimmel, Michel et Strüngmann, [A71,A72]; Fimmel, Giannerini, Gonzalez et Strüngmann, 2014, 2015; etc.) et d'une issue spéciale dans la revue Philosophical Transactions A (février 2016) comportant 21 articles sur le codage-information en génétique.
  • Membre du GdR "Bioinformatique Moléculaire" et du GdR "Informatique Mathématique" dans le groupe de travail "Combinatoire des mots, algorithmique du texte et du génome" depuis plusieurs années.

Serveur
Je suis responsable de l'installation et de la maintenance du serveur de bioinformatique théorique: configuration du serveur Apache, des logiciels de calcul formel (Mathematica, WebMathematica, etc.), sauvegarde du site, etc. Trois logiciels de recherche sont disponibles sur le site web: GETEC (Genome evolution by transformation, expansion and contraction), DNAdistree et FPTF (Frame Permutated Trinucleotide Frequency).

ENSEIGNEMENT

PRESENTATION SYNTHETIQUE DES COURS ACTUELLEMENT ENSEIGNES

Programmation orientée objet (Java)
Niveau: L2, parcours fondamental informatique. Formation: initiale. Nature: cours (12 h).
Matières: Classes et objets: conception, constructeur, affectation et comparaison d'objets, champs et méthodes statiques, surdéfinition de méthodes, transmission d'information avec les méthodes, récursivité, classes internes, paquetage. Héritage: conception des classes dérivées, constructeur, redéfinition de méthodes, polymorphisme, superclasse objet, classes et méthodes finales, classes abstraites, interface, classes enveloppes, classes anonymes. Fichiers texte.

Certificat Informatique et Internet (C2i)
Niveau: L2, parcours fondamental biologique (Département Sciences de la Vie). Formation: initiale. Nature: TD (18 h).
Matières: Connaissance de l'environnement d'un poste de travail. Maîtrise des outils bureautiques. Utilisation des outils de communication et de travail collaboratif.

Probabilités/statistiques
Niveau: L3, parcours fondamental informatique. Formation: initiale. Nature: cours (36 h), TD (32 h).
Matières: Probabilités: Espace probabilisé: espace, événement, probabilité d'un événement, lois de probabilités, probabilité conditionnelle, indépendance des événements. Variables aléatoires: fonction de répartition, espérance, variance, variables aléatoires à plusieurs dimensions, fonction génératrice des moments. Lois de probabilités discrètes usuelles: Bernoulli, binomiale, géométrique, binomiale négative, uniforme discrète, poisson. Lois de probabilités continues usuelles: uniforme continue, exponentielle, normale, gamma, beta, Laplace, Khi-deux, Student, Fischer-Snedecor. Statistiques: Mesures statistiques: de tendance centrale, de dispersion. Estimation: ponctuelle et par intervalle. Tests d'hypothèses. Test du Khi-deux. Test de Wilcoxon.

Problèmes et méthodes algorithmiques en bioinformatique (initiation à la recherche)
Niveau: M1, informatique spécialité Ingénierie des Logiciels et des Connaissances (ILC). Formation: initiale. Nature: cours (16 h), TD (10 h).
Matières: Méthodes statistiques de recherche de motifs biologiques: fréquences d'occurrence et significativité, fonctions de corrélation, méthodes graphiques (exemple avec la représentation "Chaos Game"), méthodes statistiques multidimensionnelles (exemple avec l'ACP). Modèles probabilistes d’évolution des gènes (lettres et extension aux mots). Matrices de mutation. Distances phylogénétiques. Codes: comma-free, circulaire et génétique.

Algorithmes et logiciels usuels en bioinformatique
Niveau: M2, informatique spécialité Ingénierie des Logiciels et des Connaissances (ILC). Formation: initiale. Nature: cours intégrés (20 h).
Matières: Bases de données biologiques (génétiques, protéiques, etc.). Analyse bioinformatique des séquences et génomes: algorithmes et logiciels d'alignement de séquences (global, local, avec brèches, multiple), algorithmes et logiciels de recherche de motifs (site d'épissage, promoteurs, etc.) et de régions (gènes, introns, séquences d'ARN, etc.).

Algorithmes de recherche
Niveau: M2, informatique spécialité Ingénierie des Logiciels et des Connaissances (ILC). Formation: initiale. Nature: cours intégrés (20 h).
Matières: Exemples de mots particuliers: mots de Fibonacci et mots de de Bruijn. Automates de localisation: arbre d'un dictionnaire, automate-dictionnaire, localisation des mots, automate avec fonction de suppléance, automate avec optimisation de la fonction de suppléance, automate avec successeur par défaut. Alignement de mots: algorithme naïf et étude de complexité, comparaison de mots, alignement optimal. Recherche approchée de mots: mots à jokers, mots avec différence.

ACTIVITES ASSOCIEES A L'ENSEIGNEMENT (depuis 2000)

Direction et animation de formations

  • Je donne un cours sur les codes circulaires pour l'Ecole Jeunes Chercheurs du GdR Informatique Mathématique (4-8.04.2016).
  • Membre organisateur du congrès SPECIF (SIF) 2008 à Strasbourg.
  • Rédaction d'un rapport de conjoncture des activités du Comité national pour SPECIF en 2006.

Cours polycopiés

  • J'ai rédigé un cours sur les codes circulaires (CNRS éditions) pour l'Ecole Jeunes Chercheurs du GdR Informatique Mathématique (4-8.04.2016).
  • Mes cours polycopiés actuellement utilisés sont disponibles sur mon site Christian MICHEL:
Algorithmique et Programmation Orientée Objet en Java (98 pages).
Algorithmes de Recherche (45 pages).
Bioinformatique Théorique (83 pages).
Probabilités (77 pages).
Statistiques (44 pages).

RESPONSABILITES COLLECTIVES

Responsabilités administratives

  • Membre du Conseil d'Administration à l'UTBM, de 1996 à 1998 et de 1999 à 2000.
  • Membre du Conseil Scientifique à l'UTBM, de 1999 à 2000.
  • Membre du Conseil des Etudes et de la Vie Universitaire à l'UTBM, de 1999 à 2000.

Responsabilités dans les projets et la vie collective de l’établissement

  • Je suis membre d'un comité de sélection PR27 à l'IUT Robert Schumann de l'UdS en 2016.
  • Je suis membre du Comité d'Expert en informatique à l'UdS depuis 2009.
  • Membre de comités de sélection en informatique à l'UdS en 2009, 2011.
  • Vice-président de la Commission de Spécialistes en informatique à l'UdS, de 2004 à 2008.
  • Membre de 5 Commissions de Spécialistes (CS): CS en informatique à l'UdS, de 2001 à 2004; CS N°10 à l'Université Robert Schuman de Strasbourg, de 2001 à 2008; CS N°1 "Mathématiques-Informatique" à l'UTBM, de 1998 à 2000; CS N°3 "Mécanique-Energétique" à l'UTBM, de 1998 à 2000; CS à l'UTBM, de 1996 à 1997.
  • Membre de la Commission Paritaire des Enseignants à l'UTBM, de 1996 à 1998 (choix des Enseignants Chercheurs Contractuels et des Professeurs Agrégés)
  • Membre du Comité National d'Evaluation, de la Commission des Titres d'Ingénieur et de l'Inspection Générale de l'Administration de l'Education Nationale à l'UTBM, de 1996 à 1998:
  • Membre de la commission de choix des enseignants à l'IUT de Belfort, de 1993 à 1996.

Participations à des instances nationales

  • Membre de la SIF/SPECIF depuis 1995.
  • Membre du jury du prix de thèse Gilles Kahn décerné par SIF/SPECIF, de 2010 à 2012.
  • Membre de comités de sélection en informatique: Lille en 2009, Besançon en 2011, 2012, 2013 et 2014.
  • Membre du Comité National de la Recherche Scientifique en Section 7 (Sciences et Technologies de l'Information: Informatique, Automatique, Traitement du signal), élu en 2004, de 2004 à 2008.
  • Membre du Comité National de la Recherche Scientifique en Section 44 (Modélisation des systèmes biologiques, Bioinformatique), élu en 2005, de 2005 à 2008.

Expert dans les agences nationales

  • Expert pour l'AERES, évaluation des laboratoires Lim&Bio en 2008 et IBISC en 2008.
  • Expert pour l'ANR, principalement pour l'évaluation de projets en bioinformatique.
  • Expert pour le Comité National en Section 7, évaluation des laboratoires LRI en 2004, LAMI en 2005 et IBISC en 2007.


CONTACT

Professor Christian MICHEL 
Theoretical bioinformatics
CSTB, ICube
Université de Strasbourg, CNRS
300 boulevard Sébastien Brant
67400 Illkirch, France
Email: c.michel@unistra.fr
Site: Christian MICHEL