ArchivesStructure

Précédente structure de l'équipe 2013-2015

Thématique : LBGI Bioinformatique et Génomique Intégratives lbgi.fr

LBGI Bioinformatique et Génomique Intégratives, porté par Olivier Poch et Julie Thompson, se focalise essentiellement sur un champ de recherche en plein essor dans le domaine de la santé : la bioinformatique translationnelle. Notre objectif majeur est de développer une infrastructure informatique robuste capable de gérer des big data afin d’en extraire des connaissances pertinentes dans une approche « du lit du patient au laboratoire ». Dans ce cadre, nous nous intéressons particulièrement à l’étude des maladies génétiques rares et à la compréhension des mécanismes physiopathologiques impliqués dans ces maladies, mécanismes qui ont souvent un intérêt potentiel pour la compréhension des processus biologiques altérés dans des maladies plus communes, telles que l’obésité, les diabètes ou les cancers, ....

Sujets de recherche

Le LBGI se consacre au développement d’approches in silico robustes, automatisées et intégrées (approches analytiques, statistiques, intégration et fouille de données, extraction et représentation des connaissances...) pour étudier l'évolution et le comportement des systèmes biologiques complexes (« hyperstructures », réseaux, etc.) chez l'homme et divers modèles animaux. Profitant de nos approches informatiques intégrées et dans le cadre de collaborations de longue date au niveau international, national et local, le LBGI participe à l'analyse de systèmes complexes impliqués dans diverses maladies humaines, notamment l'étude des déficiences fonctionnelles liées aux maladies rétiniennes ou du cerveau, l'identification de variations génétiques liées aux ciliopathies et la caractérisation du contexte génomique et transcriptomique dans divers cancers.

Opérations

Les travaux du LBGI s’organisent autour de deux grands axes complémentaires :

« L’informatique translationnelle » (Julie Thompson), pour développer une infrastructure informatique dédiée à l'analyse intégrée des « big data » résultant des études à haut-débit des maladies génétiques humaines. Il s'agit notamment de la conception et développement de systèmes de gestion de données originales (stockage, contrôle de la qualité, intégration de données hétérogènes) et des outils d'analyse dédiés à la fouille de données et l'extraction de connaissances biomédicales. Un aspect important est le développement d'interfaces utilisateurs intuitives pour faciliter l'accès par les biologistes et les cliniciens.
« La bioinformatique systémique » (Olivier Poch/Odile Lecompte) pour développer la recherche dans le domaine émergent de l'analyse des systèmes biologiques complexes, afin de comprendre les relations génotype-phénotype et de répondre aux questions concernant les maladies humaines. Il s'agit d'études intégrées de données évolutives, * « omiques » et de patients, notamment celles concernant les ciliopathies, et l'élaboration d'une approche systémique des relations entre les mutations et les réseaux biologiques dans les maladies.

Mots clés

.........

Thématique SONIC (Stochastic Optimisation and Nature Inspired Computing)

La thématique SONIC (Stochastic Optimisation and Nature Inspired Computing), portée par Pierre Collet, étudie et utilise des techniques permettant de s'attaquer à des problèmes complexes insolubles par méthodes exactes. Les méthodes inspirées de la nature sont privilégiées pour leur robustesse et leur très bonne exploration de l'espace de recherche. L'équipe utilise principalement :

les algorithmes évolutionnaires, qui comprennent :
- les algorithmes génétiques (appliqués aux problèmes discrets et combinatoires),
- les stratégies d'évolution (appliquées aux problèmes continus),
- la programmation génétique (appliquée aux problèmes d'apprentissage et de fouille de données),
- l'optimisation évolutionnaire multi-objectifs (pour tous les problèmes industriels qui doivent optimiser plusieurs critères antagonistes à la fois),
l'optimisation par colonies de fourmis,
les approches émergentes (BOIDS, optimisation par essaim particulaire).

L'équipe est actuellement au meilleur niveau international dans l'utilisation de cartes graphiques massivement parallèles (GPGPU) pour le calcul scientifique par évolution artificielle et pour l'intelligence artificielle, en étant la première à obtenir des accélérations d'environ trois ordres de grandeur par rapport à un coeur de CPU moderne sur des problèmes d'optimisation génériques avec la plateforme EASEA (EAsy Specification of Evolutionary Algorithms). Typiquement, une journée de calcul sur un ordinateur comportant plusieurs cartes GPU devient équivalente à plusieurs années de calcul sur un ordinateur compatible PC moderne, ce qui permet de s'attaquer à des problèmes impossibles à aborder par d'autres techniques. Le but poursuivi est ambitieux : il consiste à implémenter une véritable intelligence artificielle compétitive avec l'intelligence humaine sur un ordinateur de type PC équipé de plusieurs cartes graphiques. Deux types de projets sont menés de front : des projets fondamentaux portant sur l'adaptation des algorithmes évolutionnaires aux caractéristiques de ces nouvelles cartes, et des projets appliqués qui permettent de tester les algorithmes élaborés sur des problèmes réels, souvent bien différent des problèmes jouets de type benchmarks.

Mots clés

............

Thématique Bioinformatique Théorique

La bioinformatique théorique est portée par Christian Michel depuis plus de 30 ans.

(i) Etude combinatoire des codes circulaires (C. Michel) Contexte scientifique : Des codes circulaires ont été découverts dans les gènes en 1996. Ces ensembles de mots sont très mal connus d’un point de vue mathématique. Résultats : Un nouveau concept en théorie des codes dit "de collier" permet de décrire des variétés de codes commas-free et de codes circulaires. Des codes circulaires forts plus contraints que les codes commas-free, sont identifiés. Récemment (2016), une approche par la théorie des graphes permet d'obtenir de nouveaux théorèmes sur les codes circulaires formés de mots de longueur finie sur un alphabet fini.

(ii) Modèles probabilistes d'évolution des gènes par substitution de motifs génétiques (E. Benard, C. Michel) Contexte scientifique : Les modèles d'évolution classiques de nucléotides (Jukes et Cantor, 1969; Kimura, 1980, 1981) sont généralisés aux motifs génétiques de taille finie. Résultats : Avec une approche mathématique basée sur les opérateurs de Kronecker (produit et somme), ces modèles étendus permettent ainsi de déterminer la probabilité d'occurrence exacte (solution analytique) d'un motif génétique de taille quelconque (dinucléotides, trinucléotides, etc.) au cours du temps en fonction de paramètres de substitution (transitions et transversions) associés à chaque site des motifs étudiés. L'évolution peut être orientée dans le sens direct (du passé au présent) et dans le sens inverse (du présent au passé). L’introduction de ces opérateurs de Kronecker a permis de clore cette théorie des modèles probabilistes d'évolution des gènes par substitution de motifs génétiques qui était ouverte depuis 1990.

(iii) Modèles probabilistes d'évolution des gènes par substitution, insertion et délétion de motifs génétiques (S. Lèbre, C. Michel) Contexte scientifique : Il existe très peu de modèles probabilistes d'évolution des gènes comportant à la fois des processus de substitution, d'insertion et de délétion de nucléotides. Une des raisons en est la difficulté mathématique, d'un point de vue modélisation mais également dans la détermination des solutions analytiques. Résultats: Nous développons une classe plus générale de modèles d'évolution dans laquelle les paramètres d'insertion et de délétion sont des paramètres explicites indépendants des paramètres de substitution. L'idée repose sur l'introduction d'un concept issu de la dynamique des populations permettant d'obtenir un système d'équation différentielle combinant le processus classique de substitution avec le processus d'insertion/délétion. En dérivant une solution générale vérifiée pour toute matrice de substitution diagonalisable, nous obtenons une expression analytique de la probabilité d'occurrence des nucléotides en fonction du temps, des valeurs et vecteurs propres de la matrice de substitution, du vecteur des taux d'insertion de nucléotides, du taux d'insertion total et du vecteur des probabilités initiales des nucléotides. Les solutions analytiques sont non triviales avec des fonctions hypergéométriques Gaussiennes et des opérateurs de Kronecker (produit et somme). Diverses propriétés mathématiques sont obtenues: échelle de temps, décomposition du temps, inversion du temps et transformation du temps en fonction de la longueur de la séquence.

(iv) Modèles stochastiques pour l’inférence de réseaux génétiques (S. Lèbre) Des approches stochastiques portent sur la reconstruction de réseaux de régulation génétique. Nous avons ainsi développé le modèle de réseau ARTIVA (Auto Regressive TIme VArying) qui a la particularité de proposer une structure de dépendance variable au cours du temps pour des données continues. Une méthode de Monte Carlo par Chaînes de Markov (MCMC) à sauts réversibles a été spécifiquement adaptée pour l’inférence de ce modèle à partir de séries temporelles d’expression de gènes. Nous avons ensuite affiné le modèle en introduisant un échange d'information entre les structures successives du réseau. Suite à la mutation de Sophie Lèbre à l’Université de Montpellier, cette thématique de recherche est arrêtée.

Mots clés

............

ArchivesStructure

Précédente structure de l'équipe 2013-2015

Sujets de recherche

Opérations

Mots clés

Mots clés

Mots clés

Menu de navigation

Rechercher