Équipe CSTB : Systèmes Complexes et Bioinformatique Translationnelle

Accueil

De Équipe CSTB : Systèmes Complexes et Bioinformatique Translationnelle
Aller à la navigation Aller à la recherche


Présentation de l'équipe CSTB

L'équipe CSTB a été créée au 1er janvier 2016 comme une fusion des thématiques LBGI (Laboratoire de Bioinformatique et Génomique Intégratives) et SONIC (Stochastic Optimization and Nature Inspired Computing) de l'ancienne équipe BFO.


Les Systèmes Complexes sont présents partout autour de nous. On peut les définir comme des entités en interaction reconfigurables, structurées sur plusieurs niveaux émergents d'organisation, où le tout ne peut se comprendre sans les parties et les parties sans le tout.

Un "système complexe" est de manière générale tout système comprenant un grand nombre d'entités hétérogènes, entre lesquelles des interactions locales créent des niveaux multiples de structuration et d'organisation collective. Les exemples que l'on peut citer incluent des systèmes naturels, allant de biomolécules et de cellules vivantes à des réseaux sociaux et à l'écosphère, tout en comprenant des systèmes artificiels sophistiqués comme l'Internet, les grands réseaux électriques ou tout logiciel distribué à grande échelle.

Les systèmes biologiques sont uniques par la complexité de leur fonctionnement et de leur régulation et l'étude intégrée des multiples niveaux qui concourent au comportement final de ces systèmes représente aujourd’hui un nouveau défi pour la communauté scientifique. Grace aux quantités toujours croissantes de données qui décrivent par le détail chacun des composants du système, de nouvelles opportunités s’offrent pour développer des approches de modélisation descriptive et prédictive. Ces développements sont applicables à l'ensemble du domaine de la science des systèmes complexes, depuis les réseaux sociaux jusqu'à la finance.

En médecine, cette prise de conscience ‘systémique’ a fait émerger un nouveau champ de recherche interdisciplinaire : la médecine translationnelle. Ce domaine ambitionne de comprendre et exploiter la diversité des manifestations cliniques et phénotypiques des maladies chez les patients pour mieux comprendre et modéliser l’émergence et l’évolution des maladies. A terme, ces développements ont pour vocation d’aboutir à des traitements optimisés et personnalisés.

L'équipe "Systèmes Complexes et Bioinformatique Translationnelle" couvre donc un large spectre de recherches en informatique, allant de la bioinformatique à l'intelligence artificielle.


Dans ce contexte, le CSTB compte participer activement aux évolutions et développements 4P (Participatifs, Prédictifs, Préventifs et Personnalisés) en élaborant des solutions originales dans les domaines de l’éducation, de la santé ou de l’industrie réunis au sein de deux thèmes de recherches :

BIOGIM a une longue expérience dans l’analyse, l’annotation et la fouille de données biomédicales. Notamment, dans le domaine des maladies génétiques rares, le BIOGIM cherche à identifier les associations entre génotype et phénotype et à comprendre les patterns et tendances dans les données. Les méthodes traditionnelles, qui ont été fructueuses dans l’étude de systèmes simples, trouvent leurs limites lorsqu'elles sont appliquées à des systèmes dynamiques complexes, où le patrimoine génétique de chaque patient sous-tend un grand nombre de variations qui interagissent les unes avec les autres produisant des effets depuis le niveau atomique jusqu’à l'organisme.
Les questions que nous abordons aujourd'hui se focalisent d’une part, sur la façon d'identifier les points critiques dans un système biologique complexe et d’autre part, sur la façon de prédire l'impact des perturbations (mutations, médicaments, par exemples) sur la stabilité et le comportement du système. Cela nécessite une modélisation théorique multi-échelle et multimodale des fonctions biologiques et de leurs régulations qui sous-tendent les phénotypes observés, et ce, dans un contexte de prise en compte de leurs interactions dynamiques avec l’environnement.
BIONICS possède une expertise dans la modélisation des systèmes complexes et les algorithmes d'optimisation inspirés de la nature et notamment l'évolution artificielle et les systèmes immunitaires artificiels. Ces systèmes intrinsèquement massivement parallèles et asynchrones sont constitutifs de l'informatique du XXIè siècle, composée d'ordinateurs massivement parallèles en réseaux.
Les applications des systèmes complexes inspirés de la nature sont la sécurité et la recherche de motifs (systèmes immunitaires artificiels), l'optimisation et l'intelligence artificielle (évolution artificielle) les écosystèmes de calcul et d'enseignement (écosystèmes biologiques) et bien sûr, la médecine translationnelle Participative, Prédictive, Préventive et Personnalisée (ce qui est le cas de tous les systèmes complexes).
En effet, à partir de données observées (Participatif), on essaiera de déterminer des modèles Prédictifs permettant de mettre en place une Prévention de manière Personnalisée, que cela soit pour l'Usine du Futur, pour la sécurité informatique, pour la santé (réseaux de patients) et l'éducation (réseaux d'étudiants / professeurs).

L'équipe coordonne aussi la plateforme BICS (Bio-Informatics and Complex Systems) du laboratoire ICUBE pour offrir à la communauté un portail unique vers des bases de données et des logiciels pour la bioinformatique (BISTRO), la fouille de données (ClowdFlows), le calcul massivement parallèle (EASEA CLOUD) et l'éducation (POEM).

Perspectives scientifiques de l'équipe (mai 2018)

Au niveau international, l'équipe coordonne (avec l'Université du Havre) l'UniTwin CS-DC de l'UNESCO : un Campus Numérique des Systèmes Complexes regroupant plus de 120 universités (> 3 millions d'étudiants > 3000 chercheurs dans 28 pays).

Mots clés

..................

Précédente structure de l'équipe 2013-2015

Thématique : LBGI Bioinformatique et Génomique Intégratives
lbgi.fr

LBGI Bioinformatique et Génomique Intégratives, porté par Olivier Poch et Julie Thompson, se focalise essentiellement sur un champ de recherche en plein essor dans le domaine de la santé : la bioinformatique translationnelle. Notre objectif majeur est de développer une infrastructure informatique robuste capable de gérer des big data afin d’en extraire des connaissances pertinentes dans une approche « du lit du patient au laboratoire ». Dans ce cadre, nous nous intéressons particulièrement à l’étude des maladies génétiques rares et à la compréhension des mécanismes physiopathologiques impliqués dans ces maladies, mécanismes qui ont souvent un intérêt potentiel pour la compréhension des processus biologiques altérés dans des maladies plus communes, telles que l’obésité, les diabètes ou les cancers, ....

Sujets de recherche

Le LBGI se consacre au développement d’approches in silico robustes, automatisées et intégrées (approches analytiques, statistiques, intégration et fouille de données, extraction et représentation des connaissances...) pour étudier l'évolution et le comportement des systèmes biologiques complexes (« hyperstructures », réseaux, etc.) chez l'homme et divers modèles animaux. Profitant de nos approches informatiques intégrées et dans le cadre de collaborations de longue date au niveau international, national et local, le LBGI participe à l'analyse de systèmes complexes impliqués dans diverses maladies humaines, notamment l'étude des déficiences fonctionnelles liées aux maladies rétiniennes ou du cerveau, l'identification de variations génétiques liées aux ciliopathies et la caractérisation du contexte génomique et transcriptomique dans divers cancers.

Opérations

Les travaux du LBGI s’organisent autour de deux grands axes complémentaires :

  • « L’informatique translationnelle » (Julie Thompson), pour développer une infrastructure informatique dédiée à l'analyse intégrée des « big data » résultant des études à haut-débit des maladies génétiques humaines. Il s'agit notamment de la conception et développement de systèmes de gestion de données originales (stockage, contrôle de la qualité, intégration de données hétérogènes) et des outils d'analyse dédiés à la fouille de données et l'extraction de connaissances biomédicales. Un aspect important est le développement d'interfaces utilisateurs intuitives pour faciliter l'accès par les biologistes et les cliniciens.
  • « La bioinformatique systémique » (Olivier Poch/Odile Lecompte) pour développer la recherche dans le domaine émergent de l'analyse des systèmes biologiques complexes, afin de comprendre les relations génotype-phénotype et de répondre aux questions concernant les maladies humaines. Il s'agit d'études intégrées de données évolutives, * « omiques » et de patients, notamment celles concernant les ciliopathies, et l'élaboration d'une approche systémique des relations entre les mutations et les réseaux biologiques dans les maladies.

Mots clés

.........


Thématique SONIC (Stochastic Optimisation and Nature Inspired Computing)

La thématique SONIC (Stochastic Optimisation and Nature Inspired Computing), portée par Pierre Collet, étudie et utilise des techniques permettant de s'attaquer à des problèmes complexes insolubles par méthodes exactes. Les méthodes inspirées de la nature sont privilégiées pour leur robustesse et leur très bonne exploration de l'espace de recherche. L'équipe utilise principalement :

  • les algorithmes évolutionnaires, qui comprennent :
    • les algorithmes génétiques (appliqués aux problèmes discrets et combinatoires),
    • les stratégies d'évolution (appliquées aux problèmes continus),
    • la programmation génétique (appliquée aux problèmes d'apprentissage et de fouille de données),
    • l'optimisation évolutionnaire multi-objectifs (pour tous les problèmes industriels qui doivent optimiser plusieurs critères antagonistes à la fois),
  • l'optimisation par colonies de fourmis,
  • les approches émergentes (BOIDS, optimisation par essaim particulaire).

L'équipe est actuellement au meilleur niveau international dans l'utilisation de cartes graphiques massivement parallèles (GPGPU) pour le calcul scientifique par évolution artificielle et pour l'intelligence artificielle, en étant la première à obtenir des accélérations d'environ trois ordres de grandeur par rapport à un coeur de CPU moderne sur des problèmes d'optimisation génériques avec la plateforme EASEA (EAsy Specification of Evolutionary Algorithms). Typiquement, une journée de calcul sur un ordinateur comportant plusieurs cartes GPU devient équivalente à plusieurs années de calcul sur un ordinateur compatible PC moderne, ce qui permet de s'attaquer à des problèmes impossibles à aborder par d'autres techniques. Le but poursuivi est ambitieux : il consiste à implémenter une véritable intelligence artificielle compétitive avec l'intelligence humaine sur un ordinateur de type PC équipé de plusieurs cartes graphiques. Deux types de projets sont menés de front : des projets fondamentaux portant sur l'adaptation des algorithmes évolutionnaires aux caractéristiques de ces nouvelles cartes, et des projets appliqués qui permettent de tester les algorithmes élaborés sur des problèmes réels, souvent bien différent des problèmes jouets de type benchmarks.

Mots clés

............


Thématique Bioinformatique Théorique

La bioinformatique théorique est portée par Christian Michel depuis plus de 30 ans.

(i) Etude combinatoire des codes circulaires (C. Michel) Contexte scientifique : Des codes circulaires ont été découverts dans les gènes en 1996. Ces ensembles de mots sont très mal connus d’un point de vue mathématique. Résultats : Un nouveau concept en théorie des codes dit "de collier" permet de décrire des variétés de codes commas-free et de codes circulaires. Des codes circulaires forts plus contraints que les codes commas-free, sont identifiés. Récemment (2016), une approche par la théorie des graphes permet d'obtenir de nouveaux théorèmes sur les codes circulaires formés de mots de longueur finie sur un alphabet fini.

(ii) Modèles probabilistes d'évolution des gènes par substitution de motifs génétiques (E. Benard, C. Michel) Contexte scientifique : Les modèles d'évolution classiques de nucléotides (Jukes et Cantor, 1969; Kimura, 1980, 1981) sont généralisés aux motifs génétiques de taille finie. Résultats : Avec une approche mathématique basée sur les opérateurs de Kronecker (produit et somme), ces modèles étendus permettent ainsi de déterminer la probabilité d'occurrence exacte (solution analytique) d'un motif génétique de taille quelconque (dinucléotides, trinucléotides, etc.) au cours du temps en fonction de paramètres de substitution (transitions et transversions) associés à chaque site des motifs étudiés. L'évolution peut être orientée dans le sens direct (du passé au présent) et dans le sens inverse (du présent au passé). L’introduction de ces opérateurs de Kronecker a permis de clore cette théorie des modèles probabilistes d'évolution des gènes par substitution de motifs génétiques qui était ouverte depuis 1990.

(iii) Modèles probabilistes d'évolution des gènes par substitution, insertion et délétion de motifs génétiques (S. Lèbre, C. Michel) Contexte scientifique : Il existe très peu de modèles probabilistes d'évolution des gènes comportant à la fois des processus de substitution, d'insertion et de délétion de nucléotides. Une des raisons en est la difficulté mathématique, d'un point de vue modélisation mais également dans la détermination des solutions analytiques. Résultats: Nous développons une classe plus générale de modèles d'évolution dans laquelle les paramètres d'insertion et de délétion sont des paramètres explicites indépendants des paramètres de substitution. L'idée repose sur l'introduction d'un concept issu de la dynamique des populations permettant d'obtenir un système d'équation différentielle combinant le processus classique de substitution avec le processus d'insertion/délétion. En dérivant une solution générale vérifiée pour toute matrice de substitution diagonalisable, nous obtenons une expression analytique de la probabilité d'occurrence des nucléotides en fonction du temps, des valeurs et vecteurs propres de la matrice de substitution, du vecteur des taux d'insertion de nucléotides, du taux d'insertion total et du vecteur des probabilités initiales des nucléotides. Les solutions analytiques sont non triviales avec des fonctions hypergéométriques Gaussiennes et des opérateurs de Kronecker (produit et somme). Diverses propriétés mathématiques sont obtenues: échelle de temps, décomposition du temps, inversion du temps et transformation du temps en fonction de la longueur de la séquence.

(iv) Modèles stochastiques pour l’inférence de réseaux génétiques (S. Lèbre) Des approches stochastiques portent sur la reconstruction de réseaux de régulation génétique. Nous avons ainsi développé le modèle de réseau ARTIVA (Auto Regressive TIme VArying) qui a la particularité de proposer une structure de dépendance variable au cours du temps pour des données continues. Une méthode de Monte Carlo par Chaînes de Markov (MCMC) à sauts réversibles a été spécifiquement adaptée pour l’inférence de ce modèle à partir de séries temporelles d’expression de gènes. Nous avons ensuite affiné le modèle en introduisant un échange d'information entre les structures successives du réseau. Suite à la mutation de Sophie Lèbre à l’Université de Montpellier, cette thématique de recherche est arrêtée.

Mots clés

............