Équipe CSTB : Systèmes Complexes et Bioinformatique Translationnelle

Raymond Ripp

De Équipe CSTB : Systèmes Complexes et Bioinformatique Translationnelle
Aller à la navigation Aller à la recherche

Raymond Ripp Ingénieur de Recherche CNRS (en mission permanente de l'IGMBC UMR 7104 à ICube UMR 7357)

Mon parcours

  • Licence d'Informatique à L'Université Louis Pasteur de Strasbourg
  • DEA "Complexité des Algorithmes et Reconnaissance de Formes" à l'Universié de Paris VI,
  • Thèse de l'Université de Strasbourg "Agraph; Animation Graphique et Intereactivité"
  • Enseignant au Département d'Informatique de l'ULP de 1983 à 1991
  • Ingénieur de Recherche CNRS à l'IBMC, IGBMC et ICube (en mission)

J'ai toujours exercé la fonction d'informaticien, en tant que concepteur et programmeur, de l'étude à la réalisation, mais aussi en tant que responsable du système informatique. Dans ce contexte, je me suis fortement impliqué dans les choix des architectures et des technologies et de leurs mises en œuvre tant au niveau du département qu'au niveau de l'IGBMC lors de sa construction et durant la phase de mise en route. Participant à la définition et à la réalisation des projets biologiques, j'ai contribué dans le cadre de mon métier aux analyses entreprises par mes collègues ou collaborateurs extérieurs. J'espère avoir su mettre l'informatique au service du cristallographe, biologiste ou médecin en leur fournissant outils, conseils et aide dans la mesure de mes connaissances et de celles que j'ai pu acquérir en les côtoyant durant tout ce temps, découvrant la molécule, la séquence, les tissus, l'évolution et même la médecine.

Développement d’une infrastructure pour la biologie à haut débit

Gscope, plateforme de génomique

Initié en 1997 Gscope est devenu la plateforme de génomique du LBGI. Il fournit tous les outils de traitements automatiques en haut débit, il crée, organise et fournit l'accès à ses propres données ainsi qu'aux bases de données généralistes ou dédiées, locales ou distantes. Il permet la création et l'exécution de cascades de programmes et offre surtout une interface de recherche et de visualisation intuitive et rapide. Au fil des ans, Gscope est devenu un outil collaboratif grâce à la contribution des membres du laboratoire mais aussi des nombreux stagiaires et étudiants, qui ont pu étendre, chacun à leurs manières, ses fonctionnalités. Il compte aujourd'hui environ 300 000 lignes de programme tcl écrites par 18 personnes et a permis la réalisation de plus de 200 projets différents allant de l'étude de génomes complets à l'analyse de cDNA, de collections de protéines ou à la gestion d’oligonucléotides de clonage. Gscope tourne sur toutes les plateformes et peut être lancé au travers d'une interface graphique, en ligne de commande, en traitement haut débit, sur une grille de calcul, ... Il offre également des fonctionnalités web et peut être interrogé à volonté en local ou à distance par web service, soc ket. Tout projet Gscope peut être ainsi visité par un simple navigateur web. Quelques applications directes de Gscope :

  • Dans le cadre du projet européen SPINE (Structural Proteomics In Europe) nous avons été chargés de réaliser l'identification et la caractérisation des protéines parmi les cibles potentielles proposées par l'ensemble des laboratoires européens membres du consortium (5). Nous avons intégré des annotations fonctionnelles, structurales et évolutives (9, 10) et les avons rendues disponibles sur notre site web, en tant que site miroir de l'EBI à Cambridge.

En parallèle, j'ai développé Gscope Clonage (8), un outil bioinformatique pour la génomique structurale, activité principale du département (détermination de la structure tridimensionelle des protéines par diffraction des rayons X ou par RMN). Gscope Clonage est un système intégré permettant l'analyse bioinformatique des séquences cibles, la recherche des domaines d'intérêt, le design d'oligonucléotidess et la gestion de l'ensemble des informations concernant un clonage (produits PCR, de recombinaison, séquences validées, etc). Ce système, couplant outils d'analyse, gestion des commandes, base de données et site web, alimente la base de données de la plateforme de Biologie et Génomique Structurales de l'IGBMC.

  • La base de données PeroxisomeDB de Agatha Schlüter et Aurora Pujol (4, 6) a été construite à partir d'un projet Gscope à l'IGBMC. Elle a été enrichie d'une interface web réalisée par Guillaume Berthommier et est maintenant hébergée et mise à jour à Barcelone.

Genoret-Database : Génomique Fonctionnelle de la Rétine (2005-2009)

Le projet intégré FP6 EVI-Genoret (European Vision Institut, Functional Genomics of the Retina) avait pour but de mettre en commun et de standardiser les données et les protocoles cliniques et méthodes de recherche d’une quinzaine de centres hospitaliers et laboratoires de recherche européens en ophtalmologie spécialisés dans les maladies de la rétine. C'est dans ce cadre que j'ai été chargé de concevoir un outil collaboratif regroupant base de données, site web et programmes de traitement qui offre aux membres du consortium la possibilité de partager les informations, les projets, les analyses. Dans un premier temps, il a fallu créer les contacts avec les médecins et chercheurs afin de recenser les besoins, de définir les données pertinentes, de mettre en œuvre une architecture. Très vite nous avons mis en place un système de téléchargement de données avec accès sécurisé et gestion des droits d'utilisation en fonction du propriétaire et de groupes d'utilisateurs que l'on pouvait définir à volonté. Ceci m'a permis d'avoir une idée du type d'information que les utilisateurs étaient susceptibles de nous fournir et j'ai pu alors m'investir, d’une part, dans la compréhension de la problématique propre au biologiste, généticien ou ophtalmologue, et, d’autre part, dans la gestion et l’examen des informations scientifiques transmises quotidiennement au système par les utilisateurs. Nous avons créé une arborescence par groupe de travail, par thématique, pour les collaborateurs extérieurs, pour les ressources, les rapports annuels, les réunions, etc., que les gens enrichissaient. Le projet a pris forme au fur et à mesure que nous ajoutions de nouvelles fonctionnalités. Ainsi, nous avons créé Genoret Genes qui regroupait 3699 gènes associés au développement, au fonctionnement ou à la dégénérescence de la rétine et pour lesquels nous avons rassemblé les informations fonctionnelles, structurales, évolutives mais aussi leurs profils d'expression, en fonction des tissus ou du développement. Pour certains gènes cibles, j'ai développé des applications permettant, par exemple, la vérification et l'analyse des données de mutations ou de faire le lien entre données d'expression de Genoret Genes et de protéomique fournies par Munich. En dehors de ces données de génomique, Genoret Database est une plateforme couvrant une grande partie des besoins d'un projet collaboratif impliquant plusieurs centres. Il rassemble les SOPs (Standard Operation Protocols), les ressources mises à disposition par chaque centre (anticorps, primers, plasmides, etc), permet l'échange simple et sécurisé de données entre les différents groupes, et bien sûr centralise les documents administratifs et informations diverses du projet européen (réunions, publications, rapports). J'ai particulièrement veillé à ce que chacun contribue au mieux à la mise à jour des données, en assurant la formation et en proposant quotidiennement mon assistance.

  • Base de données patients: La composante « clinique » du projet EVI-Genoret se devait de créer une base de données centralisée de données patients. Pour des raisons évidentes de sécurité et de confidentialité nous avons veillé à ce que toutes les données soient anonymisées et avons restreint les informations aux données phénotypiques nous permettant de définir des cohortes de patients en fonction de critères simples afin d'offrir dans un premier temps un état des lieux de cohortes existantes. J'ai pu réunir des données de plus de 6000 patients de Bonn, Créteil, Londres, Montpellier, Paris, Tübingen, et plus tard, Baltimore, Jérusalem et Southampton. Ces données n'étant pas standardisées, j'ai dû écrire les procédures afin d'en extraire les informations me permettant de créer une base commune, étant entendu qu'il était impensable d'exiger de la part de chaque centre qu'il normalise ses données.
  • Annotation d'image : Afin d'étudier l'expression des gènes de l'œil, la composante « développement » était chargée d'annoter les images d'hybridation in situ d'embryon de souris au jour 14.5 fournies par le projet européen GenePaint-Eurexpress. Pour cela nous avons mis au point un outil web interactif permettant au biologiste d'annoter par simples clics les différents tissus en fonction de l'expression du gène observable sur l'image. Cet outil, appelé ImAnno, permet de définir interactivement la liste des tissus que l'on veut annoter, de donner des critères et des mots clés qui seront proposés lors de l'annotation. Ces annotations sont stockées dans une base de données pour laquelle j'ai mis au point toute une série d'outils de recherches permettant l'élaboration de requêtes complexes. L'équipe de Pascal Dollé a ainsi étudié l'expression de 1700 gènes dans l’œil, l'équipe d’Agnès Bloch-Zupan le développement des dents, donnant lieu à la thèse de praticien dentaire de Arnaud Langer. Enfin, Raymond Romand a annoté plus 10000 images révélant l'expression de 2000 gènes au niveau de l'oreille interne et des tissus sensoriels, ceci nous a permis d'étudier et de caractériser finement des groupes de tissus et de gènes et a donné lieu à une publication (1).
  • Fed : Le projet EVI-Genoret s'est officiellement terminé fin 2009. Néanmoins Genoret Database continue d'être utilisé, en particulier par les gens de l'Institut de la Vision à Paris (9, 11). Afin de le pérenniser nous avons créé IdV Database en implantant sur une machine à l'Institut de la Vison à Paris toute l'architecture ainsi que les données et les applications pertinentes. Nous avions anticipé ce type de migration en créant Fed Database une sorte de surcouche facilitant la création de nouvelle instance sur le modèle de Genoret Database. Ainsi, j'ai pu créer très simplement DBGS Database pour le département, et GxDb pour la transcriptomique que nous abordons maintenant.
  • GxDb (Gene eXpression Database) : Vers une automatisation des analyses des données d’expression des gènes (transcriptomique) (2009-présent) GxDb est une plateforme de collecte, de traitement, de requêtage et de visualisation de données de transcriptomique que nous avons développée en s'inspirant de RetinoBase (2) développée au sein du laboratoire pour les données de rétine. Nous avons décidé de fournir à l'utilisateur l'ensemble des applications à travers un site web. En effet, GxDb permet le téléchargement de fichiers bruts, propose des formulaires visant à décrire les conditions de l'expérience et les types de résultats souhaités, puis automatiquement lance la cascade de traitements, stocke les résultats dans une base de données facilitant les recherches et enfin offre une panoplie d'outils de requêtage et de représentations graphiques. GxDb propose 6 méthodes de normalisation et 4 méthodes de clustering offrant de ce fait des possibilités de méta-analyse de ces grandes quantités de données par nature très bruitées.
  • Database AMD (Age related Macular Disease): Un nouveau projet, AmdConsortium, a été créé à partir des « collaborations » établies dans le cadre d’EVI-Genoret avec de nouveaux partenaires (Baltimore, Jerusalem et Southampon). Le but est de détecter des gènes susceptibles d'intervenir dans la dégénérescence maculaire liée à l'âge (AMD). Les échantillons sanguins ont été analysés par le CNG à Evry. Grâce à notre base de données patient, j'ai pu fournir les phénotypes « normalisés » et faire le lien entre les données CNG concernant les prélèvement sanguins et les patients de ma base. Il a fallu beaucoup de temps pour parvenir à établir ces liens de manière fiable, notamment en raison des nombreux échanges de fichiers « mis à jour » par les différents centres. J'ai mis en place une suite de programmes pour d'une part, détecter les éventuelles incohérences et d'autre part, offrir une interface de recherche adaptée pour visualiser les informations et retracer l'historique des données fournies. Cette étude concernant un millier de patient a ensuite été incluse dans une méta-analyse, cette fois au niveau mondial, sur une cohorte d'environ 8000 patients. Il semble que les résultats soient prometteurs.

Nos sites web et bases de connaissances

  • Le LBGI a mis à disposition de la communauté scientifique un grand nombre de bases de connaissances au travers de différents sites web. Si je n'ai pas toujours directement participé à chacun des projets, je suis, pour la plupart, responsable du site web associé, de son déploiement sur un serveur et des éventuelles mises à jour. Citons Alvinella pompejana et Bathymodiolus azoricus collections de cDNA, KoAnno site de prédiction de désordre dans les protéines, ICDS (7) prédiction d'interruption de séquence codante, BAliBase benchmark d'alignements multiple, SM2PH de la mutation au phénotype... Et, bien sûr, l'ensemble des projets Gscope est accessible, sauf protection particulière pour raison de confidentialité. Le projet SM2PH (de la Mutation Structurale aux Phénotypes des Pathologies Humaines, 3) initié au laboratoire par Anne Friedrich avec la collaboration du Pôle Bioinformatique Lyonnais portant sur l'étude des mutations de séquence aux phénotypes des pathologies humaines est devenu un des points clés des bases de connaissances du laboratoire. En effet, SM2PH centralise maintenant non seulement les données de mutations et leurs phénotypes mais intègre, aussi, à la volée de nombreuses informations connexes des autres bases, en particulier GxDb pour l'expression des gènes dans les tissus, les données d'interaction par StringInteractome ou les informations d'ontologie dans nos bases GeneOntology.
  • Architecture « Client-Serveur » : Mutualisation (2010-présent) La mutualisation des données et des programmes est la tâche la plus importante à laquelle je me consacre à présent. Nos bases de connaissances (Gscope, GxDb, Orthoinspector, BIRD, ImAnno, StringInteractome, GeCo, SM2PH, etc.) ont été développées indépendamment, par des personnes différentes au sein de projets spécifiques dédiés à des thématiques diverses, s'appuyant sur des architectures, des systèmes de bases de données et des langages de programmation multiples (DB2, MySQL, PostgreSQL, UIMA, Tcl, PHP, Java, etc.). Nous mettons en place en place un ensemble d'outils et de protocoles pour implémenter, sur les machines locales ou distantes, une architecture «client-serveur» qui permette à ces différents systèmes de communiquer entre eux au travers de nombreux canaux (appel direct, exécution distante, socket, http, webservice, etc.) en offrant les interfaces de requête et de visualisation web, mais aussi les traitements automatiques en haut débit.

2013 Installation du LBGI à la faculté de médecine.

le LBGI, intégrant l'unité mixte de recherche 7357 ICube, s'est installé en septembre 2013 à la faculté de médecine à Strasbourg. Afin de disposer d'un environnement autonome à la faculté de médecine j'ai bâti et mis en oeuvre un système intégré similaire à celui que j'avais déployé à l'IGBMC, en dupliquant données, programmes et configurations sur nos propres machines à la faculté de médecine (6 serveurs équipés de 128 ou 256 Mo de mémoire et de 100To de disque) J'ai aussi maintenu à l'IGBMC une infrastructures équivalente et complémentaire, pour continuer à fournir en local les services aux utilisateurs de l'IGBMC. Depuis maintenant deux ans j'ai veillé à établir des liens de coopérations avec d'autre laboratoires, l'IGBMC, ICube, et particulièrement la plate-forme de Bioinformatique de Strasbourg (BISTRO) pour laquelle nous sommes responsables d'un parc de machines installées à l'IPHC, à l'IBMP et chez nous. La plupart de nos ressources sont maintenant également disponibles sur toutes ces machines et accessibles à la communauté.

Vers une bioinformatique délocalisée

La masse, l’hétérogénéité et la nature fortement bruitée de données biologiques auxquelles nous sommes confrontés nous amènent à reconsidérer notre façon de stocker, traiter et fouiller les données. Dans ce contexte, nous faisons maintenant partie du réseau MobyleNet, un réseau de portail d'analyses bioinformatiques dont le but est de permettre la mise au point et la création de cascades de programmes au sein d'un site serveur ou même entre sites distants. Nous devrions très prochainement pouvoir déployer nos propres cascades et pouvoir profiter de l'architecture générale implantée dans l'ensemble des sites. Il faudra certainement adapter les algorithmes mais surtout être en mesure de profiter des moyens de calcul distribués tout en garantissant l'accès aux centres de stockage de données et de connaissances qui sont difficilement exportables. Le défi est de savoir maintenir cet ensemble riche et fonctionnel mais surtout de le faire évoluer en y incluant ou en migrant vers de nouvelles technologies. Ainsi nous nous intéressons déjà à la virtualisation et pensons très prochainement nous investir dans le « cloud computing » en profitant de notre expérience sur les grilles de calcul.