M. Jocelyn DE GOËR DE HERVE (Ph.D)

Ingénieur d'Études | Responsable Systèmes d'Informations
UMR EPIA (Épidémiologie des maladies Animales et zoonotiques)
Centre de recherche de Auvergne-Rhône-Alpes - Site de Theix 63122 Saint Genès Champanelle
France
Tél. : +33 (0)4 73 62 48 33

Formation

Formation

2019 - Thèse de Doctorat

Spécialité Informatique
Université Clermont Auvergne (UCA)
Clermont-Ferrand

2004 - DESS / Master

Conception de Projets Internet
Université BLAISE PASCAL
Clermont-Ferrand

2003 - Ingénieur

Chef de Projet International en Informatique et Réseaux
ESAIP
Angers

Activités

Recherche en informatique

Thèse de doctorat : Indexation et comparaison d’une grande quantité de données génomiques à l’aide d’algorithmes pour le traitement d’images

Stratégie de calcul à haute performance

Définir la stratégie informatique nécessaires aux activités de calcul scientifiques de l’Unité depuis les phases d’évaluation de solutions, jusqu’à leurs mise en place.



Conduite de projet informatique

Déterminer les spécifications fonctionnelles et techniques de différents projets de développement d’applications pour l'Unité EPIA ou pour le CATI du Département SA.



Travaux de recherche

Thèse de doctorat
TITRE : Indexation et comparaison d’une grande quantité de données génomiques à l’aide d’algorithmes pour le traitement d’images

ABSTRACT : L’accroissement constant des capacités de séquençage de l’ADN entraîne l’émergence de nouveaux questionnements biologiques. Le stockage et le traitement de cette masse d’informations restent des enjeux majeurs pour les années à venir. Durant le processus d’analyse des données génomiques, la recherche de séquences exactes ou proches, au travers de bases de données de génomes de références, est une tâche incontournable. Elle est notamment nécessaire dans les phases d’assemblage, d’alignement de séquences et plus généralement pour identifier la séquence de référence la plus proche d’une séquence requête. Ces tâches sont notamment essentielles dans le cadre d’étude en Biologie Évolutive, en Phylogénie ou en Métagénomique.

Traditionnellement, une grande majorité des techniques servant à réaliser ces différentes tâches, sont issues de méthodes en algorithmique du texte. L’objectif de cette thèse, est d’évaluer la possibilité d’utiliser des algorithmes issus du domaine de la comparaison des images numériques. En effet, les méthodes de production des images numériques ont connu une importante augmentation depuis ces 40 dernières années, entrainant des problèmes de recherche et de comparaison, qui par certains aspects, peuvent être considérés comme étant similaires aux traitements nécessaires à l’analyse des données génomiques.

Au cours de cette thèse, nous nous sommes plus particulièrement intéressés au concept de hachage perceptuel, utilisé habituellement pour indexer et comparer des images numériques, afin de déterminer si de telles méthodes sont pertinentes pour comparer des séquences exactes ou approchées au sein de bases de données de séquences de références. Ainsi, nous proposons deux contributions. La première est une fonction de hachage perceptuel, permettant l’indexation de séquences ADN/ARN. Outre une diminution importante des données indexées par rapport aux séquences fournies en entrée, cette fonction de hachage a la particularité de conserver la propriété de comparabilité entre deux clés de hachage. Deux séquences ADN/ARN proches, auront des clés de hachage également proches et ainsi comparables. La seconde contribution, est l’adaptation d’une méthode permettant de faire ressortir les zones communes entre deux images, à la problématique de la comparaison de séquences ADN.

Ces travaux se placent dans un contexte d’accroissement des volumes de données génomique, où l’enjeu est de concevoir des algorithmes permettant d’identifier rapidement les génomes de référence les plus proches d’une séquence requête. Le but étant d’effectuer un prétraitement rapide, permettant de ne conserver que des séquences pertinentes et par la suite d’utiliser des méthodes plus classiques en bio-informatique.

Compétences techniques

Informatique scientifique

R, OpenMP, BOOST, OpenCV, SGE, HTCondor

Conception, Analyse

UML, Merise, Algorithmique



Développement

C, C++, Java, Python, Visual Basic, C#, PHP-CLI, Swift


Administraiton système

Bash, Apache, SSH, fail2ban, MySecureShell, ZABBIX, OwnCloud, FreeNAS, ZFS, NFS, SAMBA, SFTP, VMWare ESX

Base de données

MySQL, PostgreSQL, Access, Oracle, REDIS, MongoDB


Développement Web

HTML, CSS, PHP, JavaScript, JQuery, BootStrap, Web Scrapping


Publications et communications

Jocelyn De Goër, Myoung-Ah Kang, Xavier Bailly and Engelbert Mephu-Nguifo - PSH-DB, a key-value system to index and retrieve biological DNA sequences – Lightning Talks - XLDB2017, 10th Extremely Large Databases Conference – Octobre 2017
Sylvain Falala, Jocelyn De Goër, Elena Arsevska, Mathieu Roche, Julien Rabatel, David Chavernac, Pascal Hendrikx, Barbara Dufour, Renaud Lancelot, Thierry Lefrancois – Système de veille sanitaire pour analyser l’émergence et la propagation de maladies animales – Session démonstration - Conférence IC2016 (Montpellier) – Juin 2016
Jocelyn DE GOËR DE HERVE, Myoung-Ah KANG, Xavier BAILLY, Engelbert MEPHU NGUIFO. Une nouvelle approche de comparaison de séquences ADN à l’aide d’une fonction de hachage perceptuel - Session poster – JOBIM16 (Lyon) – Juin 2016
Jocelyn DE GOËR DE HERVE, Myoung-Ah KANG, Xavier BAILLY, Engelbert MEPHU NGUIFO. Indexation et comparaison de séquences ADN à partir d’une fonction de hachage perceptuel. - Session poster – JOBIM15 (Clermont-Ferrand) – Sep 2015
Jocelyn DE GOËR DE HERVE, Myoung-Ah KANG, Xavier BAILLY, Engelbert MEPHU NGUIFO. A perceptual hash algorithm for indexing and similarity search in a database of DNA sequences - Poster Session, ECCB15 (Strasbourg) – Sep 2014
Maude Jacquot, Mathieu Gonnet, Elisabeth Ferquel, David Abrial, Alexandre Claude, Patrick Gasqui, Valérie Choumet, Myriam Charras-Garrido, Martine Garnier, Benjamin Faure, Natacha Sertour, Nelly Dorr, Jocelyn De Goër, Gwenaël Vourc'h, Xavier Bailly - Comparative Population Genomics of the Borrelia burgdorferi Species Complex Reveals High Degree of Genetic Isolation among Species and Underscores Benefits and Constraints to Studying Intra-Specific Epidemiological Processes – PLOS|ONE April 10, 2014 DOI: 10.1371/journal.pone.0094384
Jocelyn DE GOËR DE HERVE, Myoung-Ah KANG, Xavier BAILLY, Engelbert MEPHU NGUIFO - Indexation de séquences d’ADN au sein d’une base de données NoSQL à l’aide d’algorithmes de hachage perceptuel - Congrès SeqBio2013 (Montpellier) – Nov 2013
Jocelyn DE GOËR DE HERVE, Myoung-Ah KANG, Xavier BAILLY, Engelbert MEPHU NGUIFO - Indexation d’une grande quantité de séquences ADN dans une base de données NoSQL à l’aide d’algorithmes de hachage perceptuel - Congrès BDA2013 (Nantes) – Oct. 2013
Romain NUEL, David ABRIAL, Jocelyn DE GOËR DE HERVE - Mise en place d’une plateforme de calcul au sein de l’Unité d’Épidémiologie Animale - JAS2013 (Cap d'Agde) - Session posters – Sept. 2013
Emmanuel CORBEAU, Jocelyn DE GOËR DE HERVE, Nelly DORR, Sébastien MASSEGLIA - EpiGEL, un Outil de Gestion des Echantillons de Laboratoire - JAS2013 (Cap d'Agde) - Session posters – Sept. 2013
M. Charras-Garrido, D. Abrial, J. De Goër, S. Dachian, N. Peyrard - Classification method for disease risk mapping based on discrete hidden Markov random fields - Biostatistics. 2012 Apr;13(2):241-55. doi: 10.1093/biostatistics/kxr04
Leblond, A. ; De Goer De Herve, J. ; Hendrikx, P. - Surveillance des syndromes nerveux des équidés en France - Journée AEEMA (2012-05-31-2012-05-31) Alfort (FRA). 2012.
J. de Goër, A. Leblond - Using mobile phones to collect and report cases in real-time - Example of a surveillance syndromic system network in equine population - EWDA2010 Conference (Nederland) - Session « Novel epidemiological tools for the surveillance of wildlife diseases » – Sept. 2010