En tant que participant à l’expédition pan-océanique Tara Oceans, j’ai oeuvré pour mettre les données de génomique produites à disposition de la communauté scientifique.
Etant donné le volume des jeux de données de génomique issu du projet (Tara Ocean c’est plus de 600 terabases évolutives), la transformation de ces données brutes en connaissances s’avère difficile pour les biologistes sans savoir-faire et matériel de calcul haute performance. Avec mes collègues de l’Institut Méditerranéen d’Océanologie, nous avons donc développé le Ocean Gene Atlas (OGA), un outil d’exploration des métagénomes en ligne qui permet la fouille de données armé d’un seul navigateur web. De plus, la manipulation de cet ensemble de données hétérogènes (qui combine des séquences biologiques, des estimations d’abondances à partir des reads bruts, et des métadonnées environnementales) étant également complexe pour des experts en bioinformatique, nous avons donc également mis en place une API pour un accès programmatique complet aux données et outils d’analyse OGA. Plus de détails sur les données, les méthodes et les visualisations sont à lire dans le papier NAR « The Ocean Gene Atlas: exploring the biogeography of plankton genes online ».
L’Ocean Gene Atlas est l’aboutissement d’un projet de près d’une décennie qui a démarré avec une campagne d’échantillonnage en mer, suivi d’une demi-douzaine d’années supplémentaires d’acquisition de données (extraction d’ADN/ARN, séquençage), d’analyses primaires des données brutes (assemblage, annotation), puis enfin l’intégration dans des produits finaux exploitables (analyses, publication, jeux de données, outils). J’ai eu le privilège de prendre part à toutes les étapes, y compris deux embarquements en tant que membre d’équipage scientifique (mer Méditerranée, Atlantique sud) en charge des échantillonages de bactéries et virus, et un embarquement en tant que chef de mission (Océan Arctique le long des côtes Sibériennes). Comme quoi bioinformaticien ce n’est pas rester greffé à son écran…