Résumé de section

  • Les données de recherche font partie des sources nécessaires pour valider les résultats scientifiques. Elles sont donc très importantes et nécessitent une attention particulière tout au long d'un travail de recherche.

    Cette initiation vous permet d'en apprendre plus sur les entrepôts de données (data repositories), de comprendre leur utilité, de connaître leurs spécificités et de vous guider dans la recherche de l'entrepôt le plus adapté à votre situation.


    Objectifs
    • Comprendre les différentes étapes de stockage, de diffusion et d’archivage des données de la recherche ;
    • Expliquer les enjeux liés au dépôt de données ;
    • Définir ce qu’est un entrepôt de données ;
    • Identifier les éléments importants pour trouver un entrepôt ;
    • Identifier les points à vérifier avant de déposer ses données ;
    • Identifier la procédure de dépôt de données sur Recherche Data Gouv.
    Ce cours est en libre accès !

    Aucune création de compte ou d'inscription n'est nécessaire, toutefois vous ne pourrez le parcourir qu'en lecture seule.

    Pour participer aux activités (exercices, forum...), vous devez vous inscrire au cours

    S'inscrire au cours
    • Auteur(s) / Formateur(s): Urfist Méditerranée
      Production cours: Viet Jeannaud - Fondation Callisto
      Public cible: Chercheurs, Doctorants
      Date de publication: 10 mars 2022
      Mise à jour: 16 mars 2026
      Durée estimée: 1 heure
      Licence: CC BY-NC-SA
      Open badge: Non
      Nombre d'inscrits: 25
      Catalogue: Oui
      Thématique: Science Ouverte, Données de la recherche
      Durée: Format moyen (1h - 1h30)
      Type d'accès: Libre accès, Auto-inscription
      Partenaire: Urfist
      Langue: Français

    • Qu'entend-on par déposer ses données ?

      Il existe de nombreux services pour stocker ses fichiers sur le cloud. Google Drive et One Drive font partie des plus connus. Si ces solutions peuvent être adaptées à des fins personnelles, elles ne devraient pas l'être en ce qui concerne des données issues d'un travail de recherche. En effet, les données issues d’un travail de recherche ont un statut particulier. Elles ont un intérêt pour la communauté scientifique et forment un bien commun. Elles nécessitent donc une attention particulière en termes de conditions d'accès, d'hébergement, d'usage, de sécurité, d'infrastructure technique...

      De ce fait, les entrepôts de données (data repositories) sont des plateformes qui fournissent des services profilés pour les données scientifiques. Mais avant d'aller plus loin, attardons-nous un instant sur la différence entre stockage et diffusion (dépôt de données). 


      Le dépôt des données dans un entrepôt rentre dans une logique de diffusion et de partage.

      La phase de stockage

      Durant un projet de recherche, les membres de l'équipe produisent ou collectent des données afin de valider ou produire des résultats. Ces données peuvent être très variées : données expérimentales (obtenues à partir d’équipements de laboratoire), données d’observation (neuroimageries, photographies astronomiques, données d’enquête...), données computationnelles (modèles météorologiques, modèles de simulation sismique, modèles économiques), etc.

      Toutes ces données en cours d'élaboration ont besoin d'être stockées quelque part et être accessibles, le plus souvent aux seuls membres de l'équipe. Les supports de stockage utilisés sont généralement les disques durs des ordinateurs, les serveurs ou les services cloud du laboratoire ou de l’institution. 

      Cette "phase de stockage" n’est pas prise en charge par les entrepôts de données.

      La phase de diffusion

      En fin de projet, l'article scientifique doit être soumis à un comité de lecture pour évaluation et validation. Afin d'améliorer les conditions d'évaluation, les données sous-jacentes à l'article sont aussi de plus en plus demandées. Ainsi, le texte et les données sous-jacentes doivent être accessibles au comité de lecture (on notera que les figures, tableaux et autres visuels contenus dans le texte sont à considérer comme des données intégrées). 

      C'est là qu'entre en jeu le dépôt des données dans un entrepôt. Les entrepôts facilitent l'accès et l'intelligibilité des données, aspects nécessaires au travail des évaluateurs, mais aussi à tout lecteur de l’article en question. Outre le travail du comité de lecture, les entrepôts offrent aux communautés scientifiques un accès optimum aux données, une transparence de la recherche, une reconnaissance de la paternité des travaux, une possible réutilisation et une possible reproductibilité.

      La phase d'archivage

      Lorsque le projet est terminé, une phase d'archivage ou de préservation peut être aussi envisagée. Elle consiste à sélectionner les données que l'on souhaite préserver car elles ont une utilité sur le long terme. On a alors recours à des centres d'archivages qui traitent les données pour qu'elles soient lisibles dans le temps.

      Les entrepôts de données correspondent donc à une logique de diffusion et de partage. Il y a d'autres façons de diffuser des données (fichier annexé au texte, carnet de recherche en ligne...), mais ces aspects ne seront pas approfondis ici car ils sont moins conformes aux principes FAIR.

    • Qu'est-ce qu'un entrepôt de données ?

      Pour le dire simplement, les entrepôts de données sont des plateformes web sur lesquelles les chercheurs peuvent déposer et rechercher des données scientifiques. Ils proposent des services spécifiques à l'activité de recherche (description des jeux de données, choix des conditions d'accès, attribution de licence...) et offrent une garantie de sécurité. La plupart présente un système de recherche détaillé avec de nombreux filtres.

      Exemple de recherche de données sur l'entrepôt Zenodo

      Bien évidemment, tous les entrepôts ne se valent pas et selon le domaine ou la discipline scientifique du chercheur, il peut être nécessaire de faire des recherches assez poussées pour trouver celui qui convient le mieux (nous verrons ces aspects-là par la suite).

      Il existe de nombreux entrepôts que l'on peut classer dans différentes catégories, entre autres :

      • Entrepôts provenant d'éditeurs scientifiques
      • Entrepôts supportés par des institutions
      • Entrepôts nationaux
      • Entrepôts liés à des disciplines
      • Entrepôts multidisciplinaires
      • Etc

      Comme il n'est pas forcément évident de s'y retrouver, il existe des services complémentaires, appelés annuaires d'entrepôts, qui permettent de rechercher un entrepôt selon plusieurs critères.

      Callisto. (2022, 26 octobre). La minute Entrepôt de données. [Vidéo]. Canal-U. https://www.canal-u.tv/134293. (Consultée le 10 mai 2023)

    • Pourquoi déposer les données de recherche ?

      Comme nous l'avons dit précédemment, il ne faut pas juste considérer les entrepôts de données comme des solutions de sauvegarde (back-up) ou d'hébergement. Déposer des données s’inscrit avant tout dans une démarche de partage, d'ouverture des données (open research data). Cette démarche est une des composantes de la science ouverte.

      Le mouvement de la Science ouverte vise à construire un écosystème dans lequel la science sera plus cumulative, plus fortement étayée par des données, plus transparente, plus rapide et d’accès universel.

      Pour étayer ces propos, on peut donner quelques arguments en faveur du dépôt des données.

      Beaucoup d'autres arguments peuvent venir compléter la liste, comme le fait d'offrir une meilleure garantie contre les fraudes scientifiques ou encore, au niveau individuel, d'inciter à adopter de bonnes pratiques de gestion des données (décrire les données, les documenter, les pérenniser…), ce qui améliore la qualité du travail de recherche ! 

    • Quiz

      Faisons un point rapide sur ce que vous venez de lire pour voir si l'essentiel est compris !

    • Il existe un nombre important d’entrepôts qu'il n'est pas possible de recenser de façon exhaustive. Nous pouvons néanmoins tenter de donner un petit aperçu d'entrepôts que l'on peut distinguer selon certaines spécificités :

      Nakala
      Entrepôt disciplinaire

      Nakala est un entrepôt national français dédié aux données SHS. C'est une réalisation de l'infrastructure de recherche Huma-Num (CNRS, Aix-Marseille Université, Campus Condorcet).


      Dryad
      Entrepôt multidisciplinaire

      Dryad est un projet communautaire à but non lucratif. Il propose une grande diversité de données sous-jacentes aux publications issues de nombreuses revues et institutions de toutes disciplines.


      Merritt
      Entrepôt institutionnel

      Merritt est un entrepôt géré par le centre de conservation de l'Université de Californie. Il est à la disposition de tous les membres de la communauté de l'université pour les aider à gérer, archiver et/ou partager du contenu numérique.


      GigaDB
      Entrepôt propre à un éditeur

      GigaDB est un entrepôt de données soutenant les publications scientifiques dans le domaine des sciences de la vie/biomédicales. À l'origine, GigaDB servait principalement de dépôt pour héberger les données et les outils associés aux articles de GigaScience ; cependant, il accepte désormais les ensembles de données qui ne sont pas associés aux articles de GigaScience.


      GFZ
      Entrepôt spécifique à un projet

      GFZ Data Services est un entrepôt de données de recherche pour le domaine des sciences de la Terre et de l'environnement, hébergé au centre de recherche allemand GFZ pour les géosciences à Potsdam. Les services de données du GFZ sont ouverts aux données de recherche et aux logiciels scientifiques dans le domaine des sciences de la Terre et de l'environnement.


      UniProt
      Banque de données de référence

      L'Universal Protein Resource (UniProt) est une ressource complète pour les séquences de protéines et les données d'annotation. Les bases de données UniProt sont l'UniProt Knowledgebase (UniProtKB), les UniProt Reference Clusters (UniRef) et l'UniProt Archive (UniParc). Le consortium UniProt et les institutions hôtes EMBL-EBI, SIB et PIR s'engagent à préserver à long terme les bases de données UniProt.

      Recherche Data Gouv

      Dès 2018, la Ministre de l’Enseignement Supérieur, de la Recherche et de l’Innovation annonçait parmi les mesures du plan national pour la science ouverte le développement d’un service générique d’accueil et de diffusion des données. Ouvert en 2022, Recherche Data Gouv met désormais à disposition de la communauté scientifique une plateforme nationale fédérée et de confiance pour la publication et le signalement des données de la recherche.

      Les établissements qui le souhaitent peuvent disposer d'un espace dans la plateforme pour que les données de recherche produites par les équipes de leur établissement y soient déposées. Un espace dédié aux scientifiques ne disposant pas d'espace institutionnel est également mis à disposition.

      La catégorisation d’un entrepôt de données peut varier, car les missions d’une plateforme peuvent évoluer dans le temps (comme par exemple l'entrepôt GigaDB qui était à la base un entrepôt propre à l'éditeur GigaScience mais qui maintenant s'ouvre à d'autres). L'intérêt de cette typologie est plutôt de vous aider à identifier certains grands critères pour distinguer les entrepôts les uns des autres. Nous pouvons d'ailleurs en préciser un autre qui peut avoir son importance : la certification.

    • La certification CoreTrustSeal Data Repository

      CoreTrustSeal est une organisation internationale, communautaire, non gouvernementale et à but non lucratif qui promeut des infrastructures de données durables et fiables. Elle propose de certifier les entrepôts selon 16 exigences reflétant les caractéristiques que l’on peut conférer à des entrepôts fiables.

      Les bailleurs de fonds nationaux et internationaux sont de plus en plus susceptibles d'imposer des politiques de données ouvertes et de gestion des données qui prévoient le stockage et l'accessibilité à long terme des données.

      Si nous voulons être en mesure de partager les données, nous devons les stocker dans un entrepôt de données fiable. Les données créées et utilisées par les scientifiques doivent être gérées, conservées et archivées de manière à préserver l'investissement initial dans leur collecte. Les chercheurs doivent être certains que les données conservées dans les archives resteront utiles et pertinentes à l'avenir. Les organismes de financement exigent de plus en plus un accès permanent aux données produites par les projets qu'elles financent, et en ont fait un élément important des plans de gestion des données. En effet, certains bailleurs de fonds stipulent désormais que les données qu'ils financent doivent être déposées dans un entrepôt digne de confiance.

      Des centaines d'entrepôts sont certifiés, comme par exemple l'Ifremer.

      Le site du CoreTrustSeal vous permet de rechercher facilement les entrepôts certifiés.

      Capture d'écran de la recherche d'entrepôt certifié sur CoreTrustSeal

      La certification est un moyen de s'assurer de la qualité d'un entrepôt. Mais il faut aussi noter que plusieurs entrepôts non certifiés sont tout de même largement reconnus par la communauté scientifique et offrent des garanties de conservation à long terme. C'est le cas par exemple de GenBank en biologie moléculaire.

    • La notion d'entrepôt de confiance

      Même si un entrepôt ne dispose pas d’une certification internationale obtenue à la suite d’une évaluation rigoureuse, il peut se révéler pertinent pour une communauté scientifique. On parle alors d’ « entrepôt de confiance » si sa mission est de fournir à une communauté donnée un accès fiable sur le long terme à des ressources.

      Voir la note méthodologique du Collège Données de la recherche du Comité pour la science ouverte.

    • Il y a donc un nombre important d'entrepôts que l'on peut classer dans des grandes catégories (selon les disciplines, les projets, les éditeurs concernés...). Ces critères peuvent déjà vous orienter si vous cherchez un entrepôt de données. Par exemple si vous êtes chercheur en sciences de l'éducation, l'entrepôt Nakala (SHS) sera déjà plus adapté que l'entrepôt Pangea (science de la terre et de l'environnement).  

      D'autres critères plus fins et propres à chaque contexte doivent aussi être pris en compte : vous faut-il un entrepôt certifié ? permettant de modifier les données et accéder aux anciennes versions ? proposant des licences de diffusion spécifiques... ?

      Pour vous guider dans votre choix, nous allons maintenant examiner les points à prendre en compte afin de trouver l’entrepôt le mieux adapté à votre situation.

    • Les recommandations d'entrepôt

      Il se peut qu’un entrepôt vous soit précisément recommandé par une partie prenante du projet (financeur, université, organisme de recherche) ou une dans laquelle vous souhaitez publier. Une des premières choses à faire est donc de vérifier si vous avez des recommandations en ce sens.

    • Les annuaires d'entrepôt

      Comme nous l'avons vu précédemment, il existe des annuaires ou répertoires qui recensent des entrepôts et permettent une recherche par filtres. En voici quelques-uns.

      Annuaires multidisciplinaires
      Cat OPIDoR

      C'est un catalogue qui a pour objectif de cartographier les services français dédiés aux données scientifiques. Hébergé par l'Inist-CNRS qui assure la modération, il complète l'offre de services OPIDoR.

      Cette liste prend en compte les entrepôts de confiance répertoriés par le Collège Données de la recherche du Comité pour la Science ouverte.


      re3data (Registry of Research Data Repositories)

      C'est un répertoire mondial d'entrepôts de données de recherche qui couvre les entrepôts de différentes disciplines universitaires. Il comprend des plateformes qui permettent le stockage permanent et l'accès aux ensembles de données aux chercheurs, aux organismes de financement, aux éditeurs et aux institutions savantes. re3data promeut une culture de partage, un accès accru et une meilleure visibilité des données de recherche.


      OAD (Open Access Directory)

      OAD est un wiki où la communauté du libre accès peut créer et soutenir des listes factuelles simples sur le libre accès à la science et aux études.

      Une liste dédiée aux entrepôts de données est disponible ici.

      Annuaires spécialisés
      FAIRsharing

      C'est une ressource informative et éducative sur les normes en matière de données et de métadonnées, en relation avec les bases de données et les politiques en matière de données. Une href="https://fairsharing.org/search?page=1&recordType=repository" target="_blank" rel="noopener">page est dédiée à la recherche d'entrepôts contenant plusieurs filtres (par discipline, domaine, recommandation, pays...).


      NIH (National Institutes of Health)

      Depuis plusieurs années, le BIMC (BioMedical Informatics Coordinating Committee) tient à jour sur ce site une liste d'entrepôts de données soutenus par les NIH :

      • Les entrepôts ouverts spécifiques à un domaine soutenus par les NIH qui abritent des données d'un type spécifique ou liées à une discipline particulière ;
      • D'autres ressources spécifiques à un domaine soutenues par les NIH, y compris les entrepôts et les bases de connaissances, qui ont des limites sur la soumission et/ou l'accès aux données ;
      • Les entrepôts généralistes qui hébergent des données indépendamment du type, du format, du contenu ou du sujet.
      Annuaires mixtes
      OpenDOAR

      C'est un répertoire mondial d'entrepôts et archives ouvertes en libre accès, dont la qualité est garantie. Vous pouvez rechercher et parcourir des milliers d'entrepôts enregistrés en fonction d'une série de caractéristiques, telles que l'emplacement, le logiciel ou le type de matériel détenu.


      DataCite Commons

      DataCite Commons est un outil de recherche, d'analyse et de reporting qui s'appuie sur les liens entre les travaux, les personnes et les organisations dans les métadonnées DOI de DataCite. Il est possible d'y chercher des entrepôts par nom ou par mots clés.

    • D'autres critères

      En parallèle ou complément d'éventuelles recommandations, vous pouvez étudier d'autres critères, liés aux fonctionnalités de l'entrepôt ou à sa politique.

      Fonctionnalités
      • Les types de données acceptés
        • Certains entrepôts, comme Dryad, n'acceptent que les données liées à une publication. D'autres entrepôts, comme Zenodo, acceptent tout type de données.
      • Les formats de fichiers acceptés
        • L'entrepôt peut préconiser des formats de fichiers spécifiques. Par exemple, l'entrepôt Dryad accepte tout format mais recommande l'utilisation de formats non propriétaires et liste les formats à privilégier.
      • La qualité de la description (métadonnées)
        • La qualité de la description des jeux de données est importante pour permettre de les retrouver et de les réutiliser. La plupart des entrepôts s'appuient sur des standards pour décrire les données.
      • La possibilité de restreindre l'accès
      • La possibilité de modifier les données et accéder aux anciennes versions
      • L'attribution d'un identifiant pérenne aux données
        • Les identifiants pérennes sont un élément essentiel de conformité aux principes FAIR.
      • Le choix de licences de diffusion
      • Le lien avec d'autres objets de recherche
        • Il est intéressant de lier les données aux articles qui les exploitent (research article) ou les décrivent (data paper), ou encore au plan de gestion de données qui a permis de les gérer.
      • Les statistiques d'utilisation
        • L'entrepôt propose-t-il des statistiques d'utilisation, de consultation, de téléchargement ?
      Politique des entrepôts

      Certaines informations sont à vérifier dans les pages décrivant plus particulièrement la politique de l'entrepôt ou dans les annuaires, comme par exemple :

      • La couverture disciplinaire
        • L'annuaire re3data par exemple permet de trier par domaine / sous domaine. L'annuaire spécialisé FAIRsharing permet de cibler très finement votre thématique de recherche. La liste OAD classe les entrepôts par disciplines.
      • La mention d'une certification
        • L'annuaire re3data par exemple permet de trier par type de certification.
      • Le lieu d'hébergement du serveur
        • Selon le type de données à déposer, il faut s'assurer du respect par l'hébergeur de la réglementation européenne (par exemple sur les données personnelles).
      • La politique de préservation des données sur le long terme
      • Le coût du dépôt
        • Pour déposer dans certains entrepôts comme Dryad, vous, votre institution ou votre éditeur devez vous acquitter de charges de publication. Le coût peut également être lié au volume de vos fichiers. Zenodo par exemple est gratuit pour les données hétérogènes (longue traîne des données).
      • La modération ou la curation des données
        • Certains entrepôts ne valident pas les dépôts en amont ; d'autres proposent une modération avant toute diffusion ; d'autres encore proposent une curation voire une labellisation des données après dépôt.
      Critères d'exclusion

      À l'inverse, comme l'a souligné le Collège Données de la recherche du Comité pour la Science ouverte, il existe des critères qui doivent vous détourner de l'utilisation d'un entrepôt de recherche et vous en faire préférer d'autres. C'est le cas notamment de :

      • La cession de droits
        • Certains entrepôts portés par des éditeurs impliquent de céder les droits de propriété intellectuelle sur les données déposées. Il faut les éviter.
      • La restriction des dépôts à des affiliations institutionnelles
        • Le dépôt dans un entrepôt ne doit pas être restreint à la seule institution porteuse de l'infrastructure.
    • Exercice : trouver l'entrepôt de données le plus adapté

      Le but de cet exercice est de retrouver sur l'annuaire re3data un ou plusieurs entrepôts qui pourraient convenir à la situation d'un chercheur souhaitant déposer ses données.

    • Le dépôt implique une gestion rigoureuse des données pour leur ouverture et partage. Il faut prendre en considération des aspects techniques, éthiques ou encore juridiques : s'assurer que les données soient bien structurées, documentées, réutilisables, compréhensibles, etc.

    • Exercice : vérifier un jeu de données déposé sur Zenodo

      Examinez le jeu de données ci-dessous et répondez aux questions suivantes :

    • Comment déposer un jeu de données sur Recherche Data Gouv ?

      Terminons ce cours par un exemple de dépôt en ligne sur l'entrepôt Recherche Data Gouv. Les équipes de Recherche Data Gouv et de DoRANum se sont associées pour élaborer des tutoriels interactifs afin d’appréhender toutes les étapes de la création d’un compte jusqu’à la gestion du dépôt et la recherche de données.

  • Les entrepôts permettent de diffuser ouvertement (ou de façon restreinte) des données de recherche. Cette démarche s'inscrit dans le mouvement de la science ouverte.

    Le fait de déposer des données apporte plusieurs avantages : gain de visibilité des chercheurs, citabilité des jeux de données, adoption en amont de bonnes pratiques de gestion des données, pérennité de l'accès aux données, retour sur investissement dans la Recherche et Développement... En parallèle, le dépôt des données tend à devenir obligatoire pour obtenir les financements de projets publics ou pour publier un article de recherche.

    Callisto. (2018, 20 mars). Déposer ses données de recherche : pourquoi, quoi, quand, où et comment ?. [Vidéo]. Canal-U. https://www.canal-u.tv/116062. (Consultée le 10 mai 2023)
  • Un forum est à votre disposition pour toute question. Vous pouvez aussi nous aider à améliorer ce cours en nous donnant votre avis.

  • Ce cours et les ressources qu'il intègre sont réutilisables selon la licence CC BY_NC-SA 4.0 (Attribution-NonCommercial-ShareAlike 4.0 International). 

    Un lien d'intégration ou de téléchargement est disponible sous chaque ressource réutilisable. 

    Si vous êtes formateur et que vous avez une plateforme Moodle, vous pouvez nous demander de vous envoyer le fichier source du cours dans son intégralité (au format Moodle .mbz).

    Nous contacter