Résumé de section

    • Il y a donc un nombre important d'entrepôts que l'on peut classer dans des grandes catégories (selon les disciplines, les projets, les éditeurs concernés...). Ces critères peuvent déjà vous orienter si vous cherchez un entrepôt de données. Par exemple si vous êtes chercheur en sciences de l'éducation, l'entrepôt Nakala (SHS) sera déjà plus adapté que l'entrepôt Pangea (science de la terre et de l'environnement).  

      D'autres critères plus fins et propres à chaque contexte doivent aussi être pris en compte : vous faut-il un entrepôt certifié ? permettant de modifier les données et accéder aux anciennes versions ? proposant des licences de diffusion spécifiques... ?

      Pour vous guider dans votre choix, nous allons maintenant examiner les points à prendre en compte afin de trouver l’entrepôt le mieux adapté à votre situation.

    • Les recommandations d'entrepôt

      Il se peut qu’un entrepôt vous soit précisément recommandé par une partie prenante du projet (financeur, université, organisme de recherche) ou une dans laquelle vous souhaitez publier. Une des premières choses à faire est donc de vérifier si vous avez des recommandations en ce sens.

    • Les annuaires d'entrepôt

      Comme nous l'avons vu précédemment, il existe des annuaires ou répertoires qui recensent des entrepôts et permettent une recherche par filtres. En voici quelques-uns.

      Annuaires multidisciplinaires
      Cat OPIDoR

      C'est un catalogue qui a pour objectif de cartographier les services français dédiés aux données scientifiques. Hébergé par l'Inist-CNRS qui assure la modération, il complète l'offre de services OPIDoR.

      Cette liste prend en compte les entrepôts de confiance répertoriés par le Collège Données de la recherche du Comité pour la Science ouverte.


      re3data (Registry of Research Data Repositories)

      C'est un répertoire mondial d'entrepôts de données de recherche qui couvre les entrepôts de différentes disciplines universitaires. Il comprend des plateformes qui permettent le stockage permanent et l'accès aux ensembles de données aux chercheurs, aux organismes de financement, aux éditeurs et aux institutions savantes. re3data promeut une culture de partage, un accès accru et une meilleure visibilité des données de recherche.


      OAD (Open Access Directory)

      OAD est un wiki où la communauté du libre accès peut créer et soutenir des listes factuelles simples sur le libre accès à la science et aux études.

      Une liste dédiée aux entrepôts de données est disponible ici.

      Annuaires spécialisés
      FAIRsharing

      C'est une ressource informative et éducative sur les normes en matière de données et de métadonnées, en relation avec les bases de données et les politiques en matière de données. Une href="https://fairsharing.org/search?page=1&recordType=repository" target="_blank" rel="noopener">page est dédiée à la recherche d'entrepôts contenant plusieurs filtres (par discipline, domaine, recommandation, pays...).


      NIH (National Institutes of Health)

      Depuis plusieurs années, le BIMC (BioMedical Informatics Coordinating Committee) tient à jour sur ce site une liste d'entrepôts de données soutenus par les NIH :

      • Les entrepôts ouverts spécifiques à un domaine soutenus par les NIH qui abritent des données d'un type spécifique ou liées à une discipline particulière ;
      • D'autres ressources spécifiques à un domaine soutenues par les NIH, y compris les entrepôts et les bases de connaissances, qui ont des limites sur la soumission et/ou l'accès aux données ;
      • Les entrepôts généralistes qui hébergent des données indépendamment du type, du format, du contenu ou du sujet.
      Annuaires mixtes
      OpenDOAR

      C'est un répertoire mondial d'entrepôts et archives ouvertes en libre accès, dont la qualité est garantie. Vous pouvez rechercher et parcourir des milliers d'entrepôts enregistrés en fonction d'une série de caractéristiques, telles que l'emplacement, le logiciel ou le type de matériel détenu.


      DataCite Commons

      DataCite Commons est un outil de recherche, d'analyse et de reporting qui s'appuie sur les liens entre les travaux, les personnes et les organisations dans les métadonnées DOI de DataCite. Il est possible d'y chercher des entrepôts par nom ou par mots clés.

    • D'autres critères

      En parallèle ou complément d'éventuelles recommandations, vous pouvez étudier d'autres critères, liés aux fonctionnalités de l'entrepôt ou à sa politique.

      Fonctionnalités
      • Les types de données acceptés
        • Certains entrepôts, comme Dryad, n'acceptent que les données liées à une publication. D'autres entrepôts, comme Zenodo, acceptent tout type de données.
      • Les formats de fichiers acceptés
        • L'entrepôt peut préconiser des formats de fichiers spécifiques. Par exemple, l'entrepôt Dryad accepte tout format mais recommande l'utilisation de formats non propriétaires et liste les formats à privilégier.
      • La qualité de la description (métadonnées)
        • La qualité de la description des jeux de données est importante pour permettre de les retrouver et de les réutiliser. La plupart des entrepôts s'appuient sur des standards pour décrire les données.
      • La possibilité de restreindre l'accès
      • La possibilité de modifier les données et accéder aux anciennes versions
      • L'attribution d'un identifiant pérenne aux données
        • Les identifiants pérennes sont un élément essentiel de conformité aux principes FAIR.
      • Le choix de licences de diffusion
      • Le lien avec d'autres objets de recherche
        • Il est intéressant de lier les données aux articles qui les exploitent (research article) ou les décrivent (data paper), ou encore au plan de gestion de données qui a permis de les gérer.
      • Les statistiques d'utilisation
        • L'entrepôt propose-t-il des statistiques d'utilisation, de consultation, de téléchargement ?
      Politique des entrepôts

      Certaines informations sont à vérifier dans les pages décrivant plus particulièrement la politique de l'entrepôt ou dans les annuaires, comme par exemple :

      • La couverture disciplinaire
        • L'annuaire re3data par exemple permet de trier par domaine / sous domaine. L'annuaire spécialisé FAIRsharing permet de cibler très finement votre thématique de recherche. La liste OAD classe les entrepôts par disciplines.
      • La mention d'une certification
        • L'annuaire re3data par exemple permet de trier par type de certification.
      • Le lieu d'hébergement du serveur
        • Selon le type de données à déposer, il faut s'assurer du respect par l'hébergeur de la réglementation européenne (par exemple sur les données personnelles).
      • La politique de préservation des données sur le long terme
      • Le coût du dépôt
        • Pour déposer dans certains entrepôts comme Dryad, vous, votre institution ou votre éditeur devez vous acquitter de charges de publication. Le coût peut également être lié au volume de vos fichiers. Zenodo par exemple est gratuit pour les données hétérogènes (longue traîne des données).
      • La modération ou la curation des données
        • Certains entrepôts ne valident pas les dépôts en amont ; d'autres proposent une modération avant toute diffusion ; d'autres encore proposent une curation voire une labellisation des données après dépôt.
      Critères d'exclusion

      À l'inverse, comme l'a souligné le Collège Données de la recherche du Comité pour la Science ouverte, il existe des critères qui doivent vous détourner de l'utilisation d'un entrepôt de recherche et vous en faire préférer d'autres. C'est le cas notamment de :

      • La cession de droits
        • Certains entrepôts portés par des éditeurs impliquent de céder les droits de propriété intellectuelle sur les données déposées. Il faut les éviter.
      • La restriction des dépôts à des affiliations institutionnelles
        • Le dépôt dans un entrepôt ne doit pas être restreint à la seule institution porteuse de l'infrastructure.
    • Exercice : trouver l'entrepôt de données le plus adapté

      Le but de cet exercice est de retrouver sur l'annuaire re3data un ou plusieurs entrepôts qui pourraient convenir à la situation d'un chercheur souhaitant déposer ses données.