Données ouvertes et liées - Avantages et défis

Date de création : 2019-08-28

Dernière mise à jour : 2020-10-22

Résumé

Le présent document de travail vise à donner un aperçu des avantages qu’offrent l’ouverture et la sémantisation des données, ainsi que des défis que cela comporte. Il décrit aussi les obstacles que pourraient avoir à surmonter les institutions qui s’engagent dans ce processus.

Données ouvertes liées (DOL) pour les institutions culturelles

Le Réseau canadien d’information sur le patrimoine (RCIP) travaille actuellement à la création d’un modèle destiné aux collections canadiennes d’artefacts. Son volet consacré aux personnes et aux groupes est en cours d’élaboration et sera testé prochainement. Le volet Objets de DOPHEDA est conçu de manière à pouvoir s’aligner sur le modèle de linked.art pour les institutions artistiques. 

Si, en tant qu’institution, vous désirez sémantiser vos données, le RCIP sera heureux de collaborer avec vous à ce sujet et de vous conseiller du mieux qu’il le peut. De manière générale, vous devriez prendre en considération les principaux éléments suivants :  

  • Utilisation de licences ouvertes pour vos données : vous pouvez choisir les données qui seront accessibles, et différentes licences peuvent être appliquées à différentes données (bien qu’une licence ouverte soit toujours préférable dans le cas des DOL). Par exemple, vous pouvez décider de rendre accessibles sous forme de DOL toutes les informations relatives à un objet sans fournir l’image de cet objet. 

  • Nettoyage de vos données : les données désordonnées sont des données publiables qui ne seront pas aussi précises sémantiquement. Il existe des outils pour semi-automatiser ce processus de nettoyage (OpenRefine et l’extension du Getty, par exemple). Le RCIP peut vous conseiller à ce sujet, si nécessaire. Gardez à l’esprit que si vous souhaitez publier des DOL riches, le processus de nettoyage des données doit être intégré à un modèle sémantique adapté à vos besoins. Cela dépendra en grande partie de la valeur sémantique que vous souhaitez atteindre.

  • L’élaboration d’un modèle sémantique pour le secteur du patrimoine culturel est le plus souvent basée sur le CIDOC CRM, et ce sera le cas avec le modèle du RCIP. La façon la plus simple pour une institution de sémantiser ses données est d’utiliser un modèle préexistant plutôt que de créer son propre modèle. Vous êtes invités à utiliser le modèle du RCIP dès qu’il sera disponible; si vous souhaitez utiliser le modèle linked.art, le RCIP se fera un plaisir de vous mettre en contact avec les personnes concernées.

  • La publication de données sémantisées et enrichies ne les rend pas consultables pour autant. Par conséquent, si vous souhaitez mettre les données à la disposition du public en ligne, l’élaboration d’interfaces est la prochaine étape importante d’une stratégie de données numériques pour votre institution. Dans la plupart des cas, le modèle que vous utilisez ou élaborez ne doit pas être déterminé par les affichages visuels (interfaces) que vous avez prévus. Il doit plutôt être sélectionné ou élaboré en fonction de vos besoins et de vos cas d’usage (comme des questions des experts d’un domaine spécifique qui pourraient éventuellement devenir des requêtes).

Vous trouverez ci-dessous une liste des avantages et des défis que nous avons identifiés dans le cadre de notre recherche. Gardez à l’esprit que de nombreux défis peuvent être atténués par l’utilisation d’une approche stratégique. 

Avantages

Les données ouvertes liées offrent un certain nombre d’avantages, notamment en ce qui concerne l’accessibilité et la visibilité en ligne. Les DOL sont un ensemble d’outils et de principes dont les institutions patrimoniales peuvent tirer profit, car elles peuvent :

  • Augmenter le taux de découvrabilité : 
    • Des institutions et de leurs collections;
    • Des artefacts et des acteurs (personnes et groupes) représentés dans le jeu de données;
    • De toute personne qui contribue ouvertement.
  • Favoriser des données plus nuancées (en ligne et hors ligne) : 
    • En générant de nouvelles connaissances; 
    • En créant de nouveaux résultats que les auteurs et les propriétaires originaux des données ne recherchaient pas initialement;
    • En révélant des erreurs qui auraient pu passer inaperçues. 
  • Contribuer à une meilleure connaissance et à une compréhension accrue des données :
    • En aidant à disséminer plus rapidement et plus largement de nouvelles idées qui, à leur tour, déclenchent de nouvelles études et génèrent de nouvelles connaissances;
    • En diffusant ces connaissances grâce à leur réutilisation et à leur publication, de manière à ce qu’elles puissent être utilisées immédiatement dans l’enseignement; 
    • En permettant aux groupes de défense des citoyens et aux chercheurs d’analyser les données et de produire ainsi de l’information nouvelle et de meilleure qualité. 
  • Diminuer les ressources financières et humaines nécessaires aux tâches quotidiennes : 
    • En répartissant la maintenance des données à travers le réseau lorsqu’il s’agit de rechercher, de rassembler et de présenter des données sur le patrimoine; 
    • En limitant le risque d’utiliser des métadonnées qui ne sont plus à jour.
  • Offrir des possibilités de mobiliser les parties prenantes ainsi que les citoyens : 
    • Les chercheurs et les universitaires pourraient être intéressés par les microdonnées;
    • Les décideurs et le public pourraient être intéressés par les agrégats de plus haut niveau; 
    • L’information est accessible pour un plus grand nombre de personnes, y compris des gens qui n’auraient autrement pas accès aux institutions et à leurs bases de données, entre autres;  
    • Les citoyens et les autres personnes peuvent se familiariser avec les collections. Cela permet aux musées d’avoir une portée et un impact sur la société beaucoup plus grands, notamment en tant que contributeurs à une société ouverte, bien informée et créative. Il s’agit d’un avantage important, étant donné que le public exige de plus en plus de transparence de la part des musées;
    • Les institutions peuvent elles-mêmes utiliser les jeux de données pour mobiliser davantage leur propre public.
  • Normaliser les données, ce qui : 
    • Diminue le risque de perte de données à la suite de conversions multiples; 
    • Permet la manipulation et l’analyse des données, et les rend ainsi plus facilement utilisables et visualisables;
    • Rend l’information sur le patrimoine plus accessible aux moteurs de recherche.
  • Encourager le développement socioéconomique :
    • En adoptant des principes de transparence et de responsabilité lorsqu’il s’agit de mobiliser le public;
    • En donnant aux organisations à but lucratif et sans but lucratif un accès étendu aux données les plus récentes afin qu’elles puissent les réutiliser et s’appuyer ensuite sur celles-ci;
    • En offrant une meilleure documentation et de meilleures statistiques lors de demandes de financement privé ou public (ou lors de l’évaluation de telles propositions de la part d’organismes publics).  

Les institutions qui entrent dans le domaine du libre accès le font généralement pour les raisons suivantes : 

  • Le coût élevé de la gestion des droits et des autorisations pour les œuvres d’art soumises à des droits d’auteur est comparable ou supérieur à celui du paiement des droits pour ces œuvres (bien que cela dépende fortement de la collection); 

  • En raison de la culture du remixage sur Internet, c’est maintenant un aspect que le public attend des musées; 

  • Les principes de libre accès sont considérés comme une nécessité pour l’accomplissement des mandats que se donnent les organisations au XXIe siècle;

  • Le libre accès favorise la mobilisation de la communauté et élargit la portée et le potentiel de croissance des collections en ligne. 

Défis

  • C’est l’utilisation du catalogue de données par des personnes qui lui donne sa valeur; celle-ci repose davantage sur la mobilisation des utilisateurs que sur la disponibilité des données :
    • Les utilisateurs doivent être en mesure de découvrir les données auxquelles ils s’attendent et être outillés pour les utiliser;
    • Un travail rigoureux pourrait perdre sa valeur parce qu’il est plus long à produire et qu’il faut beaucoup plus de ressources pour le promouvoir qu’un contenu « bruyant » (comme une grande controverse ou une discussion sur un contenu non ciblé). 
  • Le passage aux DOL suppose un changement de paradigme lorsqu’il s’agit d’évaluer et de commenter les données :  
    • Ce changement exige d’acquérir une nouvelle expertise ou de créer des réseaux de conseillers qui connaissent bien les DOL;
    • Les institutions craignent souvent de perdre leur capacité à vendre des images, et ainsi, de se priver de revenus importants et de compromettre leur indépendance financière (les revenus générés par les images sont toutefois généralement minimes, surtout au Canada, où le marché est relativement restreint; en outre, il est possible d’ouvrir seulement certaines données et d’exclure les images, si nécessaire);
    • Les personnes considérées comme ayant une autorité et des connaissances sur l’information (par opposition aux données, qui restent strictement sous la responsabilité de leur institution hôte) peuvent changer à mesure que de nouveaux renseignements sont générés;
    • La décentralisation de l’information suppose de soumettre les données à l’examen du public et de remettre en question l’autorité des institutions, en particulier dans le cas de données contradictoires ou problématiques pour des jeux de données de nature délicate. 
  • Le catalogue doit être conçu en fonction du profil des futurs utilisateurs, ce qui peut impliquer :
    • Une réévaluation des besoins de la communauté à la suite d’un changement dans le paysage de la gestion des données (où les utilisateurs des données ne seront plus uniquement des catalogueurs);
    • La nécessité de non seulement structurer et classer les données, mais aussi de les organiser de manière sensée et cohérente (en effet, non seulement l’information doit être récupérable, mais il faut également que son chemin d’accès et que son emplacement dans la structure aient du sens);
    • Un processus transparent de production de données et de contribution aux données où les utilisateurs s’attendent à avoir accès à de l’information originale, à pouvoir examiner l’information et à disposer d’un moyen de la manipuler eux-mêmes. 
  • Il existe un risque que les utilisateurs interprètent ou présentent les données de façon erronée, que ce soit de manière délibérée ou par manque de compréhension : 
    • Cela pourrait générer des débats intenses sans qu’une autorité unique puisse établir qui est bien informé et qui ne l’est pas. Cependant, l’inverse est également vrai, car l’ouverture des données les expose à l’examen d’un ensemble plus large d’experts dont l’institution hôte n’avait peut-être pas connaissance;
    • Tout le monde doit pouvoir utiliser, réutiliser et redistribuer les données facilement, mais des dispositions permettant de communiquer avec les contributeurs de données (à tous les stades, à savoir la production, le stockage et la distribution) doivent également être proposées aux utilisateurs.
  • L’ouverture des données n’est généralement pas une priorité pour les parties prenantes : 
    • Le maintien, le nettoyage et l’ouverture des données peuvent nécessiter beaucoup de ressources;
    • Les institutions craignent de s’exposer à des critiques en cas de jeux de données problématiques, incomplets ou inexacts;
    • La conversion d’un jeu de données existant en un portail de DOL peut être une tâche intimidante, d’autant plus que les technologies de l’information et les systèmes de gestion ont été créés sans tenir compte d’une utilisation publique ou des groupes qui sont maintenant susceptibles de mobiliser les données. 

Lignes directrices sur la faisabilité

Dans une entrevue avec Jason Bailey, Neal Stimler a suggéré qu’on adopte le processus suivant pour procéder à l’ouverture des données (Bailey, 2019 : 1-2) : 

  1. Effectuer une évaluation approfondie des droits en utilisant des ressources pertinentes telles que (plusieurs sources sont disponibles uniquement en anglais) : 
  2. Consulter un conseiller juridique agréé.

  3. Créer des outils pour fournir un accès libre-service à grande échelle aux données et aux ensembles de biens numériques. Ces outils prennent généralement les formes suivantes : 
    • Une collection d’un musée sur un site Web;
    • Une interface de programmation d’application (interface API) publique;
    • Un dépôt de données disponible sur GitHub aux formats .CSV et .JSON. Les données offertes doivent être assujetties aux mêmes autorisations et cadres juridiques que les ensembles d’images associées. L’interface API est destinée aux développeurs d’applications et aux partenaires, tandis que les données en format .CSV et .JSON sont principalement destinées aux chercheurs et aux universitaires.
  4. Veiller à ce que le contenu en libre accès soit hébergé en partenariat avec des plateformes d’agrégation essentielles telles que Wikidata, Wikimedia Commons et Internet Archive. 

  5. Veiller à ce que les décisions soient évaluées et prises en tenant compte des considérations culturelles et éthiques du libre accès, en collaboration avec les communautés concernées et les universitaires.

  6. Constituer un groupe de travail ou une équipe de projet à l’interne dans les secteurs pertinents de l’organisation. Ce groupe est généralement dirigé par un chef de projet responsable de la vision du projet qui a un pouvoir de décision définitif. Il est fortement recommandé d’établir des partenariats avec des organisations alliées engagées auprès des utilisateurs d’une institution et travaillant directement avec Creative Commons pour mettre en œuvre des pratiques exemplaires.

Pratiques exemplaires pour la publication des DOL

Des étapes supplémentaires nécessaires à la production des DOL ont également été établies par Bernadette Hyland, Ghislain A. Atemezing et Boris Villazón-Terrazas (Hyland, Atemezing et Villazón-Terrazas, 2014) :

  1. Préparer les parties prenantes : …tant donné que les DOL sont par définition une entreprise collective, leurs principes doivent être compris par les professionnels et les parties prenantes, et il est préférable de déterminer les rôles de chaque partie dans l’écosystème des DOL ainsi que les avantages d’un tel environnement.

  2. Sélectionner un jeu de données : Les DOL sont un processus par étapes qui est mieux compris lorsqu’on travaille avec un ensemble de données bien connu qui peut être utile à son organisation, à ses partenaires ou au public.

  3. Modéliser les données : Cette étape comprend de nombreuses problématiques qu’il est nécessaire d’éclaircir, telles que les modèles sémantiques à utiliser ou la façon d’utiliser correctement un modèle sémantique pour assurer une bonne agrégation du contenu. Le RCIP peut vous conseiller sur ces questions, en particulier si vous utilisez DOPHEDA.

  4. Indiquer une licence appropriée : Il est crucial de choisir la bonne licence pour ce qui est de l’utilisation et de la production de DOL afin que les données soient à la fois gérables pour votre organisation et réutilisables.

  5. Attribuer des URI pour les données liées : Une organisation qui produit des DOL doit attribuer des identificateurs uniques appelés identificateurs de ressources uniformes (URI) à ses données. Ces URI doivent être basés sur le protocole HTTP et être stables, lisibles par des machines et par l’humain, et déréférençables (accessibles dans différentes représentations telles que HTML ou JSON-LD). La meilleure façon de générer et de maintenir les URI dépendra de l’infrastructure et des ressources de l’organisation productrice.

  6. Utiliser des vocabulaires normalisés : L’institution doit réutiliser autant que possible les URI des vocabulaires externes afin de favoriser l’interopérabilité du contenu. Le choix des vocabulaires appropriés doit être basé sur les définitions des termes et leur utilisation par les partenaires de l’institution. Le RCIP peut vous conseiller à ce sujet si vous souhaitez gérer vous-même des URI.

  7. Convertir les données : Il existe plusieurs outils sur le marché qui permettent de transformer des données tabulaires en formats RDF selon des modèles ontologiques. 

  8. Fournir un accès automatisé aux données : Idéalement, ces nouveaux fichiers devraient être stockés dans un triplestore (une base de données pour les DOL) qui permettra d’effectuer des requêtes SPARQL (un protocole semblable à SQL, mais pour les DOL) au sein de l’ensemble de données agrégées disponible en RDF. Toutefois, les données peuvent également être accessibles par un système de téléchargement de fichiers.

  9. Annonce au public : Il est essentiel de faire de la publicité pour informer les parties prenantes que votre contenu est désormais accessible sous forme de DOL afin que les utilisateurs éventuels en soient informés; cela peut se faire au moyen de listes de diffusion ou par l’ajout de votre jeu de données au nuage de DOL, par exemple.

  10. Respecter le contrat social qui lie les éditeurs de DOL : En tant qu’éditeur de DOL, vous avez la responsabilité de tenir vos données à jour et de faire en sorte qu’elles restent accessibles. ¿ cette fin, vous pouvez par exemple créer un espace de discussion pour faire le suivi des questions soumises par les utilisateurs ou pour décider du modèle à mettre en œuvre.

Bibliographie sommaire

Bailey, Jason. 2019. « Solving Art’s Data Problem - Part One, Museums ». Artnome (blog). 29 avril 2019. https://www.artnome.com/news/2019/4/29/solving-arts-data-problem-part-one-museums.

Data, Open Art. 2018. « Museums: Interactive Map with Wikidata ». Open Data Art (blog). 16 décembre 2018. https://www.openartdata.org/2018/12/museums-map-wikidata.html.

Edson, Michael Peter. 2019. « Wikimania 2019 Keynote Address ». Keynote présenté à Wikimania 2019, Stockholm, SE, avril 29. https://www.youtube.com/watch?v=9NBonp9KLz8.

Goldman, Kathryn. 2018. « Open Access Images of Public Domain Work ». Creative Law Center (blog). 2018. https://creativelawcenter.com/museums-open-access-images/.

Hyland, Bernadette, Ghislain A. Atemezing, et Boris Villazón-Terrazas. 2014. « Best Practices for Publishing Linked Data ». W3C Working Group Note. 9 janvier 2014. https://www.w3.org/TR/ld-bp/.

Kela, Riitta. 2019. « Opening Collections as Open Data: Challenges and Possibilities ». Dans Documenting Culture: A Culture of Documentation. International Council of Museums (ICOM). Tokyo, JP.

McCarthy, Douglas. 2019. « Licensing Policy and Practice in Open Glam ». Medium, 30 mai 2019. https://medium.com/open-glam/licensing-policy-and-practice-in-open-glam-49c867b49de8.

Oomen, Johan, Enno Meijers, et Wilbert Helmus. 2016. « Network Digital Heritage: Towards A Distributed Network of Heritage Information ». International Conference on Digital Preservation (IPRES). Amsterdam, NL: Dutch Digital Heritage Network. https://www.netwerkdigitaalerfgoed.nl/wp-content/uploads/2018/02/NDE_PositionPaper_NetworkHeritageInformation-EN-v2.pdf.

Open GLAM. 2020. « Declaration on Open Access for Cultural Heritage ». 21 janvier 2020. https://docs.google.com/document/d/1CpDGlWLgkEYJC5A2HJ_Os8XYEv7ONOIBYAobSFzWm14/edit?usp=embed_facebook.

Open Knowledge Foundation. 2012. « Resources ». OpenGLAM. 27 novembre 2012. https://openglam.org/resources/.

Openness: Politics, Practices, Poetics. 2017. Living Archives. Malmˆ, SE: Malmˆ University. http://muep.mau.se/bitstream/handle/2043/23606/openness_final.pdf?sequence=2\&isAllowed=y#page=14.

Sanderhoff, Merete, éd. 2014. Sharing Is Caring: Openness and Sharing in The Cultural Heritage Sector. Traduit par Néné La Beet et René Lauritsen. Copenhagen, DK: Statens Museum for Kunst. https://www.smk.dk/en/article/the-sharing-is-caring-anthology/.

Schrier, Bill. 2014. « Government Open Data: Benefits, Strategies, and Use ». The Evans School Review, Alumni Perspective, 4 (1): 12‑27.

Stimler, Neal, et Louise Rawlinson. 2019. « Where Are The Edit and Upload Buttons? Dynamic Futures for Museum Collections Online ». Dans MuseWeb. Boston, MA: MuseWeb 2019. https://mw19.mwconf.org/paper/where-are-the-edit-and-upload-buttons-dynamic-futures-for-museum-collections-online/.

Stinson, Alex. 2018. « Wikidata in Collections: Building a Universal Language for Connecting GLAM Catalogs ». Medium (blog). 9 avril 2018. https://medium.com/freely-sharing-the-sum-of-all-knowledge/wikidata-in-collections-building-a-universal-language-for-connecting-glam-catalogs-59b14aa3214c.

Vathana, Anly, et Dev Pramil Audsin. 2013. « An Open Analysis on Open Data ». Submission paper. Dans Open Data on the Web, 4. London, GB: W3C. https://www.w3.org/2013/04/odw/odw13_submission_33.pdf.

Wallace, Andrea. 2017. « Access and the Digital Surrogate: Openness as a Philosophy ». Présenté à National Digital Forum, Wellington, NZ, novembre 27. https://www.youtube.com/watch?v=crKUIxIX3sY.