Données désordonnées

Aperçu

Ce patron conceptuel a été développé pour faciliter la mise en correspondance des données qui ne suivent pas les recommandations du modèle DOPHEDA. Il s’agit d’une solution technique pour accueillir, dans un graphe de connaissances, des données non structurées. Ce patron conceptuel couvre :

  • Les données elles-mêmes, sous forme littérale;
  • La langue dans laquelle les données sont enregistrées.

Il ne couvre pas :

  • La provenance des données, qui est documentée à l’aide du patron conceptuel Provenance du jeu de données;
  • La valorisation sémantique des données;
  • Les notes ou commentaires contenant des informations textuelles sur une entité, qui sont documentées à l’aide du patron conceptuel Note curatoriale;
  • Les champs de données qui ne correspondent à aucun patron conceptuel de la Spécification du modèle cible.

Introduction et contexte

Historique théorique

Les données désordonnées sont un problème important pour les institutions patrimoniales. Un rapport du Heritage Data Research Workshop montre que l’une des principales préoccupations des spécialistes en données patrimoniales est de s’attaquer aux données complexes et désordonnées, soit en raison d’une multitude de formats ou d’un manque de normalisation (Harrison et al. 2017, 32). Bien qu’il soit difficile de quantifier la proportion de données désordonnées dans les collections numériques patrimoniales, une étude sur la base de données du Musée national d’histoire naturelle des Pays-Bas montre qu’elle contient environ 5 % d’erreurs d’orthographe et de mauvaises utilisations des colonnes, et environ 34 % d’erreurs de contenu (van den Bosch et al. 2009, 55-56). Cependant, le nettoyage continu de jeux de données entiers n’est pas pratique pour la plupart des institutions, car il s’agit d’un processus long et exigeant en ressources (CrowdFlower 2016, 6). Il est donc raisonnable de penser que d’autres institutions sont confrontées à des défis similaires et que les données désordonnées doivent être prises en compte et adaptées.

Énoncé des besoins

Même si la soumission de données doit suivre des règles strictes en matière de structure et de normalisation pour garantir la transformation transparente des jeux de données des soumissionnaires au format RDF, l’exercice de nettoyage des données, exigeant en ressources, que cela implique est souvent une attente irréaliste. Il en résulte des données non structurées, souvent appelées « données désordonnées », qui doivent être adaptées, même au détriment de la sémantique. Cela permet aux personnes d’accéder à l’ensemble des informations fournies par une institution, ainsi qu’aux futurs outils permettant d’analyser et de nettoyer les données désordonnées. Même si cela faciliterait le processus de mise en correspondance, le fait d’écarter les données désordonnées du graphe de connaissances DOPHEDA entraînerait une perte importante d’informations pertinentes, ce qui n’est pas souhaitable; c’est pourquoi ce patron conceptuel a été élaboré.

Description du patron conceptuel

Une solution courante pour traiter les données désordonnées dans les graphes de connaissances est de considérer ces données comme des chaînes de caractères, ce qui revient à créer une instance de E33_Objet_linguistique. La valeur du Type d’énoncé de données désordonnées (une instance de E55_Type) est liée à cette instance de E33_Objet_linguistique par la propriété P2_a_pour_type afin d’indiquer le type général d’information détenu par l’instance de E33_Objet_linguistique en fonction du nœud de saisie qui aurait accueilli les données si sa valeur sémantique avait été plus élevée, ainsi que pour la distinguer d’autres instances de E33_Objet_linguistique, telles que les biographies. L’instance de E55_Type est ensuite qualifiée par une autre instance de E55_Type (un nœud doté d’un qualifiant spécifié) portant le libellé « Énoncé de données désordonnées » à travers la propriété P2_a_pour_type.

La valeur de la Langue de l’énoncé de données désordonnées (une instance de E56_Langue) est liée à l’instance de E33_Objet_linguistique par la propriété P72_a_pour_langue, et la valeur littérale du Contenu de l’énoncé de données désordonnées est liée à cette même instance de E33_Objet_linguistique par la propriété P190_a_pour_contenu_symbolique. L’instance de E33_Objet_linguistique représentant les données littérales est finalement liée par la propriété P67_renvoie_à à l’instance concernée de E39_Actant.

Diagramme

011_PatronConceptuel_DonneesDesordonnees_p

Exemples

L’information détaillant le début de l’occupation de Yousuf Karsh en tant que photographe de studio établi pourrait prendre la forme suivante : « De retour au Canada en 1931, Karsh établit rapidement un studio avec l’aide financière de son oncle (Éditeurs de la Encyclopædia Britannica n.d.) » (P190_a_pour_contenu_symbolique, Contenu de l’énoncé de données désordonnées). Si les données avaient été normalisées, elles auraient pu être soumises à l’aide du nœud de saisie Date de début de l’occupation, mais comme elles ne sont pas normalisées, le nœud de saisie Contenu de l’énoncé de données désordonnées doit être utilisé à la place, avec un libellé indiquant qu’il s’agit d’un « Énoncé de la date de début de l’occupation » (P2_a_pour_type, Type d’énoncé de données désordonnées) rédigé en anglais (P72_a_pour_langue, Langue de l’énoncé de données désordonnées).

Documentation connexe

Modèles externes

Nœuds de saisie

Entités du CIDOC CRM

Discussion

Justification

Ce patron conceptuel n’est pas conçu pour documenter un type d’information précis, contrairement à la plupart des patrons de la Spécification du modèle cible. Il s’agit plutôt d’une solution technique au problème des données non structurées et non standard. La plupart des projets en DOL mettent l’accent sur le développement d’un modèle de données plutôt que sur sa mise en application; c’est pourquoi ce patron conceptuel se trouve rarement dans d’autres projets. Pourtant, il est essentiel pour un environnement comme DOPHEDA qui vise à agréger et à mettre en correspondance les données de nombreux soumissionnaires. De façon réaliste, tous les soumissionnaires n’auront pas les ressources nécessaires pour nettoyer leurs données avant de contribuer à l’environnement DOPHEDA et le RCIP doit tenir compte des besoins de ses diverses parties prenantes.

Ce patron conceptuel est structurellement similaire au patron conceptuel Note curatoriale. Tous deux ont comme nœud central une instance de E33_Objet_linguistique qui est liée au nœud qu’elle documente par la propriété P67_renvoie_à. Les données désordonnées et les notes curatoriales peuvent néanmoins être différenciées les unes des autres par l’utilisation d’un type désigné approprié. Les deux nœuds E55_Type, appelés nœuds dotés d’un qualifiant spécifié, reposent sur l’utilisation de vocabulaires spécifiques qui n’ont pas encore été déterminés.

Limitations

Comme indiqué ci-dessus, en raison de leur nature, les données désordonnées hébergées dans le graphe de connaissances DOPHEDA restent sémantiquement pauvres. Même si des données désordonnées sont disponibles dans l’environnement DOPHEDA, il est difficile d’en extraire de l’information par le biais de requêtes. Seuls les humains qui lisent le contenu des nœuds textuels peuvent déterminer la signification de telles données. Ce processus peut être long en raison de leur quantité. Tant que les outils ne pourront pas nettoyer les données désordonnées, elles demeureront difficiles à accéder et à exploiter.

Pour pouvoir utiliser la mise en correspondance de l’information, le patron conceptuel Données désordonnées doit être lié à l’entité principale décrite (l’instance de E39_Actant ou de E22_Objet_élaboré_par_l’humain). Cependant, il se peut que l’énoncé de données désordonnées ne réfère pas directement à l’actant, mais à un autre nœud de saisie, tel que la Date de début de l’entrée dans la famille. Cela pourrait créer de la confusion pour les personnes utilisant ce patron conceptuel, soit parce qu’elles ne savent pas à quel nœud l’énoncé de données désordonnées fait référence, soit parce qu’elles pensent que seules les informations relatives à l’actant principal peuvent être modélisées avec le patron conceptuel Données désordonnées.

Enjeux connexes sur GitHub

Cas limites

Exemple 1

Yousuf Karsh a utilisé la technique de la « Photographie » tout au long de sa carrière. Une institution qui documente cette technique à l’aide d’un vocabulaire contrôlé sera en mesure de rendre compte de cette information avec le patron conceptuel Technique utilisée. Cependant, malgré le fait que l’information transmise soit structurée, le soumissionnaire pourrait être réticent à catégoriser une personne en fonction des techniques qu’elle a utilisées. Dans un tel cas, le patron conceptuel Données désordonnées peut être utilisé pour tenir compte du point de vue du soumissionnaire.

Exemple 2

Un seul contenu de l’énoncé de données désordonnées pourrait inclure plus d’une seule langue. Dans un tel cas, un soumissionnaire pourrait choisir de répertorier les langues dans une seule entrée, ou de créer une entrée par langue et de toutes les associer au contenu.

Bibliographie

CrowdFlower. Data Science Report. CrowdFlower, 2016. https://visit.figure-eight.com/rs/416-ZBE-142/images/CrowdFlower_DataScienceReport_2016.pdf.

Éditeurs de la Encyclopaedia Britannica. « Yousuf Karsh ». Encyclopædia Britannica. Londres, UK-LDN : Encyclopædia Britannica, n.d. https://www.britannica.com/biography/Yousuf-Karsh.

Harrison, Rodney, Hana Morel, Maja Mericevic, et Sefryn Penrose. Heritage and Data: Challenges and Opportunities for the Heritage Sector. Heritage Data Research Workshop. Londres, UK-LDN : Arts and Humanities Research Council, 2017. https://heritage-research.org/app/uploads/2017/11/Heritage-Data-Challenges-Opportunities-Report.pdf.

Van den Bosch, Antal, Marieke van Erp, et Caroline Sporleder. « Making a Clean Sweep of Cultural Heritage ». Intelligent Systems, IEEE 24, no 2 (2009) : 54-63.