Ce document est une traduction en français du rapport du groupe d'incubation du W3C: "Library Linked Data Incubator Group Final Report", publié le 25 octobre 2011. La présente traduction a été publiée le 3 septembre 2012.

La version originale en anglais de ce document constitue l'unique version normative et se situe à l'adresse: http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025
Pour accéder à la dernière version du document original en anglais: http://www.w3.org/2005/Incubator/lld/XGR-lld

La version française peut contenir des erreurs. Merci d'adresser vos remarques et suggestions de corrections à Rodolphe Bailly.

W3C W3C Incubator Report

Rapport final du groupe d’incubation "Bibliothèques et web de données"

Groupe d’incubation W3C - Rapport du 25 octobre 2011

Version originale (en anglais):
http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025
Dernière version publiée:
http://www.w3.org/2005/Incubator/lld/XGR-lld
Auteurs
Thomas Baker, Dublin Core Metadata Initiative, Etats-Unis (expert invité du W3C)
Emmanuelle Bermès, Centre Pompidou, France (expert invité du W3C)
Karen Coyle, Consultant, Etats-Unis (expert invité du W3C)
Gordon Dunsire, Consultant, Royaume-Uni (expert invité du W3C)
Antoine Isaac, Europeana et Vrije Universiteit Amsterdam, Pays-Bas
Peter Murray, LYRASIS, Etats-Unis (expert invité du W3C)
Michael Panzer, OCLC Online Computer Library Center, Inc., États-Unis
Jodi Schneider, DERI Galway, National University of Ireland, Galway, Irlande
Ross Singer, Talis Group Ltd, Royaume-Uni
Ed Summers, Bibliothèque du Congrès, États-Unis
William Waites, Université d'Edimbourg (School of Informatics), Royaume-Uni
Jeff Young, OCLC Online Computer Library Center, Inc., États-Unis
Marcia Zeng, Kent State University, Etats-Unis (expert invité du W3C)
Traducteurs
Rodolphe Bailly, Cité de la musique, Paris, France
Marie-Hélène Serra, Cité de la musique, Paris, France
Sylvie Dalbin, Assistance et Techniques Documentaires, France
Julien Plu, Antidot, France
Marc Chauveinc, France

Résumé

La mission du groupe d’incubation du W3C "Bibliothèques et web de données", qui s’est déroulée entre mai 2010 et août 2011, était de "contribuer à améliorer de façon globale l’interopérabilité entre les données de bibliothèque sur le web en rassemblant des professionnels travaillant sur le Web sémantique – notamment sur le web de données – qu’ils appartiennent à des bibliothèques ou non ; elle s’est appuyée sur ​​des initiatives existantes et a identifié des pistes de collaboration pour l'avenir". Dans le web de données [LINKEDDATA], les données sont exprimées grâce à des standards tels que le Resource Description Framework (Resource Description Framework – RDF) [RDF], qui spécifie les relations entre les ressources et leurs identifiants uniformes (Uniform Resource Identifiers – URI, ou "adresses Web") [URI]. Ce rapport final du groupe d’incubation montre comment utiliser les standards du Web sémantique et les principes du web de données pour faire en sorte que les précieuses sources d’information créées et conservées par les bibliothèques  – données bibliographiques, autorités, vocabulaires conceptuels – soient rendues plus visibles et réutilisables dans un contexte plus large que le contexte bibliothéconomique d'origine, sur l'ensemble du web.

Le groupe d’incubation a tout d’abord collecté des rapports en lien avec cette question, toutes catégories confondues – du petit projet indépendant aux grands programmes des bibliothèques nationales (voir le rapport séparé, groupe d’incubation "Bibliothèques et web de données" : cas d'utilisation) [USECASE]. Ces cas d'utilisation ont fourni le point de départ de la démarche résumée dans ce rapport : analyse des avantages du web de données pour les bibliothèques; discussion sur les problèmes liés à la gestion des données traditionnelles dans les bibliothèques; projets en cours sur le thème "bibliothèques et web de données"; droits sur les données de bibliothèque; recommandations pour les prochaines étapes. Le rapport donne également le résumé des résultats d'une enquête portant sur les technologies actuelles du web de données ainsi qu’un inventaire des données liées de bibliothèque, disponibles aujourd'hui sur le web de données (voir également le rapport plus détaillé: groupe d’incubation sur les bibliothèques et le web de données : jeux de données, vocabulaires d’autorité et éléments de description de métadonnées) [ VOCABDATASET ].

Les principales recommandations du rapport sont les suivantes :

Statut du présent document

Cette section décrit le statut du présent document au moment de sa publication. D'autres documents peuvent remplacer ce document. Une liste des rapports finaux des groupes d’incubation est disponible. Voir aussi l'index des rapports techniques du W3C sur http://www.w3.org/TR/.

Ce document a été élaboré par le groupe d’incubation "Bibliothèques et web de données".

La publication de ce document par le W3C dans le cadre de l'activité d’incubation du W3C n'engage pas le W3C quant à l’approbation de son contenu ni à l’attribution, passée, présente ou future de ressources pour résoudre les questions abordées par ce groupe. Seuls les membres du W3C peuvent participer aux groupes d’incubation et publier les rapports de ces groupes sur le site du W3C.

Les groupes d’incubation ont pour objectif de produire un travail qui peut être mis en œuvre sans donner droit à des royalties, selon les règles définies par la politique en matière de brevets du W3C. Les participants à ce groupe d’incubation ont convenu d'accorder des licences conformes aux règles d'attribution des licences de la politique de brevets du W3C pour les parties de ce rapport qui seront par la suite incorporées dans une recommandation du W3C.

Toute discussion sur ce document est la bienvenue. Pour cela, veuillez utiliser la liste de diffusion publique public-lld@w3.org (archive).

Table des matières

1 Champ d'application de ce rapport

Le champ d’application de ce rapport "Bibliothèques et web de données" peut être défini comme suit :

Bibliothèque. Le mot "bibliothèque", utilisé dans le présent rapport, désigne  l’ensemble des institutions du patrimoine, ce qui inclut les bibliothèques, les musées et les archives. Le terme se réfère à trois concepts distincts mais liés : une collection d'objets physiques ou abstraits (y compris potentiellement "numériques"), un lieu où la collection se trouve et un agent qui gère la collection et administre le lieu. Les collections peuvent être publiques ou privées, grandes ou petites, et ne sont pas limitées à des types particuliers de ressources.

Données de bibliothèque. L’expression "Données de bibliothèque" désigne tout type d'information numérique produit ou géré par les bibliothèques qui décrit des ressources ou aide à les découvrir. Les données protégées par les règles de confidentialité propres à certaines bibliothèques ne rentrent pas dans ce cadre. De façon pratique, ce rapport distingue trois types de données de bibliothèque, selon l’usage courant : les jeux de données, les éléments de description de métadonnées et les vocabulaires d’autorité (voir Annexe A).

Les données liées. Les "données liées" se réfèrent aux données publiées selon des principes destinés à faciliter la création de liens entre les jeux de données, les éléments de description et les vocabulaires d’autorité [LINKEDDATA]. Les Données liées utilisent des Uniform Resource Identifiers (URI) comme identifiants uniques pour tout type de ressource, de la même façon que des identifiants sont utilisés pour le contrôle des autorités dans la bibliothéconomie traditionnelle [URI]. Dans le cadre des Données liées, les URI  peuvent être des Internationalized Resource Identifiers (IRIs), c’est-à-dire des adresses web qui utilisent le jeu étendu des caractères Unicode. Les Données liées s’expriment en utilisant des normes telles que Resource Description Framework (RDF), qui spécifient les relations entre les choses ; ces relations peuvent être utilisées pour naviguer entre les informations ou pour intégrer des informations de diverses sources [RDF].

Les données ouvertes. Alors que les "Données liées" font référence à l'interopérabilité entre les données sur un plan technique, les "données ouvertes" font référence à l’interopérabilité sur un plan juridique. Selon la définition des données bibliographiques ouvertes, les données ouvertes sont par essence utilisables, réutilisables, et redistribuables librement - sujettes tout au plus aux demandes d'attribution et de partage à l’identique. Il est à noter que la technologie des données liées ne nécessite pas en soi que les données soient ouvertes, mais son potentiel est d’autant mieux utilisé que les données sont publiées en tant que données liées ouvertes(Linked Open Data).

Les données liées de bibliothèque. Les "données liées de bibliothèque" désignent tout type de données de bibliothèque (tel que définies ci-dessus) exprimées sous la forme de données liées.

Les avantages de l’approche du web de données

L’approche du web de données offre des avantages significatifs par rapport aux pratiques actuelles de création et transmission des données de bibliothèque car elle apporte un prolongement naturel aux modèles de partage collaboratifs utilisés de longue date par les bibliothèques. Les données liées, et en particulier les données liées ouvertes, sont partageables, extensibles, et facilement réutilisables. Le web de données favorise le développement de fonctionnalités multilingues pour les données et les services aux utilisateurs, comme par exemple le nommage de concepts identifiés par des URI qui sont quant à eux indépendants de toute langue. Ces caractéristiques sont inhérentes aux normes du web de données et s’appuient sur l'utilisation d’identifiants, simples à manipuler sur le web, pour les données et les concepts. Les ressources peuvent être décrites en collaboration avec d'autres bibliothèques et liées aux données fournies par d’autres communautés, ou même par des individus. Comme c’est le cas aujourd’hui sur le web dans la mise en œuvre de liens entre documents, sur le web de données, les données liées impliquent que quiconque puisse apporter sa propre expertise sous une forme qui peut être réutilisée et recombinée avec l'expertise d’autres personnes. L’utilisation d’identifiants URI permet qu’une même chose fasse l’objet de différentes descriptions. Grâce à l’enrichissement des données obtenu par des liens avec des données complémentaires provenant de sources fiables, les bibliothèques peuvent accroître la valeur de leurs propres données au-delà du périmètre constitué par l’addition de toutes leurs sources.

Grâce aux identifiants web uniques qui désignent des œuvres, des lieux, des personnes, des événements, des sujets, ou autres objets et concepts dignes d’intérêt, les bibliothèques vont encourager le référencement de leurs ressources par un large éventail d’autres sources de données, et faciliter et enrichir ainsi l’accès à leurs métadonnées descriptives. Le système des noms de domaine d’Internet est un garant de stabilité et de fiabilité car il place ces identifiants dans un cadre de maintenance réglementé et clair en ce qui concerne leurs propriétaires et les responsabilités de ces derniers. Cette approche est tout à fait compatible avec la mission à long terme des bibliothèques. Ces dernières et, de façon plus générale, les institutions patrimoniales sont dans une position privilégiée pour produire, sur le web et dans une perspective à long terme, des métadonnées fiables pour le domaine culturel.

Autre conséquence importante de la réutilisation de ces identifiants uniques : les fournisseurs de données peuvent présenter des parties de leurs données sous la forme de déclarations. Dans l’écosystème actuel fondé sur les documents, les données sont toujours échangées sous la forme de notices, chacune d’entre elles supposée être une description complète. À l'inverse, dans un écosystème à base de graphes, une institution peut fournir un certain nombre de déclarations sur une ressource; toutes les déclarations ainsi fournies sur une ressource donnée, identifiée de manière unique, peuvent alors être agrégées en un graphe global. On peut imaginer par exemple qu’une bibliothèque fournisse le numéro de bibliographie nationale d’une ressource et qu'une autre fournisse un titre traduit. Les bibliothèques pourraient employer ces déclarations provenant de sources extérieures de la même manière qu’elles le font aujourd'hui quand elles intègrent des images de couvertures de livres. Dans un écosystème de données liées, "il n’y a pas de contribution mineure" - car toute contribution aussi infime soit-elle rend possible l’établissement de connexions essentielles, à partir de sources jusque-là inconnues.

Les données d’autorité de bibliothèque qui se rapportent aux noms et aux sujets contribueront à réduire la redondance existant sur le web au sein des descriptions bibliographiques grâce à l’identification claire d’entités clés qui seront partagées sur le web de données. La redondance des métadonnées décrivant les collections des bibliothèques s’en trouvera elle-même également diminuée.

2.1 Avantages pour les chercheurs, les étudiants et les utilisateurs des bibliothèques

L’emploi de données liées n’est pas forcément visible pour les utilisateurs des services offerts par les bibliothèques et les institutions culturelles car il intervient "sous le capot". Cependant, au fur et à mesure que les données structurées sous-jacentes deviendront plus richement liées, de nouveaux moyens de découverte et d’utilisation des données se révèleront à l’utilisateur. La navigation dans les ressources fournies par les bibliothèques ou d’autres institutions, deviendra plus sophistiquée. Les recherches fédérées deviendront plus performantes, en vertu des liens qui étendent la portée des index, et les utilisateurs bénéficieront d’un ensemble de possibilités de navigation plus riche.

Le web de données s'appuie sur ce qui est au cœur de la définition du web : des liens navigables (URI) couvrant un espace d'information homogène. De même que la totalité des pages web et des sites web est disponible dans son entièreté pour les utilisateurs et les applications, la totalité des jeux de données utilisant RDF et des URI se présente comme un graphe d’information global que les utilisateurs et les applications peuvent parcourir de manière homogène en suivant les pistes des liens URI ("au flair") − une forme de "toURIsme" dans le monde des données. La valeur ajoutée du web de données pour les utilisateurs des bibliothèques découle de ces principes de base de navigation. Les liens entre les services fournis par les bibliothèques et d’autres organisations telles que Wikipedia, GeoNames, MusicBrainz, la BBC et le New York Times, permettront de connecter les collections locales de ces bibliothèques avec le vaste univers de l'information sur le web.

Le web de données ne vise pas à créer un nouveau web, mais plutôt à améliorer l’existant grâce à l'ajout de données structurées. Ces données structurées, exprimées à l'aide de technologies telles que "RDF dans les attributs" (RDF in Attributes or RDFa) et les microdonnées (microdata), interviennent dans les algorithmes d'exploration et de pertinence des moteurs de recherche et des réseaux sociaux, et sont un moyen pour les bibliothèques de gagner en visibilité par l’optimisation des moteurs de recherche (SEO). Les données structurées intégrées aux  pages HTML faciliteront également la réutilisation des données de bibliothèque dans les services à destination des utilisateurs: la gestion des citations peut être aussi simple que couper et coller des URI. L’automatisation de la recherche de références sur le web de données ou la création de liens entre ressources web et ressources de bibliothèque suppose que les données de bibliothèque soient entièrement intégrées dans les documents produits par la recherche et dans les bibliographies. Enfin, le web de données favorisera la recherche interdisciplinaire car il crée de la connaissance au travers des liens établis entre de multiples bases de connaissance spécifiques aux disciplines.

La migration des données actuelles des bibliothèques vers le web de données n’est qu’une première étape ; il est possible d’aller plus loin dans le cas de la publication d’un article : les jeux de données utilisés pour les expériences ainsi que le modèle décrit par les auteurs pour traiter ces données, peuvent également être publiés en tant que données liées. La publication de l’article, des jeux de données et du modèle, associés à l’emploi des vocabulaires et des formalismes appropriés, facilitera la reproduction de l’expérience par d’autres chercheurs, ou la réutilisation des mêmes jeux de données, mais avec d’autres modèles ou à des fins différentes. Si elle est adoptée, cette pratique pourrait contribuer à plus de rigueur dans la recherche et rendre plus transparente l'évaluation globale des rapports de recherche cités dans les articles, facilitant ainsi la validation par les pairs. (Voir, par exemple, les publications améliorées, cas d'utilisation.)

2.2 Avantages pour les organisations

En favorisant une approche ascendante pour la publication des données, le web de  données offre aux bibliothèques l’occasion de rationaliser les coûts de l’activité de description de leurs fonds. L'approche traditionnelle de la bibliothèque – production de notices autonomes pour la description des documents – est descendante ; elle a été contrainte par les limites budgétaires, qui interdisent un traitement de l’information à un niveau de granularité plus fin. Avec le web de données, différents types de données sur le même fonds peuvent être produits de manière décentralisée par différents acteurs, puis regroupés dans un seul graphe.

La technologie du web de données est un moyen d’aider les institutions à optimiser les processus internes de traitement des données et à maintenir de meilleurs liens entre, par exemple, les objets numérisés et leurs descriptions. Elle peut contribuer à améliorer les processus de publication des données au sein des organisations, même si les données ne sont pas totalement ouvertes. Alors qu’aujourd’hui la technologie des bibliothèques est spécifique aux formats de données de bibliothèques et produite par des fabricants de systèmes intégrés spécifiques aux bibliothèques, ces dernières seront en mesure d'utiliser des systèmes plus génériques pour la gestion des données liées. Avec l’adoption de la technologie du web de données, plus générique, les bibliothèques disposeront d’un plus grand choix de fournisseurs ; de plus, l'utilisation des formats standards du web de données, favorisera le recrutement ou l’interaction avec un plus grand nombre de développeurs.

Le web de données sera peut-être la première étape d’une approche "dans les nuages" de la gestion de l'information culturelle, qui pourrait s’avérer plus rentable que les systèmes autonomes des institutions. Les petites institutions ou les projets individuels gagneraient en visibilité et en capacité d’interaction, tout en réduisant leurs coûts d'infrastructure.

Avec les données liées ouvertes, les bibliothèques peuvent renforcer leur présence sur le web, là où se trouvent la plupart des utilisateurs. Grâce aux identifiants, les descriptions des ressources peuvent être adaptées à des communautés spécifiques telles que les musées, les archives, les galeries, et les archives audiovisuelles. Le libre accès aux données est plus une chance qu'une menace. L’octroi de licences associées aux métadonnées descriptives facilite leur réutilisation et améliore la visibilité institutionnelle. Les données ainsi exposées seront rendues disponibles et susciteront des usages inattendus, comme dit l'adage : "La meilleure façon d’utiliser vos données, ce n’est pas vous mais quelqu'un d'autre qui va la trouver".

2.3 Avantages pour les bibliothécaires, les archivistes et les conservateurs

Les avantages du web de données pour les utilisateurs des bibliothèques et les organisations auront aussi un impact direct sur les professionnels des bibliothèques. Grâce aux données liées ouvertes, les bibliothèques créeront une réserve mondiale de données partagées qui pourra être utilisée et réutilisée pour la description des ressources, réduisant ainsi le travail redondant, inhérent aux processus actuels de catalogage.

L'utilisation du web et des identifiants web implique que les descriptions de ressources à jour peuvent être directement référencées par les catalogueurs. Grâce au partage des identifiants, ils pourront assembler des descriptions à partir de ressources qui se trouvent hors de leur propre domaine, dans tous les jeux de données du patrimoine culturel, et même dans l’ensemble du web. Les catalogueurs pourront alors concentrer leurs efforts sur leur domaine d’expertise locale, plutôt que d'avoir à recréer des descriptions déjà faites par d'autres.

L'histoire montre que toutes les technologies sont éphémères et l’histoire des technologies de l'information tend à montrer que les formats de données spécifiques sont particulièrement de courte durée. Puisque les données liées décrivent la signification des données ("la sémantique") indépendamment des structures spécifiques de données ("la syntaxe" ou "les formats"), elles conservent leur signification lors des modifications de format. Les données liées sont donc plus pérennes et plus robustes que les formats de métadonnées qui dépendent d'une structure de données particulière.

2.4 Avantages pour les développeurs et les éditeurs de logiciels

Les développeurs et les éditeurs de systèmes de gestion des bibliothèques vont aussi profiter directement du web de données, en s’affranchissant des formats de données spécifiques à celles-ci. Les méthodes du web de données prennent en charge la récupération et le remixage des données de manière uniforme quelque soit le fournisseur de métadonnées. Au lieu de s’appuyer sur des données accessibles par des protocoles faits pour les bibliothèques (par exemple, le protocole de recherche d’information Z39.50), le web de données utilise les protocoles standards et courants du web tels que le protocole de transfert hypertexte : Hypertext Transport Protocol (HTTP).

De même, les développeurs pourront se libérer des formats de données spécifiques aux bibliothèques, telles que ISO 2709 et Machine-Readable Cataloging (MARC), qui s’appuient sur des outils logiciels et des applications métiers. Les méthodes associées aux données liées nécessitent l’introduction, sur ​​le web, de données qui ont une forme générique compréhensible. Les éditeurs de logiciels de bibliothèque qui s’adapteront au web de données seront en mesure de commercialiser leurs produits de façon plus large, en dehors du monde des bibliothèques, tandis que les éditeurs de logiciels plus génériques pourront adapter leurs produits aux besoins spécifiques des bibliothèques. En tirant parti des standards RDF et HTTP, les développeurs de systèmes de gestion de bibliothèque peuvent se libérer des logiciels spécifiques et contribuer à élargir la gamme des outils génériques, dont bon nombre sont en libre accès. Le développement de nouveaux services impliquant les données de bibliothèque leur semblera plus simple. La communauté des développeurs qui prête assistance aux professionnels des technologies de l'information en bibliothèque sera d’autant plus large. "Dans une mer de triplets RDF, il n’y a pas de Robinson Crusoé".

3 La situation actuelle

3.1 Questions liées aux données de bibliothèque traditionnelles

3.1.1 Les données de bibliothèque ne sont pas intégrées aux ressources web

Actuellement, les données de bibliothèque sont stockées dans des bases de données qui, même si elles peuvent avoir des interfaces web de recherche, ne sont pas réellement intégrées aux autres sources de données du web. Une quantité considérable de données bibliographiques et d’autres types de ressources sur le web partagent des données communes tels que des dates, des informations géographiques, des noms de personnes et d’organisations. Dans le futur environnement du web de données, tous ces points communs ont vocation à être connectés.

3.1.2 Les normes bibliographiques sont conçues uniquement pour la communauté des professionnels de la bibliothèque

Un grand nombre de normes utilisées par les bibliothèques, comme le format MARC ou le protocole de recherche Z39.50, ont été (ou continuent à être) mises au point de manière spécifique dans le cadre bibliothéconomique. La normalisation est la plupart du temps l’œuvre d’organismes relevant uniquement de ce cadre, telles que la Fédération internationale des associations de bibliothécaires et des bibliothèques (IFLA) et le Comité directeur conjoint pour le développement de RDA (Joint Steering Committee for the development of RDA, JSC). En ouvrant ce cadre ou en s’associant aux démarches de normalisation du web de données, ces organismes peuvent augmenter la pertinence et l'applicabilité de leurs normes à d’autres données, créées et utilisées par d'autres communautés.

3.1.3 Les données de bibliothèque sont exprimées principalement en langage naturel

La plupart des informations relevant des données de bibliothèque sont encodées dans un format texte en langage naturel prévu pour l’affichage. Certaines zones des notices MARC utilisent des valeurs codées, comme par exemple les chaînes de caractère de longueur fixe représentant les langues, mais aucune recommandation n’incite à les utiliser de façon systématique dans toutes les notices, car la plupart de ces zones de données codées ne sont pas gérées par les fonctions des systèmes de gestion de bibliothèque. Certains identifiants placés dans les notices MARC, tels que les numéros ISBN pour les livres, pourraient en principe être utilisés pour faire des liens, mais il faudrait auparavant les extraire de la zone de texte dans laquelle ils se trouvent, et ensuite les normaliser.

Certaines zones de données, comme les noms de personnes ou de matières, contrôlés par des fichiers d’autorité, sont liées à des notices d’autorité se trouvant dans des fichiers séparés; ces notices ont des identifiants qui pourraient servir à représenter ces entités dans les métadonnées des bibliothèques. Cependant, les formats de données utilisés actuellement ne permettent pas toujours d’inclure ces identifiants dans les notices, d’où le manque d’aptitude de nombreux systèmes de gestion de bibliothèque à cet usage. De plus, ces identifiants sont en général gérés au niveau local plutôt que global et par conséquent, ne sont pas exprimés sous la forme d’URI, alors que s’ils l’étaient, des liens sur le web pourraient pointer vers eux. L'absence de liens, ou leur manque de prise en compte par les systèmes de gestion de bibliothèque, soulève des questions importantes. Modifier l’affichage des données d’autorité implique de récupérer toutes les notices bibliographiques qui s'y rapportent afin de pouvoir changer les chaînes de caractères − un processus perturbant et coûteux qui empêche souvent les bibliothèques de mettre en œuvre de tels changements en temps opportun.

3.1.4 La communauté des professionnels de la bibliothèque et celle du web sémantique ont une terminologie différente pour exprimer des concepts similaires concernant les métadonnées

Les travaux sur les données liées de bibliothèque peuvent être entravés par la disparité qui existe entre les bibliothèques et la communauté du web sémantique à propos des concepts et de la terminologie. Peu de bibliothécaires parlent de "déclarations" de métadonnées, tandis que la communauté du web sémantique ne saisit pas clairement ce que signifient les termes "vedettes" ou "contrôle d'autorité". Chaque communauté a son propre vocabulaire et ces exemples reflètent leurs différents points de vue. Il faut encourager ces deux groupes à se comprendre mutuellement, car chacun d’eux apporte une expertise essentielle à la construction du web de données.

3.1.5 Les évolutions technologiques de la bibliothèque dépendent de l’évolution de systèmes commerciaux

Une grande part de l'expertise technique qui existe au sein de la communauté des professionnels de la bibliothèque réside chez un petit nombre de fournisseurs. Ces derniers proposent des systèmes et des logiciels qui prennent en charge à la fois les fonctions de gestion des bibliothèques ­–  acquisitions, données pour la gestion des utilisateurs, circulation des documents – et les fonctions de recherche pour l'utilisateur. Les bibliothèques doivent donc s’appuyer sur ces fournisseurs et leurs plans de développement technologique, plutôt que sur leur propre projet, si elles veulent adopter les données liées à grande échelle.

3.2 Données liées de bibliothèque actuellement disponibles

Le succès des données liées de bibliothèque dépendra de la capacité des praticiens à identifier, réutiliser, ou faire des liens vers d'autres sources de données liées disponibles. Toutefois, comme il était difficile jusqu'à présent d'obtenir une vue d'ensemble des jeux de données et des vocabulaires utilisés par les bibliothèques et disponibles comme données liées, le Groupe d’incubation a entrepris un inventaire des sources de données liées de bibliothèque disponibles (voir Annexe A), ce qui l’a conduit aux observations qui suivent.

3.2.1 Il y a moins de jeux de données bibliographiques publiés en tant que données liées que de vocabulaires d’autorité et d’éléments de description

De nombreux éléments de description de métadonnées et de vocabulaires d’autorité ont été publiés en tant que données liées au cours des dernières années, y compris des vocabulaires phares tels que les Library of Congress Subject Headings et la Classification décimale Dewey. Des éléments de description clés, tels que les termes de métadonnées du Dublin Core et des cadres de référence tels que les Spécifications fonctionnelles des notices bibliographiques (FRBR) ont été publiés sous forme de données liées ou dans une forme compatible avec les données liées.

Relativement peu de jeux de données bibliographiques ont été publiés en tant que données liées, et encore moins de métadonnées ont été produites pour des articles de revues, des références bibliographiques ou des données de circulation, alors que ces informations pourraient être utilisées efficacement dans des environnements où les données sont intégrées de façon transparente dans toutes sortes de contextes. Des initiatives innovantes telles que la nouvelle version de la bibliographie nationale britannique montrent la somme d’efforts nécessaire pour relever des défis tels que l’octroi des licences, la modélisation des données, la manipulation des données rétrospectives et la collaboration avec de multiples communautés d'utilisateurs. Il en ressort toutefois que la mise à disposition des bases de données bibliographiques sur le web de données est d’un grand intérêt. Plus l'expérience de la communauté s’amplifie, plus le nombre de jeux de données publiés comme données liées s’accroît rapidement.

3.2.2 La qualité des données disponibles et leur maintenance varient considérablement

Le niveau de maturité ou de stabilité des ressources disponibles est très variable. Beaucoup de ressources existantes sont le résultat de projets en cours ou le résultat d'initiatives individuelles ; elles sont présentées comme des prototypes plutôt que comme des offres achevées. De fait, l'abondance de ces initiatives reflète l’activité qui se déploie autour des données liées de bibliothèque et l’intérêt qu’on y porte ; cette activité reflète elle-même les processus de prototypage rapide et le développement "agile" que le web de données suscite. Parallèlement, la nécessité de fournir de tels efforts créatifs et dynamiques ne réponds pas forcément au besoin de ressources d’origine bibliothéconomique pour le web de données, qui soient  stables et disponibles sur le long terme.

Il est encourageant de constater que des institutions bien établies engagent de plus en plus de moyens dans des projets de données liées. On peut citer les bibliothèques nationales de Suède, Hongrie, Allemagne, France, la Bibliothèque du Congrès, la British Library, l'Organisation pour l'alimentation et l'agriculture (FAO) de l'Organisation des Nations Unies et OCLC (Online Computer Library Center, Inc). De telles institutions fournissent des fondations stables sur lesquelles les données liées de bibliothèque pourront se développer au fil du temps.

3.2.3 L'interconnexion des jeux de données a certes commencé mais il faut poursuivre l'effort et renforcer la coordination

La technologie des données liées a l’avantage de susciter la création de connexions entre jeux de données et en leur sein. La multiplication de ces connexions est la clé  du succès de cette technologie. Notre inventaire des données disponibles (voir Annexe A), montre que de nombreux liens sémantiques ont déjà été créés entre des vocabulaires d’autorité publiés – ce qui représente une grande réussite pour la jeune communauté des données liées de bibliothèque dans son ensemble. Plus d’efforts doivent être consentis pour résoudre le problème de la redondance qui existe entre les différentes ressources d’autorité maintenues par les bibliothèques. Il faut également établir des liens supplémentaires entre ces jeux de données et les ensembles d’éléments utilisés pour structurer la description des données liées. Les principaux goulets d'étranglement d’une telle opération sont : le niveau relativement faible de maintenance à long terme des vocabulaires, le manque de communication entre développeurs de vocabulaires, et le déficit d'outils bien rodés pour que les fournisseurs de données puissent produire à bas coût la grande quantité de liens sémantiques nécessaires. Des efforts sont déjà entrepris pour faciliter le partage des connaissances entre les acteurs de ce domaine, ainsi que la production et le partage de liens pertinents (voir Annexe C).

3.3 Questions juridiques

3.3.1 Les droits de propriété sont complexes

Certaines données de bibliothèque font l’objet de droits d’utilisation restreints, selon les politiques, les contrats ou les conditions qui leur sont appliqués localement. Elles peuvent donc relever de questions juridiques imprécises ou non encore expérimentées, ce qui entrave leur mise à disposition sous forme de données ouvertes. De plus, la collaboration internationale sur la publication de données ouvertes est difficile car le droit varie considérablement d'un pays à l'autre.

Le partage des données de bibliothèque au cours des cinquante dernières années a compliqué les questions de propriété sur les notices héritées des catalogues de bibliothèques. Celles-ci sont souvent copiées et les copies sont modifiées ou améliorées localement. Elles sont alors parfois réintégrées aux catalogues collectifs régionaux, nationaux ou internationaux. Affecter des droits de propriété intellectuelle, indiscutables sur un plan juridique, entre des agents et des organismes compétents s’avère difficile, et cette incertitude constitue un frein au partage de données dans une communauté naturellement prudente en matière juridique.

3.3.2 Les droits sur les données peuvent être considérés comme des atouts commerciaux

Dans le cas où les données d’une bibliothèque n'ont jamais été partagées, la détention exclusive des droits peut revenir à des organismes compétents qui accordent une valeur importante à leurs investissements passés, présents et futurs dans la création, la gestion et la collecte des métadonnées. Certains de ces organismes considèrent ces données comme des biens dans leur modèle économique et peuvent être réticents à leur publication en tant que données liées ouvertes. D'autres peuvent être prêts à publier ces données mais sous une forme épurée ou appauvrie, avec une perte de détails sémantiques, qui affecte l’utilité des métadonnées.

4 Recommandations

Les bibliothèques devraient participer pleinement au web de l’information, en mettant à disposition leurs données en tant que données liées et en utilisant le web des données dans leurs services. Idéalement, les données de bibliothèque s’intègreraient  totalement aux autres ressources du web ; la visibilité des bibliothèques en serait accrue ainsi que les services aux demandeurs d'information. En s'engageant dans le web de données, les bibliothèques peuvent jouer un rôle de pilotes en s’appuyant sur leurs activités traditionnelles : la gestion des ressources pour un usage courant et la conservation à long terme ; la description de ressources sur la base de règles établies ; et la réponse aux besoins d'information des usagers.

4.1 Pour les dirigeants de bibliothèque

4.1.1 Identifier les jeux de données susceptibles d’une exposition précoce en tant que données liées

Il faudrait consacrer une toute première étape à l’identification de projets de données liées, les plus prioritaires et ceux demandant le moins d’efforts. La nature même du web de données permet une approche progressive pour la mise à disposition des données sur le web. Les environnements de données des bibliothèques sont complexes et tenter d'exposer cette complexité sur le web de données d’un seul coup pourrait déboucher sur des résultats mitigés. Cependant, certaines ressources de bibliothèque se prêtent à la publication sous forme de données liées sans perturber les systèmes et services existants. Parmi celles-ci figurent les fichiers d'autorité (dont les éléments identifient les choses) et les listes de termes contrôlés. Identifier les cibles les plus faciles à atteindre contribuera à densifier rapidement la présence des bibliothèques dans le web de données, sans pour autant modifier leurs chaînes de travail.

4.1.2 Encourager le débat sur l’ouverture des données et les aspects juridiques afférents

En définissant des droits sur leurs données, les ayant-droits doivent prendre conscience des conséquences qui découlent des restrictions d'usage, car celles-ci compliquent la réutilisation des données dans un environnement de données liées. Les dirigeants de bibliothèque ont intérêt à rechercher des accords avec les ayant-droits sur les droits et les licences au niveau des consortiums de bibliothèques ou même à une échelle nationale ou internationale. (Par exemple, voir les Droits et licences de la section du Guide des données bibliographiques ouvertes pour les bibliothèques universitaires du Royaume-Uni).

4.2 Pour les organismes de normalisation et leurs membres

4.2.1 Accroître la participation des bibliothèques à la normalisation du web sémantique

Si les standards du web sémantique ne sont pas suffisamment expressifs pour traduire les données des bibliothèques, ils peuvent être étendus. Par exemple, Simple Knowledge Organization System (SKOS), standard utilisé pour publier des systèmes d’organisation de connaissances sur le web de données, ne permet pas de représenter les éléments des vedettes matières pré-coordonnées. Dans ce cas, les personnes responsables de cette mise en œuvre devraient envisager d’élaborer des solutions pour développer les éléments de base de SKOS, par exemple en utilisant le langage des ontologies pour le web : OWL . Afin que ces nouvelles structures soient comprises par les utilisateurs de données liées en général, ces personnes ont tout intérêt à collaborer avec la communauté du web sémantique, d’une part, pour s'assurer que les solutions proposées sont compatibles avec les bonnes pratiques actuelles et, d’autre part, pour que leur travail soit applicable autant que faire se peut à l'extérieur du monde des bibliothèques. Les personnes qui appartiennent au monde des bibliothèques ont pour leur part tout intérêt à contribuer aux efforts de normalisation qui concernent les bibliothèques – tels que le travail du W3C qui vise à étendre RDF pour y englober la notion de provenance – en se joignant à des groupes de travail techniques, ou en participant aux processus d'examen public. La création d’un groupe communautaire du W3C pourrait également jouer un rôle important dans ce domaine.

4.2.2 Élaborer des normes sur les données de bibliothèque compatibles avec les données liées

Les technologies du web sémantique reposent sur une conception des données qui diffère fondamentalement des conceptions qui sont à l’origine des formats de données du XXe siècle. Le web de données s’intéresse d’abord au sens et aux relations significatives entre les choses, alors que les formats traditionnels de données de bibliothèque mélangent la signification des données et leur encodage structuré. Cette inséparabilité du sens et de l’encodage dans les formats de données n’apporte pas la souplesse qui serait nécessaire pour valoriser les données. Depuis l'introduction des formats MARC dans les années 1960, les données numériques dans les bibliothèques ont été principalement gérées sous la forme de "notices" qui regroupent des ensembles d'informations stockées dans des fichiers de structure spécifique. Le web sémantique et les données liées, en revanche, structurent les données sous forme de graphes – des constructions qui, en principe, peuvent être sans limites. La différence entre ces deux approches fait que le processus de traduction des normes de bibliothèque et des jeux de données en données liées n'est pas trivial et doit être entrepris avec la connaissance de nouveaux principes de conception des données. L’identification de bonnes pratiques (tant au niveau des recettes concrètes que de la documentation) est nécessaire pour guider les participants dans la construction d'ontologies et de vocabulaires structurés pour les données de bibliothèque.

4.2.3 Élaborer et diffuser des patrons de conception concernant les données liées de bibliothèque

Les patrons de conception permettent aux développeurs de s'appuyer sur l'expérience de leurs prédécesseurs. Les pratiques traditionnelles de catalogage ont été documentées avec un riche éventail de modèles et d'exemples, et les bonnes  pratiques commencent aussi à être documentées dans le domaine du web de données. Des exemples se trouvent dans des publications telles que : Les données liées : évolution du Web dans un espace mondial de données et les Patrons de données liées. Les profils d'application offrent des méthodes destinées à des communautés d’utilisateurs pour documenter et partager les modèles et les contraintes d’utilisation des vocabulaires décrivant des types de ressources spécifiques à cette communauté. Il est nécessaire d’élaborer des patrons de conception spécifiquement adaptés aux besoins des données liées de bibliothèque. Ces patrons de conception pourraient d’une part, répondre aux besoins des développeurs mieux à même de comprendre les techniques nouvelles au travers de schémas et d’exemples et, d’autre part, accroître la cohérence globale des données liées de bibliothèque.

4.3 Pour les concepteurs de données et de systèmes

4.3.1 Concevoir et tester des services aux utilisateurs qui s’appuient sur le potentiel des données liées

Les données liées doivent en fin de compte favoriser l’éclosion de services nouveaux et plus performants pour les utilisateurs ainsi que la création, par des développeurs extérieurs aux bibliothèques, d’applications et de services utilisant leurs données. Il est encore trop tôt pour prévoir quels seront les nouveaux types de services de découverte et d’usage de l’information. Il faudrait expérimenter des services faisant appel aux données liées de bibliothèque afin d’explorer les cas d'usages qui en découlent, et orienter ainsi des plans de développement plus conséquents.

4.3.2 Créer des URI pour les éléments appartenant aux jeux de données de bibliothèque

Les données de bibliothèque ne peuvent pas être utilisées dans un environnement de données liées sans identifiants uniformes de ressources; ceci vaut pour les ressources spécifiques et pour les concepts issus des normes de bibliothèque. Il faudrait donc que les propriétaires officiels de données et de normes leur affectent le plus vite possible des URI, car les développeurs d'applications et les autres utilisateurs de ces données, loin d’attendre, pourraient attribuer ces URI eux-mêmes, sans l'avis de l’institution propriétaire. Si les propriétaires ne sont pas en mesure d'attribuer des adresses URI en temps voulu, il est préférable qu’ils cherchent des partenaires pour faire ce travail ou qu’ils délèguent l'attribution et la maintenance des URI à d'autres, afin d'éviter la prolifération des URI pour une même ressource et d'encourager la réutilisation des URI déjà attribuées.

Les agences responsables de la création des notices bibliographiques et autres métadonnées, telles que les bibliographies nationales, sont les organisations les mieux à même de jouer un rôle de premier plan dans la création d'URI pour les ressources qu’elles décrivent.

4.3.3 Mettre en œuvre des politiques pour la gestion des vocabulaires en données ouvertes et leurs URI

Les organisations et les individus qui créent et maintiennent des URI pour les ressources et les normes ont tout intérêt à élaborer des politiques pour gérer la création des espaces de noms utilisés pour dériver les adresses URI. Ces "politiques pour la gestion des espaces de noms", ont une approche logique, cohérente et stable qui est non seulement garante d’efficacité et d’efficience mais fournit aussi aux utilisateurs une assurance-qualité des URI et de leurs espaces de noms. Les politiques peuvent couvrir :

4.3.4 Exprimer les données de bibliothèque en réutilisant ou en référençant les vocabulaires existants

Pour pouvoir multiplier les liens avec d'autres jeux de données, les jeux de données de bibliothèque doivent être exprimés avec des éléments de données liées − propriétés, classes et instances – qui ont des relations bien définies avec les termes utilisés plus largement sur le web de données. Il y a deux façons de procéder : utiliser des vocabulaires du web de données basés sur des normes existantes ; définir des relations explicites ("alignements") entre d’une part, les termes des données liées appartenant au monde des bibliothèques et, d’autre part, ceux des autres communautés (Voir la discussion plus loin dans l'Annexe C).

4.4 Pour les bibliothécaires et les archivistes

4.4.1 Veiller à la conservation des éléments de description de données liées et des vocabulaires d’autorité

De nombreux vocabulaires de données liées sont essentiellement des objets de référence du domaine culturel ; ils contiennent ils contiennent de l’information faisant autorité sur des personnes, des lieux, des événements et des concepts, dans un contexte régional, national ou international. En tant que telle, la conservation des vocabulaires de données liées est un prolongement naturel, et fondamental, de l'activité des institutions de mémoire. Les données liées resteront encore utilisables dans vingt ans si leurs URI ont persisté et donnent la possibilité d’obtenir la documentation sur leur signification. Essentiels à l'interprétation correcte des données, aujourd’hui et dans le futur, les ensembles d'éléments et les vocabulaires d’autorité sont des objets qu’il est particulièrement important de conserver. Les bibliothèques doivent voir là l’occasion d'assumer un rôle clé dans le maintien de l'écosystème du web de données.

4.4.2 Appliquer leur savoir-faire – conserver et gérer sur le long terme – aux jeux de données liées

Une grande partie du contenu du nuage des données liées aujourd'hui est le résultat de conversions en RDF ad-hoc, ponctuelles, de jeux de données accessibles au public ;  ce contenu n’est pas soumis à des contrôles de précision réguliers ou à des mises à jour pour sa maintenance. De par leur éthique sur le plan du contrôle de qualité et leur engagement dans la maintenance à long terme, les bibliothèques ont un rôle central à jouer dans la gestion des données liées, une mission primordiale (et jusque-là négligée) qui prolonge leur mission actuelle. Grâce à la gestion et à la conservation, en tant qu’objets vraiment liés, des ressources décrites dans les jeux de données, les bibliothèques récolteront les fruits de l'ouverture de leurs données, à savoir des contributions de valeur provenant d'autres communautés. Ajouter des liens vers des données venant de biographes ou de généalogistes, par exemple, pourrait enrichir la description des ressources documentaires avec des données généralement non fournies par les bibliothèques, et pourrait grandement améliorer la découverte et la navigation des collections des bibliothèques.

Bibliographie

[LINKEDDATA]
Linked Data, Tim Berners-Lee, World Wide Web Consortium, consulté le 18 octobre 2011. Voir http://www.w3.org/DesignIssues/LinkedData.html.
[RDF]
Resource Description Framework (RDF), World Wide Web Consortium, consulté le 18 octobre 2011. Voir http://www.w3.org/RDF/.
[URI]
RFC 3986 — Uniform Resource Identifier (URI): Generic Syntax, T. Berners-Lee, R. Fielding, L. Masinter, The Internet Society, January 2005, consulté le 18 octobre 2011. Voir http://tools.ietf.org/html/rfc3986.
[USECASE]
Library Linked Data Incubator Group: Use Cases, rédacteur en chef, rapport du groupe d’incubation W3C, 25 octobre 2011 See http://www.w3.org/2005/Incubator/lld/XGR-lld-usecase-20111025/. Dernière version disponible à l'adresse http://www.w3.org/2005/Incubator/lld/XGR-lld-usecase/.
[VOCABDATASET]
Library Linked Data Incubator Group: Datasets, Value Vocabularies, and Metadata Element Sets, Antoine Isaac, William Waites, Jeff Young, et Marcia Zeng, rapport du groupe d’incubation W3C, 25 octobre 2011. Voir http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset-20111025/. Dernière version disponible à l'adresse http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/.

Remerciements

En plus des éditeurs, le groupe "Les bibliothèques et le web de données" comprend les participants suivants, sans qui ce rapport n'aurait pu exister : Alexander Haffner, Alexandru Constantin, András Micsik, Andrew Houghton, Anette Seiler, Asaf Bartov, Bernard Vatant, Brian Kelly, Carlo Meghini, Dan Brickley, Daniel Vila Suero, Dickson Lukose, Felix Sasaki, Fumihiro Kato, Glen Newton, Guenther Neher, Herbert Van De Sompel, Hideaki Takeda, Ikki Ohmukai, Joachim Neubert, Jon Phipps, Jonathan Rees, Kai Eckert, Kendall Clark, Kevin Ford , Kim Viljanen, Kosuke Tanabe, Lars Svensson, Laszlo Kovacs, Marcel Ruhl, Mark van Assem, Martin Malmsten, Michael Hausenblas, Mike Bergman, Monica Duke, Nicolas Delaforge, Oreste Signore, Ray Denenberg, Renato Iannella, Stu Weibel, Tod Matola, Uldis Bojars, Wolfgang Halb.

Les commentaires de la communauté nous ont aussi aidés à finaliser le présent rapport. Des remerciements spéciaux vont à : Adrian Pohl, Alan Danskin, Catherine Jones, Ed Chamberlain, J. McRee Elrod, James Weinheimer, Jennifer Bowen, Jody DeRidder, Juha Hakala, Laura Krier, Laura Smart, Lukas Koster, Nicolas Chauvat, Patrick Danowski, René van der Ark, Romain Wenz, Roy Tennant, Teague Allen.

Annexe A: Un inventaire des ressources de données liées de bibliothèque existantes

La réutilisation des données et la production de liens, cruciaux pour le succès du web de données dans les bibliothèques, sont rendus incertaines par la complexité et la variété des vocabulaires disponibles, leurs domaines qui se chevauchent, les liens de dérivations et les alignements. Parce qu’ils ont souvent été développés dans le milieu de la recherche du Web sémantique, les jeux de données et les vocabulaires en données liées pouvant être utiles pour les bibliothèques sont peu connus en général et surtout parmi les professionnels des bibliothèques. Une vue d’ensemble fiable et d’actualité aide à la fois les novices, qui ont besoin d’un aperçu global du domaine des données liées de bibliothèque, et les experts, qui veulent jeter un coup d'œil rapide à un projet de données liées de bibliothèque.

Le Groupe d’incubation a par conséquent produit un inventaire de ressources utiles à la création ou à l’utilisation de données liées dans le domaine des bibliothèques [VOCABDATASET]. Cet inventaire, présenté comme un document séparé, montre que dans beaucoup de domaines une adoption rapide du web sémantique, des principes et de la technologie du web de données, a conduit au développement d’ensembles de données et de vocabulaires aboutis. L’inventaire montre aussi qu’il existe des domaines où les bibliothèques et les organisations connexes peuvent encore faire des contributions importantes. Enfin, ce document essaye de fournir à la communauté du web de données la possibilité de comprendre le point de vue spécifique des bibliothèques sur leurs données, les ressources et la terminologie qui leur sont propres, tout en aidant les professionnels des bibliothèques et des sciences de l'information à saisir les notions du web de données, en regard de leurs propres traditions.

Bien que la technologie du web de données diffère des concepts traditionnels de la bibliothéconomie, ce rapport classe les ressources disponibles en trois catégories qui ne sont pas mutuellement exclusives et qui reflètent les pratiques des bibliothèques :

Les jeux de données spécifiques peuvent réutiliser des éléments de vocabulaires d’autorité différents et sont structurés selon les spécifications des éléments de description de métadonnées. Par exemple, le jeu de données de la British National Bibliography réutilise les termes des vedettes de la Bibliothèque du Congrès et les éléments de métadonnées DCMI (Dublin Core). Dans l'inventaire, sont répertoriés des exemples de ces catégories, de brèves descriptions, des liens vers leurs sites en ligne, et les cas d'utilisation que notre groupe a recueillis auprès de la communauté.

Le but de notre inventaire est d’offrir un large panorama des ressources disponibles. Cependant, nous sommes bien conscients que ce rapport ne peut pas montrer toute la diversité des jeux de données, à cause, en particulier, de la nature dynamique des données liées : de nouvelles ressources sont continuellement mises à disposition et celles qui existent déjà sont régulièrement mises à jour. Pour avoir un aperçu représentatif, nous avons volontairement fondé notre travail sur les cas d'utilisation que nous avons reçus. Les experts du groupe d’incubation ont fourni des éléments supplémentaires afin de garantir que les principales ressources disponibles au moment de l'écriture soient couvertes par l’inventaire.

Pour que notre rapport puisse encore servir dans le futur, nous avons inclus un certain nombre de liens vers des outils ou des sites Web dont nous pensons que les informations seront mises à jour après le travail du groupe d’incubation. En particulier, nous avons mis en place un site de groupe : Données liées de bibliothèque, pour recueillir des informations sur les ensembles pertinents de données de bibliothèque disponibles sur le web de données. Ce site est hébergé par le "The Data Hub" conçu pour être un nœud central de descriptions de jeux de données,  en mettant l'accent sur ​​celles qui sont publiées sous forme de données ouvertes. Nous espérons que ce groupe Data Hub sera activement géré par la communauté des bibliothèques et du web de données lorsque le groupe d’incubation aura pris fin.

Annexe B: Technologies pertinentes

Le web de données est une technologie émergente, la plupart des outils sont encore en développement. Les principes des données liées ne sont pas assujettis à un outil particulier, mais sont directement liés aux normes du Web. Dans de nombreuses situations, la production et la consommation de données liées peuvent être ajoutées ou être intégrées aux applications existantes sans exiger d’efforts de redéveloppement massifs. Cette liste d'outils et de technologies n'est pas exhaustive, mais vise à illustrer quelques grandes catégories. Du point de vue non technique, ces technologies sont pertinentes, car elles encouragent la création et la découverte de vocabulaires réutilisables et fournissent les moyens de combiner ces termes dans des déclarations réutilisables (syntaxiques).

B.1 Utilisation des URI pour l’identification de choses se trouvant ailleurs que sur le web

Au début du Web, la question de l’utilisation des "URI HTTP" (également connues sous le nom "URL") pour identifier les choses qui ne sont pas "situées" sur le Web s’est de suite posée. Cette question a conduit à la définition de nouveaux schémas d’URI tels que les URN et "info" URI. Ces problèmes ont été finalement résolus par un rapport du Groupe sur les identifiants uniformes de ressources du W3C (RFC 3305) et une résolution du Groupe consultatif technique W3C sur la question connue sous le nom HTTPRange-14. Dans le paradigme du web de données, il est prévu que les "HTTP URI" soient utilisés également pour identifier "les objets du monde réel". Néanmoins, de nombreuses applications ont été construites avec les autres schémas d'identification. Utiliser la propriété owl:sameAs permet d’aligner ces schémas d’URI qui ne peuvent êtres résolues avec des  HTTP URI équivalents. Même si l’alignement ne se fait pas, les URI ne pouvant pas être résolues sont toujours utiles dans RDF et SPARQL.

B.2 Accès ponctuel et accès en vrac à l'information

Les principes du web de données ont été introduits vers 2006, conduisant à une notion formalisée de "Cool URI"" en 2008. Ce qui rend les identifiants de données liées particuliers, c'est leur capacité à aider les humains et les machines à comprendre, à progresser, et à lier les informations au travers d’un large éventail de cas d'utilisation ; la ressource DBpedia pour Jane Austen est un bon exemple. Les URI (pouvant être résolues) sont parfaites pour un usage occasionnel, pour valider des données et pour une découverte au hasard, mais les requêtes ponctuelles utilisant le GET HTTP peuvent être inutilisables pour des ensembles de données ayant un grand nombre d'éléments. Heureusement, les jeux de données liées sont de plus en plus  publiés sous la forme de dumps RDF et décrits uniformément en utilisant le vocabulaire des ensembles de données liés (VoID).

B.3 Interfaces pour la mise en correspondance  de réservoirs de données existants vers RDF et le web de données

Regroupement de cas d’utilisation : cluster alignement de vocabulaires

Les ressources publiées sur le web de données sont plus facilement réutilisables, pour des usages non anticipés, car contrairement à la présentation de l'information dans les documents XML classiques, elles sont exemptes de hiérarchies spécifiques à un cas d'utilisation. Cela permet non seulement à différentes données d’être plus facilement combinées, mais cela rend aussi les outils et les services plus faciles à combiner. Ceci est vrai tant pour les producteurs que pour  les consommateurs de données liées. Par exemple, une base de données relationnelle existante peut être exposée sur le web de données avec un accès SPARQL en utilisant D2R Server. Le Groupe de travail W3C RDB2RDF  travaille actuellement sur ​​l’élaboration de standards permettant ce type d’alignement. De même, des données liées peuvent être produites à partir des bases de données SRU existantes avec quelques règles de réécriture. Si les ressources sont déjà décrites à partir d'un point d’accès SPARQL, alors une interface telle que Pubby peut être utilisée pour automatiser le comportement de contenu négociable en cool URI pour chaque utilisateur. Extensible Stylesheet Language Transformations (XSLT) permet de convertir du XML générique vers RDF / XML.

B.4 Outils pour les concepteurs de données

Regroupement de cas d’utilisation : Cluster alignement de vocabulaires

Les profils d'application fournissent une solution complète pour documenter la façon dont une communauté définit un modèle dans un domaine et un exemple à reproduire pour la réutilisation de vocabulaires avec des contraintes particulières dans la description de types particuliers de ressources. La version actuelle de OWL (Web Ontology Language), qui fournit des propriétés pour représenter les alignements entre vocabulaires (mapping d’ontologies), permet aux experts de décrire leur domaine à l'aide d’idiomes propres à leur communauté tout en restant interopérables avec d’autres idiomes plus ou moins proches. Une variété d'outils liés à OWL peut être trouvée sur le RDF wiki et le OWL wiki du W3C. Les outils de Unified Modeling Language (UML) aident les concepteurs à représenter et à manipuler des modèles de domaine visuellement. Les spécifications du Ontology Definition Metamodel (ODM) devraient aider à combler certaines des lacunes entre UML et OWL.

B.5 SKOS et les outils connexes

Regroupement de cas d’utilisation : Cluster alignement de vocabulaires

Un autre besoin technologique clé est satisfait par le Simple Knowledge Organization System (SKOS), une ontologie OWL permettant d’exprimer un large éventail de schémas de concepts et de thesaurus en désignant les relations spécifiques et génériques ainsi que les termes retenus et les synonymes. Beaucoup d’outils  SKOS sont répertoriés sur le Wiki de la communauté SKOS  du W3C.

B.6 Microformats, microdonnées et RDFa

Regroupement de cas d’utilisation : Cluster usages nouveaux et sociaux

Microformats, les microdonnées, et RDFa fournissent tous des moyens pour intégrer des données structurées dans des pages Web. Historiquement, la publication ​​d’information sur le Web signifie la publication de pages Web, et ces trois technologies offrent donc des moyens pour améliorer ce qui existe déjà (les pages web publiées) sans devoir déployer une infrastructure supplémentaire. RDFa permet l'expression de données RDF directement intégrées dans les pages Web; parmi les 3 technologies, c’est donc la plus directement interopérable avec les autres infrastructures de données liées.

Les microdonnées, définies dans les nouvelles Spécifications HTML5 en cours de développement, fournissent un autre moyen d’intégrer des données structurées. Les microdonnées ont notamment pris de l'importance dans l’optimisation des moteurs de recherche avec l'annonce de Schema.org par Google, Microsoft et Yahoo. Ce type particulier de microdonnées ne semble pas être destiné à représenter des données arbitrairement complexes, et le vocabulaire publié concerne surtout le commerce et le tourisme. Bien qu'ils soient en principe extensibles, les schémas de microdonnées devraient être fortement étendus afin d'exprimer les données des bibliothèques car la plus grande partie du vocabulaire requis est manquant. Il y a un certain niveau d'interopérabilité avec les données liées grâce aux efforts de Schema.RDFS.org, mais il semble qu’il serait actuellement difficile, en utilisant cette approche, de développer un haut niveau d'interconnexion entre les bibliothèques et les autres ensembles de données alors que c’est possible avec les données liées.

Il convient de noter que les promoteurs de Schema.org récoltent également les données  RDFa et se sont engagés à continuer de le faire, de sorte qu'il semble que les pages HTML marquées avec RDFa bénéficieront des mêmes opportunités offertes par les microdonnées. Si l’on ignore les bugs dans les parseurs des moteurs de recherche, il devrait même être possible d'utiliser les deux technologies de métadonnées dans la même page Web. En conclusion, la présence de quelques données structurées est préférable à une absence totale de données structurées.

B.7 Frameworks d'applications web

Regroupement de cas d’utilisation : Cluster archives et données hétérogènes

Alors que le web a gagné en popularité, la communauté de développement de logiciels a créé une variété de bibliothèques logicielles qui rendent plus facile la création, la maintenance et la réutilisation d’applications web. Ces bibliothèques sont souvent appelées cadres d’applications web (Web Application Frameworks), et utilisent  assez souvent le schéma Model-View-Controller (MVC). En outre, les cadres d'applications Web ont généralement codé et encouragé les bonnes pratiques en utilisant une architecture de type REST (Representational State Transfer (REST) architectural style) et l'Architecture orientée ressources qui ont guidé une grande partie de la normalisation des technologies Web.

Un élément commun à ces cadres d'application Web est un mécanisme de routage d’URI qui permet aux développeurs de logiciels de définir des modèles d’URI HTTP et de les faire correspondre à des contrôleurs qui, à leur tour, génèrent une réponse  HTTP utilisant les vues et modèles correspondants. Cette activité encourage les bonnes pratiques en matière de Cool URIs et oblige également les développeurs à réfléchir sur les ressources qu’ils mettent à disposition sur le Web. L’accent mis par ​​le web de données sur l’appellation des ressources avec des URI HTTP, et sur ​​la présentation de ces ressources - en HTML pour les humains et en RDF pour les machines – rend naturel le choix des cadres d'application Web, qui fournissent déjà une partie de l’infrastructure pour ces services. La grande disponibilité de cadres d'application Web dans de nombreux langages de programmation et systèmes d'exploitation a conduit à une large utilisation de ces cadres dans le secteur du patrimoine culturel.

Les développeurs Web sont parfois rebutés par les technologies du Web sémantique (les données liées), car ils se sentent obligés d'abandonner leurs applications actuelles, de transformer leurs bases de données en bases de triplets ainsi que  leurs langages d'interrogation de base données en SPARQL. Ceci n'est tout simplement pas nécessaire, car les sérialisations vers RDF peuvent être générées à la volée de la même façon que les cadres d'application Web sont utilisés pour les représentations HTML, XML et JSON. Par l'utilisation des URI HTTP pour identifier et lier ensemble les ressources,  le modèle de données RDF est un choix naturel pour la sérialisation et le partage de l'état des entités sans être dépendant d’un type de base de données - un objectif présentant traditionnellement un grand intérêt pour les organisations du patrimoine culturel et la communauté de la conservation numérique.

B.8 Systèmes de gestion de contenu

Regroupements de cas d’utilisation: Cluster usages nouveaux et sociaux, Cluster objets numériques, Cluster archives et des données hétérogènes

La classe d'applications Web connue sous le nom de Systèmes de gestion de contenu (Content Management Systems, CMS) a évolué avec la propagation du Web de la même façon que les cadres d’applications web. Les CMS sont souvent construits en utilisant un cadre d'application Web, et offrent directement des fonctionnalités de création, édition, et présentation de contenus sur le Web tels que texte, images et vidéo, ainsi que de gestion des flux de travail associés avec le contenu. Les CMS étant généralement construits en utilisant des technologies web, les mêmes bonnes pratiques pour nommer les ressources sous la forme d’URI HTTP sont naturellement suivies. La grande disponibilité des systèmes de gestion de contenu a conduit à leur utilisation intensive dans le secteur du patrimoine culturel. Certains systèmes de gestion de contenu tels que Drupal commencent à exposer aux clients les informations des bases de données structurées de façon transparente en les intégrant au code HTML qu’ils génèrent à l'aide de RDFa. Les consommateurs de données tels que Google Scholar, Google Maps et Facebook commencent à tirer parti de ces métadonnées structurées dans leurs propres offres de services. Parallèlement, Drupal commence également à fournir des plug-ins pour consommer du RDF, tels que VARQL et SPARQL Views.

B.9 Services web pour les données liées de bibliothèque

Cluster de cas d'utilisation associés : Cluster données bibliographiques , Cluster  données d’autorité

En théorie, la plupart des fonctions spécifiques de l’API d’un service web pourraient être re-programmées en utilisant des URI, OWL, SPARQL et SPARQL/UPDATE. Mais même s’il est possible d’ajouter une couche supportant URI et données liées à un entrepôt de données existant, il n’est pas si facile de construire un accès SPARQL et SPARQL/Update. Les considérations de sécurité, de robustesse et de performance peuvent aussi freiner l’utilisation de SPARQL en production. Les points d’accès SPARQL et les téléchargements de données brutes en RDF peuvent faciliter la découverte et la réutilisation des données disponibles sur le web de données. Cependant, avant de pouvoir exploiter ce potentiel, la plupart des développeurs Web doivent passer par une dure période d'apprentissage qui semble démesurée s’agissant de nombreuses fonctionnalités des applications.

Les services Web devraient être proposés comme une alternative pour les utilisations les plus courantes. Cependant, la plupart des services Web API ont tendance à être spécifiques à un domaine, ce qui nécessite une personnalisation (par un développement spécifique) des "agents" du service. Cela implique qu'ils doivent être bien documentés. Parmi les approches plus générales utilisant des interfaces de services Web, on trouve : OpenSearch (qui peut être documenté dans un document descriptif), La Linked Data API et les travaux en cours du RDF Web Applications Working Group Charter sur RDF et des APIs RDFa. Certains ensembles de données liées pourraient également bénéficier de l'accès syndiqué en utilisant le format de syndication Atom ou RSS.

Quelques applications utilisant le web de données ont cherché à mettre en œuvre des services Web afin d'améliorer la découverte et l'utilisation des ressources, souvent en offrant une certaine forme d'API. Par exemple, AGROVOC et les Thesurus STW pour l'économie fournissent des API permettant de découvrir les ressources en fonction des relations entre données. VIAF, le service ID.LOC.GOV de la Bibliothèque du Congrès, et STW offrent des services d’auto-complétion (AutoSuggest) pour les ressources , fournissant des réponses JSON prêtes à la consommation en AJAX dans les applications du navigateur. (En principe, cependant, les réponses en JSON pourraient bénéficier de la négociation de contenu via les URI des données liées, de la même façon que les réponses en HTML et RDF.) AGROVOC et STITCH/CATCH fournissent une fonction de réponses en RDF. Certains services offrent une API SOAP  complète, tandis que d'autres utilisent une approche RESTful.

En se concentrant sur les paramètres des requêtes et les formats des réponses pour améliorer la découverte avancée des données, les services Web de données liées diminuent, voire même éliminent la nécessité de stocker les données dans un entrepôt de triplets ou de développer un accès via SPARQL. De plus, les API de services Web étant très répandues, les services Web peuvent aider à éliminer les obstacles pour l'adoption d'une approche au web de données.

Annexe C: Alignement sémantique

"Les alignements" se définissent comme des liens entre des entités sémantiquement équivalentes, similaires, ou connexes au travers de vocabulaires d’autorité, d'éléments de description de métadonnées, ou jeux de données différents. Beaucoup de liens sémantiques entre vocabulaires d’autorité sont déjà disponibles, dont certains obtenus par un travail manuel de haute qualité, comme dans les projets MACS ou CRISSCROSS. De nombreux éditeurs de vocabulaires d’autorité s'efforcent d'établir et de maintenir des liens vers des ressources sémantiquement proches du leur. VIAF, par exemple, fusionne les notices d'autorité de plus d'une douzaine d’organismes régionaux et nationaux. AGROVOC a été publié avec des liens vers six autres grands thésaurus et listes de vedettes matières. Bien que l'évaluation quantitative soit hors de portée de nos efforts, nous pensons que beaucoup d’autres liens devraient être créés. Beaucoup de travail reste à faire pour augmenter les alignements entre les vocabulaires d’autorité dans le "nuage des données des bibliothèques".

Les alignements sont également pertinents pour les éléments de métadonnées. Comme le montre l’inventaire Linked Open Vocabularies, les praticiens suivent généralement une bonne pratique en réutilisant les ensembles d'éléments existants ou en construisant des profils d'application qui réutilisent des éléments de plusieurs ensembles. Des projets tels que le Vocabulary Mapping Framework visent à soutenir l'alignement.

Le manque de soutien institutionnel pour les éléments de métadonnées peut menacer la survie à long terme de leurs significations partagées. En outre, certains cadres de référence, notamment les Spécifications fonctionnelles des notices bibliographiques (FRBR), ont été exprimés dans plusieurs ontologies différentes et ces différentes expressions ne sont pas toujours explicitement alignées - une situation qui limite l'interopérabilité sémantique des ensembles de données dans laquelle leurs vocabulaires RDF sont utilisés. La communauté des données liées des bibliothèques devrait promouvoir la réutilisation coordonnée ou l'extension d'ensembles d'éléments existants plutôt que la création de nouveaux ensembles à partir de zéro. L’alignement des ensembles d'éléments déjà existants quand ils se chevauchent, typiquement en utilisant des relations sémantiques du langage de description de vocabulaire RDFS (RDF Schema) et du Langage d’ontologie Web OWL, devrait également être encouragé. Nous espérons qu'une meilleure communication entre les créateurs et les responsables de la maintenance de ces ressources, tel que préconisé par l' Initiative de LOD-LAM, la Dublin Core Metadata Initiative, le projet FOAF, et notre propre groupe d’incubation, conduira à des connexions conceptuelles plus explicites entre les ensembles d'éléments.

Des ensembles de données peuvent également être alignés. Par exemple, Open Library rattache les numéros d’OCLC à ses articles bibliographiques. La réutilisation est sans doute un problème moins nouveau pour les descriptions des livres individuels et d'autres ressources liées à la bibliothèque que pour les éléments de métadonnées et les vocabulaires d’autorité ; les catalogues collectifs, par exemple, possèdent déjà un niveau significatif de fusion des données bibliographiques. Pourtant, il est crucial - en effet, il s’agit de l'un des avantages attendus des données liées appliqué à notre domaine - que les jeux de données des bibliothèques  soient publiés et reliés entre eux plutôt que de continuer à exister dans leurs propres silos. En raison des pratiques passées de la communauté des bibliothèques, celle-ci est déjà bien consciente des défis de la "déduplication".

Nous notons également que les liens sont en cours de construction entre les ressources des bibliothèques et les ressources en provenance d'autres organisations ou domaines. Par exemple, VIAF agrège les notices d’autorité provenant de divers organismes de bibliothèque, identifie les principales entités impliquées et, si possible, les relie à DBpedia, une extraction en données liées de Wikipedia. L'alignement sémantique pour Jane Austen dans VIAF, Wikipedia et DBpedia, par exemple, illustre l'un des avantages attendus des données liées, c’est-à-dire que les données peuvent être facilement mises en réseau, indépendamment de leurs origines. De cette manière, le domaine des bibliothèques peut bénéficier de la réutilisation de données provenant d'autres domaines, tandis que les données de bibliothèque peuvent contribuer à des initiatives qui ne sont pas originaires de la communauté des bibliothèques.

La création de concordances bénéficiera de la disponibilité de meilleurs outils de liaison. Beaucoup d'efforts ont été investis dans des domaines de recherche en informatique tels que l’alignement d'ontologies. Cela conduit à des outils reposant, par exemple, sur la correspondance de chaînes de caractères et sur des techniques statistiques. Ces efforts ont eu tendance à se concentrer sur des éléments de métadonnées et ne sont généralement pas prêts à être appliqués de façon plus générale aux jeux de données (souvent énormes) et aux vocabulaires d’autorité du domaine des bibliothèques. Des outils génériques récents pour lier des données comprennent Silk – Link Discovery Framework, Google Refine et Google Refine Reconciliation Service API. Néanmoins, la communauté doit encore acquérir de l'expérience dans leur utilisation, partager les résultats de cette expérience, et éventuellement construire des outils mieux adaptés aux données liées des bibliothèques.

Une dernière mise en garde : les consommateurs de données devraient garder à l'esprit que, contrairement aux systèmes de technologie de l’information traditionnels fermés, les données liées suivent le postulat d'un monde ouvert : l'hypothèse que les données ne peuvent généralement pas être considérées comme complètes et que, en principe, davantage de données peuvent être disponibles pour une entité donnée. Nous espérons que plus de "liens entre données" apparaîtront dans le monde des bibliothèques dans l’esprit des projets mentionnés ici.