...
Car idéalement, pour gérer les informations sur la recherche selon les canons des "FAIR Data" , il faudrait non seulement disposer pour chaque concept d'un identifiant unique (une URI) se prêtant, si possible, à un "déréférencement" : une opération qui consiste à naviguer naviguer sur le web 🧭 jusqu'à la source de données indiquée par l'URI (qui est aussi souvent une URL, c'est pratique).
Par exemple, pour "Partenariat public-privé", si on disposait d'une URI telle que https://catalogue.bnf.fr/ark:/12148/cb13755654m ou https://www.idref.fr/061611514, on pourrait obtenir une foule de bénéfices 🤓 : des traductions, des alignements avec des vocabulaires tiers (Public-private sector cooperation), des variantes... Ou tout simplement vérifier qu'on a des données correctes .
Raison de plus pour vouloir tirer parti des quelques vocabulaires contrôlés (JEL, MeSH, ACM) utilisés au sein de Hal.
Des codes JEL, mais pas d'URI
Limites des vocabulaires traditionnels
Normalement, ce qui précède vous a motivés - si vous ne l'étiez pas déjà - pour exploiter les Raison de plus pour vouloir tirer parti des quelques vocabulaires contrôlés (JEL, MeSH, ACM) utilisés proposés au sein de des données Hal.
C'est ce que nous avons voulu faire dans le cadre du projet SoVisu+, du consortium CRISalid.
...
Le vocabulaire JEL est un système de classification des publications en économie 📊 qui émane l'American Economic Association (AEA). Le problème est que sur son site web, l'AEA fournit certes le vocabulaire avec ses codes et ses définitions , mais sans les "URI" qui permettraient d'utiliser les concepts parmi d'autres données "sémantiques" 😞. Par exemple, le code "A140" représente "Sociology of Economics", mais son unicité est loin d'être garantie, et rien ne permet à un système de découvrir l'information associée à ce "A140". Un vocabulaire "à l'ancienne" 🕰️ en quelque sorte.
...
Et interrogeons à son sujet le endpoint Sparql de Hal. (http://sparql.archives-ouvertes.fr/sparql ) :
Nos classifications sont bien dans le résultat mais comment les exploiter ?
Nous pourrions bien recoller des labels aux "rabouter" les labels et les identifiants en interrogeant l'API plus "traditionnelle" JSON de HAL (https://api.archives-ouvertes.fr/search?q=halId_s:hal-02169144&fl=*), à condition de faire confiance à l'ordre des résultats. Mais on est loin de la richesse promise par les vocabulaires contrôlés !
SKOS à la rescousse
À ce stade, on commence à se dire que ce serait quand-même beaucoup plus simple si quelqu'un avait publié le vocabulaire JEL quelque part sur le web dans un format moderne, généralement SKOS (simple knowledge organization system), qui est le standard du web sémantique pour la représentation des vocabulaires .
Ça tombe bien : quelqu'un l'a fait ! Le Leibniz-Informationszentrum Wirtschaft. Cette institution a converti le vocabulaire au format SKOS et l'a publié sur l'application Skosmos https://zbw.eu/beta/skosmos/jel/en/. Le résultat est ainsi accessible aussi bien aux robots 🤖 qu'aux humains 👤.
Le tour est donc joué : quand Hal nous envoie "G.G1.G13", il ne nous reste plus :
- si on est un être humain 👤, à consulter https://zbw.eu/beta/skosmos/jel/en/page/?uri=http://zbw.eu/beta/external_identifiers/jel#G13
- si on est un robot 🤖 (certains d'entre eux nous lisent), on préférera sans doute https://zbw.eu/beta/skosmos/rest/v1/jel/data?uri=http://zbw.eu/beta/external_identifiers/jel#G13&format=application/rdf+xml
Il ne faudrait toutefois pas vendre trop vite la peau de l'ours : à l'usage, il s'avère que le site https://zbw.eu/beta/skosmos 🤒 n'est pas en pleine forme et qu'il cesse rapidement de répondre lorsque les requêtes arrivent en rafales ... Et pour couronner le tout , les liens de téléchargement proposés par l’institution sur la page d'accueil du vocabulaire répondent invariablement "404" 😞 .
Sauvés par la machine à remonter le temps
Footnotes Display |
---|