Les établissements utilisateurs des données de Hal peuvent se féliciter de la présence de vocabulaires contrôlés disciplinaires tels que JEL, ACM ou MeSH ✨.
Car malheureusement, on revient de loin loin : la saisie, des années durant, de mots-clés libres a généré une "dette technique de données" qui rend délicate, par exemple, la caractérisation des profils d'expertise des chercheurs ou des laboratoires à partir des données Hal [
Footnote |
---|
On n'oubliera pas toutefois de mentionner ici les louables efforts de l'équipe scanR pour pour fournir des versions des métadonnées Hal réalignées sur Idref/Rameau et WikiData WikiData ! |
].
Pour rendre le problème plus parlant, voici la liste des variantes de graphies pour quelques-mots clés, obtenues depuis l'API Hal :
...
Même si ces exemples n'ont pas été choisis tout à fait au hasard hasard, ils donnent une petite idée, a posteriori et a contrario, de l'importance qu'il y a à fournir des mécanismes de suggestion ("autocomplétion" ) basés sur des vocabulaires reconnus.
Et pas seulement pour limiter les "variantes" orthographiques 🙈 .
Car idéalement, pour gérer les informations sur la recherche selon les canons des "FAIR Data" , il faudrait également disposer pour chaque concept d'un identifiant unique (une URI) se prêtant, si possible, à un « déréférencement » : une opération qui consiste à naviguer naviguer sur le web jusqu'à la source de données indiquée par l'URI (qui est aussi, souvent, une URL : c'est pratique 😊 ).
Par exemple, pour "Partenariat public-privé", si on disposait d'une URI telle que https://catalogue.bnf.fr/ark:/12148/cb13755654m ou https://www.idref.fr/061611514, on pourrait en tirer une foule de bénéfices : des traductions, des alignements avec des vocabulaires tiers (Public-private sector cooperation de la Library of congress ), des variantes... Ou tout simplement vérifier qu'on a des données correctes correctes.
En pratique, c'est un peu compliqué
Normalement, ce qui précède vous a motivés 🤓 - si vous ne l'étiez pas déjà - à vouloir tirer tout le parti possible des quelques vocabulaires contrôlés (JEL, MeSH, ACM) proposés au sein des données Hal.
...
Message Box | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||
La commauté communauté CRISalid réunit plusieurs établissements qui œuvrent ensemble à l'automatisation de la construction de leur "graphe de connaissance institutionnel", socle de la gestions des informations sur la recherche.
|
Prenons le cas du vocabulaire JEL (pour «Journal of Economic Literature»). C'est un système de classification des publications 📊 qui émane l'American Economic Association (AEA) et s'applique aux publications ... dans le domaine de l'économie (vous vous en étiez doutés 🤷♂️).
Sur son site web, l'AEA fournit certes le vocabulaire avec ses codes et ses définitions , mais ne pousse pas la gentillesse 🤗 jusqu'à proposer les fameuses "URI" qui permettraient d'intégrer ces concepts parmi d'autres données "sémantiques" 😞. Par exemple, le code "A14" représente "Sociology of Economics", mais son unicité est loin d'être garantie : bien de choses, sur la terre, sont susceptibles de s'appeller s’appeler A14, par exemple des autoroutes 🛣️ ou des avions ✈️avions. Le code "A14" ne comporte aucun indice qui indice qui permettrait à un système de découvrir l'information associée. On peut parler de vocabulaire « à l'ancienne » 🕰️ en quelque sorte, avec des codes qui étaient peut-être suffisants dans un contexte fermé, mais qui ne font plus sens dans sur le contexte ouvert grand océan du web .
Mais ce sont ces codes 🔢 que l'on retrouve dans les données issues de HAL...
...
Nos classifications JEL figurent bien dans le résultat. Mais comment les exploiter ?
Nous pourrions bien nous donner la peine de rabouter les labels et les identifiants en interrogeant l'API JSON de HAL (https://api.archives-ouvertes.fr/search?q=halId_s:hal-02169144&fl=*), à condition de faire confiance à l'ordre des résultats. Mais on est loin de la richesse promise par les vocabulaires contrôlés !
SKOS à la rescousse
À ce stade, on commence à se dire que ce serait quand-même beaucoup plus simple si quelqu'un avait publié le vocabulaire JEL quelque part sur le web dans un format moderne, typiquement SKOS (simple knowledge organization system), qui est le standard du web sémantique pour la représentation des vocabulaires .
exploiter ? On voit que l'équipe HAL elle-même a dû être embêtée par l'absence d'un vrai vocabulaire et a essayé de contourner le problème un créant un prédicat ad hoc "jelSubject" dans une ontologie maison... Des pratiques certes courantes sur le web sémantique, mais qui relèvent de la petite cuisine.
Nous pourrions bien nous donner la peine de rabouter les labels et les identifiants en interrogeant l'API JSON de HAL (https://api.archives-ouvertes.fr/search?q=halId_s:hal-02169144&fl=*), à condition de faire confiance à l'ordre des résultats. Mais on est loin de la richesse promise par les vocabulaires contrôlés !
SKOS à la rescousse
À ce stade, on commence à se dire que ce serait quand-même beaucoup plus simple si quelqu'un avait publié le vocabulaire JEL quelque part sur le web dans un format moderne, typiquement SKOS (simple knowledge organization system), qui est le standard du web sémantique pour la représentation des vocabulaires.
Ça tombe bien : quelqu'un l'a fait ! Le Leibniz-Ça tombe bien : quelqu'un l'a fait 👏 ! Le Leibniz-Informationszentrum Wirtschaft (non, n'essayez pas de le prononcer 😅 ). Cette institution a converti le vocabulaire JEL au format SKOS et l'a publié sur l'application Skosmos https://zbw.eu/beta/skosmos/jel/en/. L'information qu'il contient est devenue ainsi accessible aussi bien aux robots 🤖 qu'aux humains 👤.
Une petite «concaténation» plus tard et le tour est joué joué : quand Hal nous envoie "G.G1.G13", il ne nous reste plus :
- si on est un être humain 👤, à consulter consulter https://zbw.eu/beta/skosmos/jel/en/page/?uri=http%3A%2F%2Fzbw.eu%2Fbeta%2Fexternal_identifiers%2Fjel%23G13
- si on est un robot 🤖 (certains d'entre eux nous lisent), on préférera sans doute doute https://zbw.eu/beta/skosmos/rest/v1/jel/data?uri=http%3A%2F%2Fzbw.eu%2Fbeta%2Fexternal_identifiers%2Fjel%23G13&format=application/rdf%2Bxml
Mais n'avons nous pas vendu un peu vite la trop vite la peau de l'ours ...
À l'usage, il s'avère que le site https://zbw.eu/beta/skosmos n'est pas en pleine forme 🤒 et qu'il cesse rapidement de répondre lorsque les requêtes arrivent en rafales... Pour couronner le tout , les liens de téléchargement proposés par l’institution sur la page d'accueil du vocabulaire répondent invariablement "404" 😞 .
En serons nous quitte pour pour refaire tout le travail 😓 de formalisation SKOS et republier le vocabulaire dans un nouveau domaine ?
...
C'est dans ces cas là qu'il faut penser à penser à la fameuse "Wayback Machine" d'Internet Archive (https://web.archive.org/) 🥁 [
Footnote |
---|
Si vous ne connaissez pas ou mal Internet archive, on vous recommande d'écouter la radio . |
]. Coup de chance , le fichier SKOS contenant l'ensemble du vocabulaire JEL de la ZBW a été régulièrement archivé, et la dernière fois, pas plus tard qu'en janvier 2024 !
https://web.archive.org/web/20240000000000*/https://zbw.eu/beta/external_identifiers/jel/download/jel.rdf.zipjel.rdf.zip
« La confiance n'exclut pas le contrôle » : un petit coup de qSkos, le magnifique utilitaire de Christian Mader, permettra de lever les doutes (on peut aussi jouer avec le fichier sur SkosPlay).
Développer | ||
---|---|---|
| ||
|
Zéro erreur sur les critères de qualité essentiels ! Une performance qu'on se doit de saluer.
Pour nous, voilà qui offrait une vraie issue Pour nous, voilà qui était bien suffisant : une fois le vocabulaire récupéré, il suffisait de le charger dans un serveur adapté aux données sémantiques (Apache Jena Fuseki) et d'empaqueter le tout dans un container Docker Docker !
Le tout est publié sur Github et le Dockerhub sous le doux nom de "svp-jel-proxy' (les informaticiens sont des poètes... 📜 )
Fancy Bullets | ||
---|---|---|
| ||
|
C'est juste une toute petite surcouche sur les "Docker Tools" d'Apache Jena Fuseki - au passage, dommage qu'on ne puisse pas s'appuyer plutôt sur une image Docker officielle.
Le vocabulaire JEL du Leibniz-Informationszentrum Wirtschaft sera désormais disponible disponible au sein de notre système "SoVisu+" sous forme d'un microservice, afin d'assister l'intégration des données de Hal au graphe de connaissance institutionnel !
...
Do it yourself
À ce stade, vous souhaitez peut-être brûlez d'impatience de manipuler vous-même ce composant, et on le comprend bien.
Info | ||
---|---|---|
| ||
On suppose que vous disposez d'un environnement en ligne de commande de type Unix, comme un Mac, le Windows subsystem for linux, ou pourquoi pas - on a tous le droit de rêver - une vraie machine sous Linux, et que vous y avez déjà installé Docker. |
Démarrez svp-jel-proxy sur un port de votre choix (dans cet exemple, 8888) :
...
On prend la mesure au travers de cet exemple du caractère fragile du déploiement des technologies du web sémantique. La pratique est souvent bien loin de la théorie , selon laquelle les données vont s'agréger miraculeusement miraculeusement par la seule vertu des URI et des inférences. Même en utilisant des plateformes nationales , ayant pignon sur rue rue, telles que Hal, les établissements doivent faire eux-même une grande partie du chemin🚶♂️ jusqu'aux "linked data"...
Raison de plus pour travailler en mode mutualisé, sachant qu'il sera toujours plus facile de réaliser la maintenance 🔧 corrective/adaptative sur des composants partagés. Imaginez que demain
- le Leibniz-Informationszentrum Wirtschaft corrige 🔧 les problèmes de son serveur
- ... ou publie une nouvelle version du vocabulaire JEL...
- ... ou que HAL ou une autre institution publie le vocabulaire dans son propre domaine...
- ... ou que HAL remplace les codes par des URI dans les données...
Notre solution n'apparaîtra plus que comme un arrangement bricolage provisoire qui aura vocation à être modifié ou remplacé !
...
Notes
...
Footnotes Display |
---|