...
Par exemple, pour "Partenariat public-privé", si on disposait d'une URI telle que https://catalogue.bnf.fr/ark:/12148/cb13755654m ou https://www.idref.fr/061611514, on pourrait en tirer une foule de bénéfices : des traductions, des alignements avec des vocabulaires tiers (Public-private sector cooperation de la Library of congress ), des variantes... Ou tout simplement vérifier qu'on a des données correctes .
...
En pratique, c'est un peu plus compliqué
Normalement, ce qui précède vous a motivés 🤓 - si vous ne l'étiez pas déjà - pour à vouloir tirer tout le parti possible des quelques vocabulaires contrôlés (JEL, MeSH, ACM) proposés au sein des données Hal.
...
Prenons le cas du vocabulaire JEL (pour «Journal of Economic Literature»). C'est un système de classification des publications 📊 qui émane l'American Economic Association (AEA) et s'applique aux publications ... dans le domaine de l'économie (on s'en serait un peu vous vous en étiez doutés 🤷♂️).
Sur son site web, l'AEA fournit certes le vocabulaire avec ses codes et ses définitions , mais ne pousse pas la gentillesse jusqu'à proposer les fameuses "URI" qui permettraient d'intégrer ces concepts parmi d'autres données "sémantiques" 😞. Par exemple, le code "A140A14" représente "Sociology of Economics", mais son unicité est loin d'être garantie : bien de choses, sur terre, sont susceptibles de s'appeller A140A14, et par exemple des autoroutes 🛣️ ou des avions ✈️. En outre, Le code "A14" ne comporte aucun indice ne permettra qui permettrait à un système de découvrir l'information associée à ce "A140". On peut parler de vocabulaire « à l'ancienne » 🕰️ en quelque sorte, avec des codes qui sont étaient peut-être suffisants dans un contexte fermé, mais mais qui ne font pas plus sens dans le vaste océan contexte ouvert du web .
Et Mais ce sont ces codes 🔢 que l'on retrouve dans les données issues de HAL...
Prenons à titre d'exemple une publication en économie dotée pourvue des fameux domaines JEL : https://hal.science/hal-02169144v1
Et interrogeons à son sujet le endpoint Sparql de Hal. (http://sparql.archives-ouvertes.fr/sparql ) :
Nos classifications sont JEL figurent bien dans le résultat mais . Mais comment les exploiter ?
Nous pourrions bien nous donner la peine de "rabouter" les labels et les identifiants en interrogeant l'API plus JSON de HAL (https://api.archives-ouvertes.fr/search?q=halId_s:hal-02169144&fl=*), à condition de faire confiance à l'ordre des résultats. Mais on est loin de la richesse promise promise par les vocabulaires contrôlés !
...
À ce stade, on commence à se dire que ce serait quand-même beaucoup plus simple si quelqu'un avait publié le vocabulaire JEL quelque part sur le web dans un format moderne, généralement typiquement SKOS (simple knowledge organization system), qui est le standard du web sémantique pour la représentation des vocabulaires .
Ça tombe bien : quelqu'un l'a fait 👏 ! Le Leibniz-Informationszentrum Wirtschaft (non, n'essayez pas de le prononcer 😅 ). Cette institution a converti le vocabulaire JEL au format SKOS et l'a publié sur l'application Skosmos https://zbw.eu/beta/skosmos/jel/en/. Le résultat est L'information qu'il contient est devenue ainsi accessible aussi bien aux robots 🤖 qu'aux humains 👤.
Une petite «concaténation» plus tard et le tour est joué joué : quand Hal nous envoie "G.G1.G13", il ne nous reste plus :
- si on est un être humain 👤, à consulter https://zbw.eu/beta/skosmos/jel/en/page/?uri=http%3A%2F%2Fzbw.eu%2Fbeta%2Fexternal_identifiers%2Fjel%23G13
- si on est un robot 🤖 (certains d'entre eux nous lisent), on préférera sans doute https://zbw.eu/beta/skosmos/rest/v1/jel/data?uri=http%3A%2F%2Fzbw.eu%2Fbeta%2Fexternal_identifiers%2Fjel%23G13&format=application/rdf%2Bxml
Il ne faudrait toutefois pas vendre Mais n'avons nous pas vendu un peu vite la trop vite la peau de l'ours ...
À ours : à l'usage, il s'avère que le site https://zbw.eu/beta/skosmos 🤒 n'est pas en pleine forme 🤒 et qu'il cesse rapidement de répondre lorsque les requêtes arrivent en rafales... Et pour Pour couronner le tout , les liens de téléchargement proposés par l’institution sur la page d'accueil du vocabulaire répondent invariablement "404" 😞 .
En serons nous quitte pour pour refaire tout le travail 😓 de formalisation SKOS et republier le vocabulaire dans un nouveau domaine ?
Sauvés par la Wayback Machine
C'est dans ces cas là qu'il fallait faut penser à la fameuse "Wayback Machine" d'Internet Archive (https://web.archive.org/) 🥁
Footnote |
---|
Si vous ne connaissez pas ou mal Internet archive, on vous recommande d'écouter la radio . |
...
Pour nous, voilà qui était est suffisant : une fois le vocabulaire récupéré, il suffisait de le charger dans un serveur adapté aux données sémantiques (Apache Jena Fuseki) et d'empaqueter le tout tout dans un container Docker !
Le vocabulaire JEL publié par le du Leibniz-Informationszentrum Wirtschaft sera désormais disponible au sein de notre système "SoVisu+" sous forme d'un microservice, afin d'aider à rendre les 'assister l'intégration des données de Hal compatibles avec le web sémantique !au graphe de connaissance institutionnel !
Fancy Bullets | ||
---|---|---|
| ||
Le container Docker : https://hub.docker.com/repository/docker/crisalidesr/svp-jel-proxy/general Le code qui a permis de le créer : https://github.com/CRISalid-esr/svp-jel-proxy |
Pour tester vous-mêmes
À ce stade, vous souhaiter peut-être comprendre comment on utilise ce composant. On suppose que vous disposez d'un environnement en ligne de commande de type Unix, comme un Mac, le Windows subsystem for linux, ou pourquoi pas - il est permis de rêver - une vraie machine sous Linux, et que vous y avez déjà installé Docker.
...