Vous regardez une version antérieure (v. /wiki/pages/viewpage.action?pageId=1369964545) de cette page.

afficher les différences afficher l'historique de la page

« Afficher la version précédente Vous regardez la version actuelle de cette page. (v. 17) afficher la version suivante »

L'utilisation par Hal de vocabulaires contrôlés disciplinaires pour l'indexation des publications a tout d'une bonne nouvelle ✨.

En effet, l'utilisation des années durant, de mots-clés libres a généré une "dette technique de données" qui rend délicate pour les établissements, par exemple, la caractérisations des profils d'expertise des chercheurs ou des laboratoires. 1

Pour rendre le problème plus parlant confused face , voici la liste des variantes de graphies pour quelques mots clés obtenues depuis l'API Hal :

Moyen ÂgeMoyen-ÂgeMoyen âgeMOYEN AGEMoyen ageMoyen ägeMoyen ÄgeMOyen ÂgeMoyen AGeMoyen âgeMoyen ÂgeMOYEN-AGE
Île-de-FranceIle-de-FranceIle-de-franceÎle de FranceIle-de FranceÎle-de-franceIle de franceILE DE FRANCEÏle-de-FranceÎle de franceIle-De-FranceILE-DE-FRANCEÎle-De-FranceÎle-de-France


Partenariat public-privéPartenariat public privéPartenariat Public-PrivéPartenariat public/privéParténariat public-privéPartenariat public-PrivéPartenariat Public PrivéParténariat public-PrivéPartenariat public-privé


Idéalement, pour gérer les informations sur la recherche selon les canons des "FAIR Data" sports medal , il faudrait non seulement disposer pour chaque concept d'un identifiant unique (une URI) se prêtant, si possible, à un "déréférencement" : une opération qui consiste à naviguer sur le web 🧭 jusqu'à la source de données indiquée par l'URI (qui est aussi une URL, c'est pratique). 

Par exemple, pour "Partenariat public-privé", si on dispose d'une URI telle que https://catalogue.bnf.fr/ark:/12148/cb13755654m ou https://www.idref.fr/061611514, on peut obtenir des traductions, des alignements avec des vocabulaires tiers (https://id.loc.gov/authorities/subjects/sh96011049.html), etc. Ou tout simplement vérifier qu'on a des données correctes face with monocle .

Exemple : les données indexées avec JEL


Raison de plus pour vouloir tirer parti au maximum des quelques vocabulaires contrôlés utilisés sur Hal ! C'est ce que nous avons voulu faire dans le cadre du projet SoVisu+, du consortium CRISalid.

Le consortium CRISalid

La commauté CRISalid réunit plusieurs établissements qui œuvrent ensemble à l'automatisation de la construction de leur "graphe de connaissance institutionnel", socle de la gestions des informations sur la recherche.

Le vocabulaire JEL est un système de classification des publications en économie maintenant par l'American Economic Association. Le problème est que sur son site web, l'AEA fournit certes le vocabulaire avec ses codes et ses définitions , mais sans les "URI" qui permettraient d'utiliser les concepts parmi d'autres données "sémantiques". Par exemple, le code "A140" représente "Sociology of Economics", mais son unicité est loin d'être garantie, et rien ne permet à un système de découvrir l'information associée à ce "A140".

Et ce sont ces codes que l'on retrouve dans les données issues de HAL...

Prenons à titre d'exemple une publication économie dotée des fameux domaines JEL : https://hal.science/hal-02169144v1

Et interrogeons à son sujet le endpoint Sparql de Hal.

Nos classifications sont bien dans le résultat mais comment les exploiter thinking face  ?






  1. On n'oubliera pas ici toutefois les louables efforts de l'équipe Scanr pour fournir des versions des métadonnées Hal réalignées sur Idref/Rameau et WikiData grinning face  !



  • Aucune étiquette