...
L'intérêt des vocabulaires contrôlés dans HAL
L'utilisation par Hal Les établissements utilisateurs des données peuvent se féliciter de la présence de vocabulaires contrôlés disciplinaires tels que JEL, ACM ou MeSH est précieuse pour les établissements utilisateurs de données ✨.
En effet, Car malheureusement, on revient de loin : la saisie, des années durant, de mots-clés libres a généré une "dette technique de données" qui rend délicate pour les établissements, par exemple, la caractérisation des profils d'expertise des chercheurs ou des laboratoires .à partir des données Hal
Footnote |
---|
On n'oubliera pas toutefois de mentionner ici les louables efforts de l'équipe scanR pour fournir des versions des métadonnées Hal réalignées sur Idref/Rameau et WikiData ! |
Pour rendre le problème plus parlant parlant , voici la liste des variantes de graphies pour quelques-mots clés, obtenues depuis l'API Hal :
...
Bon, c'est vrai, ces exemples n'ont pas été choisis tout à fait au hasard . Ils donnent pourtant une petite idée - , a posteriori et a contrario - , de l'importance qu'il y a à fournir des mécanismes de suggestion ("autocomplétion" ⌨️ ) basés sur des vocabulaires reconnus. Et pas seulement pour éviter limiter les "variantes" orthographiques 🙈 .
Car idéalement, pour gérer les informations sur la recherche selon les canons des "FAIR Data" , il faudrait non seulement également disposer pour chaque concept d'un identifiant unique (une URI) se prêtant, si possible, à un "« déréférencement " » : une opération qui consiste à naviguer sur le web jusqu'à la source de données indiquée par l'URI (qui est aussi, souvent, une URL, c'est pratique 😊 ).
Par exemple, pour "Partenariat public-privé", si on disposait d'une URI telle que https://catalogue.bnf.fr/ark:/12148/cb13755654m ou https://www.idref.fr/061611514, on pourrait obtenir une foule de bénéfices 🤓 bénéfices : des traductions, des alignements avec des vocabulaires tiers (Public-private sector cooperation de la Library of congress ), des variantes... Ou tout simplement vérifier qu'on a des données correctes correctes .
Limites des vocabulaires traditionnels
Normalement, ce qui précède vous a motivés 🤓 - si vous ne l'étiez pas déjà - pour exploiter les tirer tout le parti possible des quelques vocabulaires contrôlés (JEL, MeSH, ACM) proposés au sein des données Hal.
...
Message Box | ||||
---|---|---|---|---|
| ||||
La commauté CRISalid réunit plusieurs établissements qui œuvrent ensemble à l'automatisation de la construction de leur "graphe de connaissance institutionnel", socle de la gestions des informations sur la recherche. |
Le Prenons le cas du vocabulaire JEL (pour «Journal of Economic Literature»). C'est un système de classification des publications en économie 📊 qui émane l'American Economic Association (AEA) et s'applique aux publications ... dans le domaine de l'économie (on s'en serait un peu doutés 🤷♂️).
Le problème est que que sur son site web, l'AEA fournit certes le vocabulaire avec ses codes et ses définitions , mais sans les "URI" qui permettraient d'utiliser les concepts parmi d'autres données "sémantiques" 😞. Par exemple, le code "A140" représente "Sociology of Economics", mais son unicité est loin d'être garantie, et rien ne permet à un système de découvrir l'information associée à ce "A140". Un vocabulaire "à l'ancienne" 🕰️ en quelque sorte.
...