...
Même si ces exemples n'ont pas été choisis tout à fait au hasard hasard, ils donnent une petite idée, a posteriori et a contrario, de l'importance qu'il y a à fournir des mécanismes de suggestion ("autocomplétion" ) basés sur des vocabulaires reconnus.
Et pas seulement pour limiter les "variantes" orthographiques 🙈 .
Car idéalement, pour gérer les informations sur la recherche selon les canons des "FAIR Data" , il faudrait également disposer pour chaque concept d'un identifiant unique (une URI) se prêtant, si possible, à un « déréférencement » : une opération qui consiste à naviguer naviguer sur le web jusqu'à la source de données indiquée par l'URI (qui est aussi, souvent, une URL : c'est pratique 😊 ).
Par exemple, pour "Partenariat public-privé", si on disposait d'une URI telle que https://catalogue.bnf.fr/ark:/12148/cb13755654m ou https://www.idref.fr/061611514, on pourrait en tirer une foule de bénéfices : des traductions, des alignements avec des vocabulaires tiers (Public-private sector cooperation de la Library of congress ), des variantes... Ou tout simplement vérifier qu'on a des données correctes correctes.
En pratique, c'est un peu compliqué
Normalement, ce qui précède vous a motivés 🤓 - si vous ne l'étiez pas déjà - à vouloir tirer tout le parti possible des quelques vocabulaires contrôlés (JEL, MeSH, ACM) proposés au sein des données Hal.
...
Prenons le cas du vocabulaire JEL (pour «Journal of Economic Literature»). C'est un système de classification des publications 📊 qui émane l'American Economic Association (AEA) et s'applique aux publications ... dans le domaine de l'économie (vous vous en étiez doutés 🤷♂️).
Sur son site web, l'AEA fournit certes le vocabulaire avec ses codes et ses définitions , mais ne pousse pas la gentillesse 🤗 jusqu'à proposer les fameuses "URI" qui permettraient d'intégrer ces concepts parmi d'autres données "sémantiques" 😞. Par exemple, le code "A14" représente "Sociology of Economics", mais son unicité est loin d'être garantie : bien de choses, sur la terre , sont susceptibles de s’appeler A14, par exemple des autoroutes 🛣️ ou des avions ✈️avions. Le code "A14" ne comporte aucun indice qui indice qui permettrait à un système de découvrir l'information associée. On peut parler de vocabulaire « à l'ancienne » 🕰️ en quelque sorte, avec des codes qui étaient peut-être suffisants dans un contexte fermé, mais qui ne font plus sens sur le grand océan du web web.
Mais ce sont ces codes 🔢 que l'on retrouve dans les données issues de HAL...
...
Nos classifications JEL figurent bien dans le résultat. Mais comment les exploiter ? On voit que l'équipe HAL elle-même a dû être embêtée 😅 par l'absence d'un vrai vocabulaire et a essayé de contourner le problème un créant un prédicat ad hoc "jelSubject" dans une ontologie maison ... Des pratiques certes courantes sur le web sémantique, mais qui relèvent de la petite cuisine 🍲.
...