Comparaison des versions

Légende

  • Ces lignes ont été ajoutées. Ce mot a été ajouté.
  • Ces lignes ont été supprimées. Ce mot a été supprimé.
  • La mise en forme a été modifiée.

...

Même si ces exemples n'ont pas été choisis tout à fait au hasard face with rolling eyeshasard, ils donnent une petite idée, a posteriori et a contrario, de l'importance qu'il y a à fournir des mécanismes de suggestion ("autocomplétion" ) basés sur des vocabulaires reconnus.

Et pas seulement pour limiter les "variantes" orthographiques 🙈 .

Car idéalement, pour gérer les informations sur la recherche selon les canons des "FAIR Data" sports medal , il faudrait également disposer pour chaque concept d'un identifiant unique (une URI) se prêtant, si possible, à un « déréférencement » : une opération qui consiste à naviguer  woman rowing boat naviguer sur le web jusqu'à la source de données indiquée par l'URI (qui est aussi, souvent, une URL : c'est pratique  😊 ). 

Par exemple, pour "Partenariat public-privé", si on disposait d'une URI telle que https://catalogue.bnf.fr/ark:/12148/cb13755654m ou https://www.idref.fr/061611514, on pourrait en tirer une foule de bénéfices  : des traductions, des alignements avec des vocabulaires tiers (Public-private sector cooperation de la Library of congress flag: United States ), des variantes... Ou tout simplement vérifier qu'on a des données correctes face with monocle correctes.

En pratique, c'est un peu compliqué 


Normalement, ce qui précède vous a motivés 🤓 - si vous ne l'étiez pas déjà - à vouloir tirer tout le parti possible des quelques vocabulaires contrôlés (JEL, MeSH, ACM) proposés au sein des données Hal.

...

Prenons le cas du vocabulaire JEL (pour «Journal of Economic Literature»). C'est un système de classification des publications 📊 qui émane l'American Economic Association (AEA) et s'applique aux publications ... dans le domaine de l'économie (vous vous en étiez doutés 🤷‍♂️).

Sur son site web, l'AEA fournit certes le vocabulaire avec ses codes et ses définitions , mais ne pousse pas la gentillesse 🤗 jusqu'à proposer les fameuses "URI" qui permettraient d'intégrer ces concepts parmi d'autres données "sémantiques" 😞. Par exemple, le code "A14" représente "Sociology of Economics", mais son unicité est loin d'être garantie : bien de choses, sur la terre globe showing Americas , sont susceptibles de s’appeler A14, par exemple des autoroutes 🛣️ ou des avions  ✈️avions. Le code "A14" ne comporte aucun indice magnifying glass tilted left qui indice qui permettrait à un système de découvrir l'information associée. On peut parler de vocabulaire « à l'ancienne » 🕰️ en quelque sorte, avec des codes qui étaient peut-être suffisants dans un contexte fermé, mais qui ne font plus sens sur le grand océan du web water wave web.

Mais ce sont ces codes 🔢 que l'on retrouve dans les données issues de HAL...

...

Nos classifications JEL figurent bien dans le résultat. Mais comment les exploiter thinking face  ? On voit que l'équipe HAL elle-même a dû être embêtée 😅 par l'absence d'un vrai vocabulaire et a essayé de contourner le problème un créant un prédicat ad hoc "jelSubject" dans une ontologie maison house with garden ... Des pratiques certes courantes sur le web sémantique, mais qui relèvent de la petite cuisine 🍲.

...