L'utilisation par Hal de vocabulaires contrôlés disciplinaires pour l'indexation des publications a tout d'une bonne nouvelle. En effet, l'utilisation des années durant, de mots-clés libres a généré une "dette technique de données" qui rend difficile délicate pour les établissements, par exemple, la caractérisations des profils d'expertise des chercheurs ou des laboratoires.
À titre d'exemplePour rendre le problème plus parlant, voici la liste des variantes de graphies pour quelques mots clés obtenues depuis l'API Hal :
Moyen Âge | Moyen-Âge | Moyen âge | MOYEN AGE | Moyen age | Moyen äge | Moyen Äge | MOyen Âge | Moyen AGe | Moyen âge | Moyen Âge | MOYEN-AGE |
Île-de-France | Ile-de-France | Ile-de-france | Île de France | Ile-de France | Île-de-france | Ile de france | ILE DE FRANCE | Ïle-de-France | Île de france | Ile-De-France | ILE-DE-FRANCE | Île-De-France | Île-de-France |
Partenariat public-privé | Partenariat public privé | Partenariat Public-Privé | Partenariat public/privé | Parténariat public-privé | Partenariat public-Privé | Partenariat Public Privé | Parténariat public-Privé | Partenariat public-privé |
Idéalement, pour gérer les informations sur la recherche selon les canons des "FAIR Data", il faudrait disposer pour chaque concept d'un identifiant unique (une URI) se prêtant, si possible, à un "déreférencement" : une opération qui consiste à . Par exemple, pour "Partenariat public-privé", si on dispose d'une URI telle que https://catalogue.bnf.fr/ark:/12148/cb13755654m ou https://www.idref.fr/061611514, on peut obtenir des traductions, des alignements avec des vocabulaires tiers (https://id.loc.gov/authorities/subjects/sh96011049.html), etc.