Avis d’expert: Le sens de la sémantique

Par Bernard M.
Publié le 23 février 2010 à 10:06

Une très grande confusion règne autour du mot « sémantique » qui est utilisé à toutes les sauces dès qu’il s’agit de moteurs de recherche, et force est de constater que les discours marketing des acteurs ne vont pas dans le sens de la clarté.

Une très grande confusion règne autour du mot « sémantique » qui est utilisé à toutes les sauces dès qu’il s’agit de moteurs de recherche, et force est de constater que les discours marketing des acteurs ne vont pas dans le sens de la clarté. Tout d’abord, il y a l’indexation sémantique : celle qui consiste, lors de l’analyse d’un document, à rattacher chaque mot à un concept sous-jacent. Par exemple, pour le mot jaguar, il faut déterminer s’il s’agit du félin, de la voiture, de l’avion ou du système d’exploitation. Et ça, c’est compliqué. Tout d’abord, il faut une “liste” de concepts cibles (le sens qui est derrière le mot) pour pouvoir transformer le mot en concept. Il faut donc avoir modélisé tous les concepts. Autant dire que c’est peine perdue : cela sous entendrait que tout le monde pense de la même façon et se représente le monde à l’identique. Ensuite, il ne faut pas se tromper lors de l’analyse : faux amis, ambiguïté… Et d’ailleurs, tout ça est tellement compliqué que ça n’a jamais marché. C’est sans doute une des grandes errances et un Graal illusoire des moteurs de recherche des années 80-90. Les acteurs de ce domaine se sont dès lors fixé des objectifs plus modestes, mais dont les résultats sont plus probants : extraction d’entités nommées, data mining, etc.



Puis il y a l’extension sémantique. Là, plus de concepts, mais seulement des vocabulaires : dictionnaires de synonymes, thésaurus, taxinomies. Le principe est simple : élargir la recherche de l’utilisateur en exploitant les synonymes (même sens), les hyperonymes (sens plus large : véhicule est hyperonyme de voiture et camion) et les hyponymes (sens plus réduit). Et donc, si l’utilisateur cherche une chemise verte, il est de bon ton de lui remonter aussi des chemises kaki ou émeraude. C’est ça l’extension sémantique : étendre la recherche de l’utilisateur en appliquant des dictionnaires. Et si possible uniquement du vocabulaire spécifique à domaine et à un objectif fonctionnel afin de ne pas introduire de bruit. Cette méthode, associée à des traitements linguistiques de type lemmatisation, a largement pris le pas sur les autres car elle offre à la fois de bonnes performances tout en garantissant un coût de mise en œuvre et de maintenance réduit.