La première intervention de cette conférence annuelle à Londres revenait en détail sur le fonctionnement de la recherche sémantique, qui, rappelons-le, est aussi mise en œuvre dans des moteurs comme Google depuis quelques années.
En comprendre le fonctionnement permet donc ensuite d’adapter ses stratégies et méthodes de recherche en fonction des évolutions récentes.
Au cœur de la recherche sémantique : bye bye recherche booléenne
Andreas Kaltenbrunner est directeur de la recherche chez NTENT, une société qui propose un moteur de recherche sémantique en marque blanche pour les entreprises.
Il est revenu en détail sur le fonctionnement de leur moteur. Pour créer un moteur sémantique, il faut tout d’abord une ontologie, un lexique (un par langue) associé à l’ontologie, un « onomasticon » (une sorte de glossaire des noms propres) et des règles linguistiques.
Le moteur sémantique va devoir intégrer les fonctionnalités suivantes :
détection de la langue ;
détection et élimination des mots passe-partout ;
tokenisation (les mots, phrases et paragraphes sont détectés et regroupés) et lemmatisation (action de donner à un mot la forme neutre canonique qu’il a, par exemple, dans un dictionnaire) ;
capacité à taguer des morceaux de discours ;
analyse morphologique ;
extraction d’entités nommées et capacité à les mettre en relation avec un dictionnaire généraliste ;
identification de concepts et désambiguïsation
attribution d’une note au document et classification.