Résumé:
Dans la résolution des problèmes de correspondance dans la recherche scientifique,
l’arabe est considéré comme l’une des langues les plus difficiles à cause de sa morphologie
spécifique. La technique la plus populaire et la plus utilisée pour
résoudre ce genre de
problème est la lemmatisation. Cette technique est une étape de prétraitement dans la
plupart des systèmes de récupération d'informations. La lemmatisation a pour but la
réduction des différentes formes grammaticales d'un mot.
Dans la
littérature, il existe plusieurs algorithmes traitant la lemmatisation des mots
arabes. Toutefois, la plupart d'entre eux sont malheureusement réservés à un nombre limité
de mots, et présentent certaines confusions entre les lettres originales et les affi
xes. En
outre, ils utilisent généralement un dictionnaire de mots ou de modèles.
Le but de notre travail est l’amélioration d’un algorithme de lemmatisation assoupli (léger)
déjà conçu, i.e. ARLStem. Cette amélioration est fondée sur
l’introduction de nouvelles
règles permettant de supprimer les préfixes, suffixes et infixes de manière intelligente. Par
ailleurs, une comparaison de l’efficacité de notre algorithme avec d’autres lemmatiseurs
existants a été réalisée en utilisant les par
amètres de Paice, à savoir l’indice de sous
-
lemmatisation (UI) et l’indice de sur
-
lemmatisation (OI). La comparaison a été faite sur le
corpus ARASTEM, où les résultats obtenus ont montré que notre lemmatiseur possède des
performances élevées et plus effic
ace que les lemmatiseurs auxquels il a été comparé