Résumé:
La catégorisation automatique de textes est un domaine de recherche en plein essor,
en raison de l’explosion de la quantité d’information disponible sous format
électronique, et la difficulté d’accéder à l’information pertinente parmi toutes celles
qui sont accessibles. Son principal enjeu est de rendre une application informatique capable
d’assigner d’une façon autonome une catégorie à un document en se basant sur son
contenu. Pour décrire le contenu des documents, la quasi-totalité des systèmes actuels se
base sur la représentation sac de mots en raison de sa simplicité. Néanmoins avec une telle
représentation le sens de termes dans la majorité des cas reste ambigu, de plus la
description de certains concepts nécessite l’utilisation de quelques mots pris simultanément,
mais pas séparément. Dans ce cas, l’utilisation des mots simple pour décrire ces concepts
va engendrer une ambigüité sémantique
L’objectif de ce mémoire est de proposer une approche qui tente de réduire cette
ambigüité et d’améliorer les performances des systèmes de catégorisation de textes arabes
en se basant sur des descripteurs plus informatifs et plus discriminants que les mots. L’idée
de base de cette approche consiste à bénéficier des avantages liés à utilisation des Ngrammes
et plus précisément les unigrames et les bi-grammes ayant un apport
informationnel élevé pour la représentation des documents, et de tester leur influence sur
les performances globales des systèmes de catégorisation de textes arabes.
Afin d’évaluer cette approche, nous utilisons comme classifieur les machine à vecteur
support (SVM), et comme base d’apprentissage un corpus en langue arabe. Notons que le
choix des SVM est dû essentiellement à leur robustesse ainsi à leur capacité à traiter des
espaces de données de grande dimensionnalité.