Please use this identifier to cite or link to this item:
http://dspace.univ-guelma.dz/jspui/handle/123456789/456
Title: | Les machines à vecteurs supports dans la catégorisation de textes arabes |
Authors: | Djelailia, Karim |
Keywords: | Catégorisation de textes, corpus, stemming, TF-IDF, SVM |
Issue Date: | 2010 |
Abstract: | Notre mémoire traite la problématique de la catégorisation de texte en langue arabe, une approche de classification supervisée. La base d’apprentissage étant un corpus en langue arabe de documents étiquetés. La représentation utilisée est la représentation vectorielle, avec la technique TF-IDF. Nous évoquons à travers ce mémoire, l’influence de la sélection d’attributs et la langue du corpus d’entraînement dans la qualité des résultats du classifieur. Les SVM (acronyme de Support vector machine) est la méthode de classification que nous utilisons dans notre expérimentation. Le choix de la langue Arabe est motivé par la rareté des travaux menée dans ce domaine pour cette langue. Vu ses particularités morphosyntaxiques (langue fortement dérivationnelle, à caractère flexionnel et agglutinante). Nous visons à confirmer ou infirmer que la qualité des résultats obtenus pour d’autres langues avec les SVM et basés sur les techniques de radicalisation des termes (stemming), pour réduire la dimension de l’espace de représentation (problème inhérent à la technique de représentation en sacs de mots –bag of words-), sont ou ne sont pas liés à la nature de la langue du corpus. Il est donc, question de distinguer entre les résultats obtenus avec un prétraitement rigoureux de ceux obtenus avec un prétraitement rudimentaire consistant à une simple tokenisation |
URI: | http://dspace.univ-guelma.dz:8080/xmlui/handle/123456789/456 |
Appears in Collections: | Magister |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
mémoire magister complet Djelailia.pdf | 683,39 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.