Les machines à vecteurs supports dans la catégorisation de textes arabes

Djelailia, Karim

Please use this identifier to cite or link to this item: https://dspace.univ-guelma.dz/jspui/handle/123456789/456

Title:	Les machines à vecteurs supports dans la catégorisation de textes arabes
Authors:	Djelailia, Karim
Keywords:	Catégorisation de textes, corpus, stemming, TF-IDF, SVM
Issue Date:	2010
Abstract:	Notre mémoire traite la problématique de la catégorisation de texte en langue arabe, une approche de classification supervisée. La base d’apprentissage étant un corpus en langue arabe de documents étiquetés. La représentation utilisée est la représentation vectorielle, avec la technique TF-IDF. Nous évoquons à travers ce mémoire, l’influence de la sélection d’attributs et la langue du corpus d’entraînement dans la qualité des résultats du classifieur. Les SVM (acronyme de Support vector machine) est la méthode de classification que nous utilisons dans notre expérimentation. Le choix de la langue Arabe est motivé par la rareté des travaux menée dans ce domaine pour cette langue. Vu ses particularités morphosyntaxiques (langue fortement dérivationnelle, à caractère flexionnel et agglutinante). Nous visons à confirmer ou infirmer que la qualité des résultats obtenus pour d’autres langues avec les SVM et basés sur les techniques de radicalisation des termes (stemming), pour réduire la dimension de l’espace de représentation (problème inhérent à la technique de représentation en sacs de mots –bag of words-), sont ou ne sont pas liés à la nature de la langue du corpus. Il est donc, question de distinguer entre les résultats obtenus avec un prétraitement rigoureux de ceux obtenus avec un prétraitement rudimentaire consistant à une simple tokenisation
URI:	http://dspace.univ-guelma.dz:8080/xmlui/handle/123456789/456
Appears in Collections:	Magister

Files in This Item:

File	Description	Size	Format
mémoire magister complet Djelailia.pdf		683,39 kB	Adobe PDF	View/Open

Show full item record

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets