Afficher la notice abrégée
dc.contributor.author |
Djelailia, Karim |
|
dc.date.accessioned |
2018-07-09T12:28:37Z |
|
dc.date.available |
2018-07-09T12:28:37Z |
|
dc.date.issued |
2010 |
|
dc.identifier.uri |
http://dspace.univ-guelma.dz:8080/xmlui/handle/123456789/456 |
|
dc.description.abstract |
Notre mémoire traite la problématique de la catégorisation de texte en langue
arabe, une approche de classification supervisée. La base d’apprentissage étant
un corpus en langue arabe de documents étiquetés. La représentation utilisée est
la représentation vectorielle, avec la technique TF-IDF. Nous évoquons à
travers ce mémoire, l’influence de la sélection d’attributs et la langue du corpus
d’entraînement dans la qualité des résultats du classifieur. Les SVM (acronyme
de Support vector machine) est la méthode de classification que nous utilisons
dans notre expérimentation. Le choix de la langue Arabe est motivé par la rareté
des travaux menée dans ce domaine pour cette langue. Vu ses particularités
morphosyntaxiques (langue fortement dérivationnelle, à caractère flexionnel et
agglutinante). Nous visons à confirmer ou infirmer que la qualité des résultats
obtenus pour d’autres langues avec les SVM et basés sur les techniques de
radicalisation des termes (stemming), pour réduire la dimension de l’espace de
représentation (problème inhérent à la technique de représentation en sacs de
mots –bag of words-), sont ou ne sont pas liés à la nature de la langue du corpus.
Il est donc, question de distinguer entre les résultats obtenus avec un
prétraitement rigoureux de ceux obtenus avec un prétraitement rudimentaire
consistant à une simple tokenisation |
en_US |
dc.language.iso |
fr |
en_US |
dc.subject |
Catégorisation de textes, corpus, stemming, TF-IDF, SVM |
en_US |
dc.title |
Les machines à vecteurs supports dans la catégorisation de textes arabes |
en_US |
dc.type |
Thesis |
en_US |
Fichier(s) constituant ce document
Ce document figure dans la(les) collection(s) suivante(s)
Afficher la notice abrégée