Sélection des caractéristiques basée sur le plongement lexicale pour la classification des textes

FERDI, DOUNYA

Accueil de DSpace
→
Faculté de mathématiques et de l'informatique et des sciences de la matière
→
Département de l'Informatique
→
Master
→
Voir le document

dc.contributor.author	FERDI, DOUNYA
dc.date.accessioned	2022-02-07T11:48:01Z
dc.date.available	2022-02-07T11:48:01Z
dc.date.issued	2021
dc.identifier.uri	http://dspace.univ-guelma.dz/jspui/handle/123456789/11649
dc.description.abstract	La sélection des caractéristiques est un processus largement utilisé pour trouver un sous-espace de variables pertinentes en vue d’augmenter la performance des techniques de classification. Les techniques classiques de sélection des caractéristiques comme IG (Information Gain), MI (Muetel Information), CH2 (Chi-Square), etc., ont prouvé leur efficacité de trouver des bons espaces représentatifs pour les corpus textuels. Malheureusement, ces techniques ne prennent en considération que la fréquence du mot sans considérer sa sémantique. Dans ce travail, nous nous focalisons à étudier l’impact de la sélection de mots basée sur le plongement lexical (en. word embedding), en considérant la sémantique lexical du mot à l’aide des vecteurs numériques pour mesurer la similarité entre les mots par des métriques de distance, pour cela, nous choisissons le fremework word2vec. Ensuite nous effectuons un clustering k-means de ces vecteurs pour écarter ceux qui augmentent la fonction objective de l’algorithme de clustering, où les vecteurs qui assurent une fonction objective optimale correspondent aux mots sélectionnés pour construire le modèle, où l’objectif est améliorer les performances des techniques de classification par la représentation des connaissances dans un espace plus réduit. L’approche proposée est appelée SCPL (Sélection des Caractéristiques par Plongement Lexical) a été implémentée sous l’environnement Jupyter, Les résultats d’expérimentations effectue prouve qu’elle offre de meilleurs performances que les algorithmes classiques existants dans la littérature.	en_US
dc.language.iso	fr	en_US
dc.publisher	université de guelma	en_US
dc.subject	sélection, caractéristiques, classification, texte, plongement lexicale, word2vec, clustering, K-means	en_US
dc.title	Sélection des caractéristiques basée sur le plongement lexicale pour la classification des textes	en_US
dc.type	Working Paper	en_US