Résumé:
La sélection des caractéristiques est un processus largement utilisé pour trouver un sous-espace de variables pertinentes en vue d’augmenter la performance des techniques de classification. Les techniques classiques de sélection des caractéristiques comme IG (Information Gain), MI (Muetel Information), CH2 (Chi-Square), etc., ont prouvé leur efficacité de trouver des bons espaces représentatifs pour les corpus textuels. Malheureusement, ces techniques ne prennent en considération que la fréquence du mot sans considérer sa sémantique.
Dans ce travail, nous nous focalisons à étudier l’impact de la sélection de mots basée sur le plongement lexical (en. word embedding), en considérant la sémantique lexical du mot à l’aide des vecteurs numériques pour mesurer la similarité entre les mots par des métriques de distance, pour cela, nous choisissons le fremework word2vec. Ensuite nous effectuons un clustering k-means de ces vecteurs pour écarter ceux qui augmentent la fonction objective de l’algorithme de clustering, où les vecteurs qui assurent une fonction objective optimale correspondent aux mots sélectionnés pour construire le modèle, où l’objectif est améliorer les performances des techniques de classification par la représentation des connaissances dans un espace plus réduit.
L’approche proposée est appelée SCPL (Sélection des Caractéristiques par Plongement Lexical) a été implémentée sous l’environnement Jupyter, Les résultats d’expérimentations effectue prouve qu’elle offre de meilleurs performances que les algorithmes classiques existants dans la littérature.