Please use this identifier to cite or link to this item: http://dspace.univ-guelma.dz/jspui/handle/123456789/11649
Title: Sélection des caractéristiques basée sur le plongement lexicale pour la classification des textes
Authors: FERDI, DOUNYA
Keywords: sélection, caractéristiques, classification, texte, plongement lexicale, word2vec, clustering, K-means
Issue Date: 2021
Publisher: université de guelma
Abstract: La sélection des caractéristiques est un processus largement utilisé pour trouver un sous-espace de variables pertinentes en vue d’augmenter la performance des techniques de classification. Les techniques classiques de sélection des caractéristiques comme IG (Information Gain), MI (Muetel Information), CH2 (Chi-Square), etc., ont prouvé leur efficacité de trouver des bons espaces représentatifs pour les corpus textuels. Malheureusement, ces techniques ne prennent en considération que la fréquence du mot sans considérer sa sémantique. Dans ce travail, nous nous focalisons à étudier l’impact de la sélection de mots basée sur le plongement lexical (en. word embedding), en considérant la sémantique lexical du mot à l’aide des vecteurs numériques pour mesurer la similarité entre les mots par des métriques de distance, pour cela, nous choisissons le fremework word2vec. Ensuite nous effectuons un clustering k-means de ces vecteurs pour écarter ceux qui augmentent la fonction objective de l’algorithme de clustering, où les vecteurs qui assurent une fonction objective optimale correspondent aux mots sélectionnés pour construire le modèle, où l’objectif est améliorer les performances des techniques de classification par la représentation des connaissances dans un espace plus réduit. L’approche proposée est appelée SCPL (Sélection des Caractéristiques par Plongement Lexical) a été implémentée sous l’environnement Jupyter, Les résultats d’expérimentations effectue prouve qu’elle offre de meilleurs performances que les algorithmes classiques existants dans la littérature.
URI: http://dspace.univ-guelma.dz/jspui/handle/123456789/11649
Appears in Collections:Master

Files in This Item:
File Description SizeFormat 
FERDI_DOUNYA_F5_Informatique.pdf3,55 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.