Thèses en ligne de l'université 8 Mai 1945 Guelma

Sélection des caractéristiques basée sur le plongement lexicale pour la classification des textes

Afficher la notice abrégée

dc.contributor.author FERDI, DOUNYA
dc.date.accessioned 2022-02-07T11:48:01Z
dc.date.available 2022-02-07T11:48:01Z
dc.date.issued 2021
dc.identifier.uri http://dspace.univ-guelma.dz/jspui/handle/123456789/11649
dc.description.abstract La sélection des caractéristiques est un processus largement utilisé pour trouver un sous-espace de variables pertinentes en vue d’augmenter la performance des techniques de classification. Les techniques classiques de sélection des caractéristiques comme IG (Information Gain), MI (Muetel Information), CH2 (Chi-Square), etc., ont prouvé leur efficacité de trouver des bons espaces représentatifs pour les corpus textuels. Malheureusement, ces techniques ne prennent en considération que la fréquence du mot sans considérer sa sémantique. Dans ce travail, nous nous focalisons à étudier l’impact de la sélection de mots basée sur le plongement lexical (en. word embedding), en considérant la sémantique lexical du mot à l’aide des vecteurs numériques pour mesurer la similarité entre les mots par des métriques de distance, pour cela, nous choisissons le fremework word2vec. Ensuite nous effectuons un clustering k-means de ces vecteurs pour écarter ceux qui augmentent la fonction objective de l’algorithme de clustering, où les vecteurs qui assurent une fonction objective optimale correspondent aux mots sélectionnés pour construire le modèle, où l’objectif est améliorer les performances des techniques de classification par la représentation des connaissances dans un espace plus réduit. L’approche proposée est appelée SCPL (Sélection des Caractéristiques par Plongement Lexical) a été implémentée sous l’environnement Jupyter, Les résultats d’expérimentations effectue prouve qu’elle offre de meilleurs performances que les algorithmes classiques existants dans la littérature. en_US
dc.language.iso fr en_US
dc.publisher université de guelma en_US
dc.subject sélection, caractéristiques, classification, texte, plongement lexicale, word2vec, clustering, K-means en_US
dc.title Sélection des caractéristiques basée sur le plongement lexicale pour la classification des textes en_US
dc.type Working Paper en_US


Fichier(s) constituant ce document

Ce document figure dans la(les) collection(s) suivante(s)

Afficher la notice abrégée

Chercher dans le dépôt


Recherche avancée

Parcourir

Mon compte