Résumé:
L’efficacité des systèmes de reconnaissance d’expressions faciles est importante pour
une bonne interaction homme-machine. Mais la tâche de la reconnaissance de l’expression
faciale est liée à plusieurs méthodes qui fournissent des facteurs influençant sur la
performance des Systèmes FER. Ce mémoire fournit l’étude de deux architectures du réseau
CNN : VGG16 et Xception, afin d’examiner leur performances et de proposer un modèle
hybride qui permet de fusionner les deux et on obtenir un nouveau modèle qui optimise les
performances. Notre choix de ces deux architectures est motivé par leur succès dans la
reconnaissance d’image. Contrairement à d'autres travaux, nous nous concentrons sur la
structure de CNN tout en analysant les convolutions internes dans les réseaux qui influencent
directement sur les résultats.
Les deux approches proposées sont testée sur la base de données FER-2013. Les
résultats démontrent la supériorité du CNN Xception avec sa spécificité conventionnelle qui
inclut des couches de Convolution séparable. La précision augmente même lorsque le modèle
ne traite pas la totalité de paramètres, ce qui génère des résultats remarquables sur la base de
données FER-2013 où il atteint 73% sur FER-2013 par rapport à 62% pour VGG16