Résumé:
Ce mémoire aborde la détection automatique du contenu offensif en bambara, qui est une langue
moins ressourcée. Plusieurs modèles d’apprentissage ont été évalués sur des corpus annotés
(équilibrés et déséquilibrés). Les modèles d’apprentissage profonds, notamment CNN,
BiLSTM et FastText, ont obtenu les meilleures performances, avec un avantage d’accuracy
globale de 88,4 % pour BiLSTM et FastText, surtout sur le corpus déséquilibré. Le CNN, ainsi
que l’architecture hybride BiLSTM+CNN, s’est révélé stable et offre de bons compromis sur
l’ensemble des corpus.
Les modèles classiques ont également obtenu de bons résultats, notamment SVM et Naive
Bayes, avec une accuracy globale de 89 %, mais sont moins performants sur la classe
minoritaire du corpus à trois classes, souvent mal détectée (rappel inférieur à 40%). Les modèles
profonds, quant à eux, affichent une légère supériorité dans la détection de cette classe, grâce à
une meilleure capacité de généralisation. L’utilisation de la technique SMOTE a permis une
légère amélioration du rappel pour les modèles classiques.
Malgré les ressources limitées, il est possible de concevoir des systèmes fiables pour des
langues peu représentées, à condition d’adapter les approches aux spécificités linguistiques et
aux déséquilibres de données.