Vers la construction d’une base d’images de documents arabes dégradés synthétiques

HOUMEUR, HOUSSAM

Accueil de DSpace
→
Faculté de mathématiques et de l'informatique et des sciences de la matière
→
Département de l'Informatique
→
Master
→
Voir le document

dc.contributor.author	HOUMEUR, HOUSSAM
dc.date.accessioned	2021-02-23T10:04:32Z
dc.date.available	2021-02-23T10:04:32Z
dc.date.issued	2020
dc.identifier.uri	http://dspace.univ-guelma.dz:8080/xmlui/handle/123456789/10128
dc.description.abstract	Les chercheurs dans le domaine du traitement d’images et de l’écriture ont été intéressés depuis longtemps à la construction des bases de données, dont l’objectif de fournir des grandes collections d’apprentissage et de test permettant aux chercheurs de tester et d’évaluer leurs méthodes sur un ensemble standard d’images. Ces bases de données doivent contenir, en plus des images, des informations de référence (dites de vérité terrain) expriment les résultats idéals attendus de certaines étapes de traitement, afin de pouvoir évaluer objectivement les résultats obtenus. Dans la plupart du temps, ces informations de vérité terrain sont préparées manuellement. Pour les anciens documents Arabes, qui sont le coeur de notre travail, le problème reste toujours posé. Presqu'aucune base de données, actuellement, n’est disponible au grand public et peu de travaux de recherche ce sont attaqué à la construction d’une base d’anciens documents. En fait, plusieurs difficultés persistent, parmi eux, (a) une grande partie des documents arabes et islamiques sont éparpillés à travers le monde (chez des familles spécifiques ou dans des mosquées ou des Zawaia) et ne sont pas conservés dans les institutions spécialisées, (b) la difficulté de l’établissement manuel des informations de vérité terrain, à cause des couts élevés, (c) les caractéristiques de dégradation et la complexité de structure des documents anciens en plus de l’absence des informations suffisantes sur ces images, compliquent de plus la construction d’une base d’anciens documents Arabes. Dans ce projet, nous nous intéressons à la construction d’une base d’images de documents arabes dégradés synthétiques mais dans le sens inverse c'est à dire à partir de textes et d’images de vérité terrain jusqu’aux images de documents dégradés synthétiques. Nous proposons ainsi un outil permettant la création automatique des images de documents synthétiques par la combinaison des images de texte avec des images de fond anciens, en plus des images bruitées avec différents types de dégradations liées documents anciens en s'inspirant de certains travaux de modélisation de bruit et de dégradation. La base construite contient également d'autres informations de vérité terrain (nombre de lignes de texte, leur position, nombre de mots dans chaque ligne, etc.) obtenues après plusieurs étapes d'analyse et de segmentation. Ainsi, la base construite contient trois niveaux d'informations de vérité terrain: textes de vérité terrain, images binaire de vérité terrain, et fichiers d'annotation de vérité terrain, ce qui rend notre base appropriée pour plusieurs applications d'analyse et de reconnaissance de documents.	en_US
dc.language.iso	fr	en_US
dc.subject	Base d'images, analyse de documents, bruit dans les images de documents, informations de vérité terrain	en_US
dc.title	Vers la construction d’une base d’images de documents arabes dégradés synthétiques	en_US
dc.type	Working Paper	en_US