Thèses en ligne de l'université 8 Mai 1945 Guelma

Vers la construction d’une base d’images de documents arabes dégradés synthétiques

Afficher la notice abrégée

dc.contributor.author HOUMEUR, HOUSSAM
dc.date.accessioned 2021-02-23T10:04:32Z
dc.date.available 2021-02-23T10:04:32Z
dc.date.issued 2020
dc.identifier.uri http://dspace.univ-guelma.dz:8080/xmlui/handle/123456789/10128
dc.description.abstract Les chercheurs dans le domaine du traitement d’images et de l’écriture ont été intéressés depuis longtemps à la construction des bases de données, dont l’objectif de fournir des grandes collections d’apprentissage et de test permettant aux chercheurs de tester et d’évaluer leurs méthodes sur un ensemble standard d’images. Ces bases de données doivent contenir, en plus des images, des informations de référence (dites de vérité terrain) expriment les résultats idéals attendus de certaines étapes de traitement, afin de pouvoir évaluer objectivement les résultats obtenus. Dans la plupart du temps, ces informations de vérité terrain sont préparées manuellement. Pour les anciens documents Arabes, qui sont le coeur de notre travail, le problème reste toujours posé. Presqu'aucune base de données, actuellement, n’est disponible au grand public et peu de travaux de recherche ce sont attaqué à la construction d’une base d’anciens documents. En fait, plusieurs difficultés persistent, parmi eux, (a) une grande partie des documents arabes et islamiques sont éparpillés à travers le monde (chez des familles spécifiques ou dans des mosquées ou des Zawaia) et ne sont pas conservés dans les institutions spécialisées, (b) la difficulté de l’établissement manuel des informations de vérité terrain, à cause des couts élevés, (c) les caractéristiques de dégradation et la complexité de structure des documents anciens en plus de l’absence des informations suffisantes sur ces images, compliquent de plus la construction d’une base d’anciens documents Arabes. Dans ce projet, nous nous intéressons à la construction d’une base d’images de documents arabes dégradés synthétiques mais dans le sens inverse c'est à dire à partir de textes et d’images de vérité terrain jusqu’aux images de documents dégradés synthétiques. Nous proposons ainsi un outil permettant la création automatique des images de documents synthétiques par la combinaison des images de texte avec des images de fond anciens, en plus des images bruitées avec différents types de dégradations liées documents anciens en s'inspirant de certains travaux de modélisation de bruit et de dégradation. La base construite contient également d'autres informations de vérité terrain (nombre de lignes de texte, leur position, nombre de mots dans chaque ligne, etc.) obtenues après plusieurs étapes d'analyse et de segmentation. Ainsi, la base construite contient trois niveaux d'informations de vérité terrain: textes de vérité terrain, images binaire de vérité terrain, et fichiers d'annotation de vérité terrain, ce qui rend notre base appropriée pour plusieurs applications d'analyse et de reconnaissance de documents. en_US
dc.language.iso fr en_US
dc.subject Base d'images, analyse de documents, bruit dans les images de documents, informations de vérité terrain en_US
dc.title Vers la construction d’une base d’images de documents arabes dégradés synthétiques en_US
dc.type Working Paper en_US


Fichier(s) constituant ce document

Ce document figure dans la(les) collection(s) suivante(s)

Afficher la notice abrégée

Chercher dans le dépôt


Recherche avancée

Parcourir

Mon compte