
Travail à réaliser
Après une première phase de bibliographie, il est apparu que la segmentation de documents bénéficiait déjà d'une littérature abondante. Cependant, peu de documents traitent des aspects de binarisation de documents anciens, qui présentent de fortes dégradations combinées à un alphabet très varié. Il nous a donc semblé intéressant de nous focaliser sur la binarisation, car d'une part il n'existe pas encore de technique pleinement satisfaisante, et d'autre part, étant placé en début de la chaîne de traitements, cette étape est critique pour tout le reste du traitement. La séquence complète qui va de l'image à une information purement textuelle est longue et dans le cadre de mon stage, nous avons choisi de nous limiter à ce point particulier. C'est l'étude de l'état de l'art qui m'a conduit à ce choix.
Le travail à réaliser se focalisera donc sur la binarisation de documents dégradés pour extraire le texte du fond (voir figure 1.2). Grâce à une méthode de segmentation déjà existante, le document sera ensuite découpé pour produire une description interprétable par le second module d'interrogation. Les documents utilisés présenteront un aspect fortement dégradé, avec un fond non uniforme, des pages déchirées, froissés et/ou des tâches d'encre recouvrant partiellement le texte. L'objectif est alors de retrouver les pixels de texte, et de séparer en deux classes le document : texte et fond.
![]() |
![]() |
![]() |
Fig 1.2 - Exemples de documents manuscrits. |
![]() ![]() | ![]() | ![]() |