Présentation de l'organisation

Filtres dérivateurs

Les filtres dérivateurs permettent d'avoir une meilleure représentation fréquentielle de l'image tout en conservant les informations spatiales. En effet, ces filtres, dans le principe, réalisent une étude fréquentielle par pixel. Dans la pratique, c'est en convoluant l'image avec un noyau dérivateur que l'on obtient la dérivée d'une image. Il existe de nombreux noyaux dérivateurs, et de leur définition dépendent les caractéristiques du filtre. Ainsi, il est possible de définir des filtres ayant une plus grande sensibilité aux contours horizontaux, verticaux et diagonaux

T. Sato, T. Kanade, E. K. Hughes, and M. A. Smith. Video ocr for digital news archive.In International Workshop on Content-Based Access of Image and Video Databases (CAIVD ’98)
pages 52–60, 1998

[SKHS98]. Il est alors possible de repérer le texte en convoluant l'image avec ces noyaux pour extraire de l'image les formes attendues et repérer ainsi plus facilement le texte. De façon identique aux différents algorithme d'analyse de texture, ces filtres sont sensibles à l'échelle du texte. Pour éviter cet inconvénient, de nombreuses techniques utilisent une approche multi résolution. C'est le cas de la méthode proposé par Wu qui utilise trois filtres dérivateurs à différentes échelles

V. Wu, R. Manmatha, and E. M. Riseman. Textfinder : An automatic system to detect and recognize text in images.IEEE Transactions on Pattern Analysis and Machine Intelligence
21(11) :1224–1229, 1999

[WMR99]. Tous les filtres sont basés sur la dérivée seconde d'une gaussienne, avec un écart type qui varie, ce qui a pour effet de réaliser une analyse multi-résolution. En effet, un filtrage par une gaussienne revient à réduire l'échelle de l'image, en fonction de l'écart type. Suite à ces filtrages, chaque pixel est associé à un vecteur de neuf dimensions. En utilisant un algorithme de classification classique (les K-moyennes, avec K=3), il regroupe les pixels entre eux afin d'obtenir trois classes (texte, arrière plan et intermédiaire), pour ensuite réaliser une transformation de morphologie mathématique (dilatation). Cependant, la segmentation n'est pas suffisamment précise pour permettre de s'arrêter là. Les régions détectées vont servir pour identifier les zones d'intérêt et une étude plus approfondie sera réalisée pour ajuster les frontières. Une étude ascendante est alors réalisée, en partant d'une détection de contours, car les caractères forment généralement des contours bien marqués avec le fond. En prenant en compte toutes ces informations, la méthode traite très bien les images et un très bon taux de reconnaissance est obtenu.
Une autre sorte de filtres dérivateurs utilisés sont les filtres de Gabor. Les filtres de Gabor proposés par Daugman

G. Daugman. Uncertainty relations for resolution in space, spacial frequency and orientation optimized by two-dimensional visual cortical filter.Journal of the Optical Society of America
2(A) :1160–1169, 1985

[Dau85] ont la particularité d'avoir trois paramètres permettant de rendre plus sensible le filtre à certains types de variations :

(22)

Datong propose en 2001

C. Datong, K. Shearer, and H. Bourlard. Text enhancement with asymmetric filter for video ocr.In ICIAP ’01 : Proceedings of the 11th International Conference on Image Analysis and Processing
page 192, Washington, DC, USA, 2001

[DSB01] de paramétrer ces filtres en réalisant une première étude sur l'image pour détecter les contours, et ensuite d'estimer l'orientation et la taille du texte ; $\lambda$ et $\theta$ sont déduits de ces estimations. Ainsi, en utilisant deux filtres complémentaires de Gabor, grâce à une bonne définition de $\varphi$ et de

, l'image est traitée afin d'augmenter le contraste, là où le filtre a répondu fortement.