Présentation des objectifs

Objectifs poursuivis

Fig 1.1 - Organisation du travail.

C'est au cours d'un travail en partenariat avec une équipe de chercheurs italiens que le projet est né. En effet, ces chercheurs italiens travaillent sur des manuscrits médiévaux écrits en occitan, localisés dans la région de Montpellier traitant de recettes médico pharmaceutiques. Un de leurs problèmes majeur est l'indexation et la structuration de ces documents.

En associant les compétences des équipes I & M (Image & Modèles) spécialisée dans le traitement d'image et INCOD (Information et Connaissance Distribuées) concernée par la modélisation et la manipulation de données XML, des chercheurs du LSIS initièrent un projet permettant de structurer et d'interroger dans un environnement XML ce type de document. L'objectif de mon étude est de répertorier ce qui se fait dans le monde de la segmentation pour ensuite, en accord avec les deux équipes, proposer une solution. Ce stage s'inscrit donc dans le cadre de la construction d'une maquette permettant d'illustrer la représentation et l'interrogation de documents numérisés composés de zones de textes manuscrits, de zones de textes typographiques, d'images et de schémas dans un environnement XML.

Ce projet peut être séparé en deux parties, comme le présente la figure ci contre. Mon travail concerne la première partie. Suite à la numérisation, en Italie, des documents anciens traitant de recettes médico pharmaceutiques, le but de cette partie est de repérer le texte, les images et les annotations pour extraire une organisation physique du document.

Un deuxième stagiaire se focalise sur la deuxième partie qui s'organise en deux blocs : la modélisation des informations extraites du document et l'interrogation de ces informations via un langage de requête étendant le langage

XQuery est le langage de requêtes, recommandé par le W3C, pour les données XML

XQuery.

Ce travail doit permettre, à terme, de pouvoir interroger au sein d'une même requête l'information spatiale extraite de l'image, l'information extraite du texte (obtenu par une traduction ou par un logiciel de reconnaissance de caractères) et l'information sémantique (obtenu manuellement ou par relations spatiales). Une requête type pourrait donc être : " Quelle est la prescription la plus longue (qui contient le plus de phrase), qui se trouve sur plusieurs pages, et qui est illustrée par une figure ?" .