PAGE (Page Analysis and Ground truth Elements) est un standard XML pour l'encodage de documents numérisés[1]. Comparable au format ALTO, il permet de rendre compte de l'organisation et de la structure d'une page et de ses contenus.

PAGE XML peut être utilisé afin de décrire :

  • le contenu des pages (régions, lignes de texte, mots, glyphes, ordre de lecture, contenu du texte, ...)
  • l'évaluation de l'analyse de la mise en page (profils d'évaluation, résultats d'évaluation, ...)
  • le découpage de l'image du document (grilles de découpage)

Le format est développé par le Pattern Recognition & Image Analysis Lab (PRIMA), au sein de l'Université de Salford à Manchester.

Ce schéma a été conçu pour être utilisé conjointement de techniques de segmentation et de transcription automatique (OCR et HTR) : en effet, PAGE vise à prendre en charge chacune des différentes étapes de la chaîne de traitement pour l'analyse de documents images (de l'amélioration de l'image à l'analyse de la mise en page en passant par l'OCR).

Le schéma PAGE XML est notamment utilisé comme format d'export et d'import par logiciels de transcription automatique tels qu'eScriptorium[2] et Transkribus[3]. C'est également un format d'export utilisé par Kraken, un système OCR clé en main optimisé pour les documents en caractères historiques et non-latins[4].

Structure globale modifier

Le format PAGE donne un cadre pour décrire les caractéristiques des images (bordures d'images, distorsions géométriques, corrections correspondantes, binarisation, etc.), ainsi que la mise en page et le contenu des pages[5] :

<?xml version="1.0" encoding="UTF-8"?>
<PcGts xmlns="http://schema.primaresearch.org/PAGE/gts/pagecontent/2016-07-15"
       xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
       xsi:schemaLocation="http://schema.primaresearch.org/PAGE/gts/pagecontent/2016-07-15
       http://schema.primaresearch.org/PAGE/gts/pagecontent/2016-07-15/pagecontent.xsd">
    <Metadata></Metadata>
    <Page imageFilename="SimplePage.png" imageWidth="800" imageHeight="600">
        <ReadingOrder></ReadingOrder>
        <TextRegion></TextRegion>
            </Page>
</PcGts>

Tous les formats sont définis par un schéma XML, hébergé officiellement sur primaresearch.org.

Liens externes modifier

Notes et références modifier