ALTO (XML)

standard XML pour codage de sortie d'OCR

ALTO (Analysed Layout and Text Object) est un standard XML permettant de rendre compte de la mise en page physique et de la structure logique d'un texte transcrit par reconnaissance optique de caractères (OCR). Le format est issu du projet européen METAe[1].

Ce schéma maintenu par la Bibliothèque du Congrès et la Bibliothèque nationale de France, est très utilisé pour la conversion en mode texte (OCR) en France et à l’étranger. Il est très adapté à la conservation à long terme des données issues de la conversion ; il permet une réutilisation ultérieure du mode texte, dans la mesure où il contient pour chaque boîte de texte :

  • les coordonnées,
  • le taux de confiance de reconnaissance
  • des éléments de forme (police par ex.).

Le format s'adapte tout particulièrement aux politiques de numérisation actuelles, il permet la superposition de l’image et du texte (en PDF par ex.).

La Bibliothèque nationale de Finlande a développé un éditeur en ligne permettant aux utilisateurs de corriger le texte reconnu de façon logicielle et d'ainsi améliorer le résultat de façon collaborative[2].

Exemple modifier

Partie décrivant la mise en page physique The Winchester news. (Winchester, Ky.)[3]

  <alto>
    <Description>
    ... <!-- Méta-données -->
    </Description>
    <Styles>
        <TextStyle ID="ID3" FONTSIZE="10.0"/>
    </Styles>
    <Layout>
        <Page ID="ID1" HEIGHT="25941" WIDTH="20463" PHYSICAL_IMG_NR="1" PRINTED_IMG_NR="[1]" PROCESSING="ID0">
            <PrintSpace HEIGHT="24453.0" WIDTH="19500.0" HPOS="294.0" VPOS="954.0" PC="0.93230003">
                <TextBlock ID="ID2" HEIGHT="1701" WIDTH="16026" HPOS="294" VPOS="972" type="simple" language="en">
                    <TextLine HEIGHT="90.0" WIDTH="3570.0" HPOS="3960.0" VPOS="972.0">
                        <String HEIGHT="81.0" WIDTH="36.0" HPOS="3960.0" VPOS="981.0" CONTENT="J" WC="0.8095238"/>
                        <SP WIDTH="36.0" HPOS="3996.0" VPOS="981.0"/>
                        <String HEIGHT="66.0" WIDTH="42.0" HPOS="4032.0" VPOS="993.0" CONTENT="a" WC="0.8095238"/>
                        <SP WIDTH="68.0" HPOS="4074.0" VPOS="993.0"/>
                        <String HEIGHT="81.0" WIDTH="228.0" HPOS="4143.0" VPOS="972.0" CONTENT="Ira" WC="0.95238096"/>
                        <SP WIDTH="447.0" HPOS="4371.0" VPOS="972.0"/>
                        <String HEIGHT="84.0" WIDTH="81.0" HPOS="4818.0" VPOS="975.0" CONTENT="mj" WC="0.8095238"/>
                        <SP WIDTH="687.0" HPOS="4899.0" VPOS="975.0"/>
                        <String HEIGHT="63.0" WIDTH="105.0" HPOS="5586.0" VPOS="984.0" CONTENT="iI" WC="0.8095238"/>
                        <SP WIDTH="416.0" HPOS="5691.0" VPOS="984.0"/>
                        <String HEIGHT="90.0" WIDTH="810.0" HPOS="6108.0" VPOS="972.0" CONTENT="tE1r" WC="0.8095238"/>
                        <SP WIDTH="585.0" HPOS="6918.0" VPOS="972.0"/>
                        <String HEIGHT="51.0" WIDTH="27.0" HPOS="7503.0" VPOS="1008.0" CONTENT="3" WC="0.8095238"/>
                    </TextLine>
                    <TextLine HEIGHT="39.0" WIDTH="24.0" HPOS="6792.0" VPOS="1065.0">
                        <String HEIGHT="39.0" WIDTH="24.0" HPOS="6792.0" VPOS="1065.0" CONTENT="i" WC="0.8095238"/>
                    </TextLine>
                    <TextLine HEIGHT="42.0" WIDTH="30.0" HPOS="2517.0" VPOS="1125.0">
                        <String STYLEREFS="ID3" HEIGHT="42.0" WIDTH="30.0" HPOS="2517.0" VPOS="1125.0" CONTENT="c" WC="0.8095238"/>
                    </TextLine>
                    <TextLine HEIGHT="1269.0" WIDTH="16026.0" HPOS="294.0" VPOS="1404.0">
                        <String HEIGHT="1269.0" WIDTH="2052.0" HPOS="294.0" VPOS="1404.0" CONTENT="JiLas" WC="0.8095238">
                            <ALTERNATIVE>Jails</ALTERNATIVE>
                        </String>
                        <SP WIDTH="272.0" HPOS="2346.0" VPOS="1404.0"/>
                        <String STYLEREFS="ID4" HEIGHT="219.0" WIDTH="1023.0" HPOS="2619.0" VPOS="2184.0" CONTENT="Edition" WC="0.95238096"/>
                        <SP WIDTH="677.0" HPOS="3642.0" VPOS="2184.0"/>
                        <String STYLEREFS="ID5" HEIGHT="771.0" WIDTH="1920.0" HPOS="4320.0" VPOS="1839.0" CONTENT="THE" WC="1.0">
                            <ALTERNATIVE>TIIE</ALTERNATIVE>
                            <ALTERNATIVE>TIE</ALTERNATIVE>
                        </String>
                        <SP WIDTH="503.0" HPOS="6240.0" VPOS="1839.0"/>
                        <String STYLEREFS="ID5" HEIGHT="792.0" WIDTH="6312.0" HPOS="6744.0" VPOS="1833.0" CONTENT="WINCHESTER" WC="1.0"/>
                        <SP WIDTH="527.0" HPOS="13056.0" VPOS="1833.0"/>
                        <String STYLEREFS="ID5" HEIGHT="771.0" WIDTH="2736.0" HPOS="13584.0" VPOS="1824.0" CONTENT="NEWS" WC="1.0"/>
                    </TextLine>
                </TextBlock>
            </PrintSpace>
        </Page>
    </Layout>
  </alto>

Liens externes modifier

Articles connexes modifier

Notes et références modifier