Skip to content

PAGE without words #5

@mikegerber

Description

@mikegerber

@kba asked me to put this comment from a private Gitter conversation into an issue:

bzgl. "input PAGE-XML not having words" wäre mein Input, dass ich damit leben kann wenn PAGE ohne Word-Elemente einfach nicht konvertiert werden kann. Meine Meinung wäre sogar, dass eine Wortsegementierung an dieser Stelle nicht angebracht wäre und das entweder die Layoutsegmentierung oder die OCR machen sollte. (Die OCR auch nur weil aus den CTC-Positionen eine für manche Zweke brauchbare Glyphsegmentierung als Abfallprodukt abfällt und das relativ einfach sich auf Wörter übertragen lässt, wie in ocrd_calamari)

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions