De Gulden Passer

Categorieën

Copyright 2021 - Vereniging van Antwerpse Bibliofielen

Proclaimer:
Wij zijn wel degelijk voor 100% verantwoordelijk voor al de inhoud van deze website.
Maar: missen is menselijk (en soms ook omgekeerd).
Indien er -onbedoeld dus- onjuiste of onvolledige informatie op deze pagina zou staan, vernemen we dat graag.
Zodat we er meteen wat aan kunnen verhelpen. Stuur even een mailtje.
Dank voor de medewerking!

Datum

11 apr 2022
Verlopen!

Tijd

14:00 - 15:30

Digital Heritage Seminar: Layout Analysis and OCR with Deep Learning and Heuristics

Clemens Neudecker, Staatsbibliothek zu Berlin

“New Tools for Old Documents – Layout Analysis and OCR with Deep Learning and Heuristics”

This talk will discuss the main achievements and experiences of the QURATOR project at the Berlin State Library (SBB) for document layout analysis. Historical documents that are being digitized in large quantities by libraries and archives frequently exhibit a wide array of features that disturb layout analysis, such as complex layouts with multiple columns, drop capitals and illustrations, skewed or curved text lines, noise, annotations, etc.

In order to deal with these challenges and defects, a robust document layout analysis was developed that is implemented by pixel-wise segmentation using convolutional neural networks. In addition, heuristic methods are applied to detect columns or marginalia, and to determine the reading order of text regions. A key objective lies in feeding the resulting outputs to subsequent processes like a text recognition (OCR) engine or an image similarity search.

Geef een antwoord