Veranstaltungsprogramm

Eine Übersicht aller Sessions/Sitzungen dieser Tagung.
Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.

 
Sitzungsübersicht
Sitzung
V15: Optical Character Recognition
Zeit:
Donnerstag, 05.03.2020:
11:00 - 12:30

Chair der Sitzung: Alexander Dunst, Universität Paderborn
Ort: H 3

Zeige Hilfe zu 'Vergrößern oder verkleinern Sie den Text der Zusammenfassung' an
Präsentationen

The rapid rise of Fraktur

Nikolaus Weichselbaumer1, Mathias Seuret2, Saskia Limbach1, Lena Hinrichsen1, Andreas Maier2, Vincent Christlein2

1JGU Mainz, Deutschland; 2FAU Erlangen, Deutschland

This paper charts the rise of Fraktur as the leading font for printed texts in German by analysing a large dataset of digitised books from the Bavarian State Library using a new tool to autmatically recognise the main font. This is the first study showing statistical data for font usage in any period. It is as much an attempt at furthering the research on Fraktur as it is a demonstration of this method.



Volltexttransformation frühneuzeitlicher Drucke – Ergebnisse und Perspektiven des OCR-D-Projekts

Matthias Boenig2, Elisabeth Engl1, Konstantin Baierer3, Volker Hartmann4, Clemens Neudecker3

1Herzog-August-Bibliothek Wolfenbüttel, Deutschland; 2Berlin-Brandenburgische Akademie der Wissenschaften, Deutschland; 3Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, Deutschland; 4Karlsruher Institut für Technologie

Das schriftliche Kulturgut des deutschsprachigen Raums aus dem 16.–18. Jahrhundert wird schon seit Jahrzehnten in den Verzeichnissen der im deutschen Sprachraum erschienenen Drucke (VD) zusammengetragen. Ein signifikanter Anteil der verzeichneten Titel wurde der Forschung bereits durch die Bereitstellung von Volldigitalisaten oder einzelnen Schlüsselseiten leichter zugänglich gemacht. Das DFG-Projekt OCR-D nimmt sich seit Oktober 2015 im Rahmen der Koordinierten Förderinitiative zur Weiterentwicklung von Verfahren für die Optical-Character-Recognition (OCR) dieser Aufgabe an, indem es eine modular aufgebaute Open Source Software entwickelt, deren Werkzeuge alle für die Texterkennung nötigen Schritte abdecken sollen. Der modulare Ansatz ermöglicht es, die technischen Abläufe und Parameter der Texterkennung stets nachzuvollziehen und maßgeschneiderte Workflows zu definieren, die jeweils optimale Ergebnisse für spezifische Titel aus dem Zeitraum des 16. bis frühen 20. Jahrhunderts liefert. Im Vortrag wird in vier Thesen eine notwendige Begrenzung der Spielräume vorgenommen. Ziel ist es, den Forderungen der DH nach Volltexten gerecht zu werden.



Best-practices zur Erkennung alter Drucke und Handschriften. Die Nutzung von Transkribus large- und small-scale

Tobias Hodel

Universität Bern, Schweiz

Dank der Verbesserung von Handschriftenerkennung können sowohl alte Drucke als auch handschriftliche Dokumente mit guter Qualität erkannt werden. Je nach gewünschtem Ziel unterscheidet sich jedoch die Vorgehensweise bei der Aufbereitung der Dokumente. An unterschiedlichen Stellen muss mehr oder weniger Aufwand betrieben werden.

Anhand von drei typischen Zielen werden best-practice Workflows aufgezeigt, damit der Ressourceneinsatz passgenau geplant werden kann.

Im Rahmen des Vortrags wird gleichzeitig aufgezeigt, inwiefern selbsttrainierte Modelle zur Erkennung von Text evaluiert werden können.

Der Vortrag basiert auf der Nutzung der Software Transkribus und Algorithmen, die im Rahmen von Projekt READ entwickelt wurden



 
Impressum · Kontaktadresse:
Datenschutzerklärung · Veranstaltung: DHd-Tagung 2020
Conference Software - ConfTool Pro 2.6.132
© 2001 - 2020 by Dr. H. Weinreich, Hamburg, Germany