OCR-D

Projekt-Kurzbeschreibung

OCR-D ist ein Kooperationsprojekt zur Weiterentwicklung von Verfahren der Optical Character Recognition (OCR).
Im Projekt werden Workflow und Verfahren der automatischen Texterkennung untersucht, beschrieben und ggf. optimiert. Ein wesentliches Ziel ist es, die Transformation deutschsprachiger Drucke des 16.-19. Jahrhunderts in elektronischen Volltext konzeptuell vorzubereiten.

Projektinhalt

In den letzten Jahren haben vor allem wissenschaftliche Bibliotheken umfangreiche Bestände bilddigitalisiert. Mit Hilfe von OCR-Verfahren können aus diesen Bilddaten durchsuchbare Volltexte automatisch generiert werden. Der Mehrwert durch die Nutzung von digitalen Volltexten ist in vielen Wissenschaftsdisziplinen, insbesondere im Bereich der geisteswissenschaftlichen Forschung heute unverzichtbar.
Bislang ist der Zugriff auf den elektronischen Volltext jedoch oft nicht oder nur in unzureichender Form möglich. Viele historische Bestände liegen in digitalisierter Form durch die „Verzeichnisse der im deutschen Sprachbereich erschienenen Drucke“ (kurz VD) vor. Resultate aus gängigen OCR-Verfahren waren bislang ungenügend. Insbesondere werden alte Drucktypen, vor allem Fraktur, ungenügend erkannt.
Hier besteht Entwicklungsbedarf, den wir in OCR-D aufdecken. Wir bauen dabei auf die bereits bestehende Tools und Untersuchungen auf. Durch eine Neu-Kombination, in seltenen Fällen auch durch Neuentwicklung, soll der OCR-Prozess für die VD-Drucke spezialisiert werden. Dabei wird nach Antworten auf aktuelle technische, informationswissenschaftliche und organisatorische Probleme gesucht.
An diesem Vorhaben beteiligen sich die Herzog August Bibliothek Wolfenbüttel, die Bayerische Staatsbibliothek in München sowie die Berlin-Brandenburgische Akademie der Wissenschaften, im Besonderen das Deutsche Textarchiv (DTA) in Berlin. Unterstütz wird das Projekt durch Experten, Wissenschaftler und Bibliotheken.
Das Projekt wird durch die Deutsche Forschungsgemeinschaft (DFG) gefördert und hat eine Laufzeit von drei Jahren. In der ersten Phase werden Bedarfe aufgedeckt und Konzepte für den weiteren Verlauf erarbeitet. Die Kooperationsstruktur wird gefestigt und in der zweiten Phase fortgeführt. In dieser werden Ausschreibungen für Pilotprojekte erfolgen, die eine Beteiligung weiterer Einrichtungen ermöglicht. In allen Schritten begrüßen wir einen regen Austausch mit Kolleginnen und Kollegen aus artverwandten Projekten und Einrichtungen sowie Dienstleistern.
Am Ende des Gesamtvorhabens soll ein konsolidiertes Verfahren zur OCR-Verarbeitung von Digitalisaten des gedruckten deutschen Kulturerbes des 16. bis 19. Jh. erarbeitet sein.
 

Projekt-Mitarbeiter

Matthias Bönig u. Kay-Michael Würzner (BBAW), Sebastian Mangold (Bayerische Staatsbibliothek München), Elisa Herrmann (HAB)

Gefördert durch:

Deutsche Forschungsgemeinschaft
 

Mehr unter

www.ocr-d.de

DHd Mailingliste

Registrieren Sie sich für die DHd-Mailingliste (Info). Das Archiv finden Sie hier.