OCR-D

Projekt-Kurzbeschreibung

OCR-D ist ein Kooperationsprojekt zur Weiterentwicklung von Verfahren der Optical Character Recognition (OCR).
Im Projekt werden Workflow und Verfahren der automatischen Texterkennung untersucht, beschrieben und ggf. optimiert. Ein wesentliches Ziel ist es, die Transformation deutschsprachiger Drucke des 16. bis 18. Jahrhunderts in elektronischen Volltext konzeptuell vorzubereiten.

Projektinhalt

In den letzten Jahren haben vor allem wissenschaftliche Bibliotheken umfangreiche Bestände bilddigitalisiert. Mit Hilfe von OCR-Verfahren können aus diesen Bilddaten durchsuchbare Volltexte automatisch generiert werden. Der Mehrwert durch die Nutzung von digitalen Volltexten ist in vielen Wissenschaftsdisziplinen, insbesondere im Bereich der geisteswissenschaftlichen Forschung heute unverzichtbar.
Bislang ist der Zugriff auf den elektronischen Volltext jedoch oft nicht oder nur in unzureichender Form möglich. Viele historische Bestände liegen in digitalisierter Form durch die Verzeichnisse der im deutschen Sprachbereich erschienenen Drucke (VD) vor. Resultate aus gängigen OCR-Verfahren waren bislang ungenügend.

Hier setzt das DFG-geförderte Projekt OCR-D an, dessen Hauptziel die konzeptionelle und technische Vorbereitung für die Volltexttransformation der VD ist. Die Aufgabe der automatischen Volltexterkennung wird in ihre einzelnen Prozessschritte zerlegt, die in der Open Source OCR-D-Software nachvollzogen werden können. Dies ermöglicht es, optimale Workflows für die zu prozessierenden alten Drucke zu erstellen und damit wissenschaftlich verwertbare Volltexte zu generieren.

Dazu wurde ein Koordinationsprojekt gebildet, das in der ersten Projektphase Entwicklungsbedarfe identifizierte. Diese wurden in der zweiten Projektphase von insgesamt acht Modulprojekten bearbeitet. In der derzeitigen dritten Projektphase (Laufzeit: 2021–2024) steht die konzeptionelle Vorbereitung für die automatische Generierung von Volltexten für die VD im Fokus. Außerdem arbeiten vier Implementierungsprojekte daran, OCR-D in bestehende Anwendungen und Infrastrukturen zu integrieren, während drei Modulprojekte OCR-D-Werkzeuge weiter optimieren.

Am Koordinierungsprojekt beteiligt sind in der dritten Phase die Herzog August Bibliothek Wolfenbüttel (HAB), die Berlin-Brandenburgische Akademie der Wissenschaften (BBAW), die Staatsbibliothek zu Berlin (SBB), die Niedersächsische Staats- und Universitätsbibliothek Göttingen (SUB) sowie die Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen (GWDG). Unterstützt wird das Projekt durch Experten, Wissenschaftler:innen und Bibliotheken.

In allen Schritten begrüßen wir einen regen Austausch mit Kolleg:innen aus anderen Projekten und Einrichtungen sowie Dienstleistern. OCR-D adressiert neben den VD-Bibliotheken alle Einrichtungen und Einzelpersonen, die unsere frei verfügbare Software nutzen möchten, um Volltexte zu generieren.

Projektverantwortliche

Projektverantwortliche im Koordinierungsprojekt sind:

Johannes Mangei (HAB), Alexander Geyken (BBAW), Reinhard Altenhöner (SBB), Mustafa Dogan (SUB), Philipp Wieder (GWDG)

Projektmitarbeitende

Mitarbeitende im Koordinierungsprojekt sind:

Lena Hinrichsen (HAB), Matthias Boenig (BBAW), Konstantin Baierer u. Clemens Neudecker (beide SBB), Kristine Schima-Voigt, Paul Pestov, Mareen Geestmann u. Michelle Weidling (alle SUB), Triet Doan, Mehmed Mustafa und Jonas Schrewe (alle GWDG).

Dazu kommen mehrere weitere Einrichtungen sowie Mitarbeitende in unseren Implementierungs- und Modulprojekten.

Förderung

Deutsche Forschungsgemeinschaft

Mehr unter

https://ocr-d.de/

DHd-Mailingliste

Registrieren Sie sich für die DHd-Mailingliste [Info]. Um frühere Nachrichten an diese Liste zu sehen, besuchen Sie bitte das Archiv der Liste DHd [Link]. (Das aktuelle Archiv ist nur für die Abonnenten der Liste zugänglich.) .