MultiHTR - Multilinguale Handschriftenerkennung
Das MultiHTR-Team setzt die erfolgreiche erste Projektphase (01. Juni 2020 bis 31. Mai 2022) fort, um in der zweiten Phase (01. Juni 2022 bis 31. Mai 2024) das Sprachenportfolio zu erweitern und neueste Fortschritte in der Handschriftenerkennung (HTR) mittels künstlicher Intelligenz (KI) für die Bevölkerung und die Academia nutzbar zu machen. Schwerpunkte des Gesamtprojekts sind die (Weiter-)Entwicklung von Stenographie-Modellen für das Deutsche, das im hebräischen Alphabet geschriebene Jiddische, das Ukrainische, Russische, Serbische und Osmanische. Durch die automatisierten Transliterations- und Transkriptionsmodelle soll der Öffentlichkeit und der Forschung der Zugang zu bisher unzugänglichen handschriftlichen Materialien ermöglicht werden.
Das MultiHTR-Team setzt die Ergebnisse der ersten erfolgreichen Projektphase (01. Juni 2020 bis 31. Mai 2022) fort, um in der zweiten Projektphase (01. Juni 2022 bis 31. Mai 2024) das Sprachenportfolio auszuweiten und die neuesten Fortschritte im Bereich der Handschriftenerkennung (HTR) für die Bevölkerung und die Academia nutzbar zu machen.
In dieser Fortsetzung werden mittels künstlicher Intelligenz (KI) fortschrittliche Handschriftenerkennungsmodelle für bisher nicht berücksichtigte Sprachen und Schriften entwickelt. Ziel ist es, den Zugang zu komplexen handschriftlichen Materialien zu ermöglichen, die für die meisten Nutzer*innen bisher unzugänglich waren.
Die Schwerpunkte der zweiten Phase umfassen die (Weiter-)Entwicklung der Stenographie-Modelle für das Deutsche. Zusätzlich wird ein Modell für Dokumente in hebräischer Schrift geschriebenem Jiddisch entwickelt, um sie den Nachkommen und der Öffentlichkeit zugänglich zu machen. Eine weitere Komponente widmet sich der Entwicklung eines HTR-Modells für die ukrainische Sprache, um die Erschließung ukrainischsprachiger Archivbestände effizienter zu gestalten. Parallel dazu werden Osmanisch-Türkisch- und Russisch-Modelle weiterentwickelt.
Das übergeordnete Ziel des Projekts besteht darin, die Fortschritte im Bereich der Handschriftenerkennung auf Basis von KI systematisch voranzutreiben und die erworbenen Technologien zum Wohl der Bevölkerung einzusetzen. Insbesondere konzentriert sich das Vorhaben auf die Entwicklung von Handschriftenerkennungsmodellen für das Deutsche sowie für relevante Migrationssprachen in Deutschland/Baden-Württemberg. Diese Modelle sollen durch KI trainiert werden, um Archivmaterialien, Egodokumente und Korrespondenzen automatisch zu entschlüsseln.
In der ersten Projektphase veröffentlichte das Projekt Modelle für das Serbische und Russische.
Die automatisch entschlüsselten Texte dienen einerseits als Grundlage für geisteswissenschaftliche Forschungen, insbesondere für mikrohistorische, diskursanalytische und soziolinguistische Analysen. Andererseits profitiert die Bevölkerung direkt, indem komplexe, mehrsprachige Dokumente ohne paläographische Kenntnisse zugänglich werden. Das Projekt wird vom Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg im Rahmen der Landesdigitalisierungsstrategie digital@bw gefördert.
Projektstart: 06.01.2020
Projektstatus: laufend
Prof. Dr. Achim Rabus, Milanka Matić-Chalkitis, Aleksej Tikhonov, Lesley Loew, Martin Meindl
Linguistik, Slavistik
Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg
Aleksej Tikhonov (multihtr@slavistik.uni-freiburg.de)
Webseite: https://www.multihtr.uni-freiburg.de/