Unsere WEB-basierte FinderApp GoetheFind durchsucht mit computerlinguistischen Methoden die Originalausgaben Goethes Faust und besitzt multimediale Erweiterungen: Neben textorientierter Ausgabe der Treffer können die User auch das Faksimileextrakt des Originaltexts sehen und mit einem Klick in die zugehörige Szene einer Videoaufnahme springen oder aus einem Hörbuch vorgelesen bekommen. GoetheFind verwendet Original-Faksimile, die Videoaufnahme eines Schauspiels von Faust I mit Gustav Gründgens und ein „open-source“ Hörbuch. Für Faust II produzierten wir mit dem Synchronsprecher Mike Carl professionelle Sprachaufnahmen. GoetheFind integriert ein Übersetzungstool, das mit unterschiedlichen Methoden, auch aus dem Bereich des Natural Language Processing, orthographische historische in normalisierte Schreibweisen übersetzt.
Die FinderApp GoetheFind (http://goethefind.cis.lmu.de) ist unsere neueste FinderApp, die mit computerlinguistischen Methoden die Originalausgabe von Goethes Faust durchsucht und auf DHD 2016 in Leipzig präsentiert wurde. Im Zentrum von GoetheFind steht unser neuer browser-basierter Faksimile-Viewer, der die Schaltstelle der multimedialen Ausgabe der Suchtreffer darstellt: Im Browser werden die Treffer im Faksimile der Originalausgaben gehighlighted dargestellt. Sie sind mit der entsprechenden Szene des Videos der Bühnenaufführung vom Hamburger Schauspielhaus mit Gustav Gründgens (1960) und einer gesprochenen Faustausgabe verlinkt. Für Faust II produzierten wir mit dem Synchronsprecher Mike Carl professionelle Sprachaufnahmen die wir ebenso in GoetheFind verlinkten. Im Faksimile-Viewer implementierten wir einen sogenannten Investigate-Mode, der Einzelheiten und computerlinguistische Informationen über den zugrundeliegenden Editionstext ausgeben kann und es erlaubt Rückmeldungen an die Editoren und Programmierer zu geben. GoetheFind entstand aus den nunmehr dreijährigen Erkenntnissen und Erfahrungen mit unserer FinderApp WiTTFind (http://wittfind.cis.uni-muenchen.de), mit der wir im Sommer 2014 den EU-AWARD des EU-Projekt Digitised Manuscripts to Europeana (DM2E) gewannen. In unserer neuen FinderApp GoetheFind, setzen wir Ideen des „Standoff-Markups“ um, da die Suche zum einen auf einer sehr reduzierten „XML-TEI-P5 anchor-key“ Edition basiert, zum anderen auf Metainformationen, die in unserer „NoSQL-mongo“-Datenbank gespeichert sind. Alle relevanten Editions-, OCR- und Transkriptionsinformationen sind in der Datenbank gespeichert, damit eine multimediale Trefferausgabe möglich wird. Diese zweigeteilte Modellierung der Textedition vermeidet „overtagged“-XML. Mit Hilfe unseres speziellen elektronischen Goethe Faust Lexikons GoetheLEX, das historische Schreibvarianten einschließt, automatischer Satz- und Textstrukturierung, Part of Speech Tagging und lokalen Grammatiken erlaubt GoetheFind computerlinguistisch orientierte und auf die Nutzer feinabgestimmte Anfragen. Neben den multimedialen Erweiterung besitzt GoetheFind auch ein Übersetzertool, das die bestehenden orthographischen Schreibvarianten des Deutschen aus dem Zeitraum 1750 bis 1850 in gegenwartssprachliches Deutsch und umgekehrt übersetzen kann. Zur Übersetzung verwendeten wir verschiedene Ansätze wie, reguläre Ausdrücke und Transkriptionsregeln, buchstabenbasierte statistische maschinelle Übersetzung und ein neuronales Encoder-Decoder-Modell das regelbasierte Technologien, elektronische Lexika und verschiedene Computerlinguistische Tools kombiniert.
Grundlage unserer FinderApp GoetheFind ist die vom Deutschen Textarchiv (DTA) der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) erstellte XML-TEI-P5 Textedition im DTABf Format, dazu die Bilddigitalisate der Staatsbibliothek zu Berlin. Zur multimedialen Ausgabe der Treffer wurden die Bühnen- und Audioaufnahmen mit Hilfe des Clarin-Tools: „Munich Automatic Segmentation System WebMAUS“ semiautomatisch transkribiert.
Die Implementation von leistungsfähigen Suchmaschinen mit multimedialen Erweiterungen schließt eine Lücke zwischen reiner Video und Hörbuchaufführung und zugrundeliegendem Text, bzw. Untertitel. Mühsame manuelle Transkriptionsarbeit könnte erspart bleiben, Untertitel werden suchmaschinenorientiert behandelt und dienen als Index zum Film, bzw. Hörbuch. So wäre unsere FinderApp sicher ein sehr interessantes Tool für Schauspieler oder Sprechakttheoretiker und -praktiker.
Dr. Max Hadersbeck, Elisabeth Eder, Matthias Lindinger, Stefan Schweter
Ludwig Maximilians Universität München