WebLicht

WebLicht - eine der Hauptentwicklungen des Projekts CLARIN-D und eine Gemeinschaftsarbeit der Projektpartner von CLARIN-D - ist eine Service-orientierte Architektur (SOA) zur Erstellung annotierter Textcorpora. Sie wird seit Oktober 2008, und damit bereits im Rahmen des CLARIN-D-Vorgängerprojekts D-SPIN, entwickelt. Die Weiterentwicklung von WebLicht zu einer umfassenden virtuellen Forschungsumgebung stellt einen wichtigen Aspekt der Entwicklungsbemühungen innerhalb von CLARIN-D dar.

Technische Umsetzung

Technisch wird WebLicht mittels Prozessketten von Restful Web Services umgesetzt. Jeder Web Service kapselt ein sprachtechnologisches Werkzeug, etwa die Abfragekomponente eines Korpus, einen Konverter, einen Tokenizer, einen Tagger, einen Parser oder dergleichen. Außerdem muss jeweils die Übersetzung von und zu den für das Werkzeug spezischen Ein- u. Ausgabeformaten geleistet werden. Jeder Web Service fügt mindestens eine Annotationsebene in Form spezifisch angereicherter Information hinzu. Am Ende steht ein auf verschiedenen Ebenen analysiertes Korpus, das in Form eines XML-Dokuments vorliegt.
Damit die Web Services ineinandergreifen können, muss Kompatibilität zu einem von allen Diensten "verstandenen" gemeinsamen Austauschformat sichergestellt werden. Hierbei handelt es sich um das projektintern definierte Text Corpus Format (TCF). Letzteres ist weitgehend kompatibel mit bestehenden einschlägigen Formaten wie Negra, Paula, TüBa-D/Z etc., bzw. über spezifische Konverter jederzeit übersetzbar.

Projektpartner

Als Entwicklung des CLARIN-D-Projektes wurde WebLicht unter Mitarbeit folgender Projektpartner erstellt: 

  •         Bayrisches Archiv für Sprachsignale, Ludwig-Maximilians-Universität München (PD Dr. Florian Schiel)
  •         Berlin-Brandenburgische Akademie der Wissenschaften (Prof. Dr. Wolfgang Klein)
  •         Institut für Deutsche Sprache, Mannheim (Prof. Dr. Ludwig Eichinger)
  •         Max Planck Institut für Psycholinguistik, Nijmegen (Dipl.-Ing. Peter Wittenburg)
  •         Eberhard Karls Universität Tübingen, Seminar für Sprachwissenschaft (Prof. Dr. Erhard Hinrichs)
  •         Universität Hamburg, Zentrum für Sprachkorpora (Prof. Dr. Kristin Bührig)
  •         Universität Leipzig, Institut für Informatik (Prof. Dr. Gerhard Heyer)
  •         Universität des Saarlandes, Englische Sprach- und Übersetzungs­wissenschaft (Prof. Dr. Elke Teich)
  •         Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung (Prof. Dr. Jonas Kuhn)

Erfahren Sie mehr unter

http://de.clarin.eu/index.php/de/sprachressourcen/weblicht

Kontakt

Prof. Dr. Erhard Hinrichs
Seminar für Sprachwissenschaft
Universität Tübingen
Wilhelmstr. 19
72074 Tübingen

Tel.: +49 7071 29 74279
Fax: +49 7071 29 52 14

Email: erhard.hinrichs [AT] uni-tuebingen.de

DHd Mailingliste

Registrieren Sie sich für die DHd-Mailingliste (Info). Das Archiv finden Sie hier.