WebLicht - eine der Hauptentwicklungen des Projekts CLARIN-D und eine Gemeinschaftsarbeit der Projektpartner von CLARIN-D - ist eine Service-orientierte Architektur (SOA) zur Erstellung annotierter Textcorpora. Sie wird seit Oktober 2008, und damit bereits im Rahmen des CLARIN-D-Vorgängerprojekts D-SPIN, entwickelt. Die Weiterentwicklung von WebLicht zu einer umfassenden virtuellen Forschungsumgebung stellt einen wichtigen Aspekt der Entwicklungsbemühungen innerhalb von CLARIN-D dar.
Technisch wird WebLicht mittels Prozessketten von Restful Web Services umgesetzt. Jeder Web Service kapselt ein sprachtechnologisches Werkzeug, etwa die Abfragekomponente eines Korpus, einen Konverter, einen Tokenizer, einen Tagger, einen Parser oder dergleichen. Außerdem muss jeweils die Übersetzung von und zu den für das Werkzeug spezischen Ein- u. Ausgabeformaten geleistet werden. Jeder Web Service fügt mindestens eine Annotationsebene in Form spezifisch angereicherter Information hinzu. Am Ende steht ein auf verschiedenen Ebenen analysiertes Korpus, das in Form eines XML-Dokuments vorliegt.
Damit die Web Services ineinandergreifen können, muss Kompatibilität zu einem von allen Diensten "verstandenen" gemeinsamen Austauschformat sichergestellt werden. Hierbei handelt es sich um das projektintern definierte Text Corpus Format (TCF). Letzteres ist weitgehend kompatibel mit bestehenden einschlägigen Formaten wie Negra, Paula, TüBa-D/Z etc., bzw. über spezifische Konverter jederzeit übersetzbar.
Als Entwicklung des CLARIN-D-Projektes wurde WebLicht unter Mitarbeit folgender Projektpartner erstellt:
http://de.clarin.eu/index.php/de/sprachressourcen/weblicht
Prof. Dr. Erhard Hinrichs
Seminar für Sprachwissenschaft
Universität Tübingen
Wilhelmstr. 19
72074 Tübingen
Tel.: +49 7071 29 74279
Fax: +49 7071 29 52 14
Email: erhard.hinrichs [AT] uni-tuebingen.de