WebLicht: Web-basierte LRT Services für Deutsch
WebLicht ist eine Service Oriented Architecure (SOA) zur Erstellung annotierter Textcorpora. Sie wird seit Oktober 2008 im Rahmen des D-Spin Projekts entwickelt. Teilnehmer sind momentan:
- Abteilung Automatische Sprachverarbeitung - Universität Leipzig
- Berlin-Brandeburgische Akademie der Wissenschaften - Berlin
- Institut für Deutsche Sprache - Mannheim
- Institut für Maschinelle Sprachverarbeitung - Universität Stuttgart
- Seminar für Sprachwissenschaft - Universität Tübingen
WebLicht umfasst momentan ca. 90 Tools und Ressourcen rund um die automatische Erstellung linguistisch annotierter Textcorpora. Hierzu gehören unter anderem:
- Tokenizer
- Part-of-Speech Tagger
- Konstituenten-Parser
- Semantische Annotatoren
- etc.
Unterstützte Sprachen:
- deutsch
- englisch
- finnisch
- französisch
- italienisch
- rumänisch
- spanisch
Im Rahmen der Arbeiten an WebLicht wurde ein standardisiertes Datenformat zur Erstellung von Textcorpora definiert. Es ist weitgehend kompatibel mit bestehenden Formaten (Negra, Paula, TüBa-D/Z) bzw. über Konverter jederzeit übersetzbar.
A bunch of tutorials are online:
- How to create web services for WebLicht using several programming frameworks and languages
- Descriptions of the TCF 0.3 and TCF 0.4 formats
- Working with TCF documents: libraries and tools for creating, reading and visualization of TCF files
