Arbeitspaket 5: Anpassung und Integration der Ressourcen und Tools

Beteiligte Partner: Universität Tübingen, MPI Nijmegen, Institut für deutsche Sprache Mannheim, Berlin-Brandenburgische Akademie der Wissenschaften Berlin, Universität Leipzig, Universität Frankfurt, DFKI Saarbrücken, Universität Stuttgart

Während in CLARIN die Erfassung und Klassifizierung von Sprachressourcen auf europäischer Ebene und deren Interoperabilität im Allgemeinen im Zentrum der Arbeiten steht, wird es hier darum gehen, die Standardisierung und Integration deutscher Ressourcen der verschiedenen Ressourcentypen durchzuführen. Die Konversion individueller Formate in Standardformate wird erprobt und exemplarisch mindestens für die Ressourcen der beteiligten Partner durchgeführt. Leztere werden durch Webservices zugänglich gemacht. Im Zuge dieser Arbeiten werden Leitlinien für prinzipielle Vorgehensweisen abgeleitet.

Zu den Dokumentationsaufgaben gehört die Entwicklung und Dokumentation linguistischer Kategorienvokabulare, mit denen die sprachlichen Einheiten in den verschiedenen Ressourcen und auf den verschiedenen linguistischen Beschreibungsebenen dargestellt werden können. Hierfür müssen die international entwickelten Kategorienrepositorien überprüft und ggf. für das Deutsche angepasst oder erweitert werden.

Die ermittelten Ressourcen werden mit einem normierten, mit CLARIN abgestimmten Satz von Metadaten versehen und für ihre Integration in Ressourcen-Repositorien sowie ihre Transformation in Web-Services vorbereitet. Es werden Referenzrichtlinien für den Zugriff auf die verschiedenen Ressourcentypen festgelegt.

In Zusammenarbeit mit nationalen Normungsgremien zu Sprachressourcen und den entsprechenden internationalen Gremien werden Normen wie SynAF für syntaktische Annotationen mitentwickelt. Dazu gehört auch, das ein strukturiertes Verfahren zur Erfassung von Metadaten für Sprachressourcen, das in Zusammenarbeit mit CLARIN für die Standardiserung vorbereitet wird.

In enger Zusammenarbeit mit Arbeitspaket 3 werden die notwendigen Schnittstellen zwischen Daten und Werkzeugen festgelegt. Die Interoperabilitäts-Leitlinien von CLARIN werden damit für deutsche bzw. in Deutschland vorhandene Ressourcen exemplarisch angewendet.

In enger Abstimmung mit Arbeitspaket 2 werden die für die Integration und Verknüpfung der Ressourcen notwendigen Webservices definiert und implementiert.

Die Arbeiten in diesem Aufgabenpaket werden ressourcenorientiert aufgeteilt. Der leitende Partner übernimmt die Abstimmung und die Kontrolle über die einzelnen Entwicklungsschritte. Alle Ressourcen werden: a) in ein standardkonformes Format gebracht; b) mit standardisierten Schnittstellen für den Zugriff und Datenaustausch versehen und c) über Webservices verfügbar gemacht.

Das MPI Nijmegen (Partner 1) bringt das DOBES Archiv als Ressource ein.

Die Universität Tübingen (Partner 2) bringt das Deutsche Wortnetz, annotierte Korpora und Baumbanken sowie kleinere Ressourcen ein.

Das Institut für Deutsche Sprache (Partner 3) bringt seine Korpora ein.

Die Berlin-Brandenburgische Akademie der Wissenschaften (Partner 4) bringt ihre Korpora und lexikalischen Ressourcen ein.

Die Universität Leipzig (Partner 5) bringt ihren "Deutschen Wortschatz"~und die daraus generierten lexikalischen Ressourcen ein.

Die Universität Frankfurt (Partner 6) bringt ihre sprachhistorischen Quellensammlungen und typologischen Daten ein.

Das DFKI (Partner 7) und die Unversität Stuttgart (Partner 8) bringen ihre sprachtechnologischen Werkzeuge ein. Partner 7 beteiligt sich darüber hinaus an der Umsetzung existierender Standards in Leitlinien für die Aufbereitung der Ressourcen.