Deutsche Sprachressourcen-Infrastruktur D-SPIN
Laufzeit: 1. April 2008 - 31. März 2011 (36 Monate)
Förderinstitution: Bundesministerium für Bildung und Forschung (BMBF)
Fördersumme: 1,68 Millionen Euro
Zusammenfassung und Projektziele
Es ist nunmehr weithin akzeptiert, dass sich die Methoden und Arbeitsschritte in der Wissenschaft durch die Vernetzung und die Online-Verfügbarkeit von Primär- und Sekundärdaten und Werkzeugen stark verändern werden. Workshops, Seminare und Konferenzen behandeln nicht mehr nur die Frage, ob die innovative Dynamik der Informationstechnologie die Wissenschaft grundlegend beeinflussen wird, sondern vor allem, wie die unter dem Begriff eScience zusammengefassten Wissenschaftsprozesse in der Zukunft aussehen werden.
Inzwischen ist auch das weithin bekannte Zitat von J. Taylor - eScience is about global collaboration in key areas of science and the next generation of infrastructure that will enable it - unumstritten. Taylor stellt dar, dass der Begriff eScience neben den neuen kollaborativen Formen vor allem auch auf einer neuen Generation von Forschungs-Infrastrukturen (FI) aufbauen muss. Verschiedene Initiativen haben bereits begonnen, Elemente derartiger FI auszutesten. Auf nationaler Ebene hat sich das D-Grid Projekt (www.d-grid.de) etabliert, auf der europäischen Ebene die von den Mitgliedsstaaten getragene ESFRI Initiative mit ihren 35 Roadmap Projekten. CLARIN(www.clarin.eu) ist eines dieser Projekte, das am 1. Januar 2008 begonnen hat. D-SPIN wird als deutsche Gruppe mit CLARIN auf europäischer Ebene eng zusammenarbeiten.
In diesem nationalen, aber europäisch verankerten Kontext wird D-SPIN dafür sorgen, dass
- eine Reihe von dedizierten Zentren aufgebaut werden, die die erforderlichen Services auf deutschem aber auch auf europäischen bzw. weltweitem Niveau anbieten können, um eine voll funktionsfähige Infrastruktur für die deutsche Wissenschaft anbieten zu können;
- diese Zentren innerhalb einer Ressourcen-Anbieter-Förderation zusammenarbeiten und sich in die vom DFN-Verein gebildete AAI Infrastruktur (AAI = Authentification and Authorization Infrastructure) einbinden werden und es somit im Prinzip allen Wissenschaftlern der angeschlossenen Forschungseinrichtungen ermöglicht wird, mit einer einzigen Benutzerkennung auf Ressourcen zugreifen zu können;
- die deutschen Ressourcen, Daten wie auch Werkzeuge, über State-of-the-Art-Registraturen und Web-Services schrittweise verfügbar gemacht werden und damit auch die deutschen Sprachressourcen auf professionellem Niveau nachhaltig im Internet-Zeitalter erschlossen werden;
- die rechtlichen Rahmenbedingungen derart gestalten werden, dass es für die Wissenschaftler der in der DFN AAI vertretenen Institutionen ermöglicht wird, Daten-Ressourcen zu virtuellen Kollektionen zusammenzufassen und darauf Operationen auszuführen;
- Datenformate und Schnittstellen zwischen Datenressourcen und sprachtechnologischen Werkzeugen harmonisiert und standardisiert werden und diese dadurch interoperabel werden;
- auf diesen interoperablen Ressourcen einfache Workflow-Modelle und Werkzeuge definiert werden können, die dann auch von Nicht-Fachleuten aus anderen Wissenschaften zur Behandlung ihrer Fragestellungen angewendet werden können;
- einige Projekte zusammen mit Geisteswissenschaftlern durchgeführt werden, um konkrete Lösungen und auch Basis-Services zu erarbeiten und somit das Potenzial der Infrastruktur aufzuzeigen;
- frühzeitig Trainingsmaßnahmen durchgeführt werden, um Wissenschaftler, insbesondere der junge Generation, zur aktiven Teilnahme zu bewegen.
D-SPIN wird in Deutschland eng mit dem ontologiebasierten Informationsportal LT-World und den bereits erwähnten Projekten Text-Grid und DOBES zusammenarbeiten, die an einigen der genannten Fragestellungen arbeiten. Es wird das hervorragende Wissen bezüglich Standardisierungen, das insbesondere bei den Partnern Universität Tübingen, MPI für Psycholinguistik und DFKI (ISO/DIN TC37) vorhanden ist, einbeziehen.
Ebenfalls wird D-SPIN mit anderen Initiativen auf nationaler Ebene wie z.B. DFN, D-Grid, DARIAH und anderen zusammenarbeiten, um Insellösungen zu vermeiden. Zu erwähnen ist hier auch die Zusammenarbeit mit dem Projekt "Nachhaltigkeit linguistischer Daten", das seit 2006 die linguistischen Daten der Sonderforschungsbereiche 441 (Tübingen), 538 (Hamburg) und 632 (Postdam und HU Berlin) in langfristig nutzbare und einheitlich zugreifbare Ressourcen konvertiert bzw. entsprechende Software hierfür zur Verfügung stellt.
Gegenüber dem europäischen CLARIN-Verbund wird D-SPIN seine Selbstständigkeit bewahren und durch die Integration führender deutscher Institute garantieren, dass einerseits die deutschen Interessen an einer optimalen Versorgung national umgesetzt werden und andererseits ein für beide Seiten fruchtbarer Austausch stattfindet.
Arbeitspakete des Projekts
Die Projektarbeiten sind in acht Arbeitspakete untergliedert:
- AP 1: Management
- AP 2: Etablierung der technischen Infrastruktur
- AP 3: Ressourcen- und Anwendungsplanung im Hinblick auf geisteswissenschaftliche Anwender
- AP 4: Verbindung mit nationalen und europäischen Initiativen
- AP 5: Anpassung und Integration der Ressourcen und Tools
- AP 6: Training und Ausbildung
- AP 7: Urheberrecht und ethische Fragen der Verwendung von Sprachressourcen, Lizenzmodelle
- AP 8: Ausarbeitung einer organisatorischen Struktur für die Nachhaltigkeit auf nationaler Ebene
Koordinator:
Prof. Dr. Erhard Hinrichs
Seminar für Sprachwissenschaft
Universität Tübingen
Wilhelmstr. 19
72074 Tübingen
Tel.: +49 7071 29 74279
Fax: +49 7071 29 52 14
E-Mail: eh@sfs.uni-tuebingen.de