Arbeitspaket 2: Etablierung der technischen Infrastruktur

Beteiligte Partner: Universität Tübingen, MPI Nijmegen, Institut für deutsche Sprache Mannheim, Berlin-Brandenburgische Akademie der Wissenschaften Berlin, Universität Leipzig, Universität Frankfurt, DFKI Saarbrücken, Universität Stuttgart

In Deutschland werden in der Präparationsphase einige Zentren realisiert, die stabile und persistente Language Resources and Technology-Services (im Folgenden kurz: LRT) verschiedener Art deutschlandweit anbieten werden. Diese Dienstleistungen müssen einerseits mit den Services auf europäischer Ebene gut koordiniert werden, andererseits muss es die Absicht sein, die deutschen Wissenschaftler so zu bedienen, dass alle essenziellen Services in Deutschland realisiert sind.

Infrastruktur

In einigen allgemeinen Bemerkungen wird CLARIN als eine das eScience Paradigma ermöglichende technische Infrastruktur dargestellt und es wird erläutert, was CLARIN bzw. D-SPIN unter einer Infrastruktur versteht. Dies soll kurz an Hand eines Vergleichs mit den ICE-Zügen erklärt werden. Um Hochgeschwindigkeitszüge (avancierte Wissenschaft) fahren lassen zu können, bedurfte es neuer Schienen, Signalanlagen etc - kurz: einer neuen Infrastruktur. Unter Infrastruktur müssen wir also alles verstehen, was es den Wissenschaftlern in Zukunft erlauben wird, neuartige Probleme unter Verwendung aller verfügbarer Ressourcen mittels neuartiger Applikationen anzupacken.

Service-Zentren neuen Typs

In einem zweiten Kapitel wird dargestellt, dass die Basis einer stabilen, integrierten und persistenten Infrastruktur Service-Zentren neuen Types sind. Sie sind die Garanten für eine hohe Verfügbarkeit und eine hohe Langzeit-Persistenz der erforderlichen Services auf der Basis einer klaren institutionellen Unterstützung seitens des Bundes, der Länder oder anderer Institutionen. Hierbei müssen wir verschiedene Services unterscheiden, die von der Langzeit-Archivierung bis hin zum Anbieten von ressourcenbasierten Services wie z.B. Lexika oder Ontologien reichen. Das Dokument unterscheidet zwischen " Language Resource Services", die Daten-Ressourcen aller Art anbieten, "Language Technology Services" die Werkzeuge zur Ausführung anbieten, "Infrastructure Services", die infrastrukturelle Leistungen wie maschinenlesbare Registraturen und Umsetzungs-Services von persistenten Identifikatoren auf physikalische Adressen anbieten, sowie Beratung durch Experten.

Aufgrund des enormen Publikationsdruckes für die Wissenschafler ist vollkommen klar, dass sie sich nur dann auf neue Methoden des Umgangs mit einer integrierten und interoperablen Ressourcenlandschaft verlassen werden, wenn diese Ressourcen dauerhaft, sicher und in einfacher Weise nutzbar angeboten werden. Daher brauchen wir auch Service-Zentren neuen Typs, die ganz im Interesse der Wissenschaftler arbeiten.

Sprach-Ressourcen-Föderation

Eine Föderation ist ein durch Vereinbarungen definierter Rahmen, der die virtuelle Integration von Ressourcen ermöglicht. Dies geht nur dann, wenn Benutzer mit einer Identität gegenüber allen Ressourcen-Anbietern auftreten können und wenn sich die Anbieter auf eine beschränkte Zahl von Lizenz-Vereinbarungen einigen können. Diese Föderation von Sprach-Ressourcenanbietern muss sich bezüglich ihrer Vereinbarungen sehr eng mit der Authentification and Authorization Infrastructure (AAI) des DFN-Vereins und dem, was durch die Bibliotheken unternommen wird, synchronisieren. Wir erwarten, dass es auch in Deutschland ähnlich wie z.B. in Finnland und der Schweiz zu einer nationalen Identity-Föderation kommen wird, über die in naher Zukunft nahezu alle Wissenschaftler eingebunden sein werden. Ziel muss es sein, alle relevanten deutschen Ressourcenanbieter zügig in einer Föderation zu integrieren, so dass mit dem DFN-Verein Vereinbarungen über Dienste unterzeichnet werden können.

Registraturen

D-SPIN wird wie CLARIN eine Reihe von Registratur-Services unterstützen. Am wichtigsten ist die Registratur aller Ressourcen in einer maschinenlesbaren Form, so dass Applikationen die Informationen in zukünftigen Workflow-Systemen verwenden können. Auf der Basis der langjährigen Erfahrungen einerseits mit Metadaten-Infrastrukturen wie z.B. IMDI, OLAC, Dublin Core, der in LT-World integrierten Natural Language Software Registry und den Header-Attributen von TEI und andererseits mit Komponenten-Schemata wie im Lexical Markup Framework wird D-SPIN mitarbeiten an einem neuen komponenten-basierten Registraturformat, das den verschiedenen Ressourcen-Typen und den verschiedenen Subdisziplinen gerecht wird, ohne dass der Anspruch der semantischen Interoperabilität aufgegeben wird. Diese wird dadurch gewährleistet, dass nur Konzepte verwendet werden, die in Konzept-Registraturen definiert sind. Diese flexiblere Realisierung einer Registratur gestattet eine breite und erweiterbare Abdeckung von Ressourcen, so dass wir auch alle Teilnehmer verpflichten können, ihre Ressourcen zu registrieren. Es wird eine deutsche Registratur geben, die über Standard-Protokolle der europäischen Ebene angeboten wird. Wichtig ist, dass diese neue, verteilte Registratur von einer Infrastruktur unterstützt wird, die verschiedene Zugangsmethoden unterstützt, so wie dies z.B. mit der IMDI Infrastruktur bereits realisiert wurde. Dies schließt die Möglichkeiten ein, eigene virtuelle, institutsübergreifende Kollektionen zu bilden und verschiedene Such- und Browse-Methoden zu unterstützen.

Web-Services

Ein weiterer Aspekt der zu realisierenden Infrastruktur ist der, dass D-SPIN den Weg weg von der " Download First" aufzeigen muss, hin zu einem wahren Cyberinfrastructure-Szenario, in dem die verschiedensten Komponenten mittels Web Services angesprochen werden können. Durch die prominente Mitarbeit der an D-SPIN beteiligten Organisationen in ISO TC37 und auch dem LIRICS Projekt gibt es gerade in Deutschland bereits einiges an diesbezüglicher Erfahrung. Trotz dieser Erfahrung wird der Weg hin zu einem Cyberinfrastructure-Szenario nicht einfach sein, da sich viele Ressourcen nicht in einem dafür geeigneten Zustand befinden bzw. sich Werkzeuge nicht einfach in Web Services umsetzen lassen werden. Wir werden mit den von den D-SPIN Mitgliedern angebotenen Ressourcen und Web-Services, wie z.B. dem in Leipzig betriebenen und rege genutzen Service zum "Deutschen Wortschatz" beginnen (siehe AP 5). Wichtig ist die Erarbeitung von Standards und Vereinbarungen für den Bereich der Sprachressourcen auf der Basis der Definitionen vom W3C, mit dem bereits jetzt kooperiert wird. Ziel ist es, in der Präparationsphase Workflows für einige typische Produktionslinien zu erarbeiten und abzubilden, um die Komplexität der Problematik gründlich zu verstehen. Gerade in diesem Punkt wird eine Zusammenarbeit mit dem Text-Grid Projekt angestrebt.

Basis-Services und Applikationen

In der Präparationsphase wollen wir einige Basis-Services und Applikationen zur Verfügung stellen, die das Potenzial des Cyberinfrastructure-Szenarios zeigen. Aufbauend auf den integrierten Ressourcen ist es wünschenswert, z.B. eine kombinierte Metadaten- und Inhalt-Suche anzubieten, die alle Daten-Ressourcen umfasst. Verschiedene Modelle müssen untersucht werden, auch im Zusammenhang mit Lizenzfragen (siehe AP 7).

Da wir nicht davon ausgehen, dass alle Daten zu einem Zentrum transferiert werden können, werden wir eine Suche auf verteilten Ressourcen implementieren. Ein anderes Szenario ergibt sich aus einem Test, den das MPI und das DFKI bereits vor einiger Zeit durchgeführt haben: Wenn Benutzer sich eine oder mehrere Daten-Ressourcen ausgewählt haben, sollen sie die Möglichkeit haben, mittels eines Profilvergleichs entsprechende Software-Werkzeuge angezeigt zu bekommen, die sie in ihren Vorhaben unterstützen können. Im Projektverlauf werden weitere mögliche Applikationen diskutiert werden, die eventuell bereits in der Präparationsphase umgesetzt werden können. Architektur und Code dieser Applikationen müssen offen sein, so dass sie in Schulungen als Beispiele für einen neuen Programmierstil verwendet werden können.