Ein Community-Grid für die Geisteswissenschaften Modulare Plattform für verteilte und kooperative wissenschaftliche Textdatenverarbeitung www.textgrid.de
Inhalt Vorstellung KollegInnen Projektkontext Anwendungsszenarien Architektur + Demo Ausblick + Diskussion
Vorstellung KollegInnen
Team an SUB Heike Neuroth Andreas Aschenbrenner Architektur, Anforderungen Heike Neuroth Projektleitung, Kooperationen Norbert Lossau Projektleitung Martina Kerzel Öffentlichkeitsarbeit, Projektkommunikation Amir Eskandari Programmierung (Tools) Ubbo Veentjer Programmierung (Middleware, Services) Sabine Liess (dzt. Projekt kopal) ....
TextGrid Team Februar 2006, Darmstadt
Projektkontext Neuroth
e-Science? Infrastruktur für die Wissenschaft "e-Science is about global collaboration in key areas of science and the next generation of infrastructure that will enable it." (John Taylor, Director General of the UK Research Council) Infrastruktur für die Wissenschaft Integration von Ressourcen und Diensten Vernetzung von Wissenschaftlern John Taylor, Director General of the UK Research Councils, who also said that ‘e-science will change the dynamic of the way science is undertaken.’ Research Councils UK (RCUK) is a strategic partnership through which the UK’s eight Research Councils work together to champion the research, training and innovation they support.
Grid? ... ist eine Reise ... Alte Welt Neue Welt Statisch Dynamisch Silo Physikalisch Manuell Anwendungen Dynamisch Offen Virtuell Automatisch Services Courtesy Mark Linesch, GGF ... ist eine Reise ... (Grafik von Wolfgang Gentzsch)
BMBF e-Science Programm 2005 - 2009 100 Institutionen 100 Mio Euro Förderung bisher 3 Fokusbereiche: e-Learning (Juni 2004) D-Grid (August 2004) Wissensvernetzung (November 2004)
D-Grid + Wissensvernetzung Astro-Grid C3-Grid HEP-Grid IN-Grid Medi-Grid TextGrid WisEnt ONTOVERSE WIKINGER . . . Generische Grid-Middleware und Services Integrationsprojekt VIOLA eSciDoc (Grafik von Helmut Löwe, BMBF)
Laufzeit: Februar 2006 - Januar 2009 Fördervolumen: ca. 1,6 Mio Euro Sonderinvestitionen: 100.000 Euro, Ende 2006 das einzige geisteswissenschaftliche Projekt in D-Grid ! D-Grid I - ein D-Grid Projekt der ersten Stunde Kooperation aus Fachwissen-schaftlern und Grid-Technikern 15 TB GWDG
Partner Projektleitung • SUB Göttingen Wissenschaftliche Partner • Universität Trier - Andrea Rapp • TU Darmstadt - Fotis Jannidis • Universität Würzburg - Werner Wegstein • Institut für deutsche Sprache - Ludwig Eichinger • FH Worms - Mark W. Küster Kleine und mittlere Unternehmen (KMU) • DAASI International GmbH - Peter Gietz • Saphor GmbH - Wolfgang Pempe
Ziel Virtuelle Forschungsumgebung für wissenschaftliche Textverarbeitung Service Grid - Werkzeugkasten für kollaboratives Arbeiten Data Grid - virtuelles Archiv für nachhaltige Datenhaltung, Integration weiterer Daten/Archive (Textcorpora)
e-Science an Bibliotheken Informationsgewinnung Informationsverwaltung Informationsweiterbearbeitung Kommunikation und Zusammenarbeit Publizieren ... Dienste zur Nutzung und Forschung ... im Sinne eines Werkzeugbaukasten
Aufgaben für Bibliotheken? Arbeitsteilige Entwicklung von Diensten, auch mit externen Anbietern/KMUs (Service Grid) Bereitstellung offener Dienste und wiederverwendbarer Ressourcen (Semantische) Vernetzung und virtuelle Organisation verteilter Informations-Repositorien Archivierung und Sicherung des (Langzeit-) Zugangs (Data Grid) Nachhaltige Infrastruktur ...
Anwendungsszenarien Aschenbrenner
User-zentriert, diversifizierend Fachwissenschaften Technologie Sichtung Szenarien Beispieldaten User-zentriert, diversifizierend Dienste Meta/Daten Infrastruktur-orientiert, standard-basiert Standards Architektur Prototypen
Zielgruppen Editionsphilologie Korpuslinguistik Lexikografie Textanalyse allgemein: Geschichtsforschung, Musikwissenschaften, etc etc
Derzeitige Editionstools uneinheitliche, von einander isolierte Zugänge projektbezogene Applikationen (lokale und temporäre Insellösungen) fehlende Verknüpfung mit Erschließungsmaterialien
Grafischer Link-Editor kann jeder brauchen
Verssynopse Wolframs Parzival (Michael Stolz) Tustep TUStep: aus den 70ern, noch immer ein Quasi-Monopol aufbrechen der Silo-Architektur, weg von der Insellösung Wolframs Parzival (Michael Stolz) Tustep
Workflow Kataloge Planung Digitalisierung + Transkription Anreicherung + Analyse Wörter- bücher Publikation
Tools Text Processing Text Retrieval Linking administrative Dienste XML-Editor, Recherche-Tool, Lemmatisierung, Kollationierung, Streaming-Editor, Tokenizer, Sortieren, ... Text Retrieval Query-Interface, Text Retrieval Linking Link-Editor für Bild-Text, Link-Editor für Text-Text administrative Dienste Metadaten, Workflow-Editor, Projekteverwaltung, ... ubbo und amir machen's dann
Texte in TextGrid Jean-Paul Edition Campe Wörterbuch Grimm'sche Wörterbuch, Krünitz ... ca. 4 Terabyte zum Start und dann noch ...
Textformate / Codierung spezialisiert M e t a d n Spezial- codierung Spezial- codierung Spezial- codierung Spezial- codierung Wörter- bücher linguistische Korpora literaturwiss. Editionen TEI Kerncodierung Textauszeichnung generisch
TextGrid Architektur Veentjer, Eskandari
Dienste-Integration Daten-Integration Workbench Benutzeroberfläche GUI 2 GUI 1 Grid Dienste workflow services registry Dienste-Integration Daten-Integration Middleware grid services DB D-Grid Archive
Daten Wissenschaftliche Texte die im Netzwerk verteilt sind, werden zu einem virtuellen Archiv zusammengefasst Zur Zeit 4TB Daten, Digitalisate (Bilder) und TEI-Files (Volltext, Metadaten) Über Grid-Software wird eine einheitliche Schnittstelle für den Zugriff bereitgestellt.
Dienste Interne und Externe Dienste können über offene Schnittstellen angesteuert werden. Interne Dienste, wie Tokenisierer, Lemmatisierer können auf die Daten angewendet werden. Externe Dienste, wie Wörterbücher können ebenfalls eingebunden werden.
… Durchsuchen von im Grid vorhandenen Daten nach Metadaten (z.B. Autor, Zeit, Titel, Annotation) oder Volltext Ermöglicht Wiederverwendung vorhandener Anwendungen durch breite Nutzerbasis
Benutzerschnittstelle Ermöglicht die Nutzung der vorhandenen Dienste und Daten vom Desktop des Textwissenschaftlers. Durch eine modulare Architektur können neue Dienste leicht in die Benutzerschnittstelle eingebunden werden.
DEMO Vorhanden: Tokenisierer, Lemmatisierer, Wörterbücher, Dateien (XML-Editor?) Kommt noch: Workflow-Editor, Suche, Metadaten-Editor… Externe/Interne Anbindung
Projekt- kommunikation Kerzel
Arbeitspakete AP 1 (FH Worms): Studie vorhandener Tools AP 2 (Darmstadt): Editionstools AP 3 (SUB + DAASI): Middleware AP 4 (Würzburg): Community Muster-Applikation AP 5 (Trier): Semantic Web und TextGrid AP 6 (SUB): Projektmanagement und Öffentlichkeitsarbeit → APs bauen auf einander auf → AP-Leiter moderieren die Arbeit aller Projektpartner
Arbeitsgruppen AG Architektur -- TextGrid-Architektur AG Archive -- Archivanbindung (Digitalisate, TEI, etc) AG Textformate -- Textcodierung, Metadaten AG Wörterbücher -- Anbindung von Wörterbüchern AG Lingu -- Anbindung von linguistischen Korpora → arbeiten Konzepte aus, bereiten Entscheidungen vor → AP-übergreifend, offene Foren → AG-Leiter moderieren Diskussion Struktur möglichst schlanke Kern-Arbeitsgruppen, aber jederzeit offen für alle Moderatoren sind Projektmitarbeiter 2 Arbeitsgruppenleiter teilen sich die Moderation Aufgaben der Arbeitsgruppen Diskussion und Dokumentation Ausarbeitung von Themen und Entscheidungen in möglichst überschaubaren Teilschritten (konkrete Ziele und Aktionen) Aufbereitung von übergreifenden Themen zur Diskussion im Plenum / in der Steuerungsgruppe Aufgaben der Arbeitsgruppenleiter Strukturierung und Moderation der Diskussion, Vorbereitung von AG Treffen und Videokonferenzen, Definition von Zielvorgaben Dokumentation: Protokolle von Treffen in Wiki, Übersicht Entscheidungen in Wiki, Führen von Aktionslisten in Wiki, themenspezifische Zusammenfassungen in Dokumenten (z.B. das "TextGrid Metadatenschema") Bericht bei Treffen im Plenum Aufgaben Mittlerrolle (SUB) Ansprechperson für und Zusammenarbeit mit Arbeitsgruppenleitern Identifikation übergreifender Themen bzw Koordination zwischen den AGs Zusammenführung der Arbeitsgruppen in ihren Inhalten, Abläufen, und Zeitlinien
Kommunikation innerhalb des Konsortiums: Projekttreffen, Wiki, E-Mail-Listen, WebDAV etc. mit D-Grid: D-Grid Steuerungsausschuss, gemeinsame Veranstaltungen, ... zur Öffentlichkeit: Homepage, Newsletter, Göttinger Grid Seminar mit verwandten Projekten: Huygens-Institut, eSciDoc, etc.
Berichtswesen Reports und Meilensteine aus den APs (inhaltlich) Monatsberichte für D-Grid Zwischenberichte für PT BMBF-Referat: 722 für TextGrid 524 für D-Grid Projektträger: D-Grid / TextGrid 722 - Geistes- Sozial- und Kulturwissenschaften 524 - IKT, Neue Dienste Kommunikation mit PT gebündelt über SUB
Ausblick Neuroth
Projektstatus TextGrid liegt gut im Zeitplan kann erste Prototypen vorweisen hat nach einem Jahr Laufzeit die heiße Phase der Programmierung erreicht ist sehr gut an die D-Grid-Community angebunden hat internationale Ressonanz eine nachhaltige TextGrid Community beginnt sich zu entwickeln
D-Grid ++ ?D-Grid IV D-Grid III: Wissenstechnologien im Grid Astro-Grid HEP-Grid TextGrid Ontoverse ... ?D-Grid IV D-Grid III: Wissenstechnologien im Grid D-Grid II: SLA, Geschäftsmodelle D-Grid I: Grid Infrastruktur
e-Humanities in Europa DARIAH - European e-Humanities Infrastructure im 7. Rahmenprogramm Laufzeit über 10 Jahre Geisteswissenschaftliches virtuelles Netzwerk in D Partner AHDS, UK DANS, NL MPDL / eSciDoc, D AHeSSC, UK CNRS, F SUB (?), D ...
Weitere Ziele Inhalte und Tools für TextGrid Mitgestaltung in D-Grid Aufbau einer Community Nachhaltigkeit von TextGrid ein Nukleus für die Geisteswissenschaften
Diskussion Verzahnung des strategisch wichtigen Projektes mit „Stammhaus“ bzw. „Stammpersonal“ Mitarbeit von Fachreferenten im Projekt, Entlastung von einem Teil der „Stamm-aufgaben“ durch Projektgelder TextGrid als Beispiel für weitere, wichtige Projekte in Zukunft, d.h. z.B. Berücksichtigung bei der Beantragung Enge Verzahnung Fachreferat mit RDD!
Team an SUB Heike Neuroth Andreas Aschenbrenner Architektur, Anforderungen Heike Neuroth Projektleitung, Kooperationen Norbert Lossau Projektleitung Martina Kerzel Öffentlichkeitsarbeit, Projektkommunikation Amir Eskandari Programmierung (Tools) Ubbo Veentjer Programmierung (Middleware, Services) Sabine Liess (dzt. Projekt kopal) ....
Fragen, Anmerkungen ... ?