Vernetzte Forschungsumgebung in den eHumanities Mitglieder:Katja Diederichs, Sanaz Mostowfi, Mandy Neumann. Koordinator: Francisco Mondaca
Gliederung Was ist TextGrid? Virtuelle Forschungsumgebung TextGrid TextGridLab: Tools und Services Architektur TextGrid Tool Einbau Fazit
Was ist TextGrid Ziel: Zugang und Austausch von Forschungsdaten in den Geistes- und Kulturwissenschaft mit Hilfe von Informationstechnologie TextGrid umfasst Werkzeuge, Ressourcen und Infrastrukturentwicklung. Es bietet flexible kollaborative Strukturen insbesondere für Forschungsverbünde (durch VREs) Ermöglicht die Zusammenarbeit in einer verteilten, sicheren, flexiblen und modularen Forschungsumgebung und die gemeinsame Nutzung von Werkzeugen, Daten und Methoden.
Virtuelle Forshungsumgebung TextGrid TextGrid Laboratory: - Einstiegspunkt in die Virtuelle Forschungsumgebung - Stellt Werkzeuge, Dienste und Daten in einer intuitiv bedienbaren Umgebung zur Verfügung - Wird kontinuierlich weiterentwickelt
Virtuelle Forschungsumgebung TextGrid TextGrid Repository: - Fachwissenschftliches Langzeitarchiv ( Grid-Infrastruktur) - Garantiert langfristige Verfügbarkeit und Zugänglichkeit der geisteswissenschaftlichen Forschungsdaten
TextGridLab: Tools und Services XML-Editor Text-Bild-Link-Editor Wörterbuch-Recherche Workflow-Tool Lemmatizer Nutzer- und Projektverwaltung Projektbrowser/ Navigator Recherchetool Metadaten-Editor Aggregation Composers Upload Tool
Architektur TextGrid ist in vier Schichten unterteilt: User Interface Service Layer Middleware Archiven
TextGrid Tool Einbau Beispiel: Die Entwicklung eines Service zur Aufbereitung von Textkorpora für Text-Mining Methoden. Der Service soll in TextGrid genutzt werden. Der Service soll in die bestehende Architektur von TextGrid, in den Service Layer eingefügt werden. Aufbau der Software
Verwendete Technologien SOAP(Simple Object Acces Protocol): als Kommunikationsprotokoll WSDL(Web Services Description Language) : Beschreibt die Schnittstellen
Die Komponenten aufrufbar sein. Der Preprocessing Service - Bildet das Kernstück des Systems und nimmt die Anfragen zur Verarbeitung von Textkorpora entgegen. Der Reduktions Service - Stellt eine Art Template dar. - Zwei Bedingungen: 1. Das Tool muss in der Lage sein, eine Zeichenkette auf eine andere Zeichenkette abzubilden. 2. Das Tool muss aus einer Java-Klasse heraus aufrufbar sein.
Arbeitsschritte zwischen Aufruf und Rückgabe 1. Extraktion der Daten aus dem Zip-Archiv 2. Aufbau des Korpus-Modells 3. Indexierung 4. Berechnung der Textvektoren 5. Reduktion des Indexes über einen Reduktions-Service 6. Berechnung der reduzierten Textvektoren 7. Normalisierung der Textvektoren 8. Erzeugung der Ausgabedaten im ARFF-Format 9. Verpacken der Ausgabedaten in ein Zip-Archiv
Fazit Preprocessing Service: ein generischer Dienst für die Aufbereitung von Textkorpora für Text-Mining Methoden Nutzung beliebige linguistische Tools mittels des Reduktions-Service für die Index-Reduktion. Ein frei wählbarer regulärer Ausdruck für die Volltextindexierung Eingliederung die Services homogen in den TextGrid Service Layer durch den Einsatz der SOAP und WSDL
Vielen Dank für ihre Aufmerksamkeit !