Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

CLARIN/D-SPIN Technische Infrastruktur Peter Wittenburg.

Ähnliche Präsentationen


Präsentation zum Thema: "CLARIN/D-SPIN Technische Infrastruktur Peter Wittenburg."—  Präsentation transkript:

1 CLARIN/D-SPIN Technische Infrastruktur Peter Wittenburg

2 Wer bin ich? komme vom MPI für Psycholinguistik dort 30 Jahre verantwortlich für Methoden, Technologie, Infrastruktur, Archivierung, etc seit 2000 involviert in DOBES was ein tolles Projekt war und ist Mitglied des MPG IT Ausschusses - kenne die Welt der Physiker, Chemiker etc seit 2000 Teilnahme an EU Standardisierungs- und Infrastruktur-Projekten seit 2008 aktive in CLARIN

3 Was soll ich erzählen? Meine Aufgabe ist es, Ihnen einen kurzen Überblick über die technische Infrastruktur zu geben, an der CLARIN arbeitet und die Ihnen (wahrscheinlich nur den etwas Jüngeren) bei der wissenschaftlichen Arbeit helfen könnte. Natürlich werden sie mit Argwohn aufpassen, was ich sage, denn wir wissen alle: es gibt nichts umsonst. Was ist also der Preis, was ist der Gewinn und wann ist er einlösbar? Ich bitte Sie insofern um Nachsicht, als dass ich einiges nur sehr verkürzt oder gar nicht erwähnen kann. CLARIN/D-SPIN Infrastruktur N Minuten verlustbehaftete Kompression

4 Die Aufgabe Die entscheidende Frage ist, ob es Wege gibt, die enorme Fragmentierung in unserer Disziplin zu überwinden - die Verschiedenartigkeit der Formate, der Beschreibung linguistischer Phänomene, der unterschiedlichen Sichtbarkeit und Zugriffsgestaltung etc. und da alle interessierten Wissenschaftler - vor allem in den Humanities - europaweit die gleichen Probleme haben, macht es Sinn, grenzenübergreifend zu denken und zu handeln CLARIN ist europäisch und D-SPIN ist die deutsche Gruppe. Ein paar Beispiele sind besser als abstrakte Erklärungen.

5 Schon mal versucht? Haben Sie schon mal versucht, einen Text mit einer Audio- Aufnahme automatisch abzugleichen? and you follow then the sign Kleef thats the Oranje Single yeah then you follow the sign Kleef Es geht! Aber...

6 Schon mal gemacht? Haben Sie schon mal versucht, ein Lexikon derart aufzubereiten, dass sie es in einem Programm einsetzen und mit anderen Daten zusammenbringen können? Am MPI und im DOBES Programm hat jede(r) ein anderes Lexikon (Struktur und Attribute, oftmals ist die Struktur auch nur im Kopf). Ein Fallbeispiel eines respektablen Linguisten: Strukturbeschreibung ist vorhanden, aber nicht umgesetzt. ca. ein halbes Jahr Diskussionen per Email etc letztlich Histogramm mit ca. 200 verschiedenen Strukturen davon 12 ungewollte und nicht korrekte Strukturen dann natürlich script-basierte und manuelle Korrekturen 3 teure Personen und 1 Stud.Ass. waren involviert Es geht! Aber...

7 Schon mal durchlebt? Haben Sie schon mal ca. 5000 Ressourcen (verschiedene Datentypen, verschiedene Versionen, Ausschnitte, etc) auf Ihrem Notebook managen müssen? Im DOBES Projekt (Dokumentation Bedrohter Sprachen) zumindest ein Kollege, der diese Schallmauer durchbrochen hat, andere sind dicht dran. Wie anders als mittels Metadaten Beschreibungen werden Sie den Überblick behalten? Wenn schon Metadaten dann doch solche, die andere auch direkt verwenden können. Ich weiss: Metadaten erzeugen und verwalten ist nichts, was man liebt, aber wie anders wollen sie die Wiederverwendbarkeit der Daten garantieren - sogar manchmal Ihrer eigenen. Es geht! Aber...

8 Sind das überhaupt Themen? Sind Sichtbarkeit, Austauschbarkeit überhaupt Themen? in vielen Fällen (noch) nicht Beispiele aus der Sicht eines Nicht-Linguisten: in DOBES programmatisch: die Dokumentation ist nicht nur für den Linguisten selbst - sondern für andere und mehrere Generationen, deren Wünsche wir nicht einmal kennen. Lexika, Wordnets etc speichern Wissen für viele und werden immer Schlüssel für die Bedeutungserschließung sein. Programme sind teuer und sollten daher für viele einfach verwendbar sein. etc etc

9 Zeit des Umdenkens scheinen in der LRT Gemeinde in einem Prozess des Umdenkens zu sein ein Teil der Linguisten agieren als Service Anbieter für andere alle Wissenschafts-Disziplinen verwenden Sprachressourcen insbesondere die Geisteswissenschaften wir sollten sie in die Lage versetzen, Ressourcen und Tools selbsttätig zu verwenden und miteinander zu kombinieren die meisten haben keinen Stab von Mitarbeitern, die clevere Konversionen etc ausführen können eine CLARIN/D-SPIN Infrastruktur muss hier ansetzen: Schaffen einer integrierten und interoperablen Domäne von Sprachressourcen (Daten und Tools)

10 Pfeiler der Integration Typisches Ziel: Schaffen einer virtuellen Kollektion und das Suchen nach einfachen Mustern Ingredienten: persistente Repositorien mit stabilen Diensten und ein offener Archivierungs Service persistente und eindeutige Identifikatoren für alle Ressourcen und Services damit alle Verweise stabil bleiben gemeinsame Metadaten-Domäne basierend auf einem (flexiblen) Standard und Standards für den Austausch Single Identity / Single Sign-On Prinzip basierend auf Vertrauen und natürlich eine clevere Suchmaschine bzw. Statistik-Tools, wobei natürlich immer die Frage ist, ob Daten oder Code transferiert werden dürfen

11 Pfeiler der Integration Ingredienten: persistente Repositorien/Archive CLARIN hat Kriterien für solche neuen Service-Zentren etabliert in D haben sich DFKI, IDS, U Tüb, BBAW, U Lei, MPI gemeldet es wird ein Qualitätscheck geben (Data Seal of Approval) es wird Geld kosten persistente und eindeutige Identifikatoren für alle Ressourcen und Services CLARIN bietet einen Service an (basierend auf einer MPG Entscheidung und Redundanz durch andere europäische Zentren) für jedes Object und jede Version etc kann eine URL und verschiedene Informationen erzeugt werden, und zurückkommt eine PID, die man in die Metadaten einträgt die kann dann jeder verwenden und sie werden aufgelöst was heißt persistent: MPG steht dahinter - reicht das?

12 Pfeiler der Integration Ingredienten: gemeinsame Metadaten-Domäne gegenwärtige Sichtbarkeit nicht ausreichend - gibt keinen echten Katalog, keine Systematik und jede Menge Gemecker Erfahrungen von 10 Jahren in der Community mit IMDI, OLAC und TEI weg von fixed Schema hin zu flexiblem Componenten Model semantische Interoperabilität durch die Verwendung von registrierten Konzepten ISOcat (ISO 12620), TEI, DC dh. jeder kann sein eigenes Schema zusammenstellen momentan arbeiten Experten an den Element-Definitionen und Entwickler die an der Infrastruktur arbeiten (MPI, DFKI, IDS) wir sorgen dafür, dass alle IMDI/OLAC Investitionen gewahrt bleiben jeder kann mitmachen und prüfen, ob alles drin ist (zB. Zeichensprache) CMDI wird ein Standard in CLARIN ! arbeiten an einem Virtual Language Observatory

13 Pfeiler der Integration Ingredienten: Single Identity / Single Sign-On Prinzip mit Ihrer Heimat Identität müssen sie an all das Herankommen, zu dem Sie Zugangsberechtigung haben es ist wie bei Schlüsseln: man möchte am liebsten nur einen haben wir arbeiten eng mit dem DFN Verein zusammen wenn Ihre Uni in der DFN AAI (so heisst das) ist, dann gilt das europaweit IDS/MPI/BBAW nehmen nun an einem ersten Pilotprojekt zusammen mit NL und Finland teil

14 Pfeiler der Interoperabilität typisches Ziel: Zusammenstellen von Workflows Ingredienten für ein schwer anzupackendes Problem: Vereinbarung standardisierter Formate für die wesentlichen Datentypen (Text-Korpora, annotierte Medien, Lexika, etc) CLARIN macht Inventur von Format Standards&Best Practices Community Best Practices werden natürlich weiterleben CLARIN muss Konverter explizit und offen machen man wird nicht alles (WORD) unterstützen können offene Registratur linguistischer Konzepte als Referenz wollen ein pragmatisches Problem lösen (gemeinsame Suche) keiner soll seine Konzepte aufgeben!!! aber vielleicht für viele Konzepte Referenzen möglich CLARIN (zusammen mit ISO) arbeitet an ISOcat

15 Ist es morgen fertig? schön wärs ein steiniger und nicht einfacher Weg wenn wir jetzt aber nicht schrittweise anfangen, wann denn dann? nicht alles, was ich erzählt habe, werden Sie interessant gefunden haben, aber eines ist klar: die LRT Community ist in einigen Punkten im Moment anderen voraus

16 Ist morgen schon etwas fertig? arbeiten an einer Reihe von Dingen eine Reihe von Anforderungs Spezifikationen sind fertig nicht einfach bei 150 Mitgliedern, dh. ca. 500 Personen gemeinsame Metadaten Domäne 2009 Basis ist Language Resource and Technology Inventory Ziel ist Virtual Language Observatory - erster Schritt momentan alle sind aufgefordert mitzumachen erste allgemeine Service Angebote in 2009 PID Angebot steht; erste AAI Domäne in 2009 arbeiten mit Hochdruck an typischen Workflows hier ist D-Spin zu nennen wollen mehr Konvertoren verfügbar machen etc

17 Randbemerkungen CLARIN/D-SPIN ist eine Infrastrukturinitiative - kein Forschungsprojekt es baut auf existierenden Resourcen und Tools auf und will diese integrieren die Infrastruktur Pfeiler müssen persistent sein, Wissenschaftler müssen sich auf Dienste verlassen können wir sind nur ein Teil der ganzen Infrastruktur- Bewegung - viele Disziplinen sind involviert wir bekommen jetzt eine Chance - eine zweite wird es so schnell nicht geben wir werden von den Hardcore Kollegen etc respektiert

18 Ende Falls nicht to end in Babylonish scenario nous avons still een beten time om schattingen te improve. Danke für Ihre Aufmerksamkeit!


Herunterladen ppt "CLARIN/D-SPIN Technische Infrastruktur Peter Wittenburg."

Ähnliche Präsentationen


Google-Anzeigen