CLARIN/D-SPIN Technische Infrastruktur Peter Wittenburg.

Slides:



Advertisements
Ähnliche Präsentationen
Vernetzung von Repositorien : DRIVER Guidelines Dr Dale Peters, SUB Goettingen 4. Helmholtz Open Access Workshop Potsdam, 17 Juni 2008.
Advertisements

ORDSTILLING HOVEDSÆTNING: Der Bundesminister hielt eine lange Rede. BISÆTNING: Es steht in der Zeitung, dass der Bundesminister eine lange Rede hielt.
Was ist eigentlich „gut“ sein?
Persönliche Ermutigung
Frau Doktor Semmler + Konjunktiv
DA2 Kapitel 4 Test-Rückblick
Warum ich meine Sekretärin feuerte!
Sächsischer Verband für Jugendarbeit und Jugendweihe e.V. Jugendweihe Vorbereitungskurse Veranstaltungen Jugendreisen Das Internet & Urheberrecht.
ExpertAdmin ® ist eine eingetragene Marke der Inforis AG, Zürich. Das ExpertAdmin Bewertungssystem und die ExpertAdmin Software sind urheberrechtlich geschützt.
WER DU BIST.
Die Denkweise der Kinder, das Lernen und Lehren.
Powerpoints bestellen ?? sende eine Mail an : Blondinenwitz.
Jasmin bestellt (orders) Kinokarten
Powerpoints bestellen-Mail an In ein paar Sekunden kommen Sie in die Welt der MAGIE !
Echte Freundschaft.
Ich fand zur Vesperzeit
1 Workshop Service Grundlagen Saia Service an PCD's Grundlagen I. Workshop Einführung Service an Saia PCD Grundlagen.
Proseminar zu Schellings „Vom Ich als Prinzip der Philosophie“
Thema: Gruppenpuzzle Referenten: Carina Thiery Anke Britz
Herzlich willkommen zum 2. Tag!
Produktiv von Anfang bis Ende
Zurück zur ersten Seite Das Grundwahlfach Deutsch: 6 Wochenstunden.
Die Saufochsen Foto – Sauf – Story. Angefangen hat alles im Jahre ´94 des Herren, damals waren die Saufziegen zwar auch kein Konzern.
DIE INSEL DER GEFÜHLE Die Präsentation läuft vollautomatisch ab.
VS one Veranstalter: VSone Feb. 08 Folie 1 Copyright by XML-Serialisierung zur Persistierung von Objekten Thomas Schissler
МОУ «Протасовская основная общеобразовательная школа» Подготовила и провела учитель немецкого языка Горнова Н. Н.
Computeria Horgen CompuTreff 27. April 2011 Referent Fritz Opel Generation Feierabend Warum dieses Buch? Vorstellung einiger Thesen Gemeinsame Diskussion.
Hinterlassen auch Sie Ihre Spuren...
Das christliche Leben ist wie ein Sport-Wettkampf
Powerpoints bestellen-Mail an Wir hören immer von Regeln aus Sicht der Frauen. Hier sind endlich die Regeln aus Sicht.
Wir hören immer von Regeln aus Sicht der Frauen. Hier sind endlich die Regeln aus Sicht der Männer.
Eine Ehepaar unterhält sich nach langer Ehe.
Eine Ehepaar unterhält sich nach langer Ehe.
Deutsch 3, KM2, Kapitel 7: Adjektiv-Endungen nach ein- Wörtern.
Server.
Katzenkarrieren....
Mann  Frau ( eine kleine Geschichte, erzählt von einem ? )
Mann  Frau ( eine kleine Geschichte, erzählt von einem ? )
Nur die Zwiebeln erleben echte Frauentränen.
Wie arbeite ich sicher im Werkunterricht ??
Was ist des agilen Pudels Kern?
Amerikanische Wissenschaftler haben einen Supercomputer entwickelt, der angeblich alles wissen soll! Ein Kauf-Interessent möchte ihn natürlich vor dem.
Warum verschwand die Antimaterie?
Die nachfolgende Geschichte hat sich auf einem Flug zwischen Johannesburg und London, in einer Maschine der British Airways, tatsächlich ereignet!
Hier und Heute eine Messervorstellung aus und in unserer Küche.
Wochenplanunterricht
Plan & Vision Roland Keck Head of Product Management.
Als Kern pflegerischen Handelns
OO implementieren Teil IV Objekte erzeugen. © René ProbstModul 226IV - 2 Von der Klasse zum Objekt Plan Bau Objekt Klasse Instanzierung Objekt Das Objekt.
Die Freiheit der Seele ... läuft automatisch mit Musik
Zwischenmenschliche Beziehungen
Meine Frau und ich.
Mit dem Ziel, Eltern bei ihrer schönen, aber auch anspruchsvollen Aufgabe der Erziehung ihrer Kinder zu unterstützen, lancierte der Schweizerische Bund.
AUS DER SICHT DES HIMMELS IST WEIHNACHTEN IMMER EIN FEST DER LIEBE
Leider mussten wir unseren ganzen Stolz von seiner Krankheit erlösen… Es wurde unerträglich still in unseren vier Wänden, deshalb entschlossen wir uns.
Hi, ich hab hier ein neues Programm, das würde ich gern auf meinem persönlichen System installieren. Es heißt LIEBE. Was soll ich denn da als erstes.
Liebe! Das Wesentliche an Weihnachten ist Tommy's Window Slideshow
Als Gott die Frau schuf, war es schon sehr spät am 6. Tag.
Ihre Hochzeitstauben® Weiße Hochzeitstauben … das überraschend andere Geschenk!
Hi, hier ist endlich wieder mal Lucky (Hobbit pod Kocno) Hier gebe ich euch ein paar ganz persönlich Einblicke der letzten Monate von meinem Leben auf.
12 Fragen von Gerhard Feil
In unserer Umfrage ging es um das Thema Computer und Internet. Es wurden 33 Männer und 26 Frauen im Alter von 13 bis 50 Jahren befragt. Ausgewertet.
Wege ins Archiv Ein Leitfaden für die Informationsübernahme in das digitale Langzeitarchiv Für die nestor AG Standards: Jens Ludwig
ARBEITSLOS.
Performer PRIMUS ® und PRIMUS 50plus ® Generationen -Versorgung.
CLICK TO ADVANCE SLIDES Turn on your speakers! Turn on your speakers!
WWW Konferenz 2008 Feedback der 17. WWW-Konferenz Beijing, April 2008.
Heute hier morgen dort, bin kaum da
Nicht einmal die Bäume Not even the trees Wissen wie es weiter geht. Know how it will continue. Kennen nicht unsere Träume, They know not our dreams, Aber.
 Präsentation transkript:

CLARIN/D-SPIN Technische Infrastruktur Peter Wittenburg

Wer bin ich? komme vom MPI für Psycholinguistik dort 30 Jahre verantwortlich für Methoden, Technologie, Infrastruktur, Archivierung, etc seit 2000 involviert in DOBES was ein tolles Projekt war und ist Mitglied des MPG IT Ausschusses - kenne die Welt der Physiker, Chemiker etc seit 2000 Teilnahme an EU Standardisierungs- und Infrastruktur-Projekten seit 2008 aktive in CLARIN

Was soll ich erzählen? Meine Aufgabe ist es, Ihnen einen kurzen Überblick über die technische Infrastruktur zu geben, an der CLARIN arbeitet und die Ihnen (wahrscheinlich nur den etwas Jüngeren) bei der wissenschaftlichen Arbeit helfen könnte. Natürlich werden sie mit Argwohn aufpassen, was ich sage, denn wir wissen alle: es gibt nichts umsonst. Was ist also der Preis, was ist der Gewinn und wann ist er einlösbar? Ich bitte Sie insofern um Nachsicht, als dass ich einiges nur sehr verkürzt oder gar nicht erwähnen kann. CLARIN/D-SPIN Infrastruktur N Minuten verlustbehaftete Kompression

Die Aufgabe Die entscheidende Frage ist, ob es Wege gibt, die enorme Fragmentierung in unserer Disziplin zu überwinden - die Verschiedenartigkeit der Formate, der Beschreibung linguistischer Phänomene, der unterschiedlichen Sichtbarkeit und Zugriffsgestaltung etc. und da alle interessierten Wissenschaftler - vor allem in den Humanities - europaweit die gleichen Probleme haben, macht es Sinn, grenzenübergreifend zu denken und zu handeln CLARIN ist europäisch und D-SPIN ist die deutsche Gruppe. Ein paar Beispiele sind besser als abstrakte Erklärungen.

Schon mal versucht? Haben Sie schon mal versucht, einen Text mit einer Audio- Aufnahme automatisch abzugleichen? and you follow then the sign Kleef thats the Oranje Single yeah then you follow the sign Kleef Es geht! Aber...

Schon mal gemacht? Haben Sie schon mal versucht, ein Lexikon derart aufzubereiten, dass sie es in einem Programm einsetzen und mit anderen Daten zusammenbringen können? Am MPI und im DOBES Programm hat jede(r) ein anderes Lexikon (Struktur und Attribute, oftmals ist die Struktur auch nur im Kopf). Ein Fallbeispiel eines respektablen Linguisten: Strukturbeschreibung ist vorhanden, aber nicht umgesetzt. ca. ein halbes Jahr Diskussionen per etc letztlich Histogramm mit ca. 200 verschiedenen Strukturen davon 12 ungewollte und nicht korrekte Strukturen dann natürlich script-basierte und manuelle Korrekturen 3 teure Personen und 1 Stud.Ass. waren involviert Es geht! Aber...

Schon mal durchlebt? Haben Sie schon mal ca Ressourcen (verschiedene Datentypen, verschiedene Versionen, Ausschnitte, etc) auf Ihrem Notebook managen müssen? Im DOBES Projekt (Dokumentation Bedrohter Sprachen) zumindest ein Kollege, der diese Schallmauer durchbrochen hat, andere sind dicht dran. Wie anders als mittels Metadaten Beschreibungen werden Sie den Überblick behalten? Wenn schon Metadaten dann doch solche, die andere auch direkt verwenden können. Ich weiss: Metadaten erzeugen und verwalten ist nichts, was man liebt, aber wie anders wollen sie die Wiederverwendbarkeit der Daten garantieren - sogar manchmal Ihrer eigenen. Es geht! Aber...

Sind das überhaupt Themen? Sind Sichtbarkeit, Austauschbarkeit überhaupt Themen? in vielen Fällen (noch) nicht Beispiele aus der Sicht eines Nicht-Linguisten: in DOBES programmatisch: die Dokumentation ist nicht nur für den Linguisten selbst - sondern für andere und mehrere Generationen, deren Wünsche wir nicht einmal kennen. Lexika, Wordnets etc speichern Wissen für viele und werden immer Schlüssel für die Bedeutungserschließung sein. Programme sind teuer und sollten daher für viele einfach verwendbar sein. etc etc

Zeit des Umdenkens scheinen in der LRT Gemeinde in einem Prozess des Umdenkens zu sein ein Teil der Linguisten agieren als Service Anbieter für andere alle Wissenschafts-Disziplinen verwenden Sprachressourcen insbesondere die Geisteswissenschaften wir sollten sie in die Lage versetzen, Ressourcen und Tools selbsttätig zu verwenden und miteinander zu kombinieren die meisten haben keinen Stab von Mitarbeitern, die clevere Konversionen etc ausführen können eine CLARIN/D-SPIN Infrastruktur muss hier ansetzen: Schaffen einer integrierten und interoperablen Domäne von Sprachressourcen (Daten und Tools)

Pfeiler der Integration Typisches Ziel: Schaffen einer virtuellen Kollektion und das Suchen nach einfachen Mustern Ingredienten: persistente Repositorien mit stabilen Diensten und ein offener Archivierungs Service persistente und eindeutige Identifikatoren für alle Ressourcen und Services damit alle Verweise stabil bleiben gemeinsame Metadaten-Domäne basierend auf einem (flexiblen) Standard und Standards für den Austausch Single Identity / Single Sign-On Prinzip basierend auf Vertrauen und natürlich eine clevere Suchmaschine bzw. Statistik-Tools, wobei natürlich immer die Frage ist, ob Daten oder Code transferiert werden dürfen

Pfeiler der Integration Ingredienten: persistente Repositorien/Archive CLARIN hat Kriterien für solche neuen Service-Zentren etabliert in D haben sich DFKI, IDS, U Tüb, BBAW, U Lei, MPI gemeldet es wird ein Qualitätscheck geben (Data Seal of Approval) es wird Geld kosten persistente und eindeutige Identifikatoren für alle Ressourcen und Services CLARIN bietet einen Service an (basierend auf einer MPG Entscheidung und Redundanz durch andere europäische Zentren) für jedes Object und jede Version etc kann eine URL und verschiedene Informationen erzeugt werden, und zurückkommt eine PID, die man in die Metadaten einträgt die kann dann jeder verwenden und sie werden aufgelöst was heißt persistent: MPG steht dahinter - reicht das?

Pfeiler der Integration Ingredienten: gemeinsame Metadaten-Domäne gegenwärtige Sichtbarkeit nicht ausreichend - gibt keinen echten Katalog, keine Systematik und jede Menge Gemecker Erfahrungen von 10 Jahren in der Community mit IMDI, OLAC und TEI weg von fixed Schema hin zu flexiblem Componenten Model semantische Interoperabilität durch die Verwendung von registrierten Konzepten ISOcat (ISO 12620), TEI, DC dh. jeder kann sein eigenes Schema zusammenstellen momentan arbeiten Experten an den Element-Definitionen und Entwickler die an der Infrastruktur arbeiten (MPI, DFKI, IDS) wir sorgen dafür, dass alle IMDI/OLAC Investitionen gewahrt bleiben jeder kann mitmachen und prüfen, ob alles drin ist (zB. Zeichensprache) CMDI wird ein Standard in CLARIN ! arbeiten an einem Virtual Language Observatory

Pfeiler der Integration Ingredienten: Single Identity / Single Sign-On Prinzip mit Ihrer Heimat Identität müssen sie an all das Herankommen, zu dem Sie Zugangsberechtigung haben es ist wie bei Schlüsseln: man möchte am liebsten nur einen haben wir arbeiten eng mit dem DFN Verein zusammen wenn Ihre Uni in der DFN AAI (so heisst das) ist, dann gilt das europaweit IDS/MPI/BBAW nehmen nun an einem ersten Pilotprojekt zusammen mit NL und Finland teil

Pfeiler der Interoperabilität typisches Ziel: Zusammenstellen von Workflows Ingredienten für ein schwer anzupackendes Problem: Vereinbarung standardisierter Formate für die wesentlichen Datentypen (Text-Korpora, annotierte Medien, Lexika, etc) CLARIN macht Inventur von Format Standards&Best Practices Community Best Practices werden natürlich weiterleben CLARIN muss Konverter explizit und offen machen man wird nicht alles (WORD) unterstützen können offene Registratur linguistischer Konzepte als Referenz wollen ein pragmatisches Problem lösen (gemeinsame Suche) keiner soll seine Konzepte aufgeben!!! aber vielleicht für viele Konzepte Referenzen möglich CLARIN (zusammen mit ISO) arbeitet an ISOcat

Ist es morgen fertig? schön wärs ein steiniger und nicht einfacher Weg wenn wir jetzt aber nicht schrittweise anfangen, wann denn dann? nicht alles, was ich erzählt habe, werden Sie interessant gefunden haben, aber eines ist klar: die LRT Community ist in einigen Punkten im Moment anderen voraus

Ist morgen schon etwas fertig? arbeiten an einer Reihe von Dingen eine Reihe von Anforderungs Spezifikationen sind fertig nicht einfach bei 150 Mitgliedern, dh. ca. 500 Personen gemeinsame Metadaten Domäne 2009 Basis ist Language Resource and Technology Inventory Ziel ist Virtual Language Observatory - erster Schritt momentan alle sind aufgefordert mitzumachen erste allgemeine Service Angebote in 2009 PID Angebot steht; erste AAI Domäne in 2009 arbeiten mit Hochdruck an typischen Workflows hier ist D-Spin zu nennen wollen mehr Konvertoren verfügbar machen etc

Randbemerkungen CLARIN/D-SPIN ist eine Infrastrukturinitiative - kein Forschungsprojekt es baut auf existierenden Resourcen und Tools auf und will diese integrieren die Infrastruktur Pfeiler müssen persistent sein, Wissenschaftler müssen sich auf Dienste verlassen können wir sind nur ein Teil der ganzen Infrastruktur- Bewegung - viele Disziplinen sind involviert wir bekommen jetzt eine Chance - eine zweite wird es so schnell nicht geben wir werden von den Hardcore Kollegen etc respektiert

Ende Falls nicht to end in Babylonish scenario nous avons still een beten time om schattingen te improve. Danke für Ihre Aufmerksamkeit!