Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de 11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel.

Ähnliche Präsentationen


Präsentation zum Thema: "Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de 11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel."—  Präsentation transkript:

1 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel IDS Mannheim, Alexander Geyken Zentrum Sprache Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)

2 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 11/14/2013 Hintergrund 1. D-Spin AP 3: Ressourcen- und Anwendungsplanung im Hinblick auf geisteswissenschaftliche Anwender (BBAW/Zentrum Sprache, Uni Gießen, Uni Frankfurt) 2. Phase Sammlung von Anforderungen/Szenarien (bis Ende 2009) Korpusarbeit und Annotatation (BBAW, Uni Frankfurt) Sprachdidaktik (Uni Gießen)

3 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 11/14/2013 Hintergrund 1. Notwendig: Akzeptanz der Anwendungen durch geisteswissenschaftliche Anwender 2. Zurückhaltung bei Geisteswissenschaftlern bei technikverliebten Anwendungen 3. viele Funktionen werden nicht genutzt, wenn sie nicht einfach bedienbar sind – Beispiel Korpusabfragewerkzeuge (Suche Präfixverben) – Beispiel Metadaten: wie müssen Metadaten gestaltet sein, damit sie von den Anwendern genutzt werden?

4 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin Ausgangspunkt Kompetenzen BBAW 11/14/2013

5 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin BBAW - Geschichtliches Gegründet von Leibniz in 1700 Internationale Anerkennung als Preußische Akademie der Wissenschaften Unter ihren Mitgliedern waren: Kant, Grimm, Humboldt, Planck, Einstein… 11/14/2013

6 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin BBAW - heute größte außeruniversitäre Forschungseinrichtung mit einem geistes- und sozialwissenschaftlichen Profil in der Region Berlin. –internationale Vereinigung von Wissenschaftlern: Akademiemitglieder –Knapp 30 Langzeitprojekte –organisiert in Clustern: Zentrum Sprache, Zentrum Alte Welt, Preußen –Editionen, Wörterbücher, Textsammlungen 11/14/2013

7 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin BBAW – Zentrum Sprache Vorhaben –Deutsches Wörterbuch –Goethe-Wörterbuch –Digitales Wörterbuch der deutschen Sprache (DWDS) Extern geförderte Projekte –Deutsches Textarchiv –Dspin/Clarin –Dlex –Kyoto 11/14/2013

8 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 2. Bedarfsanalyse Instrumente: Fragebogen und Interviews Fragebogen muss ergänzt werden durch Prototyp der D-Spin-Forschungsinfrastruktur Fallstudien mit Fokus auf folgende Disziplinen –Historiker/Philologen (BBAW) –Sprachdidaktiker (Uni Gießen) –Linguisten (Uni Frankfurt, DoBeS) 11/14/2013

9 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 2.1 Fragebogen Online Fragebogen –Umfrage bei H-soz-kult / Gesprächsforschung –Forum Gesprächsforschung –URL: 1D09-676D-A6A031D1AF9E859Bhttp://www.onlineumfragen.com/ 1D09-676D-A6A031D1AF9E859B 11/14/2013

10 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 2.1 Fragebogen 11/14/2013

11 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 2.1 Fragebogen 11/14/2013

12 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 2.1 Fragebogen 11/14/2013

13 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 2.1 Fragebogen 11/14/2013

14 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 2.1 Fragebogen 11/14/2013

15 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 2.1 Fragebogen 11/14/2013

16 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 2.1 Fragebogen 11/14/2013

17 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 2.1 Fragebogen 11/14/2013

18 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 2.1 Fragebogen 11/14/2013

19 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 2.1 Fragebogen 11/14/2013

20 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 2.1 Fragebogen 11/14/2013

21 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 2.1 Fragebogen 11/14/2013

22 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 3. Fallstudien 1. Vorbemerkung: Nutzung des Lexikalischen Informationssystems (DWDS) 2. Quellenbereitstellung und -aufbereitung a.Historiker b.Sprachdidaktik (D-Spin Partner Uni Gießen) c.Linguisten (D-Spin Partner Uni Frankfurt, DoBeS) 3. Kumulatives Arbeiten (BBAW) 11/14/2013

23 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin DWDS-Wortinformationssystem Wörterbuch - Artikel Wörterbuch: Thesaurus- informationen Korpus: Konkordanzen Korpus: Kollokationen

24 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 11/14/2013

25 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 3. Fallstudien DWDS – Lexikalische Informationsplattform 11/14/2013

26 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin DWDS 1. Nutzung Wörterbuchplattform DWDS –Auswertung April 2009: – Zugriffe erfolgreich auf Abfrageschnittstelle (*nicht* auf Bilder, Hilfeseiten etc.) 11/14/2013

27 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin DWDS 1. Nutzung Wörterbuchplattform DWDS –Auswertung April 2009: – Zugriffe erfolgreich auf Abfrageschnittstelle (*nicht* auf Bilder, Hilfeseiten etc.) 'crawler': (80.11%) 'browser': (19.80%) 11/14/2013

28 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin DWDS - Nutzung 1. Abfragetypen 1.Einzelwort/Lemma: (90.04%) 2.Phrase: 6409 ( 0.25%) 3.Distanz: ( 3.72%) near 4.Bool:2885 ( 0.39%) # && || ( 6.Wortart:4089 ( 0.49%) #... with... 7.'operator *':3650 ( 0.50%) # *......* 8.anderes: ( 3.97%) 11/14/2013

29 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin DWDS - Nutzung Abfragetypen 1.Eingabeprobleme: Ñ?оÑ?мÑ?лиÑ?оваÑ?Ñ? königsschloß herrenchiemsee have to go for a bit, breakfast is the main thing 2.Abfragesyntax: Einem geschenkten Gaul schaut man nicht ins Maul. /^[AZ][az][AZ][az]$/ husten #3 Raucher -> husten #3 Raucher NEAR (Kaffee,Kuchen,10) -> NEAR(Kaffee,Kuchen,10) 11/14/2013

30 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 3.2 Quellenbereitstellung u. - aufbereitung A. Sozialwissenschaften/Religionswissenschaft: 1.Vergleich von zwei Korpora: Nutzerkorpus mit Referenzkorpus DDR-Korpus mit DWDS-Kernkorpus, s. Dissertation 'Diskussionslust. Zur Kulturgeschichte des 'besseren Arguments' in Westdeutschland, ') Religionskorpus mit DWDS-Kernkorpus 2.Statistik-Anfragen 'Mein Problem lautet wie folgt: ich möchte gerne wissen, wie stark der Zusammenhang zwischen zwei spezifischen Worten ist, zum Beispiel "Wille" und "Weg"'. 11/14/2013

31 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 3.2 Quellenbereitstellung u. - aufbereitung B. Historiker – Beispiel Staatsbibliothek Berlin: 1.Gezielter Aufbau von Spezialkorpora (z.B. 1848, Weltkriege, DDR-Korpus) 2.Erschließung der Korpora Beispiel: Projekt Weltkriegssammlung - Teilsammelgebiet Flugschriften orthographieübergreifende Suche Eigennamenerschließung (Institutionen, aber auch Regimenter) auch Forschungsaspekte: z.B. automatische Zuordnung von Flugblättern zu Kategorien Propaganda/Nicht-Propaganda 11/14/2013

32 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 3.2 Quellenbereitstellung u. - aufbereitung C.Sprachdidaktik (D-Spin-Partner Gießen) –Henning Lobin in Zusammenarbeit mit Sprachdidaktikern (Forschungsverbund Educational Linguistics) –Erhebung von Szenarien für D-Spin Forschungsinfrastruktur (Bericht bis Ende 2009) –Wie arbeiten Sprachlehrer/fortgeschr. Sprachlerner bei der Entwicklung von Lehrmaterialien? –Welche Sprachressourcen werden beim Fremdsprachenerwerb benötigt (Stichwort CALL)? 11/14/2013

33 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 3.2 Quellenbereitstellung u. - aufbereitung C. Sprachdidaktik: Anforderung an Sprachressourcen 1.Textsammlungen (Aktuelle) domänenspezifische Texte z.B. Jugendsprache, Fachsprache der Wirtschaft Lernerkorpora (Texte mit Annotation von Fehlern) Referenzkorpora (mit komplexen Abfragemöglichkeiten) 2.Korpora gesprochener Sprache 3.Ein/zweisprachige Wörterbücher 11/14/2013

34 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 3.2 Quellenbereitstellung u. - aufbereitung 1. Anwendungen für Lehrer: 1.Extraktion von Lehrmaterial - Tools: Konkordanzerstellung; 2.Extraktion von Mehrwortverbindungen aus Texten, Verknüpfung mit "guten" Beispielen; 3. Extraktion von Fachtermen aus Texten (Fachtexte), evtl. auch Definitionen 2. Anwendungen für Lernende: 1.Möglichkeit der Exploration von Korpora. 2.Priorität auf Benutzerschnittstelle: flexible Verknüpfung von Text und Wörterbuch (z.B. möglichst die richtige Lesart / Definition Mehrwortausdrücken im Wörterbuch) 11/14/2013

35 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 3.2 Quellenbereitstellung u. - aufbereitung 2. Lernerkorpora 1.Lernerkorpora mit Annotation von Fehlern und Metadaten wie Lernerniveau; 2.Ziel: nicht-triviale Verallgemeinerungen über diesen beobachteten Fehlern zu treffen 3.Großes Referenzkorpus, um daraus Sprachmodelle für den muttersprachlichen Sprachgebrauch zu extrahieren; auch: Baumbank, um daraus typische syntaktische Strukturen muttersprachlichen Sprachgebrauchs zu extrahieren 4. gute Metadaten, die über die bekannten Metadaten hinausgehen; Klassifizierung von Fehlern nach Typen 11/14/2013

36 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 3.2 Zusammenfassung (I)CALL 1.Texte: spezifischer als allgemeinsprachliche Referenzkorpora (Fachtexte, Jugendsprache, Lernerkorpora), aber auch Referenzkorpora werden benötigt 2.sie bedürfen einer besonderen Annotation (Lernerkorpora) 3.sie bedürfen besonderer Metadaten, um z.B. den Schwierigkeitsgrad von Texten dynamisch an das Lernerniveau anpassen zu können 4.Werkzeuge für die robuste Annotation von Korpora und ad hoc erstellten Texten, mindestens bis zum Shallow-Parsing 5.möglicherweise semanitsche Wissensressourcen und semantisch annotierte Korpora 6.Korpora gesprochener Sprache, aber für den Lernerbedarf geeignet, Transkriptionen und Suchwerkzeuge für die Suche in gesprochener Sprache 11/14/2013

37 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 3.3 Kumulatives Arbeiten 1.Annotationsanwendungen für wissenschaftliche Anwender (Fallstudie der BBAW, baut auf auf Projekt Deutsches Textarchiv) 2.D-Spin-Workshop "Kumulatives Arbeiten in Textarchiven" Berlin (Veranstalter BBAW) 3.Inhalt: stand-off Annotationen für weitergehende wissenschaftliche Forschungen nutzbar machen. Konzeptuell: Nutzer legen private Datensammlungen an Technisch: Quelldatei und Annotationsdatei bleiben getrennt, sind aber über Verweisstrukturen miteinander verbunden 11/14/2013

38 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 3.3 Kumulatives Arbeiten Einbettung in Projekt Deutsches Textarchiv Ziele und Rahmen: –Erstellung eines historischen Referenzkorpus (Goethe*, Humboldt, Planck, Röntgen …) –Open Access –Aktives Archiv –Gefördert Deutsche Forschungsgemeinschaft (seit Juli 2007) –Erste Phase: 3 Jahre (Texte zwischen ) –Zweite Phase: 4 Jahre (Texte zwischen ~ ) 11/14/2013

39 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 3.3 Kumulatives Arbeiten Digitales Textarchiv (1. Phase) –Digitalisierung von 750 Werken 1780–1900 –Texte wurden durch Umfrage bei BBAW- Akademiemitgliedern ermittelt –Gesamt ~ Druckseiten –Volltext (XML/TEI-P5) – verknüpft mit Images –Basisannotierung (plus lemma, pos, graph2phon) –Archiv soll durch die Annotierung anderer wachsen: dynamisches Archiv 11/14/2013

40 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin Korpus: Textsorten 11/14/2013

41 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin DTA-Korpus: zeitlicher Überblick 11/14/2013

42 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 3.3 Kumulatives Arbeiten 1.Typ 1 – 'Notizblockfunktion': Fundstellen/Textbelege/Bildbereiche speichern in privaten Sammlungen (inkl. private Kategorien) 2.Typ 2 - Nutzer erstellen öffentlich nutzbare Zusatzinformationen zu Texten' : z.B. Eigennamen, Themen, Markierung diastrat. Merkmale Narrative Strukturen in literarische Werken als stand- off kodieren (Jannidis/Lauer) Namensforschung (z.B. Widmungen oder Subskribendenlisten, aber auch z.B. die im Corpus enthaltenen Briefe (Pückler, Rahel Varnhagen usw.) - Vorhaben Preußen als Kulturstaat 11/14/2013

43 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin 11/14/ Zusammenfassung Anforderungsanalyse nicht unabhängig von D-Spin- Infrastruktur Bislang: Sammlung von Fallbeispielen –Historiker, Sprachdidaktik, Linguistik Zusätzliche Ressourcen eröffnen zusätzliche Anwendungsmöglichkeiten Weitere Fallbeispiele?


Herunterladen ppt "Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de 11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel."

Ähnliche Präsentationen


Google-Anzeigen