Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel IDS Mannheim, 15.-16.5.2009 Alexander Geyken Zentrum Sprache Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) 3/25/2017
Hintergrund D-Spin AP 3: Ressourcen- und Anwendungsplanung im Hinblick auf geisteswissenschaftliche Anwender (BBAW/Zentrum Sprache, Uni Gießen, Uni Frankfurt) Phase Sammlung von Anforderungen/Szenarien (bis Ende 2009) Korpusarbeit und Annotatation (BBAW, Uni Frankfurt) Sprachdidaktik (Uni Gießen) 3/25/2017
Hintergrund Notwendig: Akzeptanz der Anwendungen durch geisteswissenschaftliche Anwender Zurückhaltung bei Geisteswissenschaftlern bei technikverliebten Anwendungen viele Funktionen werden nicht genutzt, wenn sie nicht einfach bedienbar sind Beispiel Korpusabfragewerkzeuge (Suche Präfixverben) Beispiel Metadaten: wie müssen Metadaten gestaltet sein, damit sie von den Anwendern genutzt werden? 3/25/2017
Ausgangspunkt Kompetenzen BBAW 3/25/2017
BBAW - Geschichtliches Gegründet von Leibniz in 1700 Internationale Anerkennung als Preußische Akademie der Wissenschaften Unter ihren Mitgliedern waren: Kant, Grimm, Humboldt, Planck, Einstein… 3/25/2017
BBAW - heute größte außeruniversitäre Forschungseinrichtung mit einem geistes- und sozialwissenschaftlichen Profil in der Region Berlin. internationale Vereinigung von Wissenschaftlern: Akademiemitglieder Knapp 30 Langzeitprojekte organisiert in Clustern: Zentrum Sprache, Zentrum Alte Welt, Preußen Editionen, Wörterbücher, Textsammlungen 3/25/2017
BBAW – Zentrum Sprache Vorhaben Extern geförderte Projekte Deutsches Wörterbuch Goethe-Wörterbuch Digitales Wörterbuch der deutschen Sprache (DWDS) Extern geförderte Projekte Deutsches Textarchiv Dspin/Clarin Dlex Kyoto 3/25/2017
2. Bedarfsanalyse Instrumente: Fragebogen und Interviews Fragebogen muss ergänzt werden durch Prototyp der D-Spin-Forschungsinfrastruktur Fallstudien mit Fokus auf folgende Disziplinen Historiker/Philologen (BBAW) Sprachdidaktiker (Uni Gießen) Linguisten (Uni Frankfurt, DoBeS) 3/25/2017
2.1 Fragebogen Online Fragebogen Umfrage bei H-soz-kult / Gesprächsforschung Forum Gesprächsforschung URL: http://www.onlineumfragen.com/ http://www.onlineumfragen.com/login.cfm?umfrage=10440&ttuid=D1E7401E-1D09-676D-A6A031D1AF9E859B 3/25/2017
2.1 Fragebogen 3/25/2017
2.1 Fragebogen Textressourcen, Enzyklopädien, linguistische Korpora 3/25/2017
2.1 Fragebogen 3/25/2017
2.1 Fragebogen 3/25/2017
2.1 Fragebogen 3/25/2017
2.1 Fragebogen 3/25/2017
2.1 Fragebogen Funktionalitäten, Ausgabeformate, Annotationen 3/25/2017
2.1 Fragebogen 3/25/2017
2.1 Fragebogen 3/25/2017
2.1 Fragebogen 3/25/2017
2.1 Fragebogen 3/25/2017
2.1 Fragebogen 3/25/2017
3. Fallstudien Vorbemerkung: Nutzung des Lexikalischen Informationssystems (DWDS) Quellenbereitstellung und -aufbereitung Historiker Sprachdidaktik (D-Spin Partner Uni Gießen) Linguisten (D-Spin Partner Uni Frankfurt, DoBeS) Kumulatives Arbeiten (BBAW) 3/25/2017
DWDS-Wortinformationssystem Wörterbuch - Artikel Wörterbuch: Thesaurus-informationen Korpus: Konkordanzen Korpus: Kollokationen DWDS ist die Nummer 2, wer nutzt das s. 3.
3/25/2017
3. Fallstudien DWDS – Lexikalische Informationsplattform 3/25/2017
3.1. DWDS Nutzung Wörterbuchplattform DWDS Auswertung 1. - 30. April 2009: 3.722.842 Zugriffe erfolgreich auf Abfrageschnittstelle (*nicht* auf Bilder, Hilfeseiten etc.) 3/25/2017
3.1. DWDS Nutzung Wörterbuchplattform DWDS Auswertung 1. - 30. April 2009: 3.722.842 Zugriffe erfolgreich auf Abfrageschnittstelle (*nicht* auf Bilder, Hilfeseiten etc.) 'crawler': 2.982.257 (80.11%) 'browser': 737.057 (19.80%) 3/25/2017
3.1. DWDS - Nutzung Abfragetypen Einzelwort/Lemma: 659196 (90.04%) Phrase: 6409 ( 0.25%) Distanz: 27149 ( 3.72%) near Bool: 2885 ( 0.39%) # && || Antilemma @: 1926 ( 0.26%) @ Wortart: 4089 ( 0.49%) # ... with ... 'operator *': 3650 ( 0.50%) # *... ...* anderes: 29055 ( 3.97%) 3/25/2017
3.1. DWDS - Nutzung Abfragetypen Eingabeprobleme: Abfragesyntax: Ñ?оÑ?мÑ?лиÑ?оваÑ?Ñ? königsschloß herrenchiemsee have to go for a bit, breakfast is the main thing Abfragesyntax: Einem geschenkten Gaul schaut man nicht ins Maul. /^[AZ][az][AZ][az]$/ husten #3 Raucher“ -> “husten #3 Raucher“ NEAR (Kaffee,Kuchen,10) -> NEAR(Kaffee,Kuchen,10) 3/25/2017
3.2 Quellenbereitstellung u. -aufbereitung A. Sozialwissenschaften/Religionswissenschaft: Vergleich von zwei Korpora: Nutzerkorpus mit Referenzkorpus DDR-Korpus mit DWDS-Kernkorpus, s. Dissertation 'Diskussionslust. Zur Kulturgeschichte des 'besseren Arguments' in Westdeutschland, 1945-1973') Religionskorpus mit DWDS-Kernkorpus Statistik-Anfragen 'Mein Problem lautet wie folgt: ich möchte gerne wissen, wie stark der Zusammenhang zwischen zwei spezifischen Worten ist, zum Beispiel "Wille" und "Weg"'. 3/25/2017
3.2 Quellenbereitstellung u. -aufbereitung B. Historiker – Beispiel Staatsbibliothek Berlin: Gezielter Aufbau von Spezialkorpora (z.B. 1848, Weltkriege, DDR-Korpus) Erschließung der Korpora Beispiel: Projekt Weltkriegssammlung - Teilsammelgebiet Flugschriften orthographieübergreifende Suche Eigennamenerschließung (Institutionen, aber auch Regimenter) auch Forschungsaspekte: z.B. automatische Zuordnung von Flugblättern zu Kategorien Propaganda/Nicht-Propaganda 3/25/2017
3.2 Quellenbereitstellung u. -aufbereitung C. Sprachdidaktik (D-Spin-Partner Gießen) Henning Lobin in Zusammenarbeit mit Sprachdidaktikern (Forschungsverbund Educational Linguistics) Erhebung von Szenarien für D-Spin Forschungsinfrastruktur (Bericht bis Ende 2009) Wie arbeiten Sprachlehrer/fortgeschr. Sprachlerner bei der Entwicklung von Lehrmaterialien? Welche Sprachressourcen werden beim Fremdsprachenerwerb benötigt (Stichwort CALL)? 3/25/2017
3.2 Quellenbereitstellung u. -aufbereitung C. Sprachdidaktik: Anforderung an Sprachressourcen Textsammlungen (Aktuelle) domänenspezifische Texte z.B. Jugendsprache, Fachsprache der Wirtschaft Lernerkorpora (Texte mit Annotation von Fehlern) Referenzkorpora (mit komplexen Abfragemöglichkeiten) Korpora gesprochener Sprache Ein/zweisprachige Wörterbücher 3/25/2017
3.2 Quellenbereitstellung u. -aufbereitung Anwendungen für Lehrer: Extraktion von Lehrmaterial - Tools: Konkordanzerstellung; Extraktion von Mehrwortverbindungen aus Texten, Verknüpfung mit "guten" Beispielen; Extraktion von Fachtermen aus Texten (Fachtexte), evtl. auch Definitionen Anwendungen für Lernende: Möglichkeit der Exploration von Korpora. Priorität auf Benutzerschnittstelle: flexible Verknüpfung von Text und Wörterbuch (z.B. möglichst die richtige Lesart / Definition Mehrwortausdrücken im Wörterbuch) 3/25/2017
3.2 Quellenbereitstellung u. -aufbereitung 2. Lernerkorpora Lernerkorpora mit Annotation von Fehlern und Metadaten wie Lernerniveau; Ziel: nicht-triviale Verallgemeinerungen über diesen beobachteten Fehlern zu treffen Großes Referenzkorpus, um daraus Sprachmodelle für den muttersprachlichen Sprachgebrauch zu extrahieren; auch: Baumbank, um daraus typische syntaktische Strukturen muttersprachlichen Sprachgebrauchs zu extrahieren gute Metadaten, die über die bekannten Metadaten hinausgehen; Klassifizierung von Fehlern nach Typen 3/25/2017
3.2 Zusammenfassung (I)CALL Texte: spezifischer als allgemeinsprachliche Referenzkorpora (Fachtexte, Jugendsprache, Lernerkorpora), aber auch Referenzkorpora werden benötigt sie bedürfen einer besonderen Annotation (Lernerkorpora) sie bedürfen besonderer Metadaten, um z.B. den Schwierigkeitsgrad von Texten dynamisch an das Lernerniveau anpassen zu können Werkzeuge für die robuste Annotation von Korpora und ad hoc erstellten Texten, mindestens bis zum Shallow-Parsing möglicherweise semanitsche Wissensressourcen und semantisch annotierte Korpora Korpora gesprochener Sprache, aber für den Lernerbedarf geeignet, Transkriptionen und Suchwerkzeuge für die Suche in gesprochener Sprache 3/25/2017
3.3 Kumulatives Arbeiten Annotationsanwendungen für wissenschaftliche Anwender (Fallstudie der BBAW, baut auf auf Projekt Deutsches Textarchiv) D-Spin-Workshop "Kumulatives Arbeiten in Textarchiven" Berlin 26-27.3. (Veranstalter BBAW) Inhalt: stand-off Annotationen für weitergehende wissenschaftliche Forschungen nutzbar machen. Konzeptuell: Nutzer legen private Datensammlungen an Technisch: Quelldatei und Annotationsdatei bleiben getrennt, sind aber über Verweisstrukturen miteinander verbunden 3/25/2017
3.3 Kumulatives Arbeiten Einbettung in Projekt Deutsches Textarchiv Ziele und Rahmen: Erstellung eines historischen Referenzkorpus (Goethe*, Humboldt, Planck, Röntgen …) Open Access Aktives Archiv Gefördert Deutsche Forschungsgemeinschaft (seit Juli 2007) Erste Phase: 3 Jahre (Texte zwischen1780-1900) Zweite Phase: 4 Jahre (Texte zwischen ~1650-1780) 3/25/2017
3.3 Kumulatives Arbeiten Digitales Textarchiv (1. Phase) Digitalisierung von 750 Werken 1780–1900 Texte wurden durch Umfrage bei BBAW-Akademiemitgliedern ermittelt Gesamt ~220.000 Druckseiten Volltext (XML/TEI-P5) – verknüpft mit Images Basisannotierung (plus lemma, pos, graph2phon) Archiv soll durch die Annotierung anderer wachsen: „dynamisches Archiv“ 3/25/2017
Korpus: Textsorten 3/25/2017
DTA-Korpus: zeitlicher Überblick 3/25/2017
3.3 Kumulatives Arbeiten Typ 1 – 'Notizblockfunktion': Fundstellen/Textbelege/Bildbereiche speichern in privaten Sammlungen (inkl. private Kategorien) Typ 2 - Nutzer erstellen öffentlich nutzbare Zusatzinformationen zu Texten' : z.B. Eigennamen, Themen, Markierung diastrat. Merkmale Narrative Strukturen in literarische Werken als stand-off kodieren (Jannidis/Lauer) Namensforschung (z.B. Widmungen oder Subskribendenlisten, aber auch z.B. die im Corpus enthaltenen Briefe (Pückler, Rahel Varnhagen usw.) - Vorhaben Preußen als Kulturstaat 3/25/2017
4. Zusammenfassung Anforderungsanalyse nicht unabhängig von D-Spin-Infrastruktur Bislang: Sammlung von Fallbeispielen Historiker, Sprachdidaktik, Linguistik Zusätzliche Ressourcen eröffnen zusätzliche Anwendungsmöglichkeiten Weitere Fallbeispiele? 3/25/2017