Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Bruna Rauen Geändert vor über 10 Jahren
1
Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)
D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel IDS Mannheim, Alexander Geyken Zentrum Sprache Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) 3/25/2017
2
Hintergrund D-Spin AP 3: Ressourcen- und Anwendungsplanung im Hinblick auf geisteswissenschaftliche Anwender (BBAW/Zentrum Sprache, Uni Gießen, Uni Frankfurt) Phase Sammlung von Anforderungen/Szenarien (bis Ende 2009) Korpusarbeit und Annotatation (BBAW, Uni Frankfurt) Sprachdidaktik (Uni Gießen) 3/25/2017
3
Hintergrund Notwendig: Akzeptanz der Anwendungen durch geisteswissenschaftliche Anwender Zurückhaltung bei Geisteswissenschaftlern bei technikverliebten Anwendungen viele Funktionen werden nicht genutzt, wenn sie nicht einfach bedienbar sind Beispiel Korpusabfragewerkzeuge (Suche Präfixverben) Beispiel Metadaten: wie müssen Metadaten gestaltet sein, damit sie von den Anwendern genutzt werden? 3/25/2017
4
Ausgangspunkt Kompetenzen BBAW
3/25/2017
5
BBAW - Geschichtliches
Gegründet von Leibniz in 1700 Internationale Anerkennung als Preußische Akademie der Wissenschaften Unter ihren Mitgliedern waren: Kant, Grimm, Humboldt, Planck, Einstein… 3/25/2017
6
BBAW - heute größte außeruniversitäre Forschungseinrichtung mit einem geistes- und sozialwissenschaftlichen Profil in der Region Berlin. internationale Vereinigung von Wissenschaftlern: Akademiemitglieder Knapp 30 Langzeitprojekte organisiert in Clustern: Zentrum Sprache, Zentrum Alte Welt, Preußen Editionen, Wörterbücher, Textsammlungen 3/25/2017
7
BBAW – Zentrum Sprache Vorhaben Extern geförderte Projekte
Deutsches Wörterbuch Goethe-Wörterbuch Digitales Wörterbuch der deutschen Sprache (DWDS) Extern geförderte Projekte Deutsches Textarchiv Dspin/Clarin Dlex Kyoto 3/25/2017
8
2. Bedarfsanalyse Instrumente: Fragebogen und Interviews
Fragebogen muss ergänzt werden durch Prototyp der D-Spin-Forschungsinfrastruktur Fallstudien mit Fokus auf folgende Disziplinen Historiker/Philologen (BBAW) Sprachdidaktiker (Uni Gießen) Linguisten (Uni Frankfurt, DoBeS) 3/25/2017
9
2.1 Fragebogen Online Fragebogen
Umfrage bei H-soz-kult / Gesprächsforschung Forum Gesprächsforschung URL: 3/25/2017
10
2.1 Fragebogen 3/25/2017
11
2.1 Fragebogen Textressourcen, Enzyklopädien, linguistische Korpora
3/25/2017
12
2.1 Fragebogen 3/25/2017
13
2.1 Fragebogen 3/25/2017
14
2.1 Fragebogen 3/25/2017
15
2.1 Fragebogen 3/25/2017
16
2.1 Fragebogen Funktionalitäten, Ausgabeformate, Annotationen
3/25/2017
17
2.1 Fragebogen 3/25/2017
18
2.1 Fragebogen 3/25/2017
19
2.1 Fragebogen 3/25/2017
20
2.1 Fragebogen 3/25/2017
21
2.1 Fragebogen 3/25/2017
22
3. Fallstudien Vorbemerkung: Nutzung des Lexikalischen Informationssystems (DWDS) Quellenbereitstellung und -aufbereitung Historiker Sprachdidaktik (D-Spin Partner Uni Gießen) Linguisten (D-Spin Partner Uni Frankfurt, DoBeS) Kumulatives Arbeiten (BBAW) 3/25/2017
23
DWDS-Wortinformationssystem
Wörterbuch - Artikel Wörterbuch: Thesaurus-informationen Korpus: Konkordanzen Korpus: Kollokationen DWDS ist die Nummer 2, wer nutzt das s. 3.
24
3/25/2017
25
3. Fallstudien DWDS – Lexikalische Informationsplattform 3/25/2017
26
3.1. DWDS Nutzung Wörterbuchplattform DWDS
Auswertung April 2009: Zugriffe erfolgreich auf Abfrageschnittstelle (*nicht* auf Bilder, Hilfeseiten etc.) 3/25/2017
27
3.1. DWDS Nutzung Wörterbuchplattform DWDS
Auswertung April 2009: Zugriffe erfolgreich auf Abfrageschnittstelle (*nicht* auf Bilder, Hilfeseiten etc.) 'crawler': (80.11%) 'browser': (19.80%) 3/25/2017
28
3.1. DWDS - Nutzung Abfragetypen Einzelwort/Lemma: 659196 (90.04%)
Phrase: ( 0.25%) Distanz: ( 3.72%) near Bool: ( 0.39%) # && || ( Wortart: ( 0.49%) # ... with ... 'operator *': ( 0.50%) # * * anderes: ( 3.97%) 3/25/2017
29
3.1. DWDS - Nutzung Abfragetypen Eingabeprobleme: Abfragesyntax:
Ñ?оÑ?мÑ?лиÑ?оваÑ?Ñ? königsschloß herrenchiemsee have to go for a bit, breakfast is the main thing Abfragesyntax: Einem geschenkten Gaul schaut man nicht ins Maul. /^[AZ][az][AZ][az]$/ husten #3 Raucher“ -> “husten #3 Raucher“ NEAR (Kaffee,Kuchen,10) -> NEAR(Kaffee,Kuchen,10) 3/25/2017
30
3.2 Quellenbereitstellung u. -aufbereitung
A. Sozialwissenschaften/Religionswissenschaft: Vergleich von zwei Korpora: Nutzerkorpus mit Referenzkorpus DDR-Korpus mit DWDS-Kernkorpus, s. Dissertation 'Diskussionslust. Zur Kulturgeschichte des 'besseren Arguments' in Westdeutschland, ') Religionskorpus mit DWDS-Kernkorpus Statistik-Anfragen 'Mein Problem lautet wie folgt: ich möchte gerne wissen, wie stark der Zusammenhang zwischen zwei spezifischen Worten ist, zum Beispiel "Wille" und "Weg"'. 3/25/2017
31
3.2 Quellenbereitstellung u. -aufbereitung
B. Historiker – Beispiel Staatsbibliothek Berlin: Gezielter Aufbau von Spezialkorpora (z.B. 1848, Weltkriege, DDR-Korpus) Erschließung der Korpora Beispiel: Projekt Weltkriegssammlung - Teilsammelgebiet Flugschriften orthographieübergreifende Suche Eigennamenerschließung (Institutionen, aber auch Regimenter) auch Forschungsaspekte: z.B. automatische Zuordnung von Flugblättern zu Kategorien Propaganda/Nicht-Propaganda 3/25/2017
32
3.2 Quellenbereitstellung u. -aufbereitung
C. Sprachdidaktik (D-Spin-Partner Gießen) Henning Lobin in Zusammenarbeit mit Sprachdidaktikern (Forschungsverbund Educational Linguistics) Erhebung von Szenarien für D-Spin Forschungsinfrastruktur (Bericht bis Ende 2009) Wie arbeiten Sprachlehrer/fortgeschr. Sprachlerner bei der Entwicklung von Lehrmaterialien? Welche Sprachressourcen werden beim Fremdsprachenerwerb benötigt (Stichwort CALL)? 3/25/2017
33
3.2 Quellenbereitstellung u. -aufbereitung
C. Sprachdidaktik: Anforderung an Sprachressourcen Textsammlungen (Aktuelle) domänenspezifische Texte z.B. Jugendsprache, Fachsprache der Wirtschaft Lernerkorpora (Texte mit Annotation von Fehlern) Referenzkorpora (mit komplexen Abfragemöglichkeiten) Korpora gesprochener Sprache Ein/zweisprachige Wörterbücher 3/25/2017
34
3.2 Quellenbereitstellung u. -aufbereitung
Anwendungen für Lehrer: Extraktion von Lehrmaterial - Tools: Konkordanzerstellung; Extraktion von Mehrwortverbindungen aus Texten, Verknüpfung mit "guten" Beispielen; Extraktion von Fachtermen aus Texten (Fachtexte), evtl. auch Definitionen Anwendungen für Lernende: Möglichkeit der Exploration von Korpora. Priorität auf Benutzerschnittstelle: flexible Verknüpfung von Text und Wörterbuch (z.B. möglichst die richtige Lesart / Definition Mehrwortausdrücken im Wörterbuch) 3/25/2017
35
3.2 Quellenbereitstellung u. -aufbereitung
2. Lernerkorpora Lernerkorpora mit Annotation von Fehlern und Metadaten wie Lernerniveau; Ziel: nicht-triviale Verallgemeinerungen über diesen beobachteten Fehlern zu treffen Großes Referenzkorpus, um daraus Sprachmodelle für den muttersprachlichen Sprachgebrauch zu extrahieren; auch: Baumbank, um daraus typische syntaktische Strukturen muttersprachlichen Sprachgebrauchs zu extrahieren gute Metadaten, die über die bekannten Metadaten hinausgehen; Klassifizierung von Fehlern nach Typen 3/25/2017
36
3.2 Zusammenfassung (I)CALL
Texte: spezifischer als allgemeinsprachliche Referenzkorpora (Fachtexte, Jugendsprache, Lernerkorpora), aber auch Referenzkorpora werden benötigt sie bedürfen einer besonderen Annotation (Lernerkorpora) sie bedürfen besonderer Metadaten, um z.B. den Schwierigkeitsgrad von Texten dynamisch an das Lernerniveau anpassen zu können Werkzeuge für die robuste Annotation von Korpora und ad hoc erstellten Texten, mindestens bis zum Shallow-Parsing möglicherweise semanitsche Wissensressourcen und semantisch annotierte Korpora Korpora gesprochener Sprache, aber für den Lernerbedarf geeignet, Transkriptionen und Suchwerkzeuge für die Suche in gesprochener Sprache 3/25/2017
37
3.3 Kumulatives Arbeiten Annotationsanwendungen für wissenschaftliche Anwender (Fallstudie der BBAW, baut auf auf Projekt Deutsches Textarchiv) D-Spin-Workshop "Kumulatives Arbeiten in Textarchiven" Berlin (Veranstalter BBAW) Inhalt: stand-off Annotationen für weitergehende wissenschaftliche Forschungen nutzbar machen. Konzeptuell: Nutzer legen private Datensammlungen an Technisch: Quelldatei und Annotationsdatei bleiben getrennt, sind aber über Verweisstrukturen miteinander verbunden 3/25/2017
38
3.3 Kumulatives Arbeiten Einbettung in Projekt Deutsches Textarchiv
Ziele und Rahmen: Erstellung eines historischen Referenzkorpus (Goethe*, Humboldt, Planck, Röntgen …) Open Access Aktives Archiv Gefördert Deutsche Forschungsgemeinschaft (seit Juli 2007) Erste Phase: 3 Jahre (Texte zwischen ) Zweite Phase: 4 Jahre (Texte zwischen ~ ) 3/25/2017
39
3.3 Kumulatives Arbeiten Digitales Textarchiv (1. Phase)
Digitalisierung von 750 Werken 1780–1900 Texte wurden durch Umfrage bei BBAW-Akademiemitgliedern ermittelt Gesamt ~ Druckseiten Volltext (XML/TEI-P5) – verknüpft mit Images Basisannotierung (plus lemma, pos, graph2phon) Archiv soll durch die Annotierung anderer wachsen: „dynamisches Archiv“ 3/25/2017
40
Korpus: Textsorten 3/25/2017
41
DTA-Korpus: zeitlicher Überblick
3/25/2017
42
3.3 Kumulatives Arbeiten Typ 1 – 'Notizblockfunktion':
Fundstellen/Textbelege/Bildbereiche speichern in privaten Sammlungen (inkl. private Kategorien) Typ 2 - Nutzer erstellen öffentlich nutzbare Zusatzinformationen zu Texten' : z.B. Eigennamen, Themen, Markierung diastrat. Merkmale Narrative Strukturen in literarische Werken als stand-off kodieren (Jannidis/Lauer) Namensforschung (z.B. Widmungen oder Subskribendenlisten, aber auch z.B. die im Corpus enthaltenen Briefe (Pückler, Rahel Varnhagen usw.) - Vorhaben Preußen als Kulturstaat 3/25/2017
43
4. Zusammenfassung Anforderungsanalyse nicht unabhängig von D-Spin-Infrastruktur Bislang: Sammlung von Fallbeispielen Historiker, Sprachdidaktik, Linguistik Zusätzliche Ressourcen eröffnen zusätzliche Anwendungsmöglichkeiten Weitere Fallbeispiele? 3/25/2017
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.