Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)

Ähnliche Präsentationen


Präsentation zum Thema: "Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)"—  Präsentation transkript:

1 Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)
D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel IDS Mannheim, Alexander Geyken Zentrum Sprache Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) 3/25/2017

2 Hintergrund D-Spin AP 3: Ressourcen- und Anwendungsplanung im Hinblick auf geisteswissenschaftliche Anwender (BBAW/Zentrum Sprache, Uni Gießen, Uni Frankfurt) Phase Sammlung von Anforderungen/Szenarien (bis Ende 2009) Korpusarbeit und Annotatation (BBAW, Uni Frankfurt) Sprachdidaktik (Uni Gießen) 3/25/2017

3 Hintergrund Notwendig: Akzeptanz der Anwendungen durch geisteswissenschaftliche Anwender Zurückhaltung bei Geisteswissenschaftlern bei technikverliebten Anwendungen viele Funktionen werden nicht genutzt, wenn sie nicht einfach bedienbar sind Beispiel Korpusabfragewerkzeuge (Suche Präfixverben) Beispiel Metadaten: wie müssen Metadaten gestaltet sein, damit sie von den Anwendern genutzt werden? 3/25/2017

4 Ausgangspunkt Kompetenzen BBAW
3/25/2017

5 BBAW - Geschichtliches
Gegründet von Leibniz in 1700 Internationale Anerkennung als Preußische Akademie der Wissenschaften Unter ihren Mitgliedern waren: Kant, Grimm, Humboldt, Planck, Einstein… 3/25/2017

6 BBAW - heute größte außeruniversitäre Forschungseinrichtung mit einem geistes- und sozialwissenschaftlichen Profil in der Region Berlin. internationale Vereinigung von Wissenschaftlern: Akademiemitglieder Knapp 30 Langzeitprojekte organisiert in Clustern: Zentrum Sprache, Zentrum Alte Welt, Preußen Editionen, Wörterbücher, Textsammlungen 3/25/2017

7 BBAW – Zentrum Sprache Vorhaben Extern geförderte Projekte
Deutsches Wörterbuch Goethe-Wörterbuch Digitales Wörterbuch der deutschen Sprache (DWDS) Extern geförderte Projekte Deutsches Textarchiv Dspin/Clarin Dlex Kyoto 3/25/2017

8 2. Bedarfsanalyse Instrumente: Fragebogen und Interviews
Fragebogen muss ergänzt werden durch Prototyp der D-Spin-Forschungsinfrastruktur Fallstudien mit Fokus auf folgende Disziplinen Historiker/Philologen (BBAW) Sprachdidaktiker (Uni Gießen) Linguisten (Uni Frankfurt, DoBeS) 3/25/2017

9 2.1 Fragebogen Online Fragebogen
Umfrage bei H-soz-kult / Gesprächsforschung Forum Gesprächsforschung URL: 3/25/2017

10 2.1 Fragebogen 3/25/2017

11 2.1 Fragebogen Textressourcen, Enzyklopädien, linguistische Korpora
3/25/2017

12 2.1 Fragebogen 3/25/2017

13 2.1 Fragebogen 3/25/2017

14 2.1 Fragebogen 3/25/2017

15 2.1 Fragebogen 3/25/2017

16 2.1 Fragebogen Funktionalitäten, Ausgabeformate, Annotationen
3/25/2017

17 2.1 Fragebogen 3/25/2017

18 2.1 Fragebogen 3/25/2017

19 2.1 Fragebogen 3/25/2017

20 2.1 Fragebogen 3/25/2017

21 2.1 Fragebogen 3/25/2017

22 3. Fallstudien Vorbemerkung: Nutzung des Lexikalischen Informationssystems (DWDS) Quellenbereitstellung und -aufbereitung Historiker Sprachdidaktik (D-Spin Partner Uni Gießen) Linguisten (D-Spin Partner Uni Frankfurt, DoBeS) Kumulatives Arbeiten (BBAW) 3/25/2017

23 DWDS-Wortinformationssystem
Wörterbuch - Artikel Wörterbuch: Thesaurus-informationen Korpus: Konkordanzen Korpus: Kollokationen DWDS ist die Nummer 2, wer nutzt das s. 3.

24 3/25/2017

25 3. Fallstudien DWDS – Lexikalische Informationsplattform 3/25/2017

26 3.1. DWDS Nutzung Wörterbuchplattform DWDS
Auswertung April 2009: Zugriffe erfolgreich auf Abfrageschnittstelle (*nicht* auf Bilder, Hilfeseiten etc.) 3/25/2017

27 3.1. DWDS Nutzung Wörterbuchplattform DWDS
Auswertung April 2009: Zugriffe erfolgreich auf Abfrageschnittstelle (*nicht* auf Bilder, Hilfeseiten etc.) 'crawler': (80.11%) 'browser': (19.80%) 3/25/2017

28 3.1. DWDS - Nutzung Abfragetypen Einzelwort/Lemma: 659196 (90.04%)
Phrase: ( 0.25%) Distanz: ( 3.72%) near Bool: ( 0.39%) # && || ( Wortart: ( 0.49%) # ... with ... 'operator *': ( 0.50%) # * * anderes: ( 3.97%) 3/25/2017

29 3.1. DWDS - Nutzung Abfragetypen Eingabeprobleme: Abfragesyntax:
Ñ?оÑ?мÑ?лиÑ?оваÑ?Ñ? königsschloß herrenchiemsee have to go for a bit, breakfast is the main thing Abfragesyntax: Einem geschenkten Gaul schaut man nicht ins Maul. /^[AZ][az][AZ][az]$/ husten #3 Raucher“ -> “husten #3 Raucher“ NEAR (Kaffee,Kuchen,10) -> NEAR(Kaffee,Kuchen,10) 3/25/2017

30 3.2 Quellenbereitstellung u. -aufbereitung
A. Sozialwissenschaften/Religionswissenschaft: Vergleich von zwei Korpora: Nutzerkorpus mit Referenzkorpus DDR-Korpus mit DWDS-Kernkorpus, s. Dissertation 'Diskussionslust. Zur Kulturgeschichte des 'besseren Arguments' in Westdeutschland, ') Religionskorpus mit DWDS-Kernkorpus Statistik-Anfragen 'Mein Problem lautet wie folgt: ich möchte gerne wissen, wie stark der Zusammenhang zwischen zwei spezifischen Worten ist, zum Beispiel "Wille" und "Weg"'. 3/25/2017

31 3.2 Quellenbereitstellung u. -aufbereitung
B. Historiker – Beispiel Staatsbibliothek Berlin: Gezielter Aufbau von Spezialkorpora (z.B. 1848, Weltkriege, DDR-Korpus) Erschließung der Korpora Beispiel: Projekt Weltkriegssammlung - Teilsammelgebiet Flugschriften orthographieübergreifende Suche Eigennamenerschließung (Institutionen, aber auch Regimenter) auch Forschungsaspekte: z.B. automatische Zuordnung von Flugblättern zu Kategorien Propaganda/Nicht-Propaganda 3/25/2017

32 3.2 Quellenbereitstellung u. -aufbereitung
C. Sprachdidaktik (D-Spin-Partner Gießen) Henning Lobin in Zusammenarbeit mit Sprachdidaktikern (Forschungsverbund Educational Linguistics) Erhebung von Szenarien für D-Spin Forschungsinfrastruktur (Bericht bis Ende 2009) Wie arbeiten Sprachlehrer/fortgeschr. Sprachlerner bei der Entwicklung von Lehrmaterialien? Welche Sprachressourcen werden beim Fremdsprachenerwerb benötigt (Stichwort CALL)? 3/25/2017

33 3.2 Quellenbereitstellung u. -aufbereitung
C. Sprachdidaktik: Anforderung an Sprachressourcen Textsammlungen (Aktuelle) domänenspezifische Texte z.B. Jugendsprache, Fachsprache der Wirtschaft Lernerkorpora (Texte mit Annotation von Fehlern) Referenzkorpora (mit komplexen Abfragemöglichkeiten) Korpora gesprochener Sprache Ein/zweisprachige Wörterbücher 3/25/2017

34 3.2 Quellenbereitstellung u. -aufbereitung
Anwendungen für Lehrer: Extraktion von Lehrmaterial - Tools: Konkordanzerstellung; Extraktion von Mehrwortverbindungen aus Texten, Verknüpfung mit "guten" Beispielen; Extraktion von Fachtermen aus Texten (Fachtexte), evtl. auch Definitionen Anwendungen für Lernende: Möglichkeit der Exploration von Korpora. Priorität auf Benutzerschnittstelle: flexible Verknüpfung von Text und Wörterbuch (z.B. möglichst die richtige Lesart / Definition Mehrwortausdrücken im Wörterbuch) 3/25/2017

35 3.2 Quellenbereitstellung u. -aufbereitung
2. Lernerkorpora Lernerkorpora mit Annotation von Fehlern und Metadaten wie Lernerniveau; Ziel: nicht-triviale Verallgemeinerungen über diesen beobachteten Fehlern zu treffen Großes Referenzkorpus, um daraus Sprachmodelle für den muttersprachlichen Sprachgebrauch zu extrahieren; auch: Baumbank, um daraus typische syntaktische Strukturen muttersprachlichen Sprachgebrauchs zu extrahieren gute Metadaten, die über die bekannten Metadaten hinausgehen; Klassifizierung von Fehlern nach Typen 3/25/2017

36 3.2 Zusammenfassung (I)CALL
Texte: spezifischer als allgemeinsprachliche Referenzkorpora (Fachtexte, Jugendsprache, Lernerkorpora), aber auch Referenzkorpora werden benötigt sie bedürfen einer besonderen Annotation (Lernerkorpora) sie bedürfen besonderer Metadaten, um z.B. den Schwierigkeitsgrad von Texten dynamisch an das Lernerniveau anpassen zu können Werkzeuge für die robuste Annotation von Korpora und ad hoc erstellten Texten, mindestens bis zum Shallow-Parsing möglicherweise semanitsche Wissensressourcen und semantisch annotierte Korpora Korpora gesprochener Sprache, aber für den Lernerbedarf geeignet, Transkriptionen und Suchwerkzeuge für die Suche in gesprochener Sprache 3/25/2017

37 3.3 Kumulatives Arbeiten Annotationsanwendungen für wissenschaftliche Anwender (Fallstudie der BBAW, baut auf auf Projekt Deutsches Textarchiv) D-Spin-Workshop "Kumulatives Arbeiten in Textarchiven" Berlin (Veranstalter BBAW) Inhalt: stand-off Annotationen für weitergehende wissenschaftliche Forschungen nutzbar machen. Konzeptuell: Nutzer legen private Datensammlungen an Technisch: Quelldatei und Annotationsdatei bleiben getrennt, sind aber über Verweisstrukturen miteinander verbunden 3/25/2017

38 3.3 Kumulatives Arbeiten Einbettung in Projekt Deutsches Textarchiv
Ziele und Rahmen: Erstellung eines historischen Referenzkorpus (Goethe*, Humboldt, Planck, Röntgen …) Open Access Aktives Archiv Gefördert Deutsche Forschungsgemeinschaft (seit Juli 2007) Erste Phase: 3 Jahre (Texte zwischen ) Zweite Phase: 4 Jahre (Texte zwischen ~ ) 3/25/2017

39 3.3 Kumulatives Arbeiten Digitales Textarchiv (1. Phase)
Digitalisierung von 750 Werken 1780–1900 Texte wurden durch Umfrage bei BBAW-Akademiemitgliedern ermittelt Gesamt ~ Druckseiten Volltext (XML/TEI-P5) – verknüpft mit Images Basisannotierung (plus lemma, pos, graph2phon) Archiv soll durch die Annotierung anderer wachsen: „dynamisches Archiv“ 3/25/2017

40 Korpus: Textsorten 3/25/2017

41 DTA-Korpus: zeitlicher Überblick
3/25/2017

42 3.3 Kumulatives Arbeiten Typ 1 – 'Notizblockfunktion':
Fundstellen/Textbelege/Bildbereiche speichern in privaten Sammlungen (inkl. private Kategorien) Typ 2 - Nutzer erstellen öffentlich nutzbare Zusatzinformationen zu Texten' : z.B. Eigennamen, Themen, Markierung diastrat. Merkmale Narrative Strukturen in literarische Werken als stand-off kodieren (Jannidis/Lauer) Namensforschung (z.B. Widmungen oder Subskribendenlisten, aber auch z.B. die im Corpus enthaltenen Briefe (Pückler, Rahel Varnhagen usw.) - Vorhaben Preußen als Kulturstaat 3/25/2017

43 4. Zusammenfassung Anforderungsanalyse nicht unabhängig von D-Spin-Infrastruktur Bislang: Sammlung von Fallbeispielen Historiker, Sprachdidaktik, Linguistik Zusätzliche Ressourcen eröffnen zusätzliche Anwendungsmöglichkeiten Weitere Fallbeispiele? 3/25/2017


Herunterladen ppt "Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)"

Ähnliche Präsentationen


Google-Anzeigen