Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus

Slides:



Advertisements
Ähnliche Präsentationen
| Michael Mischke
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Soziologische Theorien und soziale Fakten 8. Veranstaltung.
eine Plattform für annotierte Korpora in XML
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
K-Modeler Engineering
Reguläre Sprachen Karin Haenelt.
© Karin Haenelt 2006, Äquivalenzen Reg.Ausdrücke, Reg.Sprachen, EA ( ) 1 Reguläre Sprachen Karin Haenelt.
Parsing regulärer Ausdrücke
© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Betreuerin: Kathleen Jerchel
Experimentaufbau und -design
Spree SoSe 2007 Titel Lexikographie und Metalexikographie Lexikonproduktion und Lexikontheorie Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien.
Kennlinie Lichtregelung in JavaNNS Version 1.1
Grundschutztools
1 İstanbul Üniversitesi. 2 gegründet 1453 die älteste Universität der Türkei und eine der ältesten der Welt Studenten 37 Institute, 13 Schulen,
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
AWA 2007 Natur und Umwelt Natürlich Leben
Allgemeine Informationen
Zwischen Geeks,Trolls, Nerds und Lurkern (Herausforderungen für die Schule der digital natives)
Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.
20:00.
Falko and WHiG: Introducing Our Learner Corpora Dr Astrid Ensslin Bangor University funded byand.
Studiengang Geoinformatik
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Ressourcenorientierte Pädagogik in der stationären Erziehungshilfe
TWS/Graph HORIZONT Produkt-Präsentation Software für Rechenzentren
Kollektionen in Java Aufzählungstypen, Generische Typen
Studentische Arbeiten im Social Web Aktuelle Nutzung und Anforderungen für die Nutzung Klaus Tochtermann Seite 1.
10.1 Recherche: Lernenden-Ebene
Peter Grzybek Projekt # (FWF) Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten.
1 DMS EXPO 2009 Keynote Angst und Gier Dr. Ulrich Kampffmeyer PROJECT CONSULT Unternehmensberatung Dr. Ulrich Kampffmeyer GmbH Breitenfelder Straße 17.
© Bibliothek und Archiv der Österreichischen Akademie der Wissenschaften Katalogisierung in RAK / MAB2 Beispiele 1. Teil Lösungen Verbund für Bildung und.
Analyse von Ablaufdiagrammen
HORIZONT 1 XINFO ® Das IT - Informationssystem PL/1 Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin
Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.
Absatzwirtschaft Vertriebsumfrage Düsseldorf, den
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Universität Düsseldorf SoSe April 2014
Hauptseminar SS 2006 Hinweise für Autoren.
Symmetrische Blockchiffren DES – der Data Encryption Standard
Die Kinder kommen mit Fremdsprachen in Berührung.
Agenda Rückblick 2. Aufbau der Software Benutzeroberfläche 4. Ausblick
Managemententscheidungsunterstützungssysteme (Ausgewählte Methoden und Fallstudien) ( Die Thesen zur Vorlesung 3) Thema der Vorlesung Lösung der linearen.
Großer Altersunterschied bei Paaren fällt nicht auf!
Analyseprodukte numerischer Modelle
Neuerungen in Java 5/6/7. Stefan Bühler für InfoPoint Überblick Java 5 neue Sprachfeatures Erweiterungen Klassenbibliothek Java 6 Erweiterungen.
ein Frontend für den computergestützten Fremdsprachenerwerb: Texte und Bilder aus dem Web für das Selbststudium Oliver Streiter, Chiara Vettori,
Zusammengestellt von OE3DSB
Melanie Andresen und Dagmar Knorr
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Kontrastive Untersuchung von Präpositionen (D-Fr)
3. Fachtagung im Projekt Pflegebegleiter am 24. November in Bad Honnef Projekt Pflegebegleiter 3. Fachtagung Ein Projekt fasst Fuß KURZVERSION DER PRÄSENTATION.
Fragebogen Studierende
Internetbasierte Fragebogenuntersuchungen und Surveys Christine Surer
prof. dr. dieter steinmannfachhochschule trier © prof. dr. dieter steinmann Folie 1 vom Montag, 30. März 2015.
Seite 1 © 2007 Dr. Schwaiger Roland VP SW-Technologien WS 2007/2008 VP Softwaretechnologien WS2007/2008 SAP GUI Pattern und Componentry Dr.
Qualitative Interviews Sabina Misoch ISBN: © 2015 Walter de Gruyter GmbH, Berlin/Mu ̈ nchen/Boston Abbildungsübersicht / List of Figures.
Amir Zeldes Korpuslinguistik Lernerkorpora.
Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.
Amir Zeldes Korpuslinguistik Zusammenfassung.
 Präsentation transkript:

Annotationen in Lernerkorpora am Beispiel des FALKO-Korpus Hagen Hirschmann (HU Berlin) Universität Hamburg, 28.11.2013

Plan Lernerkorpora Besonderheiten gegenüber anderen Korpora Analysemethoden Ziele des Falko-Korpus Datenaufbereitung (motiviert an Fallbeispiel) Analyse grammatischer Strukturen Fehleranalyse Ausblick, weiterführende Ziele, Wünsche

Lernerkorpora Learner corpora have all the characteristics commonly attributed to corpora (…), the only difference being that the data come from language learners. (Granger 2008, S. 259) Unterscheidungen von Lernertypen: L1-Lernerkorpora 'X'aF-Korpora 'X'aZ-Korpora Wichtige Parameter: Sprachstand, L1, Erwerbsbiographie (Metadaten)

Lernerkorpora – Aufbau Verschiedenste Erhebungen: Aufgaben (Bildbeschreibungen, Fragestellungen) vs. 'authentische' Gespräche Unterschiedlichste Texttypen (Essays, Berichte, Antworten auf Textverständnisfragen, Zusammenfassungen, …) Verschiedene Korpusdesigns Erhebungskontext und Probandendaten dokumentiert (Aufgaben, Sprachstand, Geschlecht, …) - Metadaten Problem: Größe, Ausgewogenheit (L1, Textsorten, …) Vergleichsdaten?

Lernerkorpora – Annotation Problem: Nichtstandard-Realisierungen führen zu Analyseschwierigkeiten auf allen grammatischen Ebenen Fehlerannotation Aber: Fehler nur in Bezug auf 'Nicht-Fehler' sinnvoll Wunsch: Ungrammatische und grammatische Strukturen annotieren Grammatische Analysen wie bei L1-Korpora

Lernerkorpora – gesprochenes Deutsch DaF-Korpora: HAMATAC (Hamburg Map Task Corpus; www1.uni-hamburg.de/exmaralda/files/z2-hamatac/public/) (Universität Hamburg) BEMATAC (Berlin Map Task Corpus; www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/bematac) (bislang L1; L2-Daten werden noch veröffentlicht) (Humboldt-Universität Berlin) GeWiss (Gesprochene Wissenschaftssprache; https://gewiss.uni-leipzig.de/) (Universität Leipzig) Leap Corpus (http://www.philhist.uni-augsburg.de/de/lehrstuehle/anglistik/angewandte_sprachwissenschaft/Forschung/leap/) (Ulrike Gut, Universität Augsburg)

Lernerkorpora – gesprochenes Deutsch DaZ-Korpora: Längste Tradition der Nutzung von Lernerdaten (Untersuchung des ungesteuerten Spracherwerbs von MigrantInnen) Viele 'Privatsammlungen', aber kaum nutzbare Daten Kiezdeutsch-Korpus (http://www.kiezdeutschkorpus.de/) (Heike Wiese, Sören Schalowski, Ines Rehbein et al.; Universität Potsdam) (Daten nicht verfügbar) ESF-Korpora (http://corpus1.mpi.nl/ds/imdi_browser/) (MPI Nijmegen) L1-Korpus: Deutsche Childes-Daten (http://childes.psy.cmu.edu/) (Carnegie Mellon University and the University of Pennsylvania)

Lernerkorpora – geschriebenes Deutsch DaF-Korpora: ALeSKo (http://ling.uni-konstanz.de/pages/home/zinsmeister/alesko.html) (Universität Konstanz) Kobalt-DaF-Korpus (www.kobalt-daf.de/) (DFG-Verbundsprojekt; im Aufbau) FALKO (http://www.linguistik.hu- berlin.de/institut/professuren/korpuslinguistik/forschung/falko) (Humboldt- Universität Berlin) KanDel (http://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/falko) (Kansas University) L1-Korpora: Viele nicht-zugängliche Schülerdaten für Orthographiekompentenzstudien KoKo (http://www.korpus-suedtirol.it/bildungssprache_de.htm) (Europäische Akademie Bozen (EURAC)) (im Aufbau)

Auswertung von Lernerkorpora: Grundlegende Strategien Zwei grundlegende Wege zur Auswertung von Lernerkorpora (ähnlich wie Typ-A- vs. Typ-B-Studien): EA (Error Analysis) vs. CIA (Contrastive Interlanguage Analysis) (vgl. z. B. Granger 2002 oder 2008) EA: Fehler=Abweichungen von der Zielsprache 'Misuse' CIA: Vergleich zielsprachlicher (grammatischer) Strukturen in L2 und L1 'Overuse'/'Underuse'

Das Falko-Korpus Eckdaten "Fehlerannotiertes Lernerkorpus" www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/falko Handbuch: Reznicek et al. 2012 Frei nutzbar (ANNIS-Suchinterface) unter https://korpling.german.hu-berlin.de/falko-suche/ Essaykorpora L2 (144619) und L1 (70615) Zusammenfassungen L2 (40638) und L1 (21211) Alle Lerner fortgeschritten und aus gesteuertem Erwerb

Daten – Falko-Essays Vier kontroverse Themen (in Anlehnung an ICLE; Kriminalität, Entlohnung, Jugend, Studium) Erhebungsbedingungen: 90 Minuten, keine Hilfsmittel, z.T. handschriftlich, die meisten Texte digital Derzeit 248 Lernertexte, 95 Muttersprachlertexte Lernerdaten: diverse Muttersprachen; größte Gruppen: Englisch, Polnisch, Russisch, Französisch (Metadaten) Weitere Metadaten: L1, weitere L2, Alter, Geschlecht, …

Falko: Ziele Jedem Korpus muss ein Forschungsziel bzw. eine übergeordnete Fragestellung zugrunde liegen Auswahl der Primärdaten, der Annotationen und des Korpusdesigns gemäß dieser Fragestellung Falko: Untersuchung fortgeschrittener DaF-Lernender auf bislang ungeklärte Erwerbsphänomene Erwerbslimitierende Faktoren im DaF? Komplexität in fortgeschrittener Lernersprache Modifikation in fortgeschrittener Lernersprache …

Motivation/Fallbeispiel: Präpositional- objekte im fortgeschrittenen DaF Studenten darum beklagen , dass ihr Studium sie nicht für die wirkliche Welt und ihre berufliche Zukunft vorbereitet . (fk006_2006_08) Präpositionalobjekte stellen eine besondere Herausforderung für den Lernprozess dar (Präposition schlecht antizipierbar, semantisch keine homogene Objektklasse, …) Fragestellung: Wie zielsprachlich ist die Verwendung von Präpositionalobjekten bei fortgeschrittenen Lernenden des DaF?

Fallstudie: Welche Annotationen? 1. Teilfrage: Wie viele (grammatische!) Präpositionalobjekte werden von den Lernenden überhaupt verwendet (CIA, quantitativ/qualitativ)? Annotation von Präpositionen, PPn, Präpositionalobjekten in L2- und L1-Daten (Vergleichsdaten) Taggen (Treetagger; Schmid 1994; manuelle Korrekturen in EXMARaLDA; Schmidt 2004) Parsen (Malt Parser; http://www.maltparser.org/; Schema: Foth 2006) Manuelle Korrekturen in Arborator; http://gerdes.fr/) Problem: Zusammenführung der Daten (Treetagger-Output/EXMARaLDA-xml und Malt/Arborator- Output: conll); gemeinsame Durchsuchbarkeit Converter-framework 'Salt'n Pepper' (Zipser&Romary 2010) und ANNIS (http://www.sfb632.uni-potsdam.de/annis/)

Beispiel: Präpositionalobjekt in ANNIS-Darstellung Falko Essays L2, cbs001_2006_09

Lernerdaten: Konzeptionelle Probleme Z. B. hat man oft über Greenpeace gehört (cbs001_2007_10) Sie haben sich dazu gewöhnt (...) (cbs014_2007_10) Viel mehr achtet der Arbeitgeber ___, ob der Student , die relevante Arbeitserfahrung hat (cbs006_2007_10) Da die Studenten einen grossen Teil ihres Studiums an die Theorien wittmen muss (…) (cbs011_2006_09) Man denke an den unterschiedlichen Gruppen (…) (cbs001_2007_10)

Lernerdaten: Konzeptionelle Probleme Grammatisch: Status 'Präpositionalobjekt' bei ungrammatischen Strukturen interpretationsabhängig: „Eigentlich wollte der Lerner sagen: …“ Zielhypothese (ZH); ohne ZH keine Analysemöglichkeit ungrammatischer Strukturen Technisch: Ungrammatische Strukturen von Parser meistens nicht gemäß der ZH interpretiert (z. B. Präpositionalobjekte nicht erkannt)

Lösung: Fehlerkennzeichnung und –korrektur durch Zielhypothesen Fehleranalyse strukturell oder grammatisch (Lennon 1991, 182) Jede Fehleranalyse impliziert alternative Zielstruktur (Zielhypothese) cbs011_2006_09

Lösung: Fehlerkennzeichnung und –korrektur durch Zielhypothesen Fehleranalyse strukturell oder grammatisch (Lennon 1991, 182) Jede Fehleranalyse impliziert alternative Zielstruktur (Zielhypothese) cbs011_2006_09

Lösung: Fehlerkennzeichnung und –korrektur durch Zielhypothesen Fehleranalyse strukturell oder grammatisch (Lennon 1991, 182) Jede Fehleranalyse impliziert alternative Zielstruktur (Zielhypothese) cbs011_2006_09

Annotationen: Fehler Zielhypothese in ANNIS-Ansicht

Gewinn durch Zielhypothesen-Ansatz Alle Strukturen suchbar/trennbar, bei denen ein oder kein Grammatikalitätsproblem vorliegt Fehler sind markiert und erhalten strukturelle Klassen (edit tags: INS, DEL, CHA, MOVE) Zielhypothesen werden anstelle von ungrammatischen Strukturen interpretiert (getaggt, geparst) und in die Analyse einbezogen Mehrebenenarchitektur notwendig Spannen notwendig; Unabhängigkeit der Ebenen erforderlich (standoff xml) EXMARaLDA-xml als geeignetes Speicherformat; EXMARaLDA Partitur Editor als Annotationswerkzeug

Zur Fallstudie: Kontrastive Analyse - Ergebnisse Anzahl der in den grammatischen Strukturen vorhandenen Präpositionalobjekte: L2=3,52 / 100 VVFIN L1=3,70 / 100 VVFIN Type-Token-Ratio (Verb-PP-Kombinationen): L1=0,69 (184 Typen, 266 Token) L2=0,47 (124 Typen, 266 Token)

Fallstudie: Welche Annotationen? 2. Teilfrage: Wie häufig werden bei der Verwendung von Präpositionalobjekten Fehler produziert? Markierung ungrammatischer Strukturen, deren Zielhypothese ein Präpositionalobjekt oder anstelle einer PP ein alternatives Objekt ist Aufbereitung der Zielhypothesen analog zur Aufbereitung der grammatischen Lerneräußerungen

Fehlertypen - Beispiele Typ: Falsche Präposition Ergänzung inhaltlich korrekt, formal fehlerhaft „CHA“ cbs014_2007_10

Fehlertypen - Beispiele 2. Typ: Präposition fehlt Verb erfordert Ergänzung, die nicht realisiert wird „INS“ cbs009_2006_09

Fehlertypen - Beispiele 3. Typ: Präposition ist ungrammatisch Ergänzung inhaltlich korrekt, formal fehlerhaft „DEL“ cbs011_2006_09

Fehlertypen - Beispiele 4. Typ: Präpositionsergänzung im falschen Kasus Präpositionalobjekt korrekt, Subsystem der präpositionalen Rektion fehlerhaft „CHA“ an Artikel/Adjektiv cbs001_2007_10

Zur Fallstudie: Fehleranalyse - Ergebnisse Falsche Präpositionen: 50  11% pro P-Objekte insgesamt Hinzugefügte P-Objekte: 33  7% pro P-Objekte insgesamt Getilgte P-Objekte: 33 Falsche Kasus an der Nomen-Ergänzung: 32 7% pro P-Objekte insgesamt

Zur Fallstudie: Fehleranalyse - Ergebnisse Häufigster Fehler: falsche Präposition Ca. jedes zehnte Präpositionalobjekt mit falscher Präposition (falsche Form) Alle Fehlertypen: 32% aller Präpositionalobjekte sind fehlerhaft Die Anzahl der fälschlich gesetzten Präpositionalobjekte ist gleich der Anzahl der fehlenden Präpositionalobjekte

Zusammenfassung: Annotationen in Falko und verwendete Tools Annotationswerkzeug pos-Annotation, Lemmatisierung von Lerneräußerung und Zielhypothesen Treetagger, manuelle Korrekturen in EXMARaLDA Zielhypothesen manuelle Annotation in EXMARaLDA Parsing von Zielhypothesen Malt Parser, manuelle Korrekturen in Arborator Zusammenführung der Annotationen mit Salt'n Pepper Importierung der Daten ins Suchsystem ANNIS

Ausblick, weiterführende Ziele, Wünsche Hinzufügung topologischer Annotation (semi-automatisch mit Berkeley Parser und manueller Korrektur in EXMARaLDA) Weitere EXMARaLDA-Spannen Erweiterung der Fehlerklassifikation um grammatische Kategorien (ICLE-Tagset?) Weiterentwicklung von Annis: Statistik, besserer Export, Vereinfachung&Ausbau der Anfragesyntax Wunsch: Werkzeug zur Annotation von Konstituentenbäumen

Vielen Dank! Kontakt: hirschhx@hu-berlin.de

An Falko arbeite(te)n auch: Hanna Acke Torsten Andreas Jia Wei Chan Seanna Dolittle Emil Kroymann Cedric Krummes Anke Lüdeling ( Boss) Vicktoria Oketch Marc Reznicek ( Keeper of the holy data) Karin Schmidt Franziska Schwantuschke Maik Walter Amir Zeldes

Literatur Biber, Douglas; Jones, James K. (2009): Quantitative methods in corpus linguistics. In: Lüdeling, Anke; Kytö, Merja (Hg.): Corpus Linguistics. An International Handbook. Vol. 2. Berlin: Mouton de Gruyter, S. 1286-1304. Corder, Steven Pit (1981): Error Analysis and Interlanguage. Oxford; Oxford University Press. Diaz-Negrillo, Ana; Fernandez-Dominguez, Jesus (2006): Error tagging systems for learner corpora. In: RESLA 19, S. 83-102. Ellis, Rod (1994): The Study of Second Language Acquisition. Oxford; Oxford University Press. Granger, Sylviane (2008): Learner corpora. In: Lüdeling, Anke; Kytö, Merja (Hg.): Corpus Linguistics. An International Handbook. Vol 1. Berlin; de Gruyter, S. 259-275. Granger, Sylviane. (2002): A Bird's-eye View of Computer Learner Corpus Research. In: Granger S., Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching (Language Learning and Language Teaching; 6). Amsterdam & Philadelphia; John Benjamins, S. 3-33. Labov, William (2004): Quantitative Reasoning in Linguistics. In: Ammon, Ulrich; Dittmar, Norbert; Mattheier, Klaus J.; Trudgill, Peter (Hg.). HSK Sociolinguistics/Soziolinguistik. Vol I. Berlin; de Gruyter, S. 6-21. Lemnitzer, Lothar; Zinsmeister, Heike (2006): Korpuslinguistik – Eine Einführung. Tübingen; Gunter Narr Verlag. Lennon, Paul (1991): Error: Some problems of definition, identification and distinction. In: Applied Linguistics 12/2, S. 180-196. Lüdeling, Anke; Doolittle, Seanna; Hirschmann, Hagen; Schmidt, Karin & Walter, Maik (2008): Das Lernerkorpus Falko. In: Deutsch als Fremdsprache 2(2008), S. 67-73. Reznicek, Marc; Lüdeling, Anke; Krummes, Cedric; Schwantuschke, Franziska; Walter, Maik; Schmidt, Karin; Hirschmann, Hagen; Andreas, Torsten (2012): Das Falko-Handbuch. Korpusaufbau und Annotationen Version 2.01 Schmidt, Karin (2011): Lernerkorpora: Ressourcen für die Deutsch-als-Fremdsprache-Forschung. In: Türkischer Internationaler Germanistik Kongress, 20.-22. Mai 2009. Tagungsbeiträge. Izmir, S. 555-573.