Amir Zeldes Korpuslinguistik Lernerkorpora.

Amir Zeldes amir.zeldes@rz.hu-berlin.de Korpuslinguistik Lernerkorpora

UE Korpuslinguistik SS 2008 1 Kursplan Einführung – linguistische Daten (22.4) Korpusdesign und Metadaten (29.4) Korpusvorverarbeitung und Annotation (6.5)  Übung 1: Tagging CQP-Einführung (13.5) Lexikographie und Kollokationen (20.5) Parallelkorpora (27.5) Historische Korpora (3.6) Statistische Methoden (10.6) Lernerkorpora (17.6) Baumbanken (24.6)  Übung 2: Korpuslinguistische Untersuchung Variationsstudien (1.7) Webkorpora und Produktivität (8.7) Zusammenfassung (15.7)

UE Korpuslinguistik SS 2008 2 Plan Korpora in der Spracherwerbsforschung und im Fremdsprachunterricht Lernerkorpora und Falko: Erhebung und Aufbereitung Auswertung: Fehleranalyse und kontrastive Analyse

UE Korpuslinguistik SS 2008 3 Korpora im Sprachunterricht Motivation: Korpora in der Fremdspracherwerbsforschung und im Fremdsprachunterricht:  L1-Korpora  Lernerkorpora  Übersetzungskorpora

UE Korpuslinguistik SS 2008 4 L1-Korpora zur Verbesserung von Lehrmaterial  'authentische/natürliche' Beispiele in Lehrmaterial und Lernerwörterbüchern  Frequenzinformationen, um Wortschatz festzulegen  Grammatiküberprüfung  Lehrstrategien / Lehrmaterialien ('entdeckendes Lernen')  viele Studien, z.B. Sinclair et al. 1991, Wichmann et al. 1997, Granger et al. 2002, Nesselhauf 2005, Römer 2006  Aber: Gegenargumente von Widdowson

UE Korpuslinguistik SS 2008 5 L1-Korpora: direkt vs. indirekt direkter Ansatz (nach Römer 2006):  data-driven learning (DDL),  entdeckendes Lernern: Korpora im Unterricht  “confront the learner as directly as possible with the data, and to make the learner a linguistic researcher” (Johns 2002, 108), siehe auch Bernardini (2002)  Lehrende und Studierende ‚freie‘ Konkordanzen kontrollierte Übungen

UE Korpuslinguistik SS 2008 6 Beispiel the vs. Nullartikel Beispiel aus: http://www.eisu.bham.ac.uk/johnstf/def_art.htmhttp://www.eisu.bham.ac.uk/johnstf/def_art.htm In Gwynedd, a bedrock of the Welsh language, there are 25 film-making companies. We must accept that the salvation of the French language involves learning one or more of the languages in neighbouring countries. The research also showed increases in the frequency of bad language and sex on television. Inspectors said behaviour was generally good, but features "such as free use of colloquial language and non-attendance at lessons are tolerated much more than in conventional schools". 1. proud of their command of _____ English language and engage in quite of lot of patting them 2. but it does not mean that _____ everyday language is bad: it is simply the way of things tha 3. cluded that cerebral dominance for _____ language is established before the age of five. Dur 4. abulary is one thing and _____ technical language is another, Vocabulary is words, lists of 5. avic-speakers. Orthodoxy and _____ Greek language remain the two markers of modern Greek ide

UE Korpuslinguistik SS 2008 7 L1-Korpora indirekter Ansatz: Korpusuntersuchungen, um Materialien zu verbessern: COBUILD, Einzelthemen (Granger 1999, Nesselhauf 2005, Römer 2005 und viele andere)  Forscher, Lehrwerkschreiber

UE Korpuslinguistik SS 2008 8 L1-Korpora ein Untersuchungstyp: Vergleich zwischen 'authentischer' L1 und 'Lehrwerks-L1' Beispiel: progressive im Englischen (Römer 2005, 2006), Vergleich zwischen den gesprochenen Teilen von BNC und BoE und der 'gesprochenen' Sprache in zwei Lehrbüchern progressive ist für deutsche Lerner schwierig  weil Deutsch keinen Progressiv hat  weil die Lehrwerke den Progressiv nicht so einführen, wie er wirklich verwendet wird?

UE Korpuslinguistik SS 2008 9 Beispiel: looking (Römer 2006, 236)

UE Korpuslinguistik SS 2008 10 Beispiel: looking (Römer 2006) der Progressiv kann bei einmaligen Handlungen und bei wiederholten Handlungen verwendet werden Well we’re really looking for a vegetarian one aren’t we now (BoE_brspok) Yes. I remember that from when we were looking at houses # down there (BoE_brspok)

UE Korpuslinguistik SS 2008 11 Beispiel: Römer 2006, 238

UE Korpuslinguistik SS 2008 12 L1-Korpora Konsequenzen? noch nicht klar – weitere Studien nötig  vielleicht keine: es könnte sein, dass die Lehrwerke mit gutem Grund von der authentischen Sprache abweichende Verteilungen verwenden (mit zunehmender Fortgeschrittenheit unwahrscheinlicher)  vielleicht große: authentische Beispiele Wunsch: Wissensstand des Lerners modellieren

UE Korpuslinguistik SS 2008 13 Daten über L2-Erwerb Intuition Sammlungen von authentischen Lernerdaten  unsystematisch, episodisch  Fehlersammlungen  Lernerkorpora experimentelle Daten  Elizitationsdaten  psycholinguistische Experimente  …

UE Korpuslinguistik SS 2008 14 Daten über L2-Erwerb Intuition: von Lernern? Lehrern? Zuverlässig? Sammlungen von authentischen Lernerdaten  unsystematisch, episodisch – problematisch  Fehlersammlungen – problematisch  Lernerkorpora experimentelle Daten  Elizitationsdaten  psycholinguistische Experimente  …

UE Korpuslinguistik SS 2008 15 Lernerkorpora “Computer learner corpora are electronic collections of authentic FL/SL textual data assembled according to explicit design criteria for a particular SLA/FLT purpose. They are encoded in a standardised and homogeneous way and documented as to their origin and provenance.” (Granger 2002: 7)

UE Korpuslinguistik SS 2008 16 Lernerkorpora - Annotation am leichtesten: unannotierte Texte von nicht Muttersprachlern sammeln Annotation durch Standardverfahren (POS-Tagging) schwierig/problematisch Korrektur der Annotation von Hand Im Idealfall: Fehlerannotation

UE Korpuslinguistik SS 2008 17 Lernerkorpora für DaF/DaZ wahrscheinlich viele private Sammlungen aber kaum frei zugängliche Lernerkorpora, kaum Fehlerannotation  Belz (2004) – geschrieben, nicht fehlerannotiert, nicht zugänglich  LeaP – gesprochen (Prosodieforschung und Aussprache in L2), zugänglich (Milde & Gut 2002)  Weinberger (2002) – geschrieben, fehlerannotiert, bisher nicht zugänglich  ESF-Korpora (MPI Nijmegen) – gesprochen, zugänglich, DaZ

UE Korpuslinguistik SS 2008 18 Lernerkorpora: Das Ideal Design (Zusammensetzung)  auf die jeweilige Forschungsfrage abgestimmt (idealerweise vergleichbare Korpora)  gut dokumentiert (Aufgaben, Niveau)  Größe, Ausgewogenheit (L1, andere Parameter) Architektur  Metadaten  Annotation  mehrere Ebenen, konfligierende Hypothesen frei verfügbar, verteiltes Arbeiten möglich

UE Korpuslinguistik SS 2008 19 Lernerkorpora: Die Wirklichkeit die meisten Lernerkorpora (es gibt Ausnahmen)  nicht gut designed und dokumentiert  konfligierende Analysen können nicht dargestellt werden  verteiltes Arbeiten nicht möglich  Fehlerannotation problematisch, oft implizit

UE Korpuslinguistik SS 2008 20 Die Analyse von Lernerdaten Datenerhebung Datenaufbereitung Datenauswertung

UE Korpuslinguistik SS 2008 21 Datenerhebung Am Anfang jeder Datenerhebung… …steht eine Frage (oder mehr!) Wie gelingt es fortgeschrittenen Lernern, komplexe Texte in der Fremdsprache Deutsch zu produzieren? Was sind die Unterschiede zwischen der Muttersprache Deutsch und L2 Deutsch?

UE Korpuslinguistik SS 2008 22 Datenerhebung Betrachtung von ausgewählten Phänomenen (Konnektoren, Struktur der Vorfeldbesetzung, Definitheit…) Fortgeschrittene Lerner: DSH, C-Test zwei Textsorten  Zusammenfassungen  freie Essays Handschriftlich / elektronisch geschrieben

UE Korpuslinguistik SS 2008 23 Daten: Zusammenfassungen Textzusammenfassungen eines literaturwissen- schaftlichen bzw. linguistischen Fachtextes (ca. 1-2 Seiten) im Rahmen der Sprachstandsbestimmung von ausländischen Germanistikstudierenden an der Freien Universität Erhebungsdauer: 90 Minuten Formales Kriterium: abgelegte DSH-Prüfung 6 Erhebungszeiträume, 107 Lerner, 40592 Tokens (abgeschlossen) und Vergleichskorpus, 57 L1-Sprecher, 21210 (wächst)

UE Korpuslinguistik SS 2008 24 Daten: Zusammenfassungen 12.3 Pragmatische Erwerbsprinzipien Eine wichtige Phase des Spracherwerbs ist erreicht, wenn Kinder in den Wortschatzspurt eintreten. Nach manchen Schätzungen lernen Kinder ab zwei Jahren durchschnittlich zehn neue Wörter am Tag und verfügen mit etwa sechs Jahren schon über einen Wortschatz von ungefähr 14.000 Wörtern (Clark 1993: 13). Die Erwerbsaufgabe besteht für die Kinder darin, neue Wörter aus dem Input zu isolieren und sie in ihr mentales Lexikon zu übernehmen. Nach und nach werden die Wörter dort mit einer Angabe über ihre Eigenschaften versehen, wobei phonologische, morphologische, syntaktische, semantische und pragmatische Eigenschaften zu unterscheiden sind. Wie diese enorme Aufgabe bewältigt wird, ist eine spannende Frage der Spracherwerbsforschung (vgl. Rothweiler/Meibauer 1998). [Klausurvorlage: Anfang des Pragmatiktextes]

UE Korpuslinguistik SS 2008 25 Daten: Zusammenfassungen Pragmatische Erwerbsprinzipien In diesem Text befaßt sich der Autor mit zwei pragmatischen Prinzipien, nämlich das Prinzip der Konventionalität und das Prinzip des Kontrasts. Im ersten Abschnitt wird eine spannende Frage der Spracherwerbsforschung gestellt, wie eine enorme Erwerbs- Aufgabe von Kindern bewältigt wird. Der Autor geht davon aus und interpretien die Argumentation von Clark. Der Autor betont, dass das Prinzip der Konventionalität und das Prinzip des Kontrasts in dieser Erwerbsaufgabe eine wichtige Rolle spielen. Obwohl diese Prinzipien gleichermaßen für Kinder und Erwachsene gültig sind, haben sie aber für Kinder andere Einflüsse, weil ihr Wortschatz ja noch ansteigen muss. Beispiel aus einem Lernertext… [Falko-Text 38]

UE Korpuslinguistik SS 2008 26 Daten: Essays vier kontroverse Themen (in Anlehnung an ICLE) 90 Minuten, keine Hilfsmittel, z.T. handschriftlich, z.T. digital Erhebungen in Berlin (HU, Sommerunversität), Kopenhagen, Taschkent, Mombasa, Nairobi, Nyeri, Adana, Stellenbosch 187 Texte, 91497 Tokens, wächst Vergleichskorpus wurde in Berliner Gymnasien erhoben (LK Deutsch), 95 Texte, 67528 Tokens, wächst

UE Korpuslinguistik SS 2008 27 Metadaten für die Summaries und die Essays wurden von allen Teilnehmern Metadaten erhoben  Alter  Geschlecht  Sprachbiographie (Muttersprache, andere Sprachen, wie gelernt etc.) man kann daraus entsprechende Subkorpora erstellen

UE Korpuslinguistik SS 2008 28 Daten: Longitudinalkorpus Georgetown University, Washington 4 Sprachlevel unterschiedliche Aufgabenstellungen 108 Texte mit 126105 Tokens

UE Korpuslinguistik SS 2008 29 Datenaufbereitung  Digitalisierung der handschriftlichen Daten  korpuslinguistische Aufbereitung der Daten  Fehlerannotierung (Entwurf eines Schemas und „Umsetzung“)

UE Korpuslinguistik SS 2008 30 Datenaufbereitung handschriftliche Daten Ausschluss von „Tippfehlern“ des Lerners, also Fehlern, die durch das Medium Computer evoziert werden kein Einfluss von Rechtschreibkontrolle Handschriftentzifferung als Analyseproblem digitale Daten eventuell Fehler, die durch das Medium Computer evoziert sind eventuell (bei uns aber kontrolliert) automatische Rechtschreibkontrolle einfach weiterzuverarbeiten

UE Korpuslinguistik SS 2008 31 Datenaufbereitung Dateinummer anonymisiert ! Analyse- problem

UE Korpuslinguistik SS 2008 32 Analyseproblem „Handschrift“ es ist ganz schwierig, falsche Texte nicht zu korrigieren:  Fazit: Der Digitalisierer hat Entscheidungen getroffen!

UE Korpuslinguistik SS 2008 33 Problem Textübernahme Sprecher nehmen an, daß Unterschiede hinsichtlich der Form auch Unterschiede in der Wortbedeutung signalisieren. Sprecher nehmen an, dass Unterschiede hinsichtlich der Form auch Unterschiede in der Wortbedeutung signalisieren. Kontrast bedeutet also: Sprecher nehmen an, dass Unterschiede hinsichtlich der Form auch Unterschiede in der Wortbedeutung signalisieren.

UE Korpuslinguistik SS 2008 34 Datenaufbereitung Die nächsten Schritte im Schnelldurchlauf: Aufnahme und Einbindung der Metadaten Automatische Wortartenzuweisung (mit TreeTagger) mit anschließender manueller Korrektur (unterschiedliche Ebenen) Aufstellung einer Zielhypothese Fehlerannotierung auf mehreren Ebenen

UE Korpuslinguistik SS 2008 35 Lernerkorpora - Forschung Fehleranalyse (Error Analysis, EA) Kontrastive Analyse (CIA) L2-Erwerb (Longitudinalstudien) Pädagogik, Erstellung von Lehrmaterialien Lernerkorpusdesign …

UE Korpuslinguistik SS 2008 36 Fehleranalyse – Ziele eine Lerneräußerung wird auf ihre Fehler/Abweichungen hin untersucht in einem Korpus können Lerneräußerungen mit standardisierten Fehlermarkierungen (Tags) versehen werden (→ Fehlerannotation)  standardisierte Suche (alle Kasusfehler)  quantitative Auswertung

UE Korpuslinguistik SS 2008 37 Fehleranalyse – was ist ein Fehler? Bruch einer Regel  ungrammatisch  Woher bekommt man die Regeln – explizite Regeln vs. implizite Regeln Abweichung von einer Norm, "breaches of code" (Corder 1973)  unakzeptabel, 'inappropriate'  Norm erfordert Setzung  verschiedene Normen (sprachliche, soziale,...)  nicht unbedingt algorithmisch findbar

UE Korpuslinguistik SS 2008 38 Fehleranalyse – was ist ein Fehler? "A linguistic form,... which, in the same context would in all likelihood not be produced by the learner's native speaker counterparts." (Lennon 1991, 182) brauchbare Definition? kontrollierte Erhebungen notwendig

UE Korpuslinguistik SS 2008 39 Fehleranalyse – was ist ein Fehler? Unterschied zwischen error (≈ Kompetenzfehler) und mistake/lapse (≈ Performanzfehler)

UE Korpuslinguistik SS 2008 40 Fehleranalyse – Beispiel In dem Text wird es über Eigenheiten einer - bis jetzt - uneigenständigen Gattung gesprochen. Die Benennung "Kunstmärchen" gibt uns einerseits eine Erklärung über den Gegenstand, aber andererseits bleibt es eher im Dunkelen was genau damit gemeint ist. Doch die Ungenaue Schätzungen können auch auf eine andere Schiene bringen, und eben dieses Variieren mit Ideen macht der Gegenstand interessant. (Falko-Text 48)

UE Korpuslinguistik SS 2008 41 Fehleranalyse – Beispiel In dem Text wird es über Eigenheiten einer - bis jetzt - uneigenständigen Gattung gesprochen. Die Benennung "Kunstmärchen" gibt uns einerseits eine Erklärung über den Gegenstand, aber andererseits bleibt es eher im Dunkelen was genau damit gemeint ist. Doch die Ungenaue Schätzungen können auch auf eine andere Schiene bringen, und eben dieses Variieren mit Ideen macht der Gegenstand interessant. (Falko-Text 48)

UE Korpuslinguistik SS 2008 42 Lernerkorpora: Zielhypothese es ist nicht möglich, einen Fehler zu annotieren, ohne eine implizite Zielhypothese im Kopf zu haben → Fehler werden also relativ zu einer Zielhypothese markiert

UE Korpuslinguistik SS 2008 43 Mehrere Zielhypothesen Lüdeling (2008) wasderNovelleoderderOdenichtbetrift 1wasaufNovelleoderOdenichtzutrifft 2wasaufdieNovelleoderdieOdenichtzutrifft 3wasbeiderNovelleoderderOdenichtder Fall ist 4wasfürdieNovelleoderdieOdenichtzutrifft 5dasdieNovelleoderdieOdenichtbetrifft

UE Korpuslinguistik SS 2008 44 Zielhypothesen: Experiment InhaltswörterFunktionswörter 1513 2426 1725 1612 1422 5 Annotatoren für 17 Sätze (fortlaufender Text)

UE Korpuslinguistik SS 2008 45 Kontrastive Analyse Contrastive Interlanguage Analysis (CIA, Selinker 1972, Granger et al. 2002):  theoretischer Rahmen für L2-Forschung  Jede L2 (nach Fortschritt, Muttersprache des Lerners…) als selbständige Sprache, nicht nur ein unvollständiges Imitat der L1  Untersuchung der Eigenschaften (Lexik, Syntax, Fehler…) von jeder L2  kontrastive Analyse von L2s und nativer L1  Fehleranalyse (Error Analysis, EA)

UE Korpuslinguistik SS 2008 46 Kontrastive Analyse Overuse/Underuse Methodologie: Untersuchung von Übergebrauch (overuse) und Mindergebrauch (underuse) von Wörtern/ Konstruktionen im Vgl. mit Muttersprachlern Bsp. Zeldes/Lüdeling/Hirschmann 2008: Underuse von Adverbketten bei Lernern bigramtot_normdedaenfrplru $.-PPER0.0423840.0052970.0097480.0079630.0061660.0058010.007409 ADV-ADV0.0416040.0128580.0105180.0061110.0061660.0030940.002856 ADV-APPR0.0397420.0091170.0080160.0053240.0078370.0048070.004642 PDAT-NN0.039560.0054090.0042330.0055090.0078370.0077350.008837

UE Korpuslinguistik SS 2008 47 qualitative und quantitative Analyse jede quantitative Analyse setzt eine Kategorisierung (qualitative Analyse) voraus, z.B. was sind zwei Adverbien?  Es ist [doch] [auch] statistisch belegt  ein Kampf, dass bis [heute noch] andauert  [[viel mehr] Arbeitsplätze]  [immer noch] kann man eine unzufriedenheit spüren

UE Korpuslinguistik SS 2008 48 Zusammenfassung Voraussetzung: Auswahl & theoretische Analyse eines sprachlichen Phänomen, Erwerbstheorie Datenauswahl – Lernerkorpora Fehleranalyse  theoretische Probleme: Zielhypothese  empirische Probleme: Textübernahme, Transkription

UE Korpuslinguistik SS 2008 49 An Falko arbeiten: Anke Lüdeling, Hanna Acke, Seanna Dolittle, Hagen Hirschmann, Karsten Hütter, Emil Kroymann, Vicky Oketch, Karin Schmidt, Maik Walter http://www2.hu- berlin.de/korpling/projekte/falko/index.php

Amir Zeldes Korpuslinguistik Lernerkorpora.

Ähnliche Präsentationen

Präsentation zum Thema: "Amir Zeldes Korpuslinguistik Lernerkorpora."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Amir Zeldes Korpuslinguistik Lernerkorpora.

Ähnliche Präsentationen

Präsentation zum Thema: "Amir Zeldes Korpuslinguistik Lernerkorpora."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback