Amir Zeldes Korpuslinguistik Zusammenfassung
UE Korpuslinguistik SS Kursplan Einführung – linguistische Daten (22.4) Korpusdesign und Metadaten (29.4) Korpusvorverarbeitung und Annotation (6.5) Übung 1: Tagging CQP-Einführung (13.5) Lexikographie und Kollokationen (20.5) Parallelkorpora (27.5) Historische Korpora (3.6) Statistische Methoden (10.6) Lernerkorpora (17.6) Baumbanken (24.6) Übung 2: Korpuslinguistische Untersuchung Webkorpora und Produktivität (1.7) Variationsstudien (8.7) Zusammenfassung (15.7)
UE Korpuslinguistik SS Organisatorisches Die MAP für MAler bzw. Magisterklausur findet am Freitag den um 12 Uhr in Raum statt BAler schreiben eine dritte kleine Hausaufgabe
UE Korpuslinguistik SS Korpora Nach bestimmten Kriterien aufgebaute Sammlungen von (evtl. linguistisch annotierten) Texten Im Idealfall ausgewogen und repräsentativ (nach bestimmten Parametern): Abdeckung der Variation in der untersuchten Population angemessene Anteile für jede Sorte (falls mehrere) Monitorkorpora vs. Referenzkorpora
UE Korpuslinguistik SS Korpora Empirische Grundlage für Sprachforschung Beziehung zu introspektiver Grammatik und Grammatikalitätsurteilen Vor- und Nachteile der Introspektion vs. Korpora Qualitative und quantitative Untersuchungen
UE Korpuslinguistik SS Metadaten Daten über das Korpus bzw. Texte im Korpus: Autor/Sprecher (+Geschlecht, Alter, Beruf) Jahr Textsorte … Warum sind sie wichtig? Wie können sie Ergebnisse beeinflussen?
UE Korpuslinguistik SS Vorverarbeitung Tokenisierung: Kleinste Einheiten Problematik vom Lehrzeichenbasierten Ansatz (New York, Satzzeichen, Abkürzungen, Chinesisch…) Lösungsstrategien (Listen, Regeln, Heuristiken) Tagging: Wortarten Lemmatisieren … beliebige andere Tagsets (Schema immer vorgegeben)
UE Korpuslinguistik SS Tagsets Abwägen zwischen Genauigkeit und Zuverlässigkeit Auswertung: Interannotator Agreement Precision/Recall in der Suche Goldstandard Fehler: Abhängigkeit vom Trainingskorpus Systematische Fehler
UE Korpuslinguistik SS CQP – Suche nach Token Häufig vorhandene Felder: Wortform [word="XX"] Lemma [lemma="YY"] Wortart [pos="ZZ"] Negation: [word!="XX"] Konjunktion: [word="XX" & lemma!="XX"] Wortfolge: [word="A"][word="B"]?[word="C"]
UE Korpuslinguistik SS CQP – Operatoren Operatoren: . Ein beliebiges Zeichen * Beliebig viel (0 bis unendlich).* steht für beliebige Zeichensequenzen + Mindestens einmal ?Optional [abc]Menge (oder [^abc] = nicht die Menge) (a|b)a oder b (auch mitten im Ausdruck)
UE Korpuslinguistik SS Lexikographie Anwendung von Korpora: Belegbank – typische Argumente usw. Frequenzdaten für Aufnahme- bzw. Streichkandidaten (Neologismen/Archaismen) Fachspezifische Lexika (Korpora unterschiedlicher Textsorten) Kollokationermittlung für Aufnahme von Mehr- Wort-Ausdrücken (u.a. Kollokationen)
UE Korpuslinguistik SS Kollokationen Zwei Definitionen: Typische, auffällig häufige Kombinationen Nicht-kompositionelle Ausdrücke (Bedeutung nicht von den Bestandteilen ableitbar), eingeschränkte Syntax/Referenz > Was wird im mentalen Lexikon gespeichert? Kookurrenzkriterien: Abstand in Wörter Syntaktisch (typische Objekte eines Verbs etc.) (orthographischer) Satzbasiert Ermittlung durch Kontingenztabellen (Vorkommen der Bestandteile alleine und zusammen im ganzen Korpus)
UE Korpuslinguistik SS Vergleichbare Korpora Empirischer quantitativer Sprachvergleich Ergebnisse nur sinnvoll, wenn alle Parameter bis auf die Sprache konstant sind – vergleichbares Design Welche Parameter sind relevant? > Explizite Vorannahmen Überblick durch Metadaten
UE Korpuslinguistik SS Parallelkorpora Alignierung (Satz- bzw. Wortweise) Direkte Untersuchung – was entspricht was? Problematik von Translationese Übersetzungsuniversalien Explicitation Simplification Levelling-out Bidirektionale Korpora + vergleichbare Korpora zur Validierung der Ergebnisse
UE Korpuslinguistik SS Historische Korpora Untersuchung der Konkurrenz in „Variant Fields“ Zusammenhang zwischen quantitativen Veränderungen Vorsicht: Genres und Übersetzungseffekte
UE Korpuslinguistik SS Design historischer Korpora Normalisierung (welche Norm?) Diplomatizität (z.B. wie getreu werden Handschriften/Editionen dargestellt?) Problematik der Hyperlemmatisierung Richtlinien mit wenig/ohne Sprachgefühl (Syntax?)
UE Korpuslinguistik SS Inferentielle Statistik Der Versuch, von einer Stichprobe Rückschlüsse auf die Population zu ziehen Ist die Stichprobe zufällig und repräsentativ? Was ist die Nullhypothese? Welche Abweichung reicht aus, um sie zu widerlegen? (Einfluss von Stichprobengröße und Größe der Abweichung) Pre-hoc vs. Post-hoc
UE Korpuslinguistik SS Korrelation Zusammenhang zwischen Parametern (oft zwei, theoretisch beliebig viele) Korrelation ≠ Kausalität
UE Korpuslinguistik SS Lernerkorpora - Design Datenerhebung: Interpretationsschwierigkeiten Übernahme von Vorlagentexten Annotation fehlerhafter Daten (z.B. Lemmata von Nicht-Wörtern?) Definition von ‚Fehler‘? (Brauchbarkeit der Definition, Unterscheidung zwischen ‚Error‘ und ‚Mistake‘)
UE Korpuslinguistik SS Fehlerannotation Notwendigkeit einer expliziten Zielhypothese Einfluss des niedrigen Interannotator Agreements Fehleranalyse und Forschung der „Interlanguages“ der Lerner (je nach L1, Fortschritt usw.) im Rahmen von CIA
UE Korpuslinguistik SS Baumbanken Chunking vs. Parsing Vorteile und Nachteile einer tiefen Analyse Brauchbarkeit innerhalb einer Theorie Theorieunabhängige Wiederverwendbarkeit Konsequenzen für Korpora (Traces/ Nicht-Terminale/ leere Kategorien als Token?) Phrasenstruktur/Dependenzen/Hybrid? Zielhypothesen für unparsbare Sätze?
UE Korpuslinguistik SS Webkorpora Warum will man Daten vom Netz? Verfügbarkeit, Aktualität, Menge, neue Sorten… Warum darf man Google nicht benutzen? Unklar was untersucht wird (Sprache? Genre? Duplikate?) Unzuverlässige, inkonsistente Suche Keine Annotationen und Metadaten
UE Korpuslinguistik SS Produktivität Wie häufig bzw. leicht anwendbar (automatisch oder eingeschränkt) oder transparent ist ein Wortbildungsprozess? Warum entstehen Neologismen? (Bedarf, Konkurrenz, Persistenz…) Die Zipfverteilung (viel von wenigen Wörtern, wenig von vielen)
UE Korpuslinguistik SS Baayens Produktivitätsmaße Realized productivity: Typenzahl vom WBP Expanding prod.: Hapax vom WBP / Hapax im Korpus Potential productivity: Hapax vom WBP / Typen vom WBP Produktivität als Wahrscheinlichkeit des Vorkommens eines neuen Wortes vom WBP
UE Korpuslinguistik SS Soziolinguistik und Korpora Isolierung der Variation, die von sozialen Variablen abhängig sind (Metadaten) Wie verteilen sich welche Varianten in unterschiedlichen Registern? Post-hoc Suche nach signifikanten Abweichungen Pre-hoc Untersuchung verdächtiger Merkmale MD-Analyse: Häufung von Merkmalen bildet eine Dimension, die für bestimmte Sorten typisch ist
UE Korpuslinguistik SS Hausaufgabe 3 (für BAler) „Das Suffix -ung […] ist neben dem bereits behandelten -er eines der produktivsten substantivbildenden Suffixe in der deutschen Gegenwart.“ (Fleischer 1982, 164). Untersuchen Sie diese Aussage: Jeder untersucht die Suffixe in einem anderen Korpus Formulierung passender Suchausdrücke Anzahl der Typen und hapax legomena Berechnung von Baayens Maßen 1 und 3 (2 ist mit CQP unmöglich)
UE Korpuslinguistik SS Hinweise „Frequencies“ wählen Nicht nach Lemma suchen (hapax legomena haben evtl. unbekannte Lemmata) Plural- und Dativformen berücksichtigen
UE Korpuslinguistik SS „Frequencies“-Einstellung
UE Korpuslinguistik SS Trefferliste Enthält auch Nicht- Neologismen Komposita vermehren Hapaxe (aber auch Nicht-Hapaxe)