Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Curt Busch Geändert vor über 9 Jahren
1
Amir Zeldes amir.zeldes@rz.hu-berlin.de Korpuslinguistik Zusammenfassung
2
UE Korpuslinguistik SS 2008 1 Kursplan Einführung – linguistische Daten (22.4) Korpusdesign und Metadaten (29.4) Korpusvorverarbeitung und Annotation (6.5) Übung 1: Tagging CQP-Einführung (13.5) Lexikographie und Kollokationen (20.5) Parallelkorpora (27.5) Historische Korpora (3.6) Statistische Methoden (10.6) Lernerkorpora (17.6) Baumbanken (24.6) Übung 2: Korpuslinguistische Untersuchung Webkorpora und Produktivität (1.7) Variationsstudien (8.7) Zusammenfassung (15.7)
3
UE Korpuslinguistik SS 2008 2 Organisatorisches Die MAP für MAler bzw. Magisterklausur findet am Freitag den 18.7. um 12 Uhr in Raum 1.401 statt BAler schreiben eine dritte kleine Hausaufgabe
4
UE Korpuslinguistik SS 2008 3 Korpora Nach bestimmten Kriterien aufgebaute Sammlungen von (evtl. linguistisch annotierten) Texten Im Idealfall ausgewogen und repräsentativ (nach bestimmten Parametern): Abdeckung der Variation in der untersuchten Population angemessene Anteile für jede Sorte (falls mehrere) Monitorkorpora vs. Referenzkorpora
5
UE Korpuslinguistik SS 2008 4 Korpora Empirische Grundlage für Sprachforschung Beziehung zu introspektiver Grammatik und Grammatikalitätsurteilen Vor- und Nachteile der Introspektion vs. Korpora Qualitative und quantitative Untersuchungen
6
UE Korpuslinguistik SS 2008 5 Metadaten Daten über das Korpus bzw. Texte im Korpus: Autor/Sprecher (+Geschlecht, Alter, Beruf) Jahr Textsorte … Warum sind sie wichtig? Wie können sie Ergebnisse beeinflussen?
7
UE Korpuslinguistik SS 2008 6 Vorverarbeitung Tokenisierung: Kleinste Einheiten Problematik vom Lehrzeichenbasierten Ansatz (New York, Satzzeichen, Abkürzungen, Chinesisch…) Lösungsstrategien (Listen, Regeln, Heuristiken) Tagging: Wortarten Lemmatisieren … beliebige andere Tagsets (Schema immer vorgegeben)
8
UE Korpuslinguistik SS 2008 7 Tagsets Abwägen zwischen Genauigkeit und Zuverlässigkeit Auswertung: Interannotator Agreement Precision/Recall in der Suche Goldstandard Fehler: Abhängigkeit vom Trainingskorpus Systematische Fehler
9
UE Korpuslinguistik SS 2008 8 CQP – Suche nach Token Häufig vorhandene Felder: Wortform [word="XX"] Lemma [lemma="YY"] Wortart [pos="ZZ"] Negation: [word!="XX"] Konjunktion: [word="XX" & lemma!="XX"] Wortfolge: [word="A"][word="B"]?[word="C"]
10
UE Korpuslinguistik SS 2008 9 CQP – Operatoren Operatoren: . Ein beliebiges Zeichen * Beliebig viel (0 bis unendlich).* steht für beliebige Zeichensequenzen + Mindestens einmal ?Optional [abc]Menge (oder [^abc] = nicht die Menge) (a|b)a oder b (auch mitten im Ausdruck)
11
UE Korpuslinguistik SS 2008 10 Lexikographie Anwendung von Korpora: Belegbank – typische Argumente usw. Frequenzdaten für Aufnahme- bzw. Streichkandidaten (Neologismen/Archaismen) Fachspezifische Lexika (Korpora unterschiedlicher Textsorten) Kollokationermittlung für Aufnahme von Mehr- Wort-Ausdrücken (u.a. Kollokationen)
12
UE Korpuslinguistik SS 2008 11 Kollokationen Zwei Definitionen: Typische, auffällig häufige Kombinationen Nicht-kompositionelle Ausdrücke (Bedeutung nicht von den Bestandteilen ableitbar), eingeschränkte Syntax/Referenz > Was wird im mentalen Lexikon gespeichert? Kookurrenzkriterien: Abstand in Wörter Syntaktisch (typische Objekte eines Verbs etc.) (orthographischer) Satzbasiert Ermittlung durch Kontingenztabellen (Vorkommen der Bestandteile alleine und zusammen im ganzen Korpus)
13
UE Korpuslinguistik SS 2008 12 Vergleichbare Korpora Empirischer quantitativer Sprachvergleich Ergebnisse nur sinnvoll, wenn alle Parameter bis auf die Sprache konstant sind – vergleichbares Design Welche Parameter sind relevant? > Explizite Vorannahmen Überblick durch Metadaten
14
UE Korpuslinguistik SS 2008 13 Parallelkorpora Alignierung (Satz- bzw. Wortweise) Direkte Untersuchung – was entspricht was? Problematik von Translationese Übersetzungsuniversalien Explicitation Simplification Levelling-out Bidirektionale Korpora + vergleichbare Korpora zur Validierung der Ergebnisse
15
UE Korpuslinguistik SS 2008 14 Historische Korpora Untersuchung der Konkurrenz in „Variant Fields“ Zusammenhang zwischen quantitativen Veränderungen Vorsicht: Genres und Übersetzungseffekte
16
UE Korpuslinguistik SS 2008 15 Design historischer Korpora Normalisierung (welche Norm?) Diplomatizität (z.B. wie getreu werden Handschriften/Editionen dargestellt?) Problematik der Hyperlemmatisierung Richtlinien mit wenig/ohne Sprachgefühl (Syntax?)
17
UE Korpuslinguistik SS 2008 16 Inferentielle Statistik Der Versuch, von einer Stichprobe Rückschlüsse auf die Population zu ziehen Ist die Stichprobe zufällig und repräsentativ? Was ist die Nullhypothese? Welche Abweichung reicht aus, um sie zu widerlegen? (Einfluss von Stichprobengröße und Größe der Abweichung) Pre-hoc vs. Post-hoc
18
UE Korpuslinguistik SS 2008 17 Korrelation Zusammenhang zwischen Parametern (oft zwei, theoretisch beliebig viele) Korrelation ≠ Kausalität
19
UE Korpuslinguistik SS 2008 18 Lernerkorpora - Design Datenerhebung: Interpretationsschwierigkeiten Übernahme von Vorlagentexten Annotation fehlerhafter Daten (z.B. Lemmata von Nicht-Wörtern?) Definition von ‚Fehler‘? (Brauchbarkeit der Definition, Unterscheidung zwischen ‚Error‘ und ‚Mistake‘)
20
UE Korpuslinguistik SS 2008 19 Fehlerannotation Notwendigkeit einer expliziten Zielhypothese Einfluss des niedrigen Interannotator Agreements Fehleranalyse und Forschung der „Interlanguages“ der Lerner (je nach L1, Fortschritt usw.) im Rahmen von CIA
21
UE Korpuslinguistik SS 2008 20 Baumbanken Chunking vs. Parsing Vorteile und Nachteile einer tiefen Analyse Brauchbarkeit innerhalb einer Theorie Theorieunabhängige Wiederverwendbarkeit Konsequenzen für Korpora (Traces/ Nicht-Terminale/ leere Kategorien als Token?) Phrasenstruktur/Dependenzen/Hybrid? Zielhypothesen für unparsbare Sätze?
22
UE Korpuslinguistik SS 2008 21 Webkorpora Warum will man Daten vom Netz? Verfügbarkeit, Aktualität, Menge, neue Sorten… Warum darf man Google nicht benutzen? Unklar was untersucht wird (Sprache? Genre? Duplikate?) Unzuverlässige, inkonsistente Suche Keine Annotationen und Metadaten
23
UE Korpuslinguistik SS 2008 22 Produktivität Wie häufig bzw. leicht anwendbar (automatisch oder eingeschränkt) oder transparent ist ein Wortbildungsprozess? Warum entstehen Neologismen? (Bedarf, Konkurrenz, Persistenz…) Die Zipfverteilung (viel von wenigen Wörtern, wenig von vielen)
24
UE Korpuslinguistik SS 2008 23 Baayens Produktivitätsmaße Realized productivity: Typenzahl vom WBP Expanding prod.: Hapax vom WBP / Hapax im Korpus Potential productivity: Hapax vom WBP / Typen vom WBP Produktivität als Wahrscheinlichkeit des Vorkommens eines neuen Wortes vom WBP
25
UE Korpuslinguistik SS 2008 24 Soziolinguistik und Korpora Isolierung der Variation, die von sozialen Variablen abhängig sind (Metadaten) Wie verteilen sich welche Varianten in unterschiedlichen Registern? Post-hoc Suche nach signifikanten Abweichungen Pre-hoc Untersuchung verdächtiger Merkmale MD-Analyse: Häufung von Merkmalen bildet eine Dimension, die für bestimmte Sorten typisch ist
26
UE Korpuslinguistik SS 2008 25 Hausaufgabe 3 (für BAler) „Das Suffix -ung […] ist neben dem bereits behandelten -er eines der produktivsten substantivbildenden Suffixe in der deutschen Gegenwart.“ (Fleischer 1982, 164). Untersuchen Sie diese Aussage: Jeder untersucht die Suffixe in einem anderen Korpus Formulierung passender Suchausdrücke Anzahl der Typen und hapax legomena Berechnung von Baayens Maßen 1 und 3 (2 ist mit CQP unmöglich)
27
UE Korpuslinguistik SS 2008 26 Hinweise „Frequencies“ wählen Nicht nach Lemma suchen (hapax legomena haben evtl. unbekannte Lemmata) Plural- und Dativformen berücksichtigen
28
UE Korpuslinguistik SS 2008 27 „Frequencies“-Einstellung
29
UE Korpuslinguistik SS 2008 28 Trefferliste Enthält auch Nicht- Neologismen Komposita vermehren Hapaxe (aber auch Nicht-Hapaxe)
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.