Amir Zeldes Korpuslinguistik Zusammenfassung.

Slides:



Advertisements
Ähnliche Präsentationen
Datenbankdesign mit ACCESS.
Advertisements

Stichprobe im qualitativen Forschungsprozess
Wissensanalyse von Aufgaben mit TKS Eine Methode zur Problemlösung
Berg-Schlosser : VL : Vergleichende Politikwissenschaft Vergleichende Methoden Ausgangsbasis : Fälle: begrenzte Auswahl auf der Makro-Ebene, abhängig.
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Bewegungswissenschaft
Imperative Programmierung
Forschungsmethoden: Definition
Untersuchungsarten im quantitativen Paradigma
„Wissenschaftliches Arbeiten“ Was soll denn das sein?
FH-Hof Extensible Markup Language Richard Göbel. FH-Hof Extensible Markup Language XML XML ist universeller Ansatz für die Strukturierung von Zeichenketten.
Java: Objektorientierte Programmierung
Philosophische Fakultät 3: Empirische Humanwissenschaften Fachrichtung Erziehungswissenschaft Statistik I Anja Fey, M.A.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Algorithmentheorie 04 –Hashing
Datenbanken vs. Markup Manfred Thaller WS 2009/2010 Humanities Computing Linda Scholz.
Computerkurs: Quantitative Auswertung biochemischer Experimente
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
Eine prominente Strategie qualitativer Sozialforschung
Patrick Rössler Einführung in die Methoden der empirischen Kommunikationsforschung Vorlesung BA Kommunikationswissenschaft.
Patrick Rössler Methoden der Datenerhebung und -auswertung Vorlesung BA Kommunikationswissenschaft (G21) 1.
Patrick Rössler Methoden der Datenerhebung und -auswertung Vorlesung BA Kommunikationswissenschaft (G21) 1.
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
Einführung XML XML Einführung Andreas Leicht.
Hypothesen testen: Grundidee
Grundlegende Analysen & Zwischendarstellungen
WAS WILL WISSENSCHAFT? - Sagen: Was WIE ist
Experimentelles Design
Strukturgleichungsmodelle
Meta-Analyse Forschungsmethoden und Evaluation
Mehrsprachigkeit aus psycholinguistischer Sicht
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Maschinelles Lernen und automatische Textklassifikation
Entitäten Extraktion Einführung
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Spezifikation von Anforderungen
Gisela Kubon-Gilke EH Darmstadt Mastermodul 3 Soziale Arbeit SoSe 2013
Histogramm/empirische Verteilung Verteilungen
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Ausgleichungsrechnung II
Problemstellung und Hypothesenbildung
Peter Grzybek ( Graz ) Das Grazer Projekt »Wortlängen(häufigkeiten) in Texten slawischer Sprachen« FWF #15485 ( )
Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin
Übung zu Einführung in die LDV I
Statistik – Regression - Korrelation
Tasks UNDERSTAND KNOW COMPREHEND know comprehend understandit ž, n, d, c, r, s, t, a, n, d w, t žn dcr stan dwt [žn] – [dcr] – [stan] – [dwt] SELECTION.
Mensch – Maschine - Kommunikation
Der Hund jagt die Katze. Theoretische Informatik Satz S P O
7. Formale Sprachen und Grammatiken
Empirische Sozialforschung am Beispiel der Limburger Nordstadt
Methoden der Sozialwissenschaften
Soziale Urteilsbildung Lozo, Soziale Urteilsbildung, AE Sozialpsychologie, SS 2004 Laienhafte Inferenzstrategien oder „the intuitive psychologist“ 2: Urteilsheuristiken.
Lexikalische Semantik
Studieneinstiegstest – Motivation, Hintergrund und Aufbau
Sprachprodukttechnologie SS 2001G. Heyer 1 Sprachstatistik  Grundlegende Definitionen  Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von.
ANNIS Einführung RIDGES Herbology 4.1 Laura Perlitz und Carolin Odebrecht Humboldt-Universität zu Berlin.
Diese weltweit größte Sammlung von deutschsprachigen Textkorpora für die linguistische Forschung - online recherchierbar über COSMAS I - umfasst zur Zeit.
Darstellung von Forschungsergebnissen mit Posterpräsentationen: Erwartungen und Möglichkeiten Jan Haut (Kontakt: Das Poster.
Statistik I Statistik I Statistische Grundbegriffe
Parallelkorpora Einführung Amir Zeldes
Operatoren Ein Operator zeigt an, welchen Teilbereich und in welcher Tiefe der Sachverhalt dargestellt werden soll. Je nachdem, welcher Operator verwendet.
Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.
VORLESUNG 1 Sprachbau Sememe Sätze Redeteilen Wortformen Wortgruppe Morpheme (Begriffe)
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Vo#1:Semantik als Wissenschaft Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
WISSENSREPRÄSENTATION IN ACTIVEMATH Theoretische Grundlagen – Teil 1.
 Präsentation transkript:

Amir Zeldes Korpuslinguistik Zusammenfassung

UE Korpuslinguistik SS Kursplan Einführung – linguistische Daten (22.4) Korpusdesign und Metadaten (29.4) Korpusvorverarbeitung und Annotation (6.5)  Übung 1: Tagging CQP-Einführung (13.5) Lexikographie und Kollokationen (20.5) Parallelkorpora (27.5) Historische Korpora (3.6) Statistische Methoden (10.6) Lernerkorpora (17.6) Baumbanken (24.6)  Übung 2: Korpuslinguistische Untersuchung Webkorpora und Produktivität (1.7) Variationsstudien (8.7) Zusammenfassung (15.7)

UE Korpuslinguistik SS Organisatorisches Die MAP für MAler bzw. Magisterklausur findet am Freitag den um 12 Uhr in Raum statt BAler schreiben eine dritte kleine Hausaufgabe

UE Korpuslinguistik SS Korpora Nach bestimmten Kriterien aufgebaute Sammlungen von (evtl. linguistisch annotierten) Texten Im Idealfall ausgewogen und repräsentativ (nach bestimmten Parametern):  Abdeckung der Variation in der untersuchten Population  angemessene Anteile für jede Sorte (falls mehrere)  Monitorkorpora vs. Referenzkorpora

UE Korpuslinguistik SS Korpora Empirische Grundlage für Sprachforschung Beziehung zu introspektiver Grammatik und Grammatikalitätsurteilen Vor- und Nachteile der Introspektion vs. Korpora Qualitative und quantitative Untersuchungen

UE Korpuslinguistik SS Metadaten Daten über das Korpus bzw. Texte im Korpus:  Autor/Sprecher (+Geschlecht, Alter, Beruf)  Jahr  Textsorte  … Warum sind sie wichtig? Wie können sie Ergebnisse beeinflussen?

UE Korpuslinguistik SS Vorverarbeitung Tokenisierung:  Kleinste Einheiten  Problematik vom Lehrzeichenbasierten Ansatz (New York, Satzzeichen, Abkürzungen, Chinesisch…)  Lösungsstrategien (Listen, Regeln, Heuristiken) Tagging:  Wortarten  Lemmatisieren  … beliebige andere Tagsets (Schema immer vorgegeben)

UE Korpuslinguistik SS Tagsets Abwägen zwischen Genauigkeit und Zuverlässigkeit Auswertung:  Interannotator Agreement  Precision/Recall in der Suche  Goldstandard Fehler:  Abhängigkeit vom Trainingskorpus  Systematische Fehler

UE Korpuslinguistik SS CQP – Suche nach Token Häufig vorhandene Felder:  Wortform [word="XX"]  Lemma [lemma="YY"]  Wortart [pos="ZZ"] Negation: [word!="XX"] Konjunktion: [word="XX" & lemma!="XX"] Wortfolge: [word="A"][word="B"]?[word="C"]

UE Korpuslinguistik SS CQP – Operatoren Operatoren: . Ein beliebiges Zeichen  * Beliebig viel (0 bis unendlich).* steht für beliebige Zeichensequenzen  + Mindestens einmal  ?Optional  [abc]Menge (oder [^abc] = nicht die Menge)  (a|b)a oder b (auch mitten im Ausdruck)

UE Korpuslinguistik SS Lexikographie Anwendung von Korpora:  Belegbank – typische Argumente usw.  Frequenzdaten für Aufnahme- bzw. Streichkandidaten (Neologismen/Archaismen)  Fachspezifische Lexika (Korpora unterschiedlicher Textsorten)  Kollokationermittlung für Aufnahme von Mehr- Wort-Ausdrücken (u.a. Kollokationen)

UE Korpuslinguistik SS Kollokationen Zwei Definitionen:  Typische, auffällig häufige Kombinationen  Nicht-kompositionelle Ausdrücke (Bedeutung nicht von den Bestandteilen ableitbar), eingeschränkte Syntax/Referenz > Was wird im mentalen Lexikon gespeichert? Kookurrenzkriterien:  Abstand in Wörter  Syntaktisch (typische Objekte eines Verbs etc.)  (orthographischer) Satzbasiert Ermittlung durch Kontingenztabellen (Vorkommen der Bestandteile alleine und zusammen im ganzen Korpus)

UE Korpuslinguistik SS Vergleichbare Korpora Empirischer quantitativer Sprachvergleich Ergebnisse nur sinnvoll, wenn alle Parameter bis auf die Sprache konstant sind – vergleichbares Design Welche Parameter sind relevant? > Explizite Vorannahmen Überblick durch Metadaten

UE Korpuslinguistik SS Parallelkorpora Alignierung (Satz- bzw. Wortweise) Direkte Untersuchung – was entspricht was? Problematik von Translationese Übersetzungsuniversalien  Explicitation  Simplification  Levelling-out Bidirektionale Korpora + vergleichbare Korpora zur Validierung der Ergebnisse

UE Korpuslinguistik SS Historische Korpora Untersuchung der Konkurrenz in „Variant Fields“ Zusammenhang zwischen quantitativen Veränderungen Vorsicht: Genres und Übersetzungseffekte

UE Korpuslinguistik SS Design historischer Korpora Normalisierung (welche Norm?) Diplomatizität (z.B. wie getreu werden Handschriften/Editionen dargestellt?) Problematik der Hyperlemmatisierung Richtlinien mit wenig/ohne Sprachgefühl (Syntax?)

UE Korpuslinguistik SS Inferentielle Statistik Der Versuch, von einer Stichprobe Rückschlüsse auf die Population zu ziehen Ist die Stichprobe zufällig und repräsentativ? Was ist die Nullhypothese? Welche Abweichung reicht aus, um sie zu widerlegen? (Einfluss von Stichprobengröße und Größe der Abweichung) Pre-hoc vs. Post-hoc

UE Korpuslinguistik SS Korrelation Zusammenhang zwischen Parametern (oft zwei, theoretisch beliebig viele) Korrelation ≠ Kausalität

UE Korpuslinguistik SS Lernerkorpora - Design Datenerhebung: Interpretationsschwierigkeiten Übernahme von Vorlagentexten Annotation fehlerhafter Daten (z.B. Lemmata von Nicht-Wörtern?) Definition von ‚Fehler‘? (Brauchbarkeit der Definition, Unterscheidung zwischen ‚Error‘ und ‚Mistake‘)

UE Korpuslinguistik SS Fehlerannotation Notwendigkeit einer expliziten Zielhypothese Einfluss des niedrigen Interannotator Agreements Fehleranalyse und Forschung der „Interlanguages“ der Lerner (je nach L1, Fortschritt usw.) im Rahmen von CIA

UE Korpuslinguistik SS Baumbanken Chunking vs. Parsing Vorteile und Nachteile einer tiefen Analyse  Brauchbarkeit innerhalb einer Theorie  Theorieunabhängige Wiederverwendbarkeit  Konsequenzen für Korpora (Traces/ Nicht-Terminale/ leere Kategorien als Token?) Phrasenstruktur/Dependenzen/Hybrid? Zielhypothesen für unparsbare Sätze?

UE Korpuslinguistik SS Webkorpora Warum will man Daten vom Netz?  Verfügbarkeit, Aktualität, Menge, neue Sorten… Warum darf man Google nicht benutzen?  Unklar was untersucht wird (Sprache? Genre? Duplikate?)  Unzuverlässige, inkonsistente Suche  Keine Annotationen und Metadaten

UE Korpuslinguistik SS Produktivität Wie häufig bzw. leicht anwendbar (automatisch oder eingeschränkt) oder transparent ist ein Wortbildungsprozess? Warum entstehen Neologismen? (Bedarf, Konkurrenz, Persistenz…) Die Zipfverteilung (viel von wenigen Wörtern, wenig von vielen)

UE Korpuslinguistik SS Baayens Produktivitätsmaße Realized productivity: Typenzahl vom WBP Expanding prod.: Hapax vom WBP / Hapax im Korpus Potential productivity: Hapax vom WBP / Typen vom WBP Produktivität als Wahrscheinlichkeit des Vorkommens eines neuen Wortes vom WBP

UE Korpuslinguistik SS Soziolinguistik und Korpora Isolierung der Variation, die von sozialen Variablen abhängig sind (Metadaten) Wie verteilen sich welche Varianten in unterschiedlichen Registern? Post-hoc Suche nach signifikanten Abweichungen Pre-hoc Untersuchung verdächtiger Merkmale MD-Analyse: Häufung von Merkmalen bildet eine Dimension, die für bestimmte Sorten typisch ist

UE Korpuslinguistik SS Hausaufgabe 3 (für BAler) „Das Suffix -ung […] ist neben dem bereits behandelten -er eines der produktivsten substantivbildenden Suffixe in der deutschen Gegenwart.“ (Fleischer 1982, 164). Untersuchen Sie diese Aussage:  Jeder untersucht die Suffixe in einem anderen Korpus  Formulierung passender Suchausdrücke  Anzahl der Typen und hapax legomena  Berechnung von Baayens Maßen 1 und 3 (2 ist mit CQP unmöglich)

UE Korpuslinguistik SS Hinweise „Frequencies“ wählen Nicht nach Lemma suchen (hapax legomena haben evtl. unbekannte Lemmata) Plural- und Dativformen berücksichtigen

UE Korpuslinguistik SS „Frequencies“-Einstellung

UE Korpuslinguistik SS Trefferliste Enthält auch Nicht- Neologismen Komposita vermehren Hapaxe (aber auch Nicht-Hapaxe)