Multivariate Verfahren der Statistik bei der quantitativen Textanalyse

Slides:



Advertisements
Ähnliche Präsentationen
Statistik-Tutorat SS 2009 Christina
Advertisements

Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,
Inhalt Saarbrücken,.
Univariate Statistik M. Kresken.
B-Bäume.
Streuungsmaß 3: absolute Abweichung vom Mittelwert
Multivariate Datenanalyse Datum: Betreuer: Dr. Bellmann Quellen: Multivariate Statistik, Hartung/Elpelt 1989 Stochastik für Ingenieure und Naturwissenschaftler,
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Einfaktorielle Varianzanalyse
Gliederung Der Begriff der Stichprobe, Stichprobenfehler
Gliederung Tabellarische und grafische Darstellung von Rohwerten mittels Histogramme und Polygone Statistische Kennwertbeschreibung mittels Tendenz- und.
Forschungsstatistik II
Forschungsstatistik II
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Geometrisches Divide and Conquer
Optimale Kombination mehrerer Datenquellen durch Kriging
Grundkurs Theoretische Informatik, Folie 3.1 © 2004 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 3 Gottfried Vossen Kurt-Ulrich Witt.
Quantitative Methoden I
K. Desch - Statistik und Datenanalyse SS05
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Herzlich willkommen beim 1. Workshop der AG Methodik
Christian Schindelhauer
Wir suchen ‘ mit m = m    ‘ c  ‘ mod 26
Latente Variablen – Kennwerte zur Beurteilung von Modellen
Aufgabe Der Zusammenhang zwischen einem traumatischen Erlebnis und der Entstehung einer PTBS wird von mehreren Variablen …………….: Copingstrategien, Kontrollüberzeigung,
Strukturgleichungsmodelle
SoSe 2005 Spree / Worg 1 Grundbegriffe der Klassifikation Gleiches zu Gleichem.
Univariate Statistik M. Kresken.
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
Tutorium
Das wars!.
Diskrete Wahrscheinlichkeitsmodelle
Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:
Eigenschaften der OLS-Schätzer
Self Organizing Tree Algorithm
Bestimmung der Regressionsgewichte in der multiplen Regression
Ausgleichungsrechnung I
Dozentin: Daniela Wohlfromm,
Regionalisierte Variablen und Kriging
Das Allgemeine Lineare Modell (ALM)
Wortlängen(häufigkeiten) in Texten slawischer Sprachen
Peter Grzybek ( Graz ) Das Grazer Projekt »Wortlängen(häufigkeiten) in Texten slawischer Sprachen« FWF #15485 ( )
Statistik: Mehr zur Regression.
Kapitel 18 Dynamische Modelle: Schätzen der Parameter
Emmerich Kelih & Gordana Antić Klassifikation von Autor und/oder Text?
Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 ( )
Peter Grzybek Austrian Research Fund Project #15485 Von der Ökonomie der Sprache zur Selbst- Regulation kultureller.
Kelih, Emmerich (Graz) Wortdefinition und Wortlänge Göttingen, 2003.
Referat über das Thema STOCHASTIK.
UN - Behindertenrechtskonvention
1 (C) 2002, Hermann Knoll, HTW Chur, Fachhochschule Ostschweiz Wahrscheinlichkeitsverteilung Lernziele: Wahrscheinlichkeitsverteilung und der Wahrscheinlichkeitsdichte.
Data Mining Georg Pölzlbauer.
Multivariate Statistische Verfahren
1 Zukunftsfaktor Wissen Perspektiven für wissensintensive Unternehmen und hoch qualifizierte Fachkräfte in der Region Osnabrück-Emsland Pressegespräch.
Pflanzenlernkartei 3 Autor: Rudolf Arnold. Pflanze 1 Gattung Merkmale Schädigung Bekämpfung.
Pflanzenlernkartei 2 Autor: Rudolf Arnold. Pflanze 1 Gattung Merkmale Schädigung Bekämpfung.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Analyse von Deliktsähnlichkeiten auf der Basis von Individualdaten
Statistik – Regression - Korrelation
FM III Prof. Dietrich Albert
Mathematik für BiologInnen WS 05
Datenmatrix HKI Proseminar Philipp Cielen.
Verteilungen, Varianz Tamara Katschnig.
Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.
Multivariate Statistische Verfahren
 Präsentation transkript:

Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität Graz 21. Juni 2002

Sechs statistische Kenngrößen zur Charakterisierung von Texten aus dem Slowenischen TLS: Textlänge gegeben durch Anzahl der Silben m1: mittlere Wortlänge aus Anzahl der Silben (Silbenanzahl pro Wort); m2: empirische Varianz der Wortlänge log(TLS): logarithmierte Textlänge I: das erste Ord´sche Kriterium I = m2 / m1 S: das zweite Ord´sche Kriterium S= m3 / m2

Je zwei slowenische Texte der drei Texttypen mit sechs Kenngrößen (Variablen) Anzahl der Texte, Mittelwertvektoren

Literarische Prosa Abhängigkeitsstruktur der sechs Variablen Kovarianzmatrix S1, Korrelationsmatrix R1

Gepoolte Kovarianzmatrix aus Gruppenkovarianzen Si und Sj Berechnung der multivariaten statistischen Distanz zwischen je zwei sechs-dimensionalen Mittelwertvektoren

Literarische Prosa | Journalistische Prosa Literarische Prosa | Journalistische Prosa Univariate Statistiken der sechs Charakteristika - Mittelwerte - Standardabweichungen - Univariate statistische Distanzen

Literarische Prosa | Poesie Literarische Prosa | Poesie Univariate Statistiken der sechs Charakteristika - Mittelwerte - Standardabweichungen - Univariate statistische Distanzen

Journalistische Prosa | Poesie Journalistische Prosa | Poesie Univariate Statistiken der sechs Charakteristika - Mittelwerte - Standardabweichungen - Univariate statistische Distanzen

Auswahl guter Kombinationen von Variablen aus dem Pool von p = 6 Variablen Scatterplot des Variablenpaares (log(TLS),I) Scatterplot des Variablenpaares (m1,I)

Scatterplot des Variablenpaares (m2,I)

Linearkombination der p=6 Variablen Lineare Diskriminanzfunktion Yij der Texttypen i und j maximiert die statistische Distanz zwischen den Gruppenmittelwerten der Diskriminanzfunktion Linearkombination der p=6 Variablen

Literarische Prosa und Poesie Journalistische Prosa und Poesie Multivariate Distanzwerte nach Elimination einer redundanten bzw. nicht redundanten Variable Literarische Prosa und journalistische Prosa Literarische Prosa und Poesie Journalistische Prosa und Poesie

Scatterplot der Veränderlichen log(TLS) und Y12(m1,m2,I) m1 und Y12(log(TLS),m2,I)

Scatterplot der Veränderlichen log(TLS) und Y13(TLS, m2)

Scatterplot der Veränderlichen log(TLS) und Y23(m1,I) m1 und Y23(log(TLS),I)

Kanonische Diskriminanten Z1, Z2 ( Zi = Zi (log(TLS),m1,I)) mit Gruppenmittelwerten und Konzentrationsellipsen

Offene Fragen Definition der Texttypologie - Einteilung von Texten in Textkategorien? - welche Kriterien sind anzulegen? - statistische Eigenschaften (Population)? Definition eines Variablenpools Basis sind Textlänge und Wortlänge - welche abgeleiteten Merkmale soll man betrachten? - welche sind geeignet für Charakterisierung von Textgruppen? Diskriminanzfunktionen - welche Merkmale bestimmen gute Diskriminanzfunktionen? - lassen sich Gemeinsamkeiten in slawischen Sprachen finden? (können Textkategorien im Kroatischen durch ähnliche Merkmale getrennt werden wie im Slowenischen?)