Multivariate Verfahren der Statistik bei der quantitativen Textanalyse

Slides:

Advertisements

Ähnliche Präsentationen

Statistik-Tutorat SS 2009 Christina

Advertisements

Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,

Inhalt Saarbrücken,.

Univariate Statistik M. Kresken.

Streuungsmaß 3: absolute Abweichung vom Mittelwert

Multivariate Datenanalyse Datum: Betreuer: Dr. Bellmann Quellen: Multivariate Statistik, Hartung/Elpelt 1989 Stochastik für Ingenieure und Naturwissenschaftler,

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Einfaktorielle Varianzanalyse

Gliederung Der Begriff der Stichprobe, Stichprobenfehler

Gliederung Tabellarische und grafische Darstellung von Rohwerten mittels Histogramme und Polygone Statistische Kennwertbeschreibung mittels Tendenz- und.

Forschungsstatistik II

Forschungsstatistik II

Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.

Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.

Der Binomialtest Man habe einen wahren Anteil P.

Geometrisches Divide and Conquer

Optimale Kombination mehrerer Datenquellen durch Kriging

Grundkurs Theoretische Informatik, Folie 3.1 © 2004 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 3 Gottfried Vossen Kurt-Ulrich Witt.

Quantitative Methoden I

K. Desch - Statistik und Datenanalyse SS05

PG 520 Intelligence Service – gezielte Informationen aus dem Internet

Herzlich willkommen beim 1. Workshop der AG Methodik

Christian Schindelhauer

Wir suchen ‘ mit m = m    ‘ c  ‘ mod 26

Latente Variablen – Kennwerte zur Beurteilung von Modellen

Aufgabe Der Zusammenhang zwischen einem traumatischen Erlebnis und der Entstehung einer PTBS wird von mehreren Variablen …………….: Copingstrategien, Kontrollüberzeigung,

Strukturgleichungsmodelle

SoSe 2005 Spree / Worg 1 Grundbegriffe der Klassifikation Gleiches zu Gleichem.

Univariate Statistik M. Kresken.

Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.

Diskrete Wahrscheinlichkeitsmodelle

Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:

Eigenschaften der OLS-Schätzer

Self Organizing Tree Algorithm

Bestimmung der Regressionsgewichte in der multiplen Regression

Ausgleichungsrechnung I

Dozentin: Daniela Wohlfromm,

Regionalisierte Variablen und Kriging

Das Allgemeine Lineare Modell (ALM)

Wortlängen(häufigkeiten) in Texten slawischer Sprachen

Peter Grzybek ( Graz ) Das Grazer Projekt »Wortlängen(häufigkeiten) in Texten slawischer Sprachen« FWF #15485 ( )

Statistik: Mehr zur Regression.

Kapitel 18 Dynamische Modelle: Schätzen der Parameter

Emmerich Kelih & Gordana Antić Klassifikation von Autor und/oder Text?

Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 ( )

Peter Grzybek Austrian Research Fund Project #15485 Von der Ökonomie der Sprache zur Selbst- Regulation kultureller.

Kelih, Emmerich (Graz) Wortdefinition und Wortlänge Göttingen, 2003.

Referat über das Thema STOCHASTIK.

UN - Behindertenrechtskonvention

1 (C) 2002, Hermann Knoll, HTW Chur, Fachhochschule Ostschweiz Wahrscheinlichkeitsverteilung Lernziele: Wahrscheinlichkeitsverteilung und der Wahrscheinlichkeitsdichte.

Data Mining Georg Pölzlbauer.

Multivariate Statistische Verfahren

1 Zukunftsfaktor Wissen Perspektiven für wissensintensive Unternehmen und hoch qualifizierte Fachkräfte in der Region Osnabrück-Emsland Pressegespräch.

Pflanzenlernkartei 3 Autor: Rudolf Arnold. Pflanze 1 Gattung Merkmale Schädigung Bekämpfung.

Pflanzenlernkartei 2 Autor: Rudolf Arnold. Pflanze 1 Gattung Merkmale Schädigung Bekämpfung.

1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.

Analyse von Deliktsähnlichkeiten auf der Basis von Individualdaten

Statistik – Regression - Korrelation

FM III Prof. Dietrich Albert

Mathematik für BiologInnen WS 05

Datenmatrix HKI Proseminar Philipp Cielen.

Verteilungen, Varianz Tamara Katschnig.

Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.

Multivariate Statistische Verfahren

Präsentation transkript:

Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität Graz 21. Juni 2002

Sechs statistische Kenngrößen zur Charakterisierung von Texten aus dem Slowenischen TLS: Textlänge gegeben durch Anzahl der Silben m1: mittlere Wortlänge aus Anzahl der Silben (Silbenanzahl pro Wort); m2: empirische Varianz der Wortlänge log(TLS): logarithmierte Textlänge I: das erste Ord´sche Kriterium I = m2 / m1 S: das zweite Ord´sche Kriterium S= m3 / m2

Je zwei slowenische Texte der drei Texttypen mit sechs Kenngrößen (Variablen) Anzahl der Texte, Mittelwertvektoren

Literarische Prosa Abhängigkeitsstruktur der sechs Variablen Kovarianzmatrix S1, Korrelationsmatrix R1

Gepoolte Kovarianzmatrix aus Gruppenkovarianzen Si und Sj Berechnung der multivariaten statistischen Distanz zwischen je zwei sechs-dimensionalen Mittelwertvektoren

Literarische Prosa | Journalistische Prosa Literarische Prosa | Journalistische Prosa Univariate Statistiken der sechs Charakteristika - Mittelwerte - Standardabweichungen - Univariate statistische Distanzen

Literarische Prosa | Poesie Literarische Prosa | Poesie Univariate Statistiken der sechs Charakteristika - Mittelwerte - Standardabweichungen - Univariate statistische Distanzen

Journalistische Prosa | Poesie Journalistische Prosa | Poesie Univariate Statistiken der sechs Charakteristika - Mittelwerte - Standardabweichungen - Univariate statistische Distanzen

Auswahl guter Kombinationen von Variablen aus dem Pool von p = 6 Variablen Scatterplot des Variablenpaares (log(TLS),I) Scatterplot des Variablenpaares (m1,I)

Scatterplot des Variablenpaares (m2,I)

Linearkombination der p=6 Variablen Lineare Diskriminanzfunktion Yij der Texttypen i und j maximiert die statistische Distanz zwischen den Gruppenmittelwerten der Diskriminanzfunktion Linearkombination der p=6 Variablen

Literarische Prosa und Poesie Journalistische Prosa und Poesie Multivariate Distanzwerte nach Elimination einer redundanten bzw. nicht redundanten Variable Literarische Prosa und journalistische Prosa Literarische Prosa und Poesie Journalistische Prosa und Poesie

Scatterplot der Veränderlichen log(TLS) und Y12(m1,m2,I) m1 und Y12(log(TLS),m2,I)

Scatterplot der Veränderlichen log(TLS) und Y13(TLS, m2)

Scatterplot der Veränderlichen log(TLS) und Y23(m1,I) m1 und Y23(log(TLS),I)

Kanonische Diskriminanten Z1, Z2 ( Zi = Zi (log(TLS),m1,I)) mit Gruppenmittelwerten und Konzentrationsellipsen

Offene Fragen Definition der Texttypologie - Einteilung von Texten in Textkategorien? - welche Kriterien sind anzulegen? - statistische Eigenschaften (Population)? Definition eines Variablenpools Basis sind Textlänge und Wortlänge - welche abgeleiteten Merkmale soll man betrachten? - welche sind geeignet für Charakterisierung von Textgruppen? Diskriminanzfunktionen - welche Merkmale bestimmen gute Diskriminanzfunktionen? - lassen sich Gemeinsamkeiten in slawischen Sprachen finden? (können Textkategorien im Kroatischen durch ähnliche Merkmale getrennt werden wie im Slowenischen?)