Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Multivariate Verfahren der Statistik bei der quantitativen Textanalyse

Ähnliche Präsentationen


Präsentation zum Thema: "Multivariate Verfahren der Statistik bei der quantitativen Textanalyse"—  Präsentation transkript:

1 Multivariate Verfahren der Statistik bei der quantitativen Textanalyse
Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität Graz 21. Juni 2002

2 Sechs statistische Kenngrößen zur Charakterisierung von Texten aus dem Slowenischen
TLS: Textlänge gegeben durch Anzahl der Silben m1: mittlere Wortlänge aus Anzahl der Silben (Silbenanzahl pro Wort); m2: empirische Varianz der Wortlänge log(TLS): logarithmierte Textlänge I: das erste Ord´sche Kriterium I = m2 / m1 S: das zweite Ord´sche Kriterium S= m3 / m2

3 Je zwei slowenische Texte der drei Texttypen mit sechs Kenngrößen (Variablen) Anzahl der Texte, Mittelwertvektoren

4 Literarische Prosa Abhängigkeitsstruktur der sechs Variablen Kovarianzmatrix S1, Korrelationsmatrix R1

5 Gepoolte Kovarianzmatrix aus Gruppenkovarianzen Si und Sj
Berechnung der multivariaten statistischen Distanz zwischen je zwei sechs-dimensionalen Mittelwertvektoren

6 Literarische Prosa | Journalistische Prosa
Literarische Prosa | Journalistische Prosa Univariate Statistiken der sechs Charakteristika - Mittelwerte - Standardabweichungen - Univariate statistische Distanzen

7 Literarische Prosa | Poesie
Literarische Prosa | Poesie Univariate Statistiken der sechs Charakteristika - Mittelwerte - Standardabweichungen - Univariate statistische Distanzen

8 Journalistische Prosa | Poesie
Journalistische Prosa | Poesie Univariate Statistiken der sechs Charakteristika - Mittelwerte - Standardabweichungen - Univariate statistische Distanzen

9 Auswahl guter Kombinationen von Variablen aus dem Pool von p = 6 Variablen
Scatterplot des Variablenpaares (log(TLS),I) Scatterplot des Variablenpaares (m1,I)

10 Scatterplot des Variablenpaares
(m2,I)

11 Linearkombination der p=6 Variablen
Lineare Diskriminanzfunktion Yij der Texttypen i und j maximiert die statistische Distanz zwischen den Gruppenmittelwerten der Diskriminanzfunktion Linearkombination der p=6 Variablen

12

13

14

15

16 Literarische Prosa und Poesie Journalistische Prosa und Poesie
Multivariate Distanzwerte nach Elimination einer redundanten bzw. nicht redundanten Variable Literarische Prosa und journalistische Prosa Literarische Prosa und Poesie Journalistische Prosa und Poesie

17

18 Scatterplot der Veränderlichen log(TLS) und Y12(m1,m2,I)
m1 und Y12(log(TLS),m2,I)

19 Scatterplot der Veränderlichen
log(TLS) und Y13(TLS, m2)

20 Scatterplot der Veränderlichen log(TLS) und Y23(m1,I)
m1 und Y23(log(TLS),I)

21 Kanonische Diskriminanten Z1, Z2 ( Zi = Zi (log(TLS),m1,I))
mit Gruppenmittelwerten und Konzentrationsellipsen

22 Offene Fragen Definition der Texttypologie - Einteilung von Texten in Textkategorien? - welche Kriterien sind anzulegen? - statistische Eigenschaften (Population)? Definition eines Variablenpools Basis sind Textlänge und Wortlänge - welche abgeleiteten Merkmale soll man betrachten? - welche sind geeignet für Charakterisierung von Textgruppen? Diskriminanzfunktionen - welche Merkmale bestimmen gute Diskriminanzfunktionen? - lassen sich Gemeinsamkeiten in slawischen Sprachen finden? (können Textkategorien im Kroatischen durch ähnliche Merkmale getrennt werden wie im Slowenischen?)


Herunterladen ppt "Multivariate Verfahren der Statistik bei der quantitativen Textanalyse"

Ähnliche Präsentationen


Google-Anzeigen