Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität Graz 21. Juni 2002
Sechs statistische Kenngrößen zur Charakterisierung von Texten aus dem Slowenischen TLS: Textlänge gegeben durch Anzahl der Silben m1: mittlere Wortlänge aus Anzahl der Silben (Silbenanzahl pro Wort); m2: empirische Varianz der Wortlänge log(TLS): logarithmierte Textlänge I: das erste Ord´sche Kriterium I = m2 / m1 S: das zweite Ord´sche Kriterium S= m3 / m2
Je zwei slowenische Texte der drei Texttypen mit sechs Kenngrößen (Variablen) Anzahl der Texte, Mittelwertvektoren
Literarische Prosa Abhängigkeitsstruktur der sechs Variablen Kovarianzmatrix S1, Korrelationsmatrix R1
Gepoolte Kovarianzmatrix aus Gruppenkovarianzen Si und Sj Berechnung der multivariaten statistischen Distanz zwischen je zwei sechs-dimensionalen Mittelwertvektoren
Literarische Prosa | Journalistische Prosa Literarische Prosa | Journalistische Prosa Univariate Statistiken der sechs Charakteristika - Mittelwerte - Standardabweichungen - Univariate statistische Distanzen
Literarische Prosa | Poesie Literarische Prosa | Poesie Univariate Statistiken der sechs Charakteristika - Mittelwerte - Standardabweichungen - Univariate statistische Distanzen
Journalistische Prosa | Poesie Journalistische Prosa | Poesie Univariate Statistiken der sechs Charakteristika - Mittelwerte - Standardabweichungen - Univariate statistische Distanzen
Auswahl guter Kombinationen von Variablen aus dem Pool von p = 6 Variablen Scatterplot des Variablenpaares (log(TLS),I) Scatterplot des Variablenpaares (m1,I)
Scatterplot des Variablenpaares (m2,I)
Linearkombination der p=6 Variablen Lineare Diskriminanzfunktion Yij der Texttypen i und j maximiert die statistische Distanz zwischen den Gruppenmittelwerten der Diskriminanzfunktion Linearkombination der p=6 Variablen
Literarische Prosa und Poesie Journalistische Prosa und Poesie Multivariate Distanzwerte nach Elimination einer redundanten bzw. nicht redundanten Variable Literarische Prosa und journalistische Prosa Literarische Prosa und Poesie Journalistische Prosa und Poesie
Scatterplot der Veränderlichen log(TLS) und Y12(m1,m2,I) m1 und Y12(log(TLS),m2,I)
Scatterplot der Veränderlichen log(TLS) und Y13(TLS, m2)
Scatterplot der Veränderlichen log(TLS) und Y23(m1,I) m1 und Y23(log(TLS),I)
Kanonische Diskriminanten Z1, Z2 ( Zi = Zi (log(TLS),m1,I)) mit Gruppenmittelwerten und Konzentrationsellipsen
Offene Fragen Definition der Texttypologie - Einteilung von Texten in Textkategorien? - welche Kriterien sind anzulegen? - statistische Eigenschaften (Population)? Definition eines Variablenpools Basis sind Textlänge und Wortlänge - welche abgeleiteten Merkmale soll man betrachten? - welche sind geeignet für Charakterisierung von Textgruppen? Diskriminanzfunktionen - welche Merkmale bestimmen gute Diskriminanzfunktionen? - lassen sich Gemeinsamkeiten in slawischen Sprachen finden? (können Textkategorien im Kroatischen durch ähnliche Merkmale getrennt werden wie im Slowenischen?)