Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität.

Ähnliche Präsentationen


Präsentation zum Thema: "Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität."—  Präsentation transkript:

1 Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität Graz 21. Juni 2002

2 2 Sechs statistische Kenngrößen zur Charakterisierung von Texten aus dem Slowenischen –TLS: Textlänge gegeben durch Anzahl der Silben –m 1 : mittlere Wortlänge aus Anzahl der Silben (Silbenanzahl pro Wort); –m 2 : empirische Varianz der Wortlänge –log(TLS): logarithmierte Textlänge –I: das erste Ord´sche Kriterium I = m 2 / m 1 –S: das zweite Ord´sche Kriterium S= m 3 / m 2

3 3 Je zwei slowenische Texte der drei Texttypen mit sechs Kenngrößen (Variablen) Anzahl der Texte, Mittelwertvektoren

4 4 Literarische Prosa Abhängigkeitsstruktur der sechs Variablen Kovarianzmatrix S 1, Korrelationsmatrix R 1

5 5 Gepoolte Kovarianzmatrix aus Gruppenkovarianzen S i und S j Berechnung der multivariaten statistischen Distanz zwischen je zwei sechs-dimensionalen Mittelwertvektoren

6 6 Literarische Prosa | Journalistische Prosa Univariate Statistiken der sechs Charakteristika - Mittelwerte - Standardabweichungen - Univariate statistische Distanzen

7 7 Literarische Prosa | Poesie Univariate Statistiken der sechs Charakteristika - Mittelwerte - Standardabweichungen - Univariate statistische Distanzen

8 8 Journalistische Prosa | Poesie Univariate Statistiken der sechs Charakteristika - Mittelwerte - Standardabweichungen - Univariate statistische Distanzen

9 9 Auswahl guter Kombinationen von Variablen aus dem Pool von p = 6 Variablen Scatterplot des Variablenpaares (log(TLS),I) Scatterplot des Variablenpaares (m 1,I)

10 10 Scatterplot des Variablenpaares (m 2,I)

11 11 Lineare Diskriminanzfunktion Y ij der Texttypen i und j maximiert die statistische Distanz zwischen den Gruppenmittelwerten der Diskriminanzfunktion Linearkombination der p=6 Variablen

12 12

13 13

14 14

15 15

16 16 Multivariate Distanzwerte nach Elimination einer redundanten bzw. nicht redundanten Variable Literarische Prosa und journalistische Prosa Journalistische Prosa und PoesieLiterarische Prosa und Poesie

17 17

18 18 Scatterplot der Veränderlichen log(TLS) und Y 12 (m 1,m 2,I) Scatterplot der Veränderlichen m 1 und Y 12 (log(TLS),m 2,I)

19 19 Scatterplot der Veränderlichen log(TLS) und Y 13 (TLS, m 2 )

20 20 Scatterplot der Veränderlichen log(TLS) und Y 23 (m 1,I) Scatterplot der Veränderlichen m 1 und Y 23 (log(TLS),I)

21 21 Kanonische Diskriminanten Z 1, Z 2 ( Z i = Z i (log(TLS),m 1,I)) mit Gruppenmittelwerten und Konzentrationsellipsen

22 22 Offene Fragen Definition der Texttypologie - Einteilung von Texten in Textkategorien? - welche Kriterien sind anzulegen? - statistische Eigenschaften (Population)? Definition eines Variablenpools Basis sind Textlänge und Wortlänge - welche abgeleiteten Merkmale soll man betrachten? - welche sind geeignet für Charakterisierung von Textgruppen? Diskriminanzfunktionen - welche Merkmale bestimmen gute Diskriminanzfunktionen? - lassen sich Gemeinsamkeiten in slawischen Sprachen finden? (können Textkategorien im Kroatischen durch ähnliche Merkmale getrennt werden wie im Slowenischen?)


Herunterladen ppt "Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität."

Ähnliche Präsentationen


Google-Anzeigen