Wortlängen(häufigkeiten) in Texten slawischer Sprachen Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)
Text-Ausschnitt vs. Vollständiger Text Korpus-Analyse vs. Text-Analyse Vermeintliche (Re-)Konstruktion einer Norm eines Standards Text als homogene Einheit „Text-Mischung“ Selbstregulierendes System („Quasi-Text“) Text-Ausschnitt vs. Vollständiger Text
Aus der Geschichte der Wortlängen-Forschung (Anfänge)
Professor für Mathematik am University College (London) Augustus de Morgan (1806-1871) Professor für Mathematik am University College (London) 1851: Erwägt die Möglichkeit, den Autor eines Buches oder eines Textes aufgrund der mittleren Wortlänge zu identifizieren
Mittelwert als Maß der zentralen Tendenz
Das arithmetische Mittel (x ) :
Mittelwert: x1 = 2.10 x2 = 2.12 Streuung (Varianz): s² = 1.29 s² = 1.52
Mittelwert als Maß der zentralen Tendenz Varianz als Maß der Streuung um den Mittelwert
Ivan Cankar: “Hiša Marije Pomočnice“ Mittlere Wortlänge: Einzelkapitel vs. Gesamtext
Thomas Corwin Mendenhall (1841-1924) Professor für Physik (Ohio, Tokio) 1887/1901: „[…] it is proposed to analyze a composition by forming what may be called a 'word spectrum' or 'characteristic curve‘, which shall be a graphic representation of the arrangement of words according to their length and to the relative frequency of their occurrence.“ „the normal curve of a writer” Fortführen der Ideen von de Morgan Mittelwert, Häufigkeitsverteilung (= graphische Repräsentation, mathematische Interpretation)
Sergej Grigor'evič Čebanov (1897-1966) Wilhelm Fucks (*1902) Russischer Armee-Arzt aus Petersburg Wilhelm Fucks (*1902) Professor für Physik (TH Aachen) Mathematische Interpretation der Häufigkeitsverteilung ("Čebanov-Fucks-Verteilung") Fucks (1955): „[...] allgemeines Gesetz der Bildung von Wörtern aus Silben“
Normalverteilung nach C.F. Gauss
The Advanced Theory of Language as Choice and Chance (1966) Gustav Herdan The Advanced Theory of Language as Choice and Chance (1966) Lognormal-Verteilung als „optimales Modell“ der Wortlängenhäufigkeit
Px = g(x) Px-1 Conway-Maxwell-Poisson-Verteilung Poisson- Verteilung Pos. Binomial- Verteilung Neg. Binomial- Verteilung
Wortlängenhäufigkeiten in Durch die Wüste von Karl May Theoretisches Modell: Neg. Binomial-Verteilung (C = 0.002)
Εrweiterte positive Binomialverteilung α = 0.98 n = 4 p = 0.37 α = 0.97 n = 14 p = 0.13 α = 0.96
m1 (x) m2 (s2) m3 Arme Liza 2,10 1,29 0,88 Vystrel 2,12 1,52 1,17
xy-Koordinatensystem Mittelwert Die Lokalisierung im xy-Koordinatensystem 2. Zentralmoment 3.Zentralmoment y-Achse x-Achse
“Bednaja Liza” M1 = 2.10 M2 = 1.29 M3 = 0.88 “Vystrel”
Pilotstudie zum Slowenischen Korpus: N = 153 Prosa n1 = 102 Poesie n2 = 51 n1.1.= 52 liter. Prosa n1.2. = 50 Journalistik
Scatterplot der Diskriminanzvariablen
TEXTSORTE Prosa journalistisch Zeitung 1 Rubrik 1 Autor 1 30 Autor 2 30 Rubrik 2 Autor 1 30 Zeitung 2 Rubrik 1 Autor 1 30 Autor 2 30 240 literarisch Erzählungen 19. Jhd. Autor 1 30 Autor 3 30 20. Jhd. Autor 1 30 Romane 19. Jhd. Autor 1 30 Autor 3 30 360 wissenschaftl. geisteswiss.-philos. 30 naturwiss. 30 60 Brief 19. Jhd. Autor 1 30 Autor 2 30 120 Poesie versgebunden 19. Jhd. Autor 1 30 Autor 2 30 Autor 3 30 20. Jhd. Autor 1 30 Autor 3 30 180 freier Vers 20. Jhd. Autor 1 30 Autor 2 30 60 gesamt 1020
Mittelwerte als Maß der zentralen Tendenz Varianzen als Maß der Streuung um den Mittelwert Weitere Kenngrößen von Häufigkeitsverteilungen: Schiefe, Kurtosis, Entropie, usw. Modelle von Häufigkeitsverteilungen mit variablen Parametern