Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Wortlängen(häufigkeiten) in Texten slawischer Sprachen

Ähnliche Präsentationen


Präsentation zum Thema: "Wortlängen(häufigkeiten) in Texten slawischer Sprachen"—  Präsentation transkript:

1

2 Wortlängen(häufigkeiten) in Texten slawischer Sprachen
Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 ( )

3 Text-Ausschnitt vs. Vollständiger Text
Korpus-Analyse vs. Text-Analyse Vermeintliche (Re-)Konstruktion einer Norm eines Standards Text als homogene Einheit „Text-Mischung“ Selbstregulierendes System („Quasi-Text“) Text-Ausschnitt vs. Vollständiger Text

4 Aus der Geschichte der Wortlängen-Forschung
(Anfänge)

5 Professor für Mathematik am University College (London)
Augustus de Morgan ( ) Professor für Mathematik am University College (London) 1851: Erwägt die Möglichkeit, den Autor eines Buches oder eines Textes aufgrund der mittleren Wortlänge zu identifizieren

6 Mittelwert als Maß der zentralen Tendenz

7 Das arithmetische Mittel (x ) :

8

9 Mittelwert: x1 = 2.10 x2 = 2.12 Streuung (Varianz): s² = 1.29 s² = 1.52

10 Mittelwert als Maß der zentralen Tendenz
Varianz als Maß der Streuung um den Mittelwert

11 Ivan Cankar: “Hiša Marije Pomočnice“
Mittlere Wortlänge: Einzelkapitel vs. Gesamtext

12 Thomas Corwin Mendenhall (1841-1924)
Professor für Physik (Ohio, Tokio) 1887/1901: „[…] it is proposed to analyze a composition by forming what may be called a 'word spectrum' or 'characteristic curve‘, which shall be a graphic representation of the arrangement of words according to their length and to the relative frequency of their occurrence.“ „the normal curve of a writer”  Fortführen der Ideen von de Morgan  Mittelwert,  Häufigkeitsverteilung (= graphische Repräsentation,  mathematische Interpretation)

13

14

15 Sergej Grigor'evič Čebanov (1897-1966) Wilhelm Fucks (*1902)
Russischer Armee-Arzt aus Petersburg Wilhelm Fucks (*1902) Professor für Physik (TH Aachen) Mathematische Interpretation der Häufigkeitsverteilung ("Čebanov-Fucks-Verteilung") Fucks (1955): „[...] allgemeines Gesetz der Bildung von Wörtern aus Silben“

16

17

18 Normalverteilung nach C.F. Gauss

19 The Advanced Theory of Language as Choice and Chance (1966)
Gustav Herdan The Advanced Theory of Language as Choice and Chance (1966) Lognormal-Verteilung als „optimales Modell“ der Wortlängenhäufigkeit

20 Px = g(x) Px-1 Conway-Maxwell-Poisson-Verteilung Poisson- Verteilung
Pos. Binomial- Verteilung Neg. Binomial- Verteilung

21 Wortlängenhäufigkeiten in Durch die Wüste von Karl May
Theoretisches Modell: Neg. Binomial-Verteilung (C = 0.002)

22 Εrweiterte positive Binomialverteilung
α = 0.98 n = 4 p = 0.37 α = 0.97 n = 14 p = 0.13 α = 0.96

23 m1 (x) m2 (s2) m3 Arme Liza 2,10 1,29 0,88 Vystrel 2,12 1,52 1,17

24 xy-Koordinatensystem
Mittelwert Die Lokalisierung im xy-Koordinatensystem 2. Zentralmoment 3.Zentralmoment y-Achse x-Achse

25 “Bednaja Liza” M1 = 2.10 M2 = 1.29 M3 = 0.88 “Vystrel”

26

27

28

29 Pilotstudie zum Slowenischen
Korpus: N = 153 Prosa n1 = 102 Poesie n2 = 51 n1.1.= 52 liter. Prosa n1.2. = 50 Journalistik

30

31

32 Scatterplot der Diskriminanzvariablen

33 TEXTSORTE                 Prosa journalistisch Zeitung 1 Rubrik 1 Autor 1 30     Autor 2 30     Rubrik 2 Autor 1 30     Zeitung 2 Rubrik 1 Autor 1 30           Autor   literarisch Erzählungen 19. Jhd. Autor 1 30     Autor 3 30     Jhd. Autor 1 30     Romane 19. Jhd. Autor 1 30           Autor   wissenschaftl. geisteswiss.-philos.     30       naturwiss.     30 60   Brief 19. Jhd. Autor 1 30           Autor Poesie versgebunden   19. Jhd. Autor 1 30       Autor 2 30       Autor 3 30       20. Jhd. Autor 1 30           Autor   freier Vers 20. Jhd. Autor 1 30           Autor         gesamt   1020

34 Mittelwerte als Maß der zentralen Tendenz
Varianzen als Maß der Streuung um den Mittelwert Weitere Kenngrößen von Häufigkeitsverteilungen: Schiefe, Kurtosis, Entropie, usw. Modelle von Häufigkeitsverteilungen mit variablen Parametern

35


Herunterladen ppt "Wortlängen(häufigkeiten) in Texten slawischer Sprachen"

Ähnliche Präsentationen


Google-Anzeigen