Peter Grzybek Projekt # (FWF) Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten im Slowakischen im Vergleich zu anderen (slawischen) Sprachen
Slowakische Graphem-Häufigkeiten
1.Milan (1957): 35 – Mistrík (1957): 41 – Bosák (1965): 46 – Krauszová/Jarušek (wiss.): 43 – Krauszová/Jarušek (journ.): 43 – Anfänge in den 50er Jahren: Praktische Bedürfnisse Stenographie Tastaturbelegung auf Schreibmaschinen Vergleich Graphematik – Phonologie
Slowakische Graphematik (Bosák 1965) 1.Bosák: 46 – % 2.Milan: 35 – % 3.Mistrík: 41 – % 4.Krauszová/Jarušek (wiss.): 43 – % 5.Krauszová/Jarušek (journ.): 43 – % Unterschiedliche Inventar-Größen Unvollständige (Roh-)Daten Untersuchungen einzelner Grapheme / Phoneme (Graphem-Phonem-Gruppen) Notwendig: Erforschung des graphematischen Systems insgesamt unter Berücksichtigung möglicher Stil-Differenzen
Synergetische Grundlagen Frequenzen und Abhängigkeiten Annahme: Regularitäten auf höheren Ebenen setzen Regularitäten auf niedrigeren Ebenen voraus.
Rang-Häufigkeit Proportionale Relation einer Klasse x zur jeweils niedrigeren Klasse x-1 R a n g 1 b i s R a n g n FrequennzFrequennz Ist die proportionale Relation für verschiedene Texte und/oder Sprachen systematisch ?
Analyse von Graphem-Frequenzen Methodologische Entscheidungen Daten-Homogenität Graphematische Daten (keine Phoneme) Kontrolle der Daten-Homogenität Texte vs. Text-Segmente vs. Text-Kumulationen vs. Text- Mischungen (Korpus) Diskrete Häufigkeits-Modelle (keine stetigen) (a) theoretische Entropie, Repeat Rate, etc. (b) p i = 1 Test relevanter Modelle Goodness-of-Fit-Test ²-Test C = ² / N (C < 0.02 = * ; C < 0.01 = **)
Analyse von Graphem-Frequenzen: Russisch
Zipf-Verteilung (Zeta-Verteilung) Grundannahme: r x f r = c f r = c / r Gesamt- Korpus: C = 0.12
Zipf-Mandelbrot-Verteilung Grundannahme: fr fr = c / (r + b) a Gesamt- Korpus: C = 0.03
Zipfsche und Zipf-Mandelbrotsche Verteilung: Goodness-of-Fit-Tests (38 Russische Datensätze)
Geometrische Verteilung und Good-Verteilung Gesamt-Korpus: C = Gesamt-Korpus: C = 0.13
n = Inventargröße, x = Klasse 2 Parameter: K, M Negativ-hypergeometrische Verteilung Analyse Russischer Graphem-Frequenzen (Korpus) Goodness-of-Fit-Test: Korpus, ca. 8.5 Mio. Grapheme C =
Analyse russischer Graphem-Frequenzen Vergleich von Texten, Text-Segmenten, Text- Kumulationen, Text-Mischungen, und dem Gesamt-Korpus Konstanz des Goodness-of-Fit-Tests (C)(C) Konstanz der Parameter (K, M) K 3.15M 0.81 Negativ hypergeometrische Verteilung
Analyse slowenischer Graphem-Frequenzen Goodness-of-Fit-Test: Korpus, ca Grapheme (C= ) Negativ hypergeometrische Verteilung a b c č d e f g h i j k l m n o p r s š t u v z ž
Konstanz des Goodness-of-Fit-Tests: (C) Konstanz der Parameter (K, M) K 2.89M 0.81 Analyse slowenischer Graphem-Frequenzen (Korpus) Negativ hypergeometrische Verteilung
Vergleich: Russisch (33) – Slowenisch (25) Werte der Parameter K und M für jeweils 30 Texte (mit 95%-Konfidenzintervall für K)
Analysis von Graphem-Häufigkeiten in slawischen Alphabeten Inventar- Umfang minimal25Slowenisch mittel32/33 Russisch (е / ё) maximal43/46 Slowakisch (m. Digraphen)
Slowakische Graphem-Häufigkeiten Folgt auch das Slowakische der neg. hypergeometrischen Verteilung? Wenn ja: Wie verhalten sich die Parameter K und M ? Wie wirkt sich die Anzahl der (Graphem)Klassen aus ? Lassen sich die Parameter K und M interpretieren ?
Slowakische Graphem-Häufigkeiten: Korpus-Analyse (ca Grapheme) C = C = K = 3.97K = 4.16 M = 0.85M = Grapheme 46 Grapheme
Slowakische Graphem-Häufigkeiten: Text-Analysen (30 Texte verschiedener Textsorten)
Slowakische Graphem-Häufigkeiten: Parameter K und M (mit 95%-Konfidenzintervall) K = K = M = M =
Graphem-Häufigkeiten in drei slawischen Sprachen: Fehlerbalken-Diagramme für K und M 1.Slowenisch: 25 2.Russisch: 32 (ohne ё) 3.Russisch: 33 (mit ё) 4.Slowakisch: 43 (ohne Digraphen) 5.Slowakisch: 46 (mit Digraphen) 1.Überlappung von M 2.Keine Überlappung von K 3.Korrelation von K und n ?
Graphem-Häufigkeiten in drei slawischen Sprachen Interpretation der Parameter: Abhängigkeit der Parameter K und M von n K korreliert hoch signifikant mit dem Inventarumfang n: (r (r = 0.94, p < 0.001) M korreliert signifikant, aber deutlich schwächer mit dem Inventarumfang n:n: (r (r = 0.26, p = 0.01)
Graphem-Häufigkeiten in drei slawischen Sprachen Interpretation der Parameter: Abhängigkeit der Parameter K und M von n K korreliert signifikant mit dem Inventarumfang n: (r (r = 0.99, p = 0.002) M korreliert nicht signifikant mit dem Inventarumfang n:n: (r (r = 0.33, p = 0.22)
Graphem-Häufigkeiten in drei slawischen Sprachen Interpretation der Parameter K und M Abhängigkeit M i von K i (i=1,2,…,n) gesamt r =.51, p <.001 SPRACHSPEZIFIK !!!
Sprachspezifische Abhängigkeit des Parameters M i von K i (i = 1,2,…,n) Slowenisch: r =.88, p <.001 Russisch (32): r =.86, p <.001 Russisch (33) r =.85. p <.001 Slowakisch (43): r =.82, p <.001 Slowakisch (46) r =.59, p =.001
Sprachspezifische Abhängigkeit des Parameters M i von K i M i = a i K i Slowenisch: M1 M1 = K1K1 Russisch (32): M2 M2 = K2K2 Russisch (33) M3 M3 = K3K3 Slowakisch (43): M4 M4 = K4K4 Slowakisch (46) M5 M5 = K5K5
Abhängigkeit des Faktors a i von n i a i = c n i + d a i = c n i d Slowenisch n 1 = 25M 1 = K 1 Russisch n 2 = 32M 2 = K 2 n 3 = 33M 3 = K 3 Slowakisch n 4 = 43M 4 = K 4 n 5 = 46M 5 = K 5 r =.99 ( p = 0.001)
aiai f(n i )c · n i + d n i MiMi g(K i )a i · K i K h(n)u · n + v n Die Graphemhäufigkeiten im Slowakischen sind gesetzmäßig organisiert; die Verteilung folgt der negativ hypergeometrischen (nhg) Verteilung 2.Das Slowakische ordnet sich systematisch in den Kontext anderer slawischer Graphemsysteme ein 3.Die Parameter K und M der NHG Verteilung verhalten sich regulär; sie lassen sich interpretieren, indem sie sich auf den Inventarumfang n zurückführen lassen 4.Nur Textanalysen, keine Korpusanalysen führen zu einer entsprechenden Interpretation der Parameter Resümee und Schlussfolgerungen
Däkujem za pozornost !
Stichprobengröße und C
Post-Hoc-Mittelwert-Vergleich (Parameter K)
Diskriminanzanalyse (Parameter K und M als Diskriminanzvariablen)