Peter Grzybek Projekt # 15485 (FWF)http://www-gewi.uni-graz.at/quanta Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten.

Peter Grzybek Projekt # 15485 (FWF)http://www-gewi.uni-graz.at/quanta Projekt # 43s9 (OEAD/SAIA) http://www-uni-graz.at/staff/grzybek Graphem-Häufigkeiten im Slowakischen im Vergleich zu anderen (slawischen) Sprachen

Slowakische Graphem-Häufigkeiten

1.Milan (1957): 35 – 10.000 2.Mistrík (1957): 41 – 100.000 3.Bosák (1965): 46 – 10.000 4.Krauszová/Jarušek (wiss.): 43 – 585.207 5.Krauszová/Jarušek (journ.): 43 – 627.797 Anfänge in den 50er Jahren: Praktische Bedürfnisse Stenographie Tastaturbelegung auf Schreibmaschinen Vergleich Graphematik – Phonologie

Slowakische Graphematik (Bosák 1965) 1.Bosák: 46 – 10.00099.97% 2.Milan: 35 – 10.00098.93 % 3.Mistrík: 41 – 100.00090.68 % 4.Krauszová/Jarušek (wiss.): 43 – 585.20791.09 % 5.Krauszová/Jarušek (journ.): 43 – 627.79793.72 % Unterschiedliche Inventar-Größen Unvollständige (Roh-)Daten Untersuchungen einzelner Grapheme / Phoneme (Graphem-Phonem-Gruppen) Notwendig: Erforschung des graphematischen Systems insgesamt unter Berücksichtigung möglicher Stil-Differenzen

Synergetische Grundlagen Frequenzen und Abhängigkeiten Annahme: Regularitäten auf höheren Ebenen setzen Regularitäten auf niedrigeren Ebenen voraus.

Rang-Häufigkeit Proportionale Relation einer Klasse x zur jeweils niedrigeren Klasse x-1 R a n g 1 b i s R a n g n FrequennzFrequennz Ist die proportionale Relation für verschiedene Texte und/oder Sprachen systematisch ?

Analyse von Graphem-Frequenzen Methodologische Entscheidungen Daten-Homogenität Graphematische Daten (keine Phoneme) Kontrolle der Daten-Homogenität Texte vs. Text-Segmente vs. Text-Kumulationen vs. Text- Mischungen (Korpus) Diskrete Häufigkeits-Modelle (keine stetigen) (a) theoretische Entropie, Repeat Rate, etc. (b) p i = 1 Test relevanter Modelle Goodness-of-Fit-Test ²-Test C = ² / N (C < 0.02 = * ; C < 0.01 = **)

Analyse von Graphem-Frequenzen: Russisch

Zipf-Verteilung (Zeta-Verteilung) Grundannahme: r x f r = c f r = c / r Gesamt- Korpus: C = 0.12

Zipf-Mandelbrot-Verteilung Grundannahme: fr fr = c / (r + b) a Gesamt- Korpus: C = 0.03

Zipfsche und Zipf-Mandelbrotsche Verteilung: Goodness-of-Fit-Tests (38 Russische Datensätze)

Geometrische Verteilung und Good-Verteilung Gesamt-Korpus: C = 0.0211 Gesamt-Korpus: C = 0.13

n = Inventargröße, x = Klasse 2 Parameter: K, M Negativ-hypergeometrische Verteilung Analyse Russischer Graphem-Frequenzen (Korpus) Goodness-of-Fit-Test: Korpus, ca. 8.5 Mio. Grapheme C = 0.0043

Analyse russischer Graphem-Frequenzen Vergleich von Texten, Text-Segmenten, Text- Kumulationen, Text-Mischungen, und dem Gesamt-Korpus Konstanz des Goodness-of-Fit-Tests (C)(C) Konstanz der Parameter (K, M) K 3.15M 0.81 Negativ hypergeometrische Verteilung

Analyse slowenischer Graphem-Frequenzen Goodness-of-Fit-Test: Korpus, ca. 130.000 Grapheme (C= 0.0094) Negativ hypergeometrische Verteilung a b c č d e f g h i j k l m n o p r s š t u v z ž

Konstanz des Goodness-of-Fit-Tests: (C) Konstanz der Parameter (K, M) K 2.89M 0.81 Analyse slowenischer Graphem-Frequenzen (Korpus) Negativ hypergeometrische Verteilung

Vergleich: Russisch (33) – Slowenisch (25) Werte der Parameter K und M für jeweils 30 Texte (mit 95%-Konfidenzintervall für K)

Analysis von Graphem-Häufigkeiten in slawischen Alphabeten Inventar- Umfang minimal25Slowenisch mittel32/33 Russisch (е / ё) maximal43/46 Slowakisch (m. Digraphen)

Slowakische Graphem-Häufigkeiten Folgt auch das Slowakische der neg. hypergeometrischen Verteilung? Wenn ja: Wie verhalten sich die Parameter K und M ? Wie wirkt sich die Anzahl der (Graphem)Klassen aus ? Lassen sich die Parameter K und M interpretieren ?

Slowakische Graphem-Häufigkeiten: Korpus-Analyse (ca. 150.000 Grapheme) C = 0.0102C = 0.0139 K = 3.97K = 4.16 M = 0.85M = 0.83 43 Grapheme 46 Grapheme

Slowakische Graphem-Häufigkeiten: Text-Analysen (30 Texte verschiedener Textsorten)

Slowakische Graphem-Häufigkeiten: Parameter K und M (mit 95%-Konfidenzintervall) K = 4.06 0.06K = 4.31 0.08 M = 0.85 0.01M = 0.84 0.01

Graphem-Häufigkeiten in drei slawischen Sprachen: Fehlerbalken-Diagramme für K und M 1.Slowenisch: 25 2.Russisch: 32 (ohne ё) 3.Russisch: 33 (mit ё) 4.Slowakisch: 43 (ohne Digraphen) 5.Slowakisch: 46 (mit Digraphen) 1.Überlappung von M 2.Keine Überlappung von K 3.Korrelation von K und n ?

Graphem-Häufigkeiten in drei slawischen Sprachen Interpretation der Parameter: Abhängigkeit der Parameter K und M von n K korreliert hoch signifikant mit dem Inventarumfang n: (r (r = 0.94, p < 0.001) M korreliert signifikant, aber deutlich schwächer mit dem Inventarumfang n:n: (r (r = 0.26, p = 0.01)

Graphem-Häufigkeiten in drei slawischen Sprachen Interpretation der Parameter: Abhängigkeit der Parameter K und M von n K korreliert signifikant mit dem Inventarumfang n: (r (r = 0.99, p = 0.002) M korreliert nicht signifikant mit dem Inventarumfang n:n: (r (r = 0.33, p = 0.22)

Graphem-Häufigkeiten in drei slawischen Sprachen Interpretation der Parameter K und M Abhängigkeit M i von K i (i=1,2,…,n) gesamt r =.51, p <.001 SPRACHSPEZIFIK !!!

Sprachspezifische Abhängigkeit des Parameters M i von K i (i = 1,2,…,n) Slowenisch: r =.88, p <.001 Russisch (32): r =.86, p <.001 Russisch (33) r =.85. p <.001 Slowakisch (43): r =.82, p <.001 Slowakisch (46) r =.59, p =.001

Sprachspezifische Abhängigkeit des Parameters M i von K i M i = a i K i Slowenisch: M1 M1 = 0.2823 K1K1 Russisch (32): M2 M2 = 0.2434 K2K2 Russisch (33) M3 M3 = 0.2529 K3K3 Slowakisch (43): M4 M4 = 0.2123 K4K4 Slowakisch (46) M5 M5 = 0.1953 K5K5

Abhängigkeit des Faktors a i von n i a i = c n i + d a i = c n i d Slowenisch n 1 = 25M 1 = 0.2823 K 1 Russisch n 2 = 32M 2 = 0.2434 K 2 n 3 = 33M 3 = 0.2529 K 3 Slowakisch n 4 = 43M 4 = 0.2123 K 4 n 5 = 46M 5 = 0.1953 K 5 r =.99 ( p = 0.001)

aiai f(n i )c · n i + d -0.004 n i + 0.379 MiMi g(K i )a i · K i K h(n)u · n + v 0.067 n + 1.163 1.Die Graphemhäufigkeiten im Slowakischen sind gesetzmäßig organisiert; die Verteilung folgt der negativ hypergeometrischen (nhg) Verteilung 2.Das Slowakische ordnet sich systematisch in den Kontext anderer slawischer Graphemsysteme ein 3.Die Parameter K und M der NHG Verteilung verhalten sich regulär; sie lassen sich interpretieren, indem sie sich auf den Inventarumfang n zurückführen lassen 4.Nur Textanalysen, keine Korpusanalysen führen zu einer entsprechenden Interpretation der Parameter Resümee und Schlussfolgerungen

Däkujem za pozornost !

Stichprobengröße und C

Post-Hoc-Mittelwert-Vergleich (Parameter K)

Diskriminanzanalyse (Parameter K und M als Diskriminanzvariablen)

Peter Grzybek Projekt # 15485 (FWF)http://www-gewi.uni-graz.at/quanta Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten.

Ähnliche Präsentationen

Präsentation zum Thema: "Peter Grzybek Projekt # 15485 (FWF)http://www-gewi.uni-graz.at/quanta Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Peter Grzybek Projekt # 15485 (FWF)http://www-gewi.uni-graz.at/quanta Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten.

Ähnliche Präsentationen

Präsentation zum Thema: "Peter Grzybek Projekt # 15485 (FWF)http://www-gewi.uni-graz.at/quanta Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback