Peter Grzybek Projekt # 15485 (FWF)http://www-gewi.uni-graz.at/quanta Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten.

Slides:



Advertisements
Ähnliche Präsentationen
T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Fakten zum Investitionskonzept
Folienserie des Fonds der Chemischen Industrie
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Die Projektgruppe heißt Sie herzlichst willkommen
Telefonnummer.
Leseleistung LAU 5 und KESS 4 im Vergleich
Zusätzliche Lehrkräfte an der Schule (Schüler in Prozent) 6
= = = = 47 = 47 = 48 = =
EF: Standards + H2O red = H2O.
Nicht-Lineare Regression
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Internet facts 2009-IV Grafiken zu dem Berichtsband AGOF e.V. März 2010.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Prof. Dr. Bernhard Wasmayr
Aufgabe Der Zusammenhang zwischen einem traumatischen Erlebnis und der Entstehung einer PTBS wird von mehreren Variablen …………….: Copingstrategien, Kontrollüberzeigung,
Studienverlauf im Ausländerstudium
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Dummy-Variablen Gleicher Lohn bei gleicher Qualifikation: Frauen verdienen im Durchschnitt zwar weniger als Männer, aber ist die Ursache dafür in der Diskriminierung.
1 Status Index Politikergebnisse Management Index Reformfähigkeit Exekutivkapazität Beteiligungskompetenz Gestaltungsfähigkeit Ressourceneffizienz Internationale.
Investitionen in Projekt B nach Gruppe (Gelb=25%, Weiß=10%)
Prof. Dr. Günter Gerhardinger Soziale Arbeit mit Einzelnen und Familien Übersicht über die Lehrveranstaltung Grundlegende Bestimmungsfaktoren der Praxis.
Daten auswerten Boxplots
20:00.
Eine Einführung in die CD-ROM
QS- Dekubitusprophylaxe Klinikstatistik 2007 BAQ
SPSS für Windows Auswertung von Marktforschungsdaten mit SPSS für Windows WINDER Thomas Porzellangasse 32, 1090 Wien.
Detailauswertung von Schallaufzeichnungen wg. Zuglärm, Meßzeitraum: – , Lokation: Herten, Snirgelskamp Entwicklung und Durchführung.
Wir üben die Malsätzchen
Wortlängen(häufigkeiten) in Texten slawischer Sprachen
Peter Grzybek ( Graz ) Das Grazer Projekt »Wortlängen(häufigkeiten) in Texten slawischer Sprachen« FWF #15485 ( )
Addieren und Subtrahieren von Dezimalzahlen
Mehr zum Testen von Hypothesen
Messung der Ionisierungsenergie von Wasserstoff
Stilistik: Peter Grzybek Qualitativ - Quantitativ
Emmerich Kelih & Gordana Antić Klassifikation von Autor und/oder Text?
Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 ( )
Peter Grzybek Austrian Research Fund Project #15485 Von der Ökonomie der Sprache zur Selbst- Regulation kultureller.
Peter Grzybek Warum messen wir Wortlängen nicht in der Anzahl
Das entscheidende Kriterium ist Schönheit; für häßliche Mathematik ist auf dieser Welt kein beständiger Platz. Hardy.
Der Ablauf eines Clear Rex Klärzyklus
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Symmetrische Blockchiffren DES – der Data Encryption Standard
Übergang in die Schule der Sekundarstufe I
Szenisches Lernen Wie Theaterelemente den Unterricht bereichern
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Beispiel 1.4 Ein Kreditinstitut bietet folgende Varianten für die vertragliche Gestaltung eines Kontokorrentkredits an: Nettozinssatz 10 % p.a Zinssatz.
Parkplatz-Orga Diese Version ist vom finale Version!
Anlageausschuss Heidelberger Investoren- Runde Anlageausschuss Heidelberger Investoren Runde Dezember 2008.
Lump vom dunklen Zwinger Wurftag 23.Mai 2002 Körklasse 1 Schaubewertung SG BH AD Sch H Punkte SG
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Zusammengestellt von OE3DSB
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Dokumentation der Umfrage BR P2.t Ergebnisse in Prozent n= 502 telefonische CATI-Interviews, repräsentativ für die Linzer Bevölkerung ab 18 Jahre;
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
Projekt Messendorferstraße Graz TOP 1-33 /EG Wohnhaus 1 Grundstück 2 Schlafen10,28 m² Wohnen /Kochen 15,35 m² Diele 2,50 m² Bad mit WC 4,40m² Terrasse.
Bildergalerie PRESEASON CAMP Juni 2014 Romanshorn Get ready for the Season!
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
3. Fachtagung im Projekt Pflegebegleiter am 24. November in Bad Honnef Projekt Pflegebegleiter 3. Fachtagung Ein Projekt fasst Fuß KURZVERSION DER PRÄSENTATION.
Bürgermeister Absolute Stimmen Gesamt. Bürgermeister Prozentuale Aufteilung Gesamt.
Folie Einzelauswertung der Gemeindedaten
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Monatsbericht Ausgleichsenergiemarkt Gas – November
 Präsentation transkript:

Peter Grzybek Projekt # (FWF) Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten im Slowakischen im Vergleich zu anderen (slawischen) Sprachen

Slowakische Graphem-Häufigkeiten

1.Milan (1957): 35 – Mistrík (1957): 41 – Bosák (1965): 46 – Krauszová/Jarušek (wiss.): 43 – Krauszová/Jarušek (journ.): 43 – Anfänge in den 50er Jahren: Praktische Bedürfnisse Stenographie Tastaturbelegung auf Schreibmaschinen Vergleich Graphematik – Phonologie

Slowakische Graphematik (Bosák 1965) 1.Bosák: 46 – % 2.Milan: 35 – % 3.Mistrík: 41 – % 4.Krauszová/Jarušek (wiss.): 43 – % 5.Krauszová/Jarušek (journ.): 43 – % Unterschiedliche Inventar-Größen Unvollständige (Roh-)Daten Untersuchungen einzelner Grapheme / Phoneme (Graphem-Phonem-Gruppen) Notwendig: Erforschung des graphematischen Systems insgesamt unter Berücksichtigung möglicher Stil-Differenzen

Synergetische Grundlagen Frequenzen und Abhängigkeiten Annahme: Regularitäten auf höheren Ebenen setzen Regularitäten auf niedrigeren Ebenen voraus.

Rang-Häufigkeit Proportionale Relation einer Klasse x zur jeweils niedrigeren Klasse x-1 R a n g 1 b i s R a n g n FrequennzFrequennz Ist die proportionale Relation für verschiedene Texte und/oder Sprachen systematisch ?

Analyse von Graphem-Frequenzen Methodologische Entscheidungen Daten-Homogenität Graphematische Daten (keine Phoneme) Kontrolle der Daten-Homogenität Texte vs. Text-Segmente vs. Text-Kumulationen vs. Text- Mischungen (Korpus) Diskrete Häufigkeits-Modelle (keine stetigen) (a) theoretische Entropie, Repeat Rate, etc. (b) p i = 1 Test relevanter Modelle Goodness-of-Fit-Test ²-Test C = ² / N (C < 0.02 = * ; C < 0.01 = **)

Analyse von Graphem-Frequenzen: Russisch

Zipf-Verteilung (Zeta-Verteilung) Grundannahme: r x f r = c f r = c / r Gesamt- Korpus: C = 0.12

Zipf-Mandelbrot-Verteilung Grundannahme: fr fr = c / (r + b) a Gesamt- Korpus: C = 0.03

Zipfsche und Zipf-Mandelbrotsche Verteilung: Goodness-of-Fit-Tests (38 Russische Datensätze)

Geometrische Verteilung und Good-Verteilung Gesamt-Korpus: C = Gesamt-Korpus: C = 0.13

n = Inventargröße, x = Klasse 2 Parameter: K, M Negativ-hypergeometrische Verteilung Analyse Russischer Graphem-Frequenzen (Korpus) Goodness-of-Fit-Test: Korpus, ca. 8.5 Mio. Grapheme C =

Analyse russischer Graphem-Frequenzen Vergleich von Texten, Text-Segmenten, Text- Kumulationen, Text-Mischungen, und dem Gesamt-Korpus Konstanz des Goodness-of-Fit-Tests (C)(C) Konstanz der Parameter (K, M) K 3.15M 0.81 Negativ hypergeometrische Verteilung

Analyse slowenischer Graphem-Frequenzen Goodness-of-Fit-Test: Korpus, ca Grapheme (C= ) Negativ hypergeometrische Verteilung a b c č d e f g h i j k l m n o p r s š t u v z ž

Konstanz des Goodness-of-Fit-Tests: (C) Konstanz der Parameter (K, M) K 2.89M 0.81 Analyse slowenischer Graphem-Frequenzen (Korpus) Negativ hypergeometrische Verteilung

Vergleich: Russisch (33) – Slowenisch (25) Werte der Parameter K und M für jeweils 30 Texte (mit 95%-Konfidenzintervall für K)

Analysis von Graphem-Häufigkeiten in slawischen Alphabeten Inventar- Umfang minimal25Slowenisch mittel32/33 Russisch (е / ё) maximal43/46 Slowakisch (m. Digraphen)

Slowakische Graphem-Häufigkeiten Folgt auch das Slowakische der neg. hypergeometrischen Verteilung? Wenn ja: Wie verhalten sich die Parameter K und M ? Wie wirkt sich die Anzahl der (Graphem)Klassen aus ? Lassen sich die Parameter K und M interpretieren ?

Slowakische Graphem-Häufigkeiten: Korpus-Analyse (ca Grapheme) C = C = K = 3.97K = 4.16 M = 0.85M = Grapheme 46 Grapheme

Slowakische Graphem-Häufigkeiten: Text-Analysen (30 Texte verschiedener Textsorten)

Slowakische Graphem-Häufigkeiten: Parameter K und M (mit 95%-Konfidenzintervall) K = K = M = M =

Graphem-Häufigkeiten in drei slawischen Sprachen: Fehlerbalken-Diagramme für K und M 1.Slowenisch: 25 2.Russisch: 32 (ohne ё) 3.Russisch: 33 (mit ё) 4.Slowakisch: 43 (ohne Digraphen) 5.Slowakisch: 46 (mit Digraphen) 1.Überlappung von M 2.Keine Überlappung von K 3.Korrelation von K und n ?

Graphem-Häufigkeiten in drei slawischen Sprachen Interpretation der Parameter: Abhängigkeit der Parameter K und M von n K korreliert hoch signifikant mit dem Inventarumfang n: (r (r = 0.94, p < 0.001) M korreliert signifikant, aber deutlich schwächer mit dem Inventarumfang n:n: (r (r = 0.26, p = 0.01)

Graphem-Häufigkeiten in drei slawischen Sprachen Interpretation der Parameter: Abhängigkeit der Parameter K und M von n K korreliert signifikant mit dem Inventarumfang n: (r (r = 0.99, p = 0.002) M korreliert nicht signifikant mit dem Inventarumfang n:n: (r (r = 0.33, p = 0.22)

Graphem-Häufigkeiten in drei slawischen Sprachen Interpretation der Parameter K und M Abhängigkeit M i von K i (i=1,2,…,n) gesamt r =.51, p <.001 SPRACHSPEZIFIK !!!

Sprachspezifische Abhängigkeit des Parameters M i von K i (i = 1,2,…,n) Slowenisch: r =.88, p <.001 Russisch (32): r =.86, p <.001 Russisch (33) r =.85. p <.001 Slowakisch (43): r =.82, p <.001 Slowakisch (46) r =.59, p =.001

Sprachspezifische Abhängigkeit des Parameters M i von K i M i = a i K i Slowenisch: M1 M1 = K1K1 Russisch (32): M2 M2 = K2K2 Russisch (33) M3 M3 = K3K3 Slowakisch (43): M4 M4 = K4K4 Slowakisch (46) M5 M5 = K5K5

Abhängigkeit des Faktors a i von n i a i = c n i + d a i = c n i d Slowenisch n 1 = 25M 1 = K 1 Russisch n 2 = 32M 2 = K 2 n 3 = 33M 3 = K 3 Slowakisch n 4 = 43M 4 = K 4 n 5 = 46M 5 = K 5 r =.99 ( p = 0.001)

aiai f(n i )c · n i + d n i MiMi g(K i )a i · K i K h(n)u · n + v n Die Graphemhäufigkeiten im Slowakischen sind gesetzmäßig organisiert; die Verteilung folgt der negativ hypergeometrischen (nhg) Verteilung 2.Das Slowakische ordnet sich systematisch in den Kontext anderer slawischer Graphemsysteme ein 3.Die Parameter K und M der NHG Verteilung verhalten sich regulär; sie lassen sich interpretieren, indem sie sich auf den Inventarumfang n zurückführen lassen 4.Nur Textanalysen, keine Korpusanalysen führen zu einer entsprechenden Interpretation der Parameter Resümee und Schlussfolgerungen

Däkujem za pozornost !

Stichprobengröße und C

Post-Hoc-Mittelwert-Vergleich (Parameter K)

Diskriminanzanalyse (Parameter K und M als Diskriminanzvariablen)