Wortlängen(häufigkeiten) in Texten slawischer Sprachen

Slides:



Advertisements
Ähnliche Präsentationen
Beispiel: Grundbegriffe Statistik/Stochastik
Advertisements

Univariate Statistik M. Kresken.
Normalverteilte Zufallsvariablen
Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Grundlagen der Wahrscheinlichkeitsrechnung - Verteilungen -
Masterstudiengang IE (Industrial Engineering)
Write two sentences about each person based on the information given.
Gliederung Tabellarische und grafische Darstellung von Rohwerten mittels Histogramme und Polygone Statistische Kennwertbeschreibung mittels Tendenz- und.
Anwendungsseminar: Kausale Modellbildung
On the effect of repeat periods for future Satellite Formations: GRACE- and Pendulum-type Basem Elsaka und Jürgen Kusche Institut für Geodäsie und Geoinformation.
Prof. Dr. Bernhard Wasmayr
Streuungsparameter für Median Mittlere Abweichung vom Median Die Ungleichung gilt für jede Konstante c.
Statistische Methoden I WS 2004/2005 Probeklausur Freitag, 21. Januar statt Vorlesung - In 2 Wochen In 2 Wochen!
Verteilungsfunktion der Normalverteilung I. Verteilungsfunktion der Normalverteilung II.
Univariate Statistik M. Kresken.
AWA 2007 Natur und Umwelt Natürlich Leben
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Wiederholung und Beispiele
Extended multistep outflow method for the accurate determination of soil hydraulic properties close to water saturation W. Durner und S.C. Iden, SS2012.
Einfache Regressionsgleichung
Workshop "Mathematische Ökonomie" 2. Sitzung zur komparativen Statik:AS-AD-Modell.
A definite relative pronoun must agree in gender and number with the noun or pronoun to which it refers which is often called the antecedent. The case.
Histogramm/empirische Verteilung Verteilungen
Die Geschichte von Rudi
Separable Verbs There is a group of verbs in German called separable verbs = trennbare Verben.
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,
Peter Grzybek Projekt # (FWF) Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten.
Transformationen: Text. Zahlen. Bild.
Peter Grzybek ( Graz ) Das Grazer Projekt »Wortlängen(häufigkeiten) in Texten slawischer Sprachen« FWF #15485 ( )
Multivariate Verfahren der Statistik bei der quantitativen Textanalyse
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 1852 WS 2005/06 1.Dezember 2005.
STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Guten Tag! Monstag, den Hausaufgabe für Dienstag den LB 4.3E-G (E: Note instructions!) (F/G = Aufsatz, 150 Wörter)
Stilistik: Peter Grzybek Qualitativ - Quantitativ
Emmerich Kelih & Gordana Antić Klassifikation von Autor und/oder Text?
Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 ( )
Peter Grzybek Austrian Research Fund Project #15485 Von der Ökonomie der Sprache zur Selbst- Regulation kultureller.
Peter Grzybek Warum messen wir Wortlängen nicht in der Anzahl
NummerSpracheMittelwert der Wortlänge (in Silben) 1Englisch1,4 2Französisch1,6 3Deutsch1,7 4Esperanto1,9 5Italienisch2,0 6Griechisch2,1 7Ungarisch2,2 8Russisch2,2.
Referat über das Thema STOCHASTIK.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
1 (C) 2002, Hermann Knoll, HTW Chur, Fachhochschule Ostschweiz Wahrscheinlichkeitsverteilung Lernziele: Wahrscheinlichkeitsverteilung und der Wahrscheinlichkeitsdichte.
Der Zentralwert.
Strahlungsflüsse im Klimasystem
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Ch. 5: Tools in Probability Theory
AGOF facts & figures: Branchenpotenziale im Internet Q2 2014: Parfum & Kosmetik Basis: internet facts / mobile facts 2014-I.
Folie Einzelauswertung der Gemeindedaten
Der formelle Imperativ – the Imperative
Dr.-Ing. René Marklein - EFT I - WS 06/07 - Lecture 7 / Vorlesung 7 1 Elektromagnetische Feldtheorie I (EFT I) / Electromagnetic Field Theory I (EFT I)
Nominative & Accusative Basic Rules for Relative Pronouns in German:
Deutsch 1 Lesson 6 den 30. April  What do all German nouns have in common? Revision.
Name: ___________________________________________ Hör verstehen: (______/10) Mark whether you hear a “du”, an “ihr” or a “Sie” command Wer sagt.
Überblick empirische Forschung
Die Binomialverteilung
Interrogative Words. Interrogative words, also called question words are used to ask for information.
QUIZZ to keep to receive to need to buy to give (present) to sell
Common mistakes Morgen habe Ich das buch für dich. Nouns are capitalized + the formal form of address Morgen habe ich das Buch für dich. Jetzt, ich wohne.
Words which are similar in German and English - which syllable is stressed? Presented by Margaret Southgate L193 Rundblick: beginners’ German.
Deskriptive Statistik, Korrelationen, Mittelwertvergleiche, Graphiken
Imperfekt (Simple Past) Irregular or strong verbs
LHCone & HEPPI Status Volker Guelzow DESY IT Hamburg, May 13th 2011.
Statistik II Statistik II Maße der zentralen Tendenz (Mittelwerte)
Statistik III Statistik III 2. Streuungsmaße (Dispersionsmaße)
DA- und WO- Verbindungen Wie gut verstehst du sie?
DA- und WO- Verbindungen Wie gut verstehst du sie?
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
Bell Work What countries border Germany?
Das Auge des Language Magician
 Präsentation transkript:

Wortlängen(häufigkeiten) in Texten slawischer Sprachen Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

Text-Ausschnitt vs. Vollständiger Text Korpus-Analyse vs. Text-Analyse Vermeintliche (Re-)Konstruktion einer Norm eines Standards Text als homogene Einheit „Text-Mischung“ Selbstregulierendes System („Quasi-Text“) Text-Ausschnitt vs. Vollständiger Text

Aus der Geschichte der Wortlängen-Forschung (Anfänge)

Professor für Mathematik am University College (London) Augustus de Morgan (1806-1871) Professor für Mathematik am University College (London) 1851: Erwägt die Möglichkeit, den Autor eines Buches oder eines Textes aufgrund der mittleren Wortlänge zu identifizieren

Mittelwert als Maß der zentralen Tendenz

Das arithmetische Mittel (x ) :

Mittelwert: x1 = 2.10 x2 = 2.12 Streuung (Varianz): s² = 1.29 s² = 1.52

Mittelwert als Maß der zentralen Tendenz Varianz als Maß der Streuung um den Mittelwert

Ivan Cankar: “Hiša Marije Pomočnice“ Mittlere Wortlänge: Einzelkapitel vs. Gesamtext

Thomas Corwin Mendenhall (1841-1924) Professor für Physik (Ohio, Tokio) 1887/1901: „[…] it is proposed to analyze a composition by forming what may be called a 'word spectrum' or 'characteristic curve‘, which shall be a graphic representation of the arrangement of words according to their length and to the relative frequency of their occurrence.“ „the normal curve of a writer”  Fortführen der Ideen von de Morgan  Mittelwert,  Häufigkeitsverteilung (= graphische Repräsentation,  mathematische Interpretation)

Sergej Grigor'evič Čebanov (1897-1966) Wilhelm Fucks (*1902) Russischer Armee-Arzt aus Petersburg Wilhelm Fucks (*1902) Professor für Physik (TH Aachen) Mathematische Interpretation der Häufigkeitsverteilung ("Čebanov-Fucks-Verteilung") Fucks (1955): „[...] allgemeines Gesetz der Bildung von Wörtern aus Silben“

Normalverteilung nach C.F. Gauss

The Advanced Theory of Language as Choice and Chance (1966) Gustav Herdan The Advanced Theory of Language as Choice and Chance (1966) Lognormal-Verteilung als „optimales Modell“ der Wortlängenhäufigkeit

Px = g(x) Px-1 Conway-Maxwell-Poisson-Verteilung Poisson- Verteilung Pos. Binomial- Verteilung Neg. Binomial- Verteilung

Wortlängenhäufigkeiten in Durch die Wüste von Karl May Theoretisches Modell: Neg. Binomial-Verteilung (C = 0.002)

Εrweiterte positive Binomialverteilung α = 0.98 n = 4 p = 0.37 α = 0.97 n = 14 p = 0.13 α = 0.96

m1 (x) m2 (s2) m3 Arme Liza 2,10 1,29 0,88 Vystrel 2,12 1,52 1,17

xy-Koordinatensystem Mittelwert Die Lokalisierung im xy-Koordinatensystem 2. Zentralmoment 3.Zentralmoment y-Achse x-Achse

“Bednaja Liza” M1 = 2.10 M2 = 1.29 M3 = 0.88 “Vystrel”

Pilotstudie zum Slowenischen Korpus: N = 153 Prosa n1 = 102 Poesie n2 = 51 n1.1.= 52 liter. Prosa n1.2. = 50 Journalistik

Scatterplot der Diskriminanzvariablen

TEXTSORTE                 Prosa journalistisch Zeitung 1 Rubrik 1 Autor 1 30     Autor 2 30     Rubrik 2 Autor 1 30     Zeitung 2 Rubrik 1 Autor 1 30           Autor 2 30 240   literarisch Erzählungen 19. Jhd. Autor 1 30     Autor 3 30     20. Jhd. Autor 1 30     Romane 19. Jhd. Autor 1 30           Autor 3 30 360   wissenschaftl. geisteswiss.-philos.     30       naturwiss.     30 60   Brief 19. Jhd. Autor 1 30           Autor 2 30 120 Poesie versgebunden   19. Jhd. Autor 1 30       Autor 2 30       Autor 3 30       20. Jhd. Autor 1 30           Autor 3 30 180   freier Vers 20. Jhd. Autor 1 30           Autor 2 30 60         gesamt   1020

Mittelwerte als Maß der zentralen Tendenz Varianzen als Maß der Streuung um den Mittelwert Weitere Kenngrößen von Häufigkeitsverteilungen: Schiefe, Kurtosis, Entropie, usw. Modelle von Häufigkeitsverteilungen mit variablen Parametern