Wortlängen(häufigkeiten) in Texten slawischer Sprachen

Slides:

Advertisements

Ähnliche Präsentationen

Beispiel: Grundbegriffe Statistik/Stochastik

Advertisements

Univariate Statistik M. Kresken.

Normalverteilte Zufallsvariablen

Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.

Grundlagen der Wahrscheinlichkeitsrechnung - Verteilungen -

Masterstudiengang IE (Industrial Engineering)

Write two sentences about each person based on the information given.

Gliederung Tabellarische und grafische Darstellung von Rohwerten mittels Histogramme und Polygone Statistische Kennwertbeschreibung mittels Tendenz- und.

Anwendungsseminar: Kausale Modellbildung

On the effect of repeat periods for future Satellite Formations: GRACE- and Pendulum-type Basem Elsaka und Jürgen Kusche Institut für Geodäsie und Geoinformation.

Prof. Dr. Bernhard Wasmayr

Streuungsparameter für Median Mittlere Abweichung vom Median Die Ungleichung gilt für jede Konstante c.

Statistische Methoden I WS 2004/2005 Probeklausur Freitag, 21. Januar statt Vorlesung - In 2 Wochen In 2 Wochen!

Verteilungsfunktion der Normalverteilung I. Verteilungsfunktion der Normalverteilung II.

Univariate Statistik M. Kresken.

AWA 2007 Natur und Umwelt Natürlich Leben

Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.

Wiederholung und Beispiele

Extended multistep outflow method for the accurate determination of soil hydraulic properties close to water saturation W. Durner und S.C. Iden, SS2012.

Einfache Regressionsgleichung

Workshop "Mathematische Ökonomie" 2. Sitzung zur komparativen Statik:AS-AD-Modell.

A definite relative pronoun must agree in gender and number with the noun or pronoun to which it refers which is often called the antecedent. The case.

Histogramm/empirische Verteilung Verteilungen

Die Geschichte von Rudi

Separable Verbs There is a group of verbs in German called separable verbs = trennbare Verben.

Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,

Peter Grzybek Projekt # (FWF) Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten.

Transformationen: Text. Zahlen. Bild.

Peter Grzybek ( Graz ) Das Grazer Projekt »Wortlängen(häufigkeiten) in Texten slawischer Sprachen« FWF #15485 ( )

Multivariate Verfahren der Statistik bei der quantitativen Textanalyse

STATISIK LV Nr.: 0028 SS Mai 2005.

STATISIK LV Nr.: 1852 WS 2005/06 1.Dezember 2005.

STATISIK LV Nr.: 0021 WS 2005/ November 2005.

Guten Tag! Monstag, den Hausaufgabe für Dienstag den LB 4.3E-G (E: Note instructions!) (F/G = Aufsatz, 150 Wörter)

Stilistik: Peter Grzybek Qualitativ - Quantitativ

Emmerich Kelih & Gordana Antić Klassifikation von Autor und/oder Text?

Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 ( )

Peter Grzybek Austrian Research Fund Project #15485 Von der Ökonomie der Sprache zur Selbst- Regulation kultureller.

Peter Grzybek Warum messen wir Wortlängen nicht in der Anzahl

NummerSpracheMittelwert der Wortlänge (in Silben) 1Englisch1,4 2Französisch1,6 3Deutsch1,7 4Esperanto1,9 5Italienisch2,0 6Griechisch2,1 7Ungarisch2,2 8Russisch2,2.

Referat über das Thema STOCHASTIK.

Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.

1 (C) 2002, Hermann Knoll, HTW Chur, Fachhochschule Ostschweiz Wahrscheinlichkeitsverteilung Lernziele: Wahrscheinlichkeitsverteilung und der Wahrscheinlichkeitsdichte.

Der Zentralwert.

Strahlungsflüsse im Klimasystem

Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)

Ch. 5: Tools in Probability Theory

AGOF facts & figures: Branchenpotenziale im Internet Q2 2014: Parfum & Kosmetik Basis: internet facts / mobile facts 2014-I.

Folie Einzelauswertung der Gemeindedaten

Der formelle Imperativ – the Imperative

Dr.-Ing. René Marklein - EFT I - WS 06/07 - Lecture 7 / Vorlesung 7 1 Elektromagnetische Feldtheorie I (EFT I) / Electromagnetic Field Theory I (EFT I)

Nominative & Accusative Basic Rules for Relative Pronouns in German:

Deutsch 1 Lesson 6 den 30. April  What do all German nouns have in common? Revision.

Name: ___________________________________________ Hör verstehen: (______/10) Mark whether you hear a “du”, an “ihr” or a “Sie” command Wer sagt.

Überblick empirische Forschung

Die Binomialverteilung

Interrogative Words. Interrogative words, also called question words are used to ask for information.

QUIZZ to keep to receive to need to buy to give (present) to sell

Common mistakes Morgen habe Ich das buch für dich. Nouns are capitalized + the formal form of address Morgen habe ich das Buch für dich. Jetzt, ich wohne.

Words which are similar in German and English - which syllable is stressed? Presented by Margaret Southgate L193 Rundblick: beginners’ German.

Deskriptive Statistik, Korrelationen, Mittelwertvergleiche, Graphiken

Imperfekt (Simple Past) Irregular or strong verbs

LHCone & HEPPI Status Volker Guelzow DESY IT Hamburg, May 13th 2011.

Statistik II Statistik II Maße der zentralen Tendenz (Mittelwerte)

Statistik III Statistik III 2. Streuungsmaße (Dispersionsmaße)

DA- und WO- Verbindungen Wie gut verstehst du sie?

DA- und WO- Verbindungen Wie gut verstehst du sie?

Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.

Bell Work What countries border Germany?

Das Auge des Language Magician

Präsentation transkript:

Wortlängen(häufigkeiten) in Texten slawischer Sprachen Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

Text-Ausschnitt vs. Vollständiger Text Korpus-Analyse vs. Text-Analyse Vermeintliche (Re-)Konstruktion einer Norm eines Standards Text als homogene Einheit „Text-Mischung“ Selbstregulierendes System („Quasi-Text“) Text-Ausschnitt vs. Vollständiger Text

Aus der Geschichte der Wortlängen-Forschung (Anfänge)

Professor für Mathematik am University College (London) Augustus de Morgan (1806-1871) Professor für Mathematik am University College (London) 1851: Erwägt die Möglichkeit, den Autor eines Buches oder eines Textes aufgrund der mittleren Wortlänge zu identifizieren

Mittelwert als Maß der zentralen Tendenz

Das arithmetische Mittel (x ) :

Mittelwert: x1 = 2.10 x2 = 2.12 Streuung (Varianz): s² = 1.29 s² = 1.52

Mittelwert als Maß der zentralen Tendenz Varianz als Maß der Streuung um den Mittelwert

Ivan Cankar: “Hiša Marije Pomočnice“ Mittlere Wortlänge: Einzelkapitel vs. Gesamtext

Thomas Corwin Mendenhall (1841-1924) Professor für Physik (Ohio, Tokio) 1887/1901: „[…] it is proposed to analyze a composition by forming what may be called a 'word spectrum' or 'characteristic curve‘, which shall be a graphic representation of the arrangement of words according to their length and to the relative frequency of their occurrence.“ „the normal curve of a writer”  Fortführen der Ideen von de Morgan  Mittelwert,  Häufigkeitsverteilung (= graphische Repräsentation,  mathematische Interpretation)

Sergej Grigor'evič Čebanov (1897-1966) Wilhelm Fucks (*1902) Russischer Armee-Arzt aus Petersburg Wilhelm Fucks (*1902) Professor für Physik (TH Aachen) Mathematische Interpretation der Häufigkeitsverteilung ("Čebanov-Fucks-Verteilung") Fucks (1955): „[...] allgemeines Gesetz der Bildung von Wörtern aus Silben“

Normalverteilung nach C.F. Gauss

The Advanced Theory of Language as Choice and Chance (1966) Gustav Herdan The Advanced Theory of Language as Choice and Chance (1966) Lognormal-Verteilung als „optimales Modell“ der Wortlängenhäufigkeit

Px = g(x) Px-1 Conway-Maxwell-Poisson-Verteilung Poisson- Verteilung Pos. Binomial- Verteilung Neg. Binomial- Verteilung

Wortlängenhäufigkeiten in Durch die Wüste von Karl May Theoretisches Modell: Neg. Binomial-Verteilung (C = 0.002)

Εrweiterte positive Binomialverteilung α = 0.98 n = 4 p = 0.37 α = 0.97 n = 14 p = 0.13 α = 0.96

m1 (x) m2 (s2) m3 Arme Liza 2,10 1,29 0,88 Vystrel 2,12 1,52 1,17

xy-Koordinatensystem Mittelwert Die Lokalisierung im xy-Koordinatensystem 2. Zentralmoment 3.Zentralmoment y-Achse x-Achse

“Bednaja Liza” M1 = 2.10 M2 = 1.29 M3 = 0.88 “Vystrel”

Pilotstudie zum Slowenischen Korpus: N = 153 Prosa n1 = 102 Poesie n2 = 51 n1.1.= 52 liter. Prosa n1.2. = 50 Journalistik

Scatterplot der Diskriminanzvariablen

TEXTSORTE Prosa journalistisch Zeitung 1 Rubrik 1 Autor 1 30 Autor 2 30 Rubrik 2 Autor 1 30 Zeitung 2 Rubrik 1 Autor 1 30 Autor 2 30 240 literarisch Erzählungen 19. Jhd. Autor 1 30 Autor 3 30 20. Jhd. Autor 1 30 Romane 19. Jhd. Autor 1 30 Autor 3 30 360 wissenschaftl. geisteswiss.-philos. 30 naturwiss. 30 60 Brief 19. Jhd. Autor 1 30 Autor 2 30 120 Poesie versgebunden 19. Jhd. Autor 1 30 Autor 2 30 Autor 3 30 20. Jhd. Autor 1 30 Autor 3 30 180 freier Vers 20. Jhd. Autor 1 30 Autor 2 30 60 gesamt 1020

Mittelwerte als Maß der zentralen Tendenz Varianzen als Maß der Streuung um den Mittelwert Weitere Kenngrößen von Häufigkeitsverteilungen: Schiefe, Kurtosis, Entropie, usw. Modelle von Häufigkeitsverteilungen mit variablen Parametern