Emmerich Kelih & Gordana Antić Klassifikation von Autor und/oder Text?

Slides:



Advertisements
Ähnliche Präsentationen
Der Sozialstaat ist finanzierbar!
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Elternfragebogen 2009 Die Auswertung ist da mit super Ergebnissen!
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Die Projektgruppe heißt Sie herzlichst willkommen
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Projekt zur Evaluation, Reaktivierung vorhandener Kenntnisse und Festigung des Arbeitens mit Größen im Mathematikunterricht mit Schülern der 7. Klassen.
Telefonnummer.
Übung 2.1 Information Wieviele Fragen benötigen Sie beim „Zahlenraten“
Leseleistung LAU 5 und KESS 4 im Vergleich
Statistiken und Tabellen
Quantitative RT-PCR an nativen Prostatakarzinom-Biopsien: Etablierung der Technik und erste vergleichende Ergebnisse Medizinische Fakultät Universitätsklinikum.
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
EF: Standards + H2O red = H2O.
Entwicklung eines Online-Evaluationssystems
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Differentielles Paar UIN rds gm UIN
Experimentelles Design
Prof. Dr. Bernhard Wasmayr
Studienverlauf im Ausländerstudium
Dieter Bergmann, Lichtenfels
Classification of Credit Applicants Using Data Mining. Thema.
Univariate Statistik M. Kresken.
Methoden der Politikwissenschaft Varianzanalyse Siegfried Schumann.
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Zerlegung von Quadraten und ????
Investitionen in Projekt B nach Gruppe (Gelb=25%, Weiß=10%)
Verschlüsselung.
Prof. Dr. Günter Gerhardinger Soziale Arbeit mit Einzelnen und Familien Übersicht über die Lehrveranstaltung Grundlegende Bestimmungsfaktoren der Praxis.
20:00.
So kannst du beide schnell berechnen.
Zusatzfolien zu B-Bäumen
Eine Einführung in die CD-ROM
Dokumentation der Umfrage
Where Europe does business Lück, JDZB | Seite © GfW NRW 252 a.
Bewohnerumfrage 2009 durchgeführt vom
XYZ-Analyse Von Patrick Sperl.
Syntaxanalyse Bottom-Up und LR(0)
Peter Grzybek Projekt # (FWF) Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten.
Wortlängen(häufigkeiten) in Texten slawischer Sprachen
Peter Grzybek ( Graz ) Das Grazer Projekt »Wortlängen(häufigkeiten) in Texten slawischer Sprachen« FWF #15485 ( )
Multivariate Verfahren der Statistik bei der quantitativen Textanalyse
Stilistik: Peter Grzybek Qualitativ - Quantitativ
Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 ( )
Peter Grzybek Austrian Research Fund Project #15485 Von der Ökonomie der Sprache zur Selbst- Regulation kultureller.
Peter Grzybek Warum messen wir Wortlängen nicht in der Anzahl
Kelih, Emmerich (Graz) Wortdefinition und Wortlänge Göttingen, 2003.
Leistungskennwerte ABA60-2 Präsentation: 07. November 2008 Typ
Der Ablauf eines Clear Rex Klärzyklus
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Eine lllustration der Herausforderungen des Stromsystems der Zukunft
Szenisches Lernen Wie Theaterelemente den Unterricht bereichern
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO

Parkplatz-Orga Diese Version ist vom finale Version!
Statistische Methoden in der Wirtschafts- und Sozialgeographie
Kamin- und Kachelöfen in Oberösterreich
Zusammengestellt von OE3DSB
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
PERUANISCHER BERGBAU 2006.
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
Projekt Messendorferstraße Graz TOP 1-33 /EG Wohnhaus 1 Grundstück 2 Schlafen10,28 m² Wohnen /Kochen 15,35 m² Diele 2,50 m² Bad mit WC 4,40m² Terrasse.
Gliederung 1. Arbeitsraum (Grundriss + Maße) 2. Arbeitsraum (Einrichtung) 3. Arbeitsraum (Netzwerkplan) 4. Aufenthaltsraum (Grundriss + Maße) 5. Aufenthaltsraum.
Folie Einzelauswertung der Gemeindedaten
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
Einführung in die Volkswirtschaftslehre, Mikroökonomie und Wettbewerbspolitik Lothar Wildmann ISBN: © 2014 Oldenbourg Wissenschaftsverlag.
 Präsentation transkript:

Emmerich Kelih & Gordana Antić Klassifikation von Autor und/oder Text? (Graz) Klassifikation von Autor und/oder Text? Grazer Projekt zu »Wortlängenhäufigkeiten in Texten slawischer Sprachen« QuanTA, FWF-Projekt #15485

0. Einleitung Methoden der (quantitativen) Textklassifikation Beispiel Wortlänge: Eigenschaft von Sprache, Text und Autoren? Multivariate Diskriminanzanalyse Balancierte Textstudie: Gedichte und Briefe russischer Autoren (190 Texte)

1. Textbasis für multivariate Diskriminanzanalyse Autor Funktionalstil Textsorte Anzahl A.A.Achmatova Alltag Briefe 30 Kunstprosa Gedichte D. Charms 29 A.S. Puškin 36 35 Textkorpus 190 Wortlänge als Stilmerkmal: Autor oder Textsorte?

2. Quantitative Methoden und Parameter zur Klassifizierung von Texten (quantitative Texttypologie, Stilometrie, Autorenattribution) Set von textbeschreibenden statistischen Kenngrößen: Lexikalischer Reichtum (Type-Token Verhältnis) Frequenz von Wortarten Phrasenlänge Satzlänge …, … Wortlänge

3. Wortlänge als inhärente Eigenschaft von Sprache und Text  Wortlänge als zentrale Größe in einem synergetischen Regelkreis

4. Auf welcher Ebene kann die Wortlänge bestimmt werden? Russisch Alltag Briefe Kunst Gedichte A. Achmatova D. Charms A. Puškin

4.1 Textklassifizierung nach Funktionalstilen/Textsorten und Autoren

4.2 Bestimmung der Wortlänge im Textkorpus Brief Puškin Gedicht Charms Materialbasis s Brief Puškin 3,20 1,95 Gedicht Charms 1,62 0,78 Korpus 2,15 0,23 Gesamtkorpus

mittlere Textlänge in Worten 4.3 Warum Konzentration auf Wortlänge? (Das Problem der Textlänge) Variable Gedichte Briefe mittlere Textlänge in Worten 204,37 238,2 Standardabweichung 170,37 178,59  Mit Textlänge verbundene Variablen werden ausgeschlossen!

4.4 Klassifizierung der Autoren nach der Wortlänge?  57,4% korrekt zugeordnete Texte Nach Autoren ist keine sinnvolle Trennung von Texten möglich!

4.5 Ergebnisse der multivariaten Textklassifizierung Differenzierung Texttyp Autor Texttrennung in % — {Achmatova: A} {Charms: C} {Puškin: P} 38,40 {Briefe}{Gedichte} 46,30 {Briefe} 55,80 {Gedichte} 54,70 Differenzierung Texttyp Autor Texttrennung in % {Briefe} {A} {C} 62,70 {A} {P} 71,20 {C} {P} 67,70 {Gedichte} 76,70 0,00 73,80

4.6 Ergebnisse der multivariaten Textklassifzierung  Wortlänge lässt offensichtlich keine Trennung von Autoren zu! Systematische Untersuchung auf Ebene der Texttypen! Differenzierung Texttyp Autor Texttrennung in % Briefe vs. Gedichte Achmatova 81,70 Charms 93,00 Puškin 93,20  Eliminierung der irrelevanten Variablen

 Texte werden als 6-dimensionaler Vektor dargestellt 5. Bestimmung der relevanten Variablen Variable Bezeichnung Varianz (2. Zentralmoment) Ord’sches Kriterium i 4. Zentralmoment rel. Häufigkeit 4-silb. Wörter Variationskoeffizient Dispersionsquotient  Texte werden als 6-dimensionaler Vektor dargestellt

univariate statistische Distanz 6. Analyseschritte Texte als 6-dimensionaler Vektor Mittelwertvektoren für beide Texttypen Bildung des Distanzmaßes: Variable Bezeichnung univariate statistische Distanz gepoolte Varianz

6.1. Distanz „D“ als Maß für die Trennung von Texten in 2 Gruppen Variable Texttyp m2 Briefe 1,47 0,43 5,20 Gedichte 0,92 0,17 m4 7,86 6,75 0,23 2,57 1,09 v 0,53 0,06 24,87 0,47 0,03 d 1,17 0,15 16,53 0,88 0,11 oi 0,64 23,66 0,45 p4 0,04 36,17  größtes „D“ bei p4 ergibt größte diskriminierende Kraft!  p4 + d führt zu 89,5% Texttypentrennung, unabhängig vom Autor!

6.2 Darstellung der Textdiskriminierung  Klassifizierung nach Autor führt zu Chaos  Klassifizierung nach Texttypen ergibt Ordnung

Klassifizierungsergebnisse 6.3 Trennung der Texttypen (nach p4, d) korrekte Klassifizierung: 88,4% der Briefe 90,5% der Gedichte Klassifizierungsergebnisse Texttyp Briefe Gedichte Gesamt 84 11 95 9 86

7. Zusammenfassung: minimales Set an Variablen für Textdiskriminierung Textlänge als Faktor a-priori ausgeschlossen Wortlänge durch die Textsorte/Funktionalstil determiniert  Allgemeine Problematik der Wortlänge bei Autoren-Attribution