Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Emmerich Kelih & Gordana Antić Klassifikation von Autor und/oder Text?

Ähnliche Präsentationen


Präsentation zum Thema: "Emmerich Kelih & Gordana Antić Klassifikation von Autor und/oder Text?"—  Präsentation transkript:

1 Emmerich Kelih & Gordana Antić Klassifikation von Autor und/oder Text?
(Graz) Klassifikation von Autor und/oder Text? Grazer Projekt zu »Wortlängenhäufigkeiten in Texten slawischer Sprachen« QuanTA, FWF-Projekt #15485

2 0. Einleitung Methoden der (quantitativen) Textklassifikation Beispiel Wortlänge: Eigenschaft von Sprache, Text und Autoren? Multivariate Diskriminanzanalyse Balancierte Textstudie: Gedichte und Briefe russischer Autoren (190 Texte)

3 1. Textbasis für multivariate Diskriminanzanalyse
Autor Funktionalstil Textsorte Anzahl A.A.Achmatova Alltag Briefe 30 Kunstprosa Gedichte D. Charms 29 A.S. Puškin 36 35 Textkorpus 190 Wortlänge als Stilmerkmal: Autor oder Textsorte?

4 2. Quantitative Methoden und Parameter zur Klassifizierung von Texten
(quantitative Texttypologie, Stilometrie, Autorenattribution) Set von textbeschreibenden statistischen Kenngrößen: Lexikalischer Reichtum (Type-Token Verhältnis) Frequenz von Wortarten Phrasenlänge Satzlänge …, … Wortlänge

5 3. Wortlänge als inhärente Eigenschaft von Sprache und Text
 Wortlänge als zentrale Größe in einem synergetischen Regelkreis

6 4. Auf welcher Ebene kann die Wortlänge bestimmt werden?
Russisch Alltag Briefe Kunst Gedichte A. Achmatova D. Charms A. Puškin

7 4.1 Textklassifizierung nach Funktionalstilen/Textsorten und
Autoren

8 4.2 Bestimmung der Wortlänge im Textkorpus
Brief Puškin Gedicht Charms Materialbasis s Brief Puškin 3,20 1,95 Gedicht Charms 1,62 0,78 Korpus 2,15 0,23 Gesamtkorpus

9 mittlere Textlänge in Worten
4.3 Warum Konzentration auf Wortlänge? (Das Problem der Textlänge) Variable Gedichte Briefe mittlere Textlänge in Worten 204,37 238,2 Standardabweichung 170,37 178,59  Mit Textlänge verbundene Variablen werden ausgeschlossen!

10 4.4 Klassifizierung der Autoren nach der Wortlänge?
 57,4% korrekt zugeordnete Texte Nach Autoren ist keine sinnvolle Trennung von Texten möglich!

11 4.5 Ergebnisse der multivariaten Textklassifizierung
Differenzierung Texttyp Autor Texttrennung in % {Achmatova: A} {Charms: C} {Puškin: P} 38,40 {Briefe}{Gedichte} 46,30 {Briefe} 55,80 {Gedichte} 54,70 Differenzierung Texttyp Autor Texttrennung in % {Briefe} {A} {C} 62,70 {A} {P} 71,20 {C} {P} 67,70 {Gedichte} 76,70 0,00 73,80

12 4.6 Ergebnisse der multivariaten Textklassifzierung
 Wortlänge lässt offensichtlich keine Trennung von Autoren zu! Systematische Untersuchung auf Ebene der Texttypen! Differenzierung Texttyp Autor Texttrennung in % Briefe vs. Gedichte Achmatova 81,70 Charms 93,00 Puškin 93,20  Eliminierung der irrelevanten Variablen

13  Texte werden als 6-dimensionaler Vektor dargestellt
5. Bestimmung der relevanten Variablen Variable Bezeichnung Varianz (2. Zentralmoment) Ord’sches Kriterium i 4. Zentralmoment rel. Häufigkeit 4-silb. Wörter Variationskoeffizient Dispersionsquotient  Texte werden als 6-dimensionaler Vektor dargestellt

14 univariate statistische Distanz
6. Analyseschritte Texte als 6-dimensionaler Vektor Mittelwertvektoren für beide Texttypen Bildung des Distanzmaßes: Variable Bezeichnung univariate statistische Distanz gepoolte Varianz

15 6.1. Distanz „D“ als Maß für die Trennung von Texten in 2 Gruppen
Variable Texttyp m2 Briefe 1,47 0,43 5,20 Gedichte 0,92 0,17 m4 7,86 6,75 0,23 2,57 1,09 v 0,53 0,06 24,87 0,47 0,03 d 1,17 0,15 16,53 0,88 0,11 oi 0,64 23,66 0,45 p4 0,04 36,17  größtes „D“ bei p4 ergibt größte diskriminierende Kraft!  p4 + d führt zu 89,5% Texttypentrennung, unabhängig vom Autor!

16 6.2 Darstellung der Textdiskriminierung
 Klassifizierung nach Autor führt zu Chaos  Klassifizierung nach Texttypen ergibt Ordnung

17 Klassifizierungsergebnisse
6.3 Trennung der Texttypen (nach p4, d) korrekte Klassifizierung: 88,4% der Briefe 90,5% der Gedichte Klassifizierungsergebnisse Texttyp Briefe Gedichte Gesamt 84 11 95 9 86

18 7. Zusammenfassung: minimales Set an Variablen für Textdiskriminierung Textlänge als Faktor a-priori ausgeschlossen Wortlänge durch die Textsorte/Funktionalstil determiniert  Allgemeine Problematik der Wortlänge bei Autoren-Attribution


Herunterladen ppt "Emmerich Kelih & Gordana Antić Klassifikation von Autor und/oder Text?"

Ähnliche Präsentationen


Google-Anzeigen