Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Aglaja Latsch Geändert vor über 10 Jahren
1
Emmerich Kelih & Gordana Antić Klassifikation von Autor und/oder Text?
(Graz) Klassifikation von Autor und/oder Text? Grazer Projekt zu »Wortlängenhäufigkeiten in Texten slawischer Sprachen« QuanTA, FWF-Projekt #15485
2
0. Einleitung Methoden der (quantitativen) Textklassifikation Beispiel Wortlänge: Eigenschaft von Sprache, Text und Autoren? Multivariate Diskriminanzanalyse Balancierte Textstudie: Gedichte und Briefe russischer Autoren (190 Texte)
3
1. Textbasis für multivariate Diskriminanzanalyse
Autor Funktionalstil Textsorte Anzahl A.A.Achmatova Alltag Briefe 30 Kunstprosa Gedichte D. Charms 29 A.S. Puškin 36 35 Textkorpus 190 Wortlänge als Stilmerkmal: Autor oder Textsorte?
4
2. Quantitative Methoden und Parameter zur Klassifizierung von Texten
(quantitative Texttypologie, Stilometrie, Autorenattribution) Set von textbeschreibenden statistischen Kenngrößen: Lexikalischer Reichtum (Type-Token Verhältnis) Frequenz von Wortarten Phrasenlänge Satzlänge …, … Wortlänge
5
3. Wortlänge als inhärente Eigenschaft von Sprache und Text
Wortlänge als zentrale Größe in einem synergetischen Regelkreis
6
4. Auf welcher Ebene kann die Wortlänge bestimmt werden?
Russisch Alltag Briefe Kunst Gedichte A. Achmatova D. Charms A. Puškin
7
4.1 Textklassifizierung nach Funktionalstilen/Textsorten und
Autoren
8
4.2 Bestimmung der Wortlänge im Textkorpus
Brief Puškin Gedicht Charms Materialbasis s Brief Puškin 3,20 1,95 Gedicht Charms 1,62 0,78 Korpus 2,15 0,23 Gesamtkorpus
9
mittlere Textlänge in Worten
4.3 Warum Konzentration auf Wortlänge? (Das Problem der Textlänge) Variable Gedichte Briefe mittlere Textlänge in Worten 204,37 238,2 Standardabweichung 170,37 178,59 Mit Textlänge verbundene Variablen werden ausgeschlossen!
10
4.4 Klassifizierung der Autoren nach der Wortlänge?
57,4% korrekt zugeordnete Texte Nach Autoren ist keine sinnvolle Trennung von Texten möglich!
11
4.5 Ergebnisse der multivariaten Textklassifizierung
Differenzierung Texttyp Autor Texttrennung in % — {Achmatova: A} {Charms: C} {Puškin: P} 38,40 {Briefe}{Gedichte} 46,30 {Briefe} 55,80 {Gedichte} 54,70 Differenzierung Texttyp Autor Texttrennung in % {Briefe} {A} {C} 62,70 {A} {P} 71,20 {C} {P} 67,70 {Gedichte} 76,70 0,00 73,80
12
4.6 Ergebnisse der multivariaten Textklassifzierung
Wortlänge lässt offensichtlich keine Trennung von Autoren zu! Systematische Untersuchung auf Ebene der Texttypen! Differenzierung Texttyp Autor Texttrennung in % Briefe vs. Gedichte Achmatova 81,70 Charms 93,00 Puškin 93,20 Eliminierung der irrelevanten Variablen
13
Texte werden als 6-dimensionaler Vektor dargestellt
5. Bestimmung der relevanten Variablen Variable Bezeichnung Varianz (2. Zentralmoment) Ord’sches Kriterium i 4. Zentralmoment rel. Häufigkeit 4-silb. Wörter Variationskoeffizient Dispersionsquotient Texte werden als 6-dimensionaler Vektor dargestellt
14
univariate statistische Distanz
6. Analyseschritte Texte als 6-dimensionaler Vektor Mittelwertvektoren für beide Texttypen Bildung des Distanzmaßes: Variable Bezeichnung univariate statistische Distanz gepoolte Varianz
15
6.1. Distanz „D“ als Maß für die Trennung von Texten in 2 Gruppen
Variable Texttyp m2 Briefe 1,47 0,43 5,20 Gedichte 0,92 0,17 m4 7,86 6,75 0,23 2,57 1,09 v 0,53 0,06 24,87 0,47 0,03 d 1,17 0,15 16,53 0,88 0,11 oi 0,64 23,66 0,45 p4 0,04 36,17 größtes „D“ bei p4 ergibt größte diskriminierende Kraft! p4 + d führt zu 89,5% Texttypentrennung, unabhängig vom Autor!
16
6.2 Darstellung der Textdiskriminierung
Klassifizierung nach Autor führt zu Chaos Klassifizierung nach Texttypen ergibt Ordnung
17
Klassifizierungsergebnisse
6.3 Trennung der Texttypen (nach p4, d) korrekte Klassifizierung: 88,4% der Briefe 90,5% der Gedichte Klassifizierungsergebnisse Texttyp Briefe Gedichte Gesamt 84 11 95 9 86
18
7. Zusammenfassung: minimales Set an Variablen für Textdiskriminierung Textlänge als Faktor a-priori ausgeschlossen Wortlänge durch die Textsorte/Funktionalstil determiniert Allgemeine Problematik der Wortlänge bei Autoren-Attribution
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.