Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Emmerich Kelih & Gordana Antić (Graz) Klassifikation von Autor und/oder Text? Grazer Projekt zu »Wortlängenhäufigkeiten in Texten slawischer Sprachen«

Ähnliche Präsentationen


Präsentation zum Thema: "Emmerich Kelih & Gordana Antić (Graz) Klassifikation von Autor und/oder Text? Grazer Projekt zu »Wortlängenhäufigkeiten in Texten slawischer Sprachen«"—  Präsentation transkript:

1 Emmerich Kelih & Gordana Antić (Graz) Klassifikation von Autor und/oder Text? Grazer Projekt zu »Wortlängenhäufigkeiten in Texten slawischer Sprachen« QuanTA, FWF-Projekt #15485

2 0.Einleitung Methoden der (quantitativen) Textklassifikation Beispiel Wortlänge: Eigenschaft von Sprache, Text und Autoren? Multivariate Diskriminanzanalyse Balancierte Textstudie: Gedichte und Briefe russischer Autoren (190 Texte)

3 1. Textbasis für multivariate Diskriminanzanalyse AutorFunktionalstilTextsorteAnzahl A.A.Achmatova AlltagBriefe30 KunstprosaGedichte30 D. Charms AlltagBriefe29 KunstprosaGedichte30 A.S. Puškin AlltagBriefe36 KunstprosaGedichte35 Textkorpus190 Wortlänge als Stilmerkmal: Autor oder Textsorte?

4 Set von textbeschreibenden statistischen Kenngrößen: Lexikalischer Reichtum (Type-Token Verhältnis) Frequenz von Wortarten Phrasenlänge Satzlänge …, … 2.Quantitative Methoden und Parameter zur Klassifizierung von Texten (quantitative Texttypologie, Stilometrie, Autorenattribution) Wortlänge

5 3. Wortlänge als inhärente Eigenschaft von Sprache und Text Wortlänge als zentrale Größe in einem synergetischen Regelkreis

6 4. Auf welcher Ebene kann die Wortlänge bestimmt werden? RussischAlltag Briefe Kunst Gedichte A. Achmatova D. Charms A. Puškin

7 4.1 Textklassifizierung nach Funktionalstilen/Textsorten und Autoren

8 4.2 Bestimmung der Wortlänge im Textkorpus Materialbasiss Brief Puškin3,201,95 Gedicht Charms1,620,78 Korpus2,150,23 Brief Puškin Gedicht Charms Gesamtkorpus

9 4.3 Warum Konzentration auf Wortlänge? (Das Problem der Textlänge) VariableGedichteBriefe mittlere Textlänge in Worten204,37238,2 Standardabweichung170,37178,59 Mit Textlänge verbundene Variablen werden ausgeschlossen!

10 4.4 Klassifizierung der Autoren nach der Wortlänge? Nach Autoren ist keine sinnvolle Trennung von Texten möglich! 57,4% korrekt zugeordnete Texte

11 4.5 Ergebnisse der multivariaten Textklassifizierung Differenzierung TexttypAutorTexttrennung in % {Achmatova: A} {Charms: C} {Puškin: P} 38,40 {Briefe}{Gedichte}46,30 {Briefe}55,80 {Gedichte}54,70 Differenzierung TexttypAutorTexttrennung in % {Briefe} {A} {C}62,70 {A} {P}71,20 {C} {P}67,70 {Gedichte} {A} {C}76,70 {A} {P}0,00 {C} {P}73,80

12 4.6 Ergebnisse der multivariaten Textklassifzierung Differenzierung TexttypAutorTexttrennung in % Briefe vs. Gedichte Achmatova81,70 Charms93,00 Puškin93,20 Systematische Untersuchung auf Ebene der Texttypen! Wortlänge lässt offensichtlich keine Trennung von Autoren zu! Eliminierung der irrelevanten Variablen

13 VariableBezeichnung Varianz (2. Zentralmoment) Ordsches Kriterium i 4. Zentralmoment rel. Häufigkeit 4-silb. Wörter Variationskoeffizient Dispersionsquotient 5. Bestimmung der relevanten Variablen Texte werden als 6-dimensionaler Vektor dargestellt

14 Mittelwertvektoren für beide Texttypen Texte als 6-dimensionaler Vektor VariableBezeichnung univariate statistische Distanz gepoolte Varianz Bildung des Distanzmaßes: 6. Analyseschritte

15 6.1. Distanz D als Maß für die Trennung von Texten in 2 Gruppen VariableTexttyp m2m2 Briefe1,470,435,20 Gedichte0,920,17 m4m4 Briefe7,866,750,23 Gedichte2,571,09 vBriefe0,530,0624,87 Gedichte0,470,03 dBriefe1,170,1516,53 Gedichte0,880,11 oioi Briefe0,640,1123,66 Gedichte0,450,06 p4p4 Briefe0,110,0436,17 Gedichte0,060,03 größtes D bei p 4 ergibt größte diskriminierende Kraft! p 4 + d führt zu 89,5% Texttypentrennung, unabhängig vom Autor!

16 6.2 Darstellung der Textdiskriminierung Klassifizierung nach Autor führt zu Chaos Klassifizierung nach Texttypen ergibt Ordnung

17 6.3 Trennung der Texttypen (nach p 4, d) Klassifizierungsergebnisse TexttypBriefeGedichteGesamt Briefe Gedichte98695 korrekte Klassifizierung: 88,4% der Briefe 90,5% der Gedichte

18 minimales Set an Variablen für Textdiskriminierung Textlänge als Faktor a-priori ausgeschlossen Wortlänge durch die Textsorte/Funktionalstil determiniert Allgemeine Problematik der Wortlänge bei Autoren-Attribution 7. Zusammenfassung:


Herunterladen ppt "Emmerich Kelih & Gordana Antić (Graz) Klassifikation von Autor und/oder Text? Grazer Projekt zu »Wortlängenhäufigkeiten in Texten slawischer Sprachen«"

Ähnliche Präsentationen


Google-Anzeigen