Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation.

Ähnliche Präsentationen


Präsentation zum Thema: "Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation."—  Präsentation transkript:

1

2 Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation am CIS, München)

3 Ziele n Erkenntnisse des ff. Artikels vermitteln ä Caropreso, Matwin, Sebastiani: A Learner-independent Evaluation of the Usefulness of Statistical Phrases for Automated Text Categorization, o.J. n insbesondere ä Untersuchungsgegenstand ä Vorgehensweise ä Ergebnisse/Folgerungen

4 Was vermuten wir? Sind statistische Phrasen hilfreich?

5 Was ich erzählen will... n Was genau verstehen die Autoren unter statistischen Phrasen n Ausgangspunkt für die Untersuchung n 2 Wege der Evaluierung mit Ergebnissen n Zusammenfassung / Erkenntnis

6 Syntakt. vs statistische Phrasen n Syntaktische Phrasen ä textuelle Einheit größer als Wort aber kleiner als Satz. ä z.B. Nominalphrasen, Verbalphrasen,... ä syntaktisch wohlgeformt n Statistische (z.T. synonym: n-grams im Artikel) ä induktive Definition –1-gram = Wortstamm –n-gram = lexikogr. geordnete Sequenz von 1-grams ä Auftreten in Text: Falls nach Stoppwort-Elimination und Stemming eine Permutation des n-grams im Text auftritt ä syntaktisch unwohl-geformt ä statistisch interessant verteilt

7 Beispiel: Statist. Phrasen / n-grams n durch Stemming Umgehung von morphol. + syntakt. Varianten n Beispiel: 2-gram inform retriev

8 Wir wollen Phrasen ! n Grundidee der Autoren ä Wir wissen schon: gute Indexierung kritisch für Erfolg ä Ein Weg: Feature selection ä Warum immer nur Wörter und nicht ganze Phrasen? n Attraktivität syntaktische Phrasen ä näher am auszudrückenden Konzept ä weniger Ambiguität (Mutual Disambiguation Effect) ä tragen mehr zum Ranking eines Dokuments bei ä aktuelle Technologie erlaubt relativ zuverlässiges Erkennen

9 Bisher kaum Phrasenindexierung in IR - und wenn, mit mäßigem Erfolg n Probleme syntaktischer Phrasen ä semantisch hohe, statistisch schlechte Qualität ä Phrasen sind einfach nicht häufig genug ä Normalisierungsproblem n Vorteile statistischer Phrasen ä zuverlässiger erkennbar, auch in untersch. Varianten ä wenig interessante Phrasen werden tendenziell ignoriert n Probleme statistischer Phrasen/n-grams ä Fehlerrate > 0 ä Über-/Unter-Generalisierung ä Folge von Wörtern garaniert natürlich noch kein Konzept ä => Finden von interessanten nötig (z.B. über Häufigkeit)

10 2 Wege zur Wahrheit n Ansatz ä Ziel: Einschätzung der Nützlichkeit von statistischen Phrasen unabhängig vom gewählten Klassifikationsalgorithmus ä erzeuge alle k-grams (1..n) (hier: n = 2) ä bestimmte Rang (kennen wir schon: DF, IG, Chi-square,...) n Indirekte Experimente ä usefulness = frequency of n-grams at the top of the list n Direkte Experimente ä Verwendung eines konkreten Klassifikators

11 Indirekte Ergebnisse sind positiv n Vorverarbeitung der Texte ä Stoppwörter und Interpunktion entfernt, Kleinschreibung n Durchdringungsgrad (DDG, penetration level) = Anteil der n-gramme in den durch die FEF gewählten Features n Ergebnisse ä Durchdringungsgrad geht mit zunehmendem Reduction Factor zurück ä zwei Gruppen von FEF: DDG sehr hoch + DDG hoch ä Penetration Levels sind ziemlich hoch

12 Indirekte Ergebnisse in Zahlen

13 Direkte Ergebnisse sind negativ n Evaluierungsmethode ä Precision, Recall und F-Maß ä micro- und macro-averaging ä WICHTIG: Anzahl Features konstant halten => Reduction Factor unterschiedlich für 1- und 2-grams (andere Vergleiche tun das oft nicht !!!) n Ergebnisse ä Bigramme erhöhen Klassifikationsergebnis nicht immer ä Verbesserung meist nicht signifikant, Verschlechterung meist dramatisch ä Verhältnis besser : schlechter: 20 : 28 ( ~ 58% schlechter !!)

14 Direkte Ergebnisse in Zahlen (1)

15 Direkte Ergebnisse in Zahlen (2)

16 Direkte Ergebnisse in Zahlen (3)

17 Verschlechterung hat Methode n Verschlechterung häufiger bei hohen Reduktionsfaktoren n Verschlechterung höher bei FEFs mit hohem Durchdringungsgrad (kontraintuitiv) n Erklärungsansatz ä Exzessive Verwendung von Bigrammen verdrängt wichtige Unigramme ä Bigramme duplizieren Information, die in Unigrammen schon enthalten ist

18 ... deren Konklusion... n Our hypothesis that a high penetration level were conducive to improving effectiveness was not completely confirmed. n Ja, so kann man das auch sagen. ;-) n Problem aus Sicht der Autoren: Duplizierung von Information durch Bigramme n => weitere Untersuchungen

19 Besser die Finger davon lassen n Was schließen wir aus der Untersuchung? ä mit (statistischen) Bigrammen vorsichtig sein ä nicht zu viel davon versprechen ä falls verwenden, immer zusätzlich zu Unigrammen n Lohnt sich der Aufwand? ä wohl eher nicht ;-(

20 Was haben wir gelernt? n was (statistische) n-gramme sind n Vor-/Nachteile syntaktischer und statistischer Phrasen n Möglichkeit einer Klassifikator-unabhängigen Evaluierungs-Methode n Konkrete Ergebnisse der Autoren n Nicht alles ist Gold, was glänzt.

21 War unsere Vermutung richtig? Sind statistische Phrasen hilfreich? Na ja, so einfach kann man das nicht sagen... ;-(

22 Fragen? Vielen Dank für Eure Aufmerksamkeit !


Herunterladen ppt "Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars Maschinelle Lernverfahren und Textklassifikation."

Ähnliche Präsentationen


Google-Anzeigen