Nützlichkeit statistischer Phrasen in der Textklassifikation

Nützlichkeit statistischer Phrasen in der Textklassifikation
Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars „Maschinelle Lernverfahren und Textklassifikation“ am CIS, München)

Ziele Erkenntnisse des ff. Artikels vermitteln insbesondere
Caropreso, Matwin, Sebastiani: „A Learner-independent Evaluation of the Usefulness of Statistical Phrases for Automated Text Categorization“, o.J. insbesondere Untersuchungsgegenstand Vorgehensweise Ergebnisse/Folgerungen

Sind statistische Phrasen hilfreich?
Was vermuten wir? Sind statistische Phrasen hilfreich?

Was ich erzählen will ... Was genau verstehen die Autoren unter „statistischen Phrasen“ Ausgangspunkt für die Untersuchung 2 Wege der Evaluierung mit Ergebnissen Zusammenfassung / Erkenntnis

Syntakt. vs statistische Phrasen
Syntaktische Phrasen „textuelle Einheit größer als Wort aber kleiner als Satz“. z.B. Nominalphrasen, Verbalphrasen, ... syntaktisch wohlgeformt Statistische (z.T. synonym: „n-grams“ im Artikel) induktive Definition 1-gram = Wortstamm n-gram = lexikogr. geordnete Sequenz von 1-grams Auftreten in Text: Falls nach Stoppwort-Elimination und Stemming eine Permutation des n-grams im Text auftritt syntaktisch unwohl-geformt statistisch interessant verteilt

Beispiel: Statist. Phrasen / n-grams
durch Stemming Umgehung von morphol. + syntakt. Varianten Beispiel: 2-gram „inform retriev“

Wir wollen Phrasen ! Grundidee der Autoren
Wir wissen schon: gute Indexierung kritisch für Erfolg Ein Weg: Feature selection Warum immer nur Wörter und nicht ganze Phrasen? Attraktivität syntaktische Phrasen näher am auszudrückenden Konzept weniger Ambiguität (Mutual Disambiguation Effect) tragen mehr zum Ranking eines Dokuments bei aktuelle Technologie erlaubt relativ zuverlässiges Erkennen

Bisher kaum Phrasenindexierung in IR - und wenn, mit mäßigem Erfolg
Probleme syntaktischer Phrasen semantisch hohe, statistisch schlechte Qualität Phrasen sind einfach nicht häufig genug Normalisierungsproblem Vorteile statistischer Phrasen zuverlässiger erkennbar, auch in untersch. Varianten wenig interessante Phrasen werden tendenziell ignoriert Probleme statistischer Phrasen/n-grams Fehlerrate > 0 Über-/Unter-Generalisierung Folge von Wörtern garaniert natürlich noch kein Konzept => Finden von interessanten nötig (z.B. über Häufigkeit)

2 Wege zur Wahrheit Ansatz „Indirekte“ Experimente
Ziel: Einschätzung der Nützlichkeit von statistischen Phrasen unabhängig vom gewählten Klassifikationsalgorithmus erzeuge alle k-grams (1..n) (hier: n = 2) bestimmte Rang (kennen wir schon: DF, IG, Chi-square, ...) „Indirekte“ Experimente usefulness = frequency of n-grams at the top of the list „Direkte“ Experimente Verwendung eines konkreten Klassifikators

Indirekte Ergebnisse sind positiv
Vorverarbeitung der Texte Stoppwörter und Interpunktion entfernt, Kleinschreibung Durchdringungsgrad (DDG, penetration level) = Anteil der n-gramme in den durch die FEF gewählten Features Ergebnisse Durchdringungsgrad geht mit zunehmendem Reduction Factor zurück zwei Gruppen von FEF: DDG sehr hoch + DDG hoch Penetration Levels sind ziemlich hoch

Indirekte Ergebnisse in Zahlen

Direkte Ergebnisse sind negativ
Evaluierungsmethode Precision, Recall und F-Maß micro- und macro-averaging WICHTIG: Anzahl Features konstant halten => Reduction Factor unterschiedlich für 1- und 2-grams (andere Vergleiche tun das oft nicht !!!) Ergebnisse Bigramme erhöhen Klassifikationsergebnis nicht immer Verbesserung meist nicht signifikant, Verschlechterung meist dramatisch Verhältnis besser : schlechter: 20 : 28 ( ~ 58% schlechter !!)

Direkte Ergebnisse in Zahlen (1)

Verschlechterung hat Methode
Verschlechterung häufiger bei hohen Reduktionsfaktoren Verschlechterung höher bei FEF‘s mit hohem Durchdringungsgrad (kontraintuitiv) Erklärungsansatz Exzessive Verwendung von Bigrammen verdrängt wichtige Unigramme Bigramme duplizieren Information, die in Unigrammen schon enthalten ist

... deren Konklusion ... „Our hypothesis that a high penetration level were conducive to improving effectiveness was not completely confirmed.“ Ja, so kann man das auch sagen. ;-) Problem aus Sicht der Autoren: Duplizierung von Information durch Bigramme => weitere Untersuchungen

Besser die Finger davon lassen
Was schließen wir aus der Untersuchung? mit (statistischen) Bigrammen vorsichtig sein nicht zu viel davon versprechen falls verwenden, immer zusätzlich zu Unigrammen Lohnt sich der Aufwand? wohl eher nicht ;-(

Was haben wir gelernt? was (statistische) n-gramme sind
Vor-/Nachteile syntaktischer und statistischer Phrasen Möglichkeit einer Klassifikator-unabhängigen Evaluierungs-Methode Konkrete Ergebnisse der Autoren Nicht alles ist Gold, was glänzt.

War unsere Vermutung richtig?
Sind statistische Phrasen hilfreich? Na ja, so einfach kann man das nicht sagen ... ;-(

Vielen Dank für Eure Aufmerksamkeit !
Fragen? Vielen Dank für Eure Aufmerksamkeit !

Nützlichkeit statistischer Phrasen in der Textklassifikation

Ähnliche Präsentationen

Präsentation zum Thema: "Nützlichkeit statistischer Phrasen in der Textklassifikation"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Nützlichkeit statistischer Phrasen in der Textklassifikation

Ähnliche Präsentationen

Präsentation zum Thema: "Nützlichkeit statistischer Phrasen in der Textklassifikation"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback