Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars „Maschinelle Lernverfahren und Textklassifikation“ am CIS, München)
Ziele Erkenntnisse des ff. Artikels vermitteln insbesondere Caropreso, Matwin, Sebastiani: „A Learner-independent Evaluation of the Usefulness of Statistical Phrases for Automated Text Categorization“, o.J. insbesondere Untersuchungsgegenstand Vorgehensweise Ergebnisse/Folgerungen
Sind statistische Phrasen hilfreich? Was vermuten wir? Sind statistische Phrasen hilfreich?
Was ich erzählen will ... Was genau verstehen die Autoren unter „statistischen Phrasen“ Ausgangspunkt für die Untersuchung 2 Wege der Evaluierung mit Ergebnissen Zusammenfassung / Erkenntnis
Syntakt. vs statistische Phrasen Syntaktische Phrasen „textuelle Einheit größer als Wort aber kleiner als Satz“. z.B. Nominalphrasen, Verbalphrasen, ... syntaktisch wohlgeformt Statistische (z.T. synonym: „n-grams“ im Artikel) induktive Definition 1-gram = Wortstamm n-gram = lexikogr. geordnete Sequenz von 1-grams Auftreten in Text: Falls nach Stoppwort-Elimination und Stemming eine Permutation des n-grams im Text auftritt syntaktisch unwohl-geformt statistisch interessant verteilt
Beispiel: Statist. Phrasen / n-grams durch Stemming Umgehung von morphol. + syntakt. Varianten Beispiel: 2-gram „inform retriev“
Wir wollen Phrasen ! Grundidee der Autoren Wir wissen schon: gute Indexierung kritisch für Erfolg Ein Weg: Feature selection Warum immer nur Wörter und nicht ganze Phrasen? Attraktivität syntaktische Phrasen näher am auszudrückenden Konzept weniger Ambiguität (Mutual Disambiguation Effect) tragen mehr zum Ranking eines Dokuments bei aktuelle Technologie erlaubt relativ zuverlässiges Erkennen
Bisher kaum Phrasenindexierung in IR - und wenn, mit mäßigem Erfolg Probleme syntaktischer Phrasen semantisch hohe, statistisch schlechte Qualität Phrasen sind einfach nicht häufig genug Normalisierungsproblem Vorteile statistischer Phrasen zuverlässiger erkennbar, auch in untersch. Varianten wenig interessante Phrasen werden tendenziell ignoriert Probleme statistischer Phrasen/n-grams Fehlerrate > 0 Über-/Unter-Generalisierung Folge von Wörtern garaniert natürlich noch kein Konzept => Finden von interessanten nötig (z.B. über Häufigkeit)
2 Wege zur Wahrheit Ansatz „Indirekte“ Experimente Ziel: Einschätzung der Nützlichkeit von statistischen Phrasen unabhängig vom gewählten Klassifikationsalgorithmus erzeuge alle k-grams (1..n) (hier: n = 2) bestimmte Rang (kennen wir schon: DF, IG, Chi-square, ...) „Indirekte“ Experimente usefulness = frequency of n-grams at the top of the list „Direkte“ Experimente Verwendung eines konkreten Klassifikators
Indirekte Ergebnisse sind positiv Vorverarbeitung der Texte Stoppwörter und Interpunktion entfernt, Kleinschreibung Durchdringungsgrad (DDG, penetration level) = Anteil der n-gramme in den durch die FEF gewählten Features Ergebnisse Durchdringungsgrad geht mit zunehmendem Reduction Factor zurück zwei Gruppen von FEF: DDG sehr hoch + DDG hoch Penetration Levels sind ziemlich hoch
Indirekte Ergebnisse in Zahlen
Direkte Ergebnisse sind negativ Evaluierungsmethode Precision, Recall und F-Maß micro- und macro-averaging WICHTIG: Anzahl Features konstant halten => Reduction Factor unterschiedlich für 1- und 2-grams (andere Vergleiche tun das oft nicht !!!) Ergebnisse Bigramme erhöhen Klassifikationsergebnis nicht immer Verbesserung meist nicht signifikant, Verschlechterung meist dramatisch Verhältnis besser : schlechter: 20 : 28 ( ~ 58% schlechter !!)
Direkte Ergebnisse in Zahlen (1)
Direkte Ergebnisse in Zahlen (2)
Direkte Ergebnisse in Zahlen (3)
Verschlechterung hat Methode Verschlechterung häufiger bei hohen Reduktionsfaktoren Verschlechterung höher bei FEF‘s mit hohem Durchdringungsgrad (kontraintuitiv) Erklärungsansatz Exzessive Verwendung von Bigrammen verdrängt wichtige Unigramme Bigramme duplizieren Information, die in Unigrammen schon enthalten ist
... deren Konklusion ... „Our hypothesis that a high penetration level were conducive to improving effectiveness was not completely confirmed.“ Ja, so kann man das auch sagen. ;-) Problem aus Sicht der Autoren: Duplizierung von Information durch Bigramme => weitere Untersuchungen
Besser die Finger davon lassen Was schließen wir aus der Untersuchung? mit (statistischen) Bigrammen vorsichtig sein nicht zu viel davon versprechen falls verwenden, immer zusätzlich zu Unigrammen Lohnt sich der Aufwand? wohl eher nicht ;-(
Was haben wir gelernt? was (statistische) n-gramme sind Vor-/Nachteile syntaktischer und statistischer Phrasen Möglichkeit einer Klassifikator-unabhängigen Evaluierungs-Methode Konkrete Ergebnisse der Autoren Nicht alles ist Gold, was glänzt.
War unsere Vermutung richtig? Sind statistische Phrasen hilfreich? Na ja, so einfach kann man das nicht sagen ... ;-(
Vielen Dank für Eure Aufmerksamkeit ! Fragen? Vielen Dank für Eure Aufmerksamkeit !