Nützlichkeit statistischer Phrasen in der Textklassifikation

Slides:



Advertisements
Ähnliche Präsentationen
Entscheiden unter Unsicherheit: Heuristiken und Biases
Advertisements

Lothar SchulzVoraussetzungen Fundraising1 Chancen des kirchlichen Fundraisings im ländlichen Raum 1. Missverständnis Fundraising 2. Bereitschaft der Organisation.
Provokationen – was tun?
Texterstellung Wer schreibt mir? Warum gerade mir? Habe ich Bedarf?
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
Ich habe nie gelernt, Aufgaben zu lösen
Das Erstellen einer Hausarbeit
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
On a Buzzword: Hierachical Structure David Parnas.
Philosophische Fakultät 3: Empirische Humanwissenschaften Fachrichtung Erziehungswissenschaft Statistik I Anja Fey, M.A.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27-Selbstanordnende lineare Listen) Prof. Th. Ottmann.
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 16 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
Deklaratives Debugging (Seminar Software Engineering) Tim Sender Deklaratives Debugging Seminar Software Engineering.
Experimentaufbau und -design
NEMO-Tag 2008 Vernetzung der NEMO-Netzwerke Berlin, 24. Juni 2008
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
für die Erstellung einer Präsentation
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Maschinelles Lernen und automatische Textklassifikation
Maschinelles Lernen und automatische Textklassifikation
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Entitäten Extraktion Einführung
Entwicklung standardorientierter Aufgaben – am Beispiel naturwissenschaftliche Erkenntnisgewinnung Jürgen Mayer.
Was atmet. Eine Rose. Die Haut. Ein Molekül. Holz
Externe Bewertung in IB-Biologie
Warum Berufsunfähigkeitsversicherungen mit verzinslicher Ansammlung oder Beitragsrückgewähr keinen Sinn machen.
Wissenschaftliches Arbeiten...
Datenstrukturen innerhalb von XML Web Services. Agenda.
Im Internet geht alles schneller, aber es dauert länger
Offsite –Optimierung bzw. wo Sie noch gefunden werden
Sortieralgorithmen Sortieren von Arrays.
Schnupper - Kurs in unser Seminarwesen.
1 Gruppe 7 Die Gentechnologie als kontroverses Medienthema Eine Zeitungsinhaltsanalyse von 1997 bis 1999.
Wie schreibe ich eine Diplom- bzw. Masterarbeit ?
Spaziergang im Herbst Texte: Anke Maggauer-Kirsche Musik: Without You
Faszination Wasser Musik: 28 degrés a l‘ombre Fotos: ©Nadine Wolfgang
Erörtern 10. Jgst März 2009: Die hessische Kultusministerin Dorothea Henzler (FDP) kann sich einen zumindest zeitweise nach Geschlechtern getrennten.
Qualität und Quantität evangelischer Freizeiten in NRW Ergebnisse des Arbeitskreis Freizeitevaluation des jugendpolitischen Ausschusses der.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Motivierende Gesprächsführung
Lernen durch Vergleiche
Information Retrieval, Vektorraummodell
Management, Führung & Kommunikation
Statistik – Regression - Korrelation
Evaluation der Präsentation der Ergebnisse. Fokus der Evaluation Sprach- und Spielnachmittage > an der Rodatal- Schule und an der GS „An der Saale“ Kinder.
Methoden Die klassische Methode der Psycholinguistik (genauso wie der experimentellen Psychologie im Allgemeinen) ist die Messung von Reaktionszeiten.
"Sport im Leben der Menschen."
Hast Du Zeit.
Methoden der Sozialwissenschaften
Sprachprodukttechnologie SS 2001G. Heyer 1 Sprachstatistik  Grundlegende Definitionen  Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von.
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
Darstellung von Forschungsergebnissen mit Posterpräsentationen: Erwartungen und Möglichkeiten Jan Haut (Kontakt: Das Poster.
Vorlage für die 10-Minuten- Schulung Die folgenden Seiten dienen zur Orientierung, wie Du Deine 10-Minuten-Schulung mit möglichst wenig Aufwand gestalten.
Thema: Inklusion Personalversammlung in der IGP Bergisch-Gladbach.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 1 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Wolfgang Schulz  Tel. 0650/   Die Ei+kata+trophe von Traun+tein vom bi
Einführung in die Informationsverarbeitung Teil Thaller Stunde V: Wege und warum man sie geht Graphen. Köln 14. Januar 2016.
Drei „W“ : WARUM ; WAS ; WIE Warum steht dieses Kapitel neu im LP? Was sollen SchülerInnen durch diese neue LP-Einheit lernen? Wie kann dies im Unterricht.
Portfolios und E-Portfolios Helene Swaton KMSI Sechshaus.
- Seite 1 TIME INTELLIGENCE ® by Zeichenrand – Löschen! Titel.
1 Suchprofile erstellen und verwalten. 2 Suchprofile bei Registrierung Hier können Sie bis zu drei Suchprofile einrichten. Diese finden Sie später unter.
- Seite 1 TIME INTELLIGENCE ® by Titel.
2. Tag Plenum 11:00 – 13:00 Uhr. Wie positionieren wir die Zukunft? „Diversity in Alberta Schools: A Journey to Inclusion” -
Angewandter Glückskurs
Hallo, Kinder! Ich bin Sophia.
Googelnde Wikipedianer
Modul Lerncoaching.
10 Schritte Video-Optin-Formel
 Präsentation transkript:

Nützlichkeit statistischer Phrasen in der Textklassifikation Wolfgang Flury 7. Juli 2004 (im Rahmen des Hauptseminars „Maschinelle Lernverfahren und Textklassifikation“ am CIS, München)

Ziele Erkenntnisse des ff. Artikels vermitteln insbesondere Caropreso, Matwin, Sebastiani: „A Learner-independent Evaluation of the Usefulness of Statistical Phrases for Automated Text Categorization“, o.J. insbesondere Untersuchungsgegenstand Vorgehensweise Ergebnisse/Folgerungen

Sind statistische Phrasen hilfreich? Was vermuten wir? Sind statistische Phrasen hilfreich?

Was ich erzählen will ... Was genau verstehen die Autoren unter „statistischen Phrasen“ Ausgangspunkt für die Untersuchung 2 Wege der Evaluierung mit Ergebnissen Zusammenfassung / Erkenntnis

Syntakt. vs statistische Phrasen Syntaktische Phrasen „textuelle Einheit größer als Wort aber kleiner als Satz“. z.B. Nominalphrasen, Verbalphrasen, ... syntaktisch wohlgeformt Statistische (z.T. synonym: „n-grams“ im Artikel) induktive Definition 1-gram = Wortstamm n-gram = lexikogr. geordnete Sequenz von 1-grams Auftreten in Text: Falls nach Stoppwort-Elimination und Stemming eine Permutation des n-grams im Text auftritt syntaktisch unwohl-geformt statistisch interessant verteilt

Beispiel: Statist. Phrasen / n-grams durch Stemming Umgehung von morphol. + syntakt. Varianten Beispiel: 2-gram „inform retriev“

Wir wollen Phrasen ! Grundidee der Autoren Wir wissen schon: gute Indexierung kritisch für Erfolg Ein Weg: Feature selection Warum immer nur Wörter und nicht ganze Phrasen? Attraktivität syntaktische Phrasen näher am auszudrückenden Konzept weniger Ambiguität (Mutual Disambiguation Effect) tragen mehr zum Ranking eines Dokuments bei aktuelle Technologie erlaubt relativ zuverlässiges Erkennen

Bisher kaum Phrasenindexierung in IR - und wenn, mit mäßigem Erfolg Probleme syntaktischer Phrasen semantisch hohe, statistisch schlechte Qualität Phrasen sind einfach nicht häufig genug Normalisierungsproblem Vorteile statistischer Phrasen zuverlässiger erkennbar, auch in untersch. Varianten wenig interessante Phrasen werden tendenziell ignoriert Probleme statistischer Phrasen/n-grams Fehlerrate > 0 Über-/Unter-Generalisierung Folge von Wörtern garaniert natürlich noch kein Konzept => Finden von interessanten nötig (z.B. über Häufigkeit)

2 Wege zur Wahrheit Ansatz „Indirekte“ Experimente Ziel: Einschätzung der Nützlichkeit von statistischen Phrasen unabhängig vom gewählten Klassifikationsalgorithmus erzeuge alle k-grams (1..n) (hier: n = 2) bestimmte Rang (kennen wir schon: DF, IG, Chi-square, ...) „Indirekte“ Experimente usefulness = frequency of n-grams at the top of the list „Direkte“ Experimente Verwendung eines konkreten Klassifikators

Indirekte Ergebnisse sind positiv Vorverarbeitung der Texte Stoppwörter und Interpunktion entfernt, Kleinschreibung Durchdringungsgrad (DDG, penetration level) = Anteil der n-gramme in den durch die FEF gewählten Features Ergebnisse Durchdringungsgrad geht mit zunehmendem Reduction Factor zurück zwei Gruppen von FEF: DDG sehr hoch + DDG hoch Penetration Levels sind ziemlich hoch

Indirekte Ergebnisse in Zahlen

Direkte Ergebnisse sind negativ Evaluierungsmethode Precision, Recall und F-Maß micro- und macro-averaging WICHTIG: Anzahl Features konstant halten => Reduction Factor unterschiedlich für 1- und 2-grams (andere Vergleiche tun das oft nicht !!!) Ergebnisse Bigramme erhöhen Klassifikationsergebnis nicht immer Verbesserung meist nicht signifikant, Verschlechterung meist dramatisch Verhältnis besser : schlechter: 20 : 28 ( ~ 58% schlechter !!)

Direkte Ergebnisse in Zahlen (1)

Direkte Ergebnisse in Zahlen (2)

Direkte Ergebnisse in Zahlen (3)

Verschlechterung hat Methode Verschlechterung häufiger bei hohen Reduktionsfaktoren Verschlechterung höher bei FEF‘s mit hohem Durchdringungsgrad (kontraintuitiv) Erklärungsansatz Exzessive Verwendung von Bigrammen verdrängt wichtige Unigramme Bigramme duplizieren Information, die in Unigrammen schon enthalten ist

... deren Konklusion ... „Our hypothesis that a high penetration level were conducive to improving effectiveness was not completely confirmed.“ Ja, so kann man das auch sagen. ;-) Problem aus Sicht der Autoren: Duplizierung von Information durch Bigramme => weitere Untersuchungen

Besser die Finger davon lassen Was schließen wir aus der Untersuchung? mit (statistischen) Bigrammen vorsichtig sein nicht zu viel davon versprechen falls verwenden, immer zusätzlich zu Unigrammen Lohnt sich der Aufwand? wohl eher nicht ;-(

Was haben wir gelernt? was (statistische) n-gramme sind Vor-/Nachteile syntaktischer und statistischer Phrasen Möglichkeit einer Klassifikator-unabhängigen Evaluierungs-Methode Konkrete Ergebnisse der Autoren Nicht alles ist Gold, was glänzt.

War unsere Vermutung richtig? Sind statistische Phrasen hilfreich? Na ja, so einfach kann man das nicht sagen ... ;-(

Vielen Dank für Eure Aufmerksamkeit ! Fragen? Vielen Dank für Eure Aufmerksamkeit !