Dokument-Kategorisierung

Slides:

Advertisements

Ähnliche Präsentationen

Erstellen von Raumgrundrissen mit Vorlagen

Advertisements

Präsentiert von Torben Pastuch

Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

Kohonennetze für Information Retrieval mit User Feedback

Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.

Stochastik und Markovketten

TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking

Suche in Texten (Stringsuche )

Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.

Seminar Textmining WS 06/07

1/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Projektgruppe KIMAS Reinforcement Learning in MAS Marc Pannenberg.

Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.

Sortierverfahren Richard Göbel.

Sortierverfahren Richard Göbel.

MBT: A Memory-Based Part of Speech Tagger-Generator

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen Halbzeit: Was haben wir bisher gelernt? Prof. Th. Ottmann.

Konfidenzintervalle für Parameter

Information Retrieval Modelle: Vektor-Modell

Hypothesen testen: Grundidee

PG 520 Intelligence Service – gezielte Informationen aus dem Internet

Spree/Worg2/LE 10 Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen.

Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse

Das Wunder der Koordinatentransformation Das Wunder der sexuellen Fortpflanzung = Rekombination.

Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen

Nachholung der Vorlesung vom Freitag

Vorlesung Die Vorlesung Statistische Methoden II nächste Woche vom 6. Juni ( nächste Woche ) wird auf den 4. Juni (Mittwoch) vorverlegt ! 14 – 16 Zeit:

Chi-Quadrat-Test auf Unabhängigkeit I

Classification of Credit Applicants Using Data Mining. Thema.

Seminar: Informationstechnik in der Medizin Universität Dortmund Skin Detection Fakultät für Elektrotechnik und Informationstechnik Lehrstuhl für Kommunikationstechnik.

Wiederholung und Beispiele

Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1

Machine Learning KNN und andere (Kap. 8).

Maschinelles Lernen und automatische Textklassifikation

Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.

Nützlichkeit statistischer Phrasen in der Textklassifikation

Kakuro Regeln und Strategien

Histogramm/empirische Verteilung Verteilungen

Self Organizing Tree Algorithm

Rechnen mit Prozenten Klasse 7c – Schuljahr 2013/2014.

Splay Trees Von Projdakov Benjamin.

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Information und Kommunikation Hartmut Klauck Universität Frankfurt SS

Polynome und schnelle Fourier-Transformation

Charakteristika linearer Gleichungen auffinden Lineare Gleichungssysteme Lösen durch Elimination Eliminationsprogramm erstellen Anwendung: Bahn eines.

Statistik: Mehr zur Regression.

Kapitel 9 Analyse der Modellstruktur Hackl, Einführung in die Ökonometrie 2 Rekursive OLS-Schätzung Spezifiziertes Modell: y = X + u y, u:

Kapitel 18 Dynamische Modelle: Schätzen der Parameter

Wahrscheinlichkeitsrechnung

Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.

Information Retrieval, Vektorraummodell

Textklassifikation und Informationsextraktion

Multimediapraktikum SS07 Vision-Based Motion Analysis Handgestenerkennung.

1 Computergestützte Verifikation Binary Decision Diagrams (BDD) Inhalt: Die Datenstruktur BDD Operationen auf BDD CTL Model.

Ein sicheres Verfahren, die Teilbarkeit einer Zahl zu prüfen ist, die Zahl tatsächlich zu teilen und zu sehen, ob die Teilung „aufgeht“, das Ergebnis.

Statistik – Regression - Korrelation

Analyse der Laufzeit von Algorithmen

Erheben, berechnen und darstellen von Daten

Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)

Einführung in Text Mining

Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

TU Darmstadt FB 20 Informatik Bayes Decision Theory von Martin Tschirsich, Shuo Yang & Zijad Maxuti Hausübung 5: Erläuterung Anwendung.

HCS Übung 3: Computer Vision

Präsentation transkript:

Dokument-Kategorisierung Definition Was braucht man um Dokumente zu kategorisieren? 2.1 Dokumente: Corpus 2.2 Kategorien 2.3 Methoden 2.3.1 Rocchios Algorithmus 2.3.2 Naive Bayes Algorithmus 3. Der Prozeß Bewertung der Kategorisierung : wann ist es gelungen? Einige Experimente Ripper: ein kontext-Sensibler Algorithmus

1.- Dokument-kategorisierung Definition: -automatische/manuale Kategorisierung Sind: c = { c1,.....cm } eine Menge von vordefinierte Kategorien d = { d1,.....dm } eine Menge von Dokumente zu kategorisieren Wenn auf aij der Wert 1 entfällt dann gehört d1 zur Kategorie c1, ist der Wert dagegen 0, zählt d1 nicht zu c1 d1 ... dj dn C1 a11 a1j a1n Ci ai1 aij ain Cm am1 amj amn

Was braucht man um Dokumente zu kategorisieren Was braucht man um Dokumente zu kategorisieren? Dokumente, Kategorien und Methoden zu kategorisieren 1.- Dokumente Die zwei bekanntesten Corpora -Der Reuters Corpus –newswire stories seit 1987 bis 1991. -Der OHSUMED Corpus –348,566 Referenzen aus 270 Medizinische Zeitungen seit 1987 bis 1991. 2.- Kategorien man kann mit einer Menge oder einer Hierarchie von Kategorien arbeiten. Ein Dokument kann zu einer, keiner oder einigen Kategorien gehören. Die Kategorien sollen objektive Etiketten sein und ihre Auswahl hängt von der Anwendungen ab. 3.- Methode zur Kategorisierung

3.1- Methoden zur Kategorisierung CONSTRUE Dtree. SWAP-1 Nnets Charade EG WH Sleeping Experts LLSF KNN Rocchio Naive Bayes Algorithmus Ripper

3.1.1 - Linearen Klasifikatoren: Roccios Algorithmus Dokumente, werden representiert durch ein Gewichtsvektor (Vector space model) tf x idf -weighting. Die Repräsentierung jeder Kategorie ist die Mitte dieser Kategorie, d.h. der Durchschnitt der Dokumente, welche in der Kategorie existieren. Dokumente werden entsprechend ihrer Nähe zum zentralen Punkt klassifiziert. A B C D A – Dokument Class A D – neues Dokument

3.1.2-Lineare Klassifikatoren: Naive Bayes Algorithmus Das Ziel ist die Berechnung, mit welcher Wahrscheinlichkeit ein Dokument einer Kategorie angehört. Es wird durch das Bayes Theorem berechnet. d –Dokument zum Kategorisieren cj - Kategorie Man benutzt die Information des Corpus der vorkategorisierten Dokumente um sie zu berechnen. Ein Dokument wird durch ein Gewichtsvektor repräsentiert. {0,1} Um P(d / cj ) zu kalkulieren vermutet man: dass die Erscheinung von einem Wort in einem Dokument unabhängig von der Erscheinung anderer Wörter im gleichen Dokument ist. (Hier wird der Unterschied zwischen Ripper und andere Klassifikatoren markiert. -Kontext Sensibilität-) ) ( | d P c j × =

1.-DER PROZEß Typische Kategorisierungsprozesse: Die Auswahl eines Corpus und die Teilung jenes Corpus in zwei Teile: Teil des Corpus fürs Training – man benutzt ihn, um die Repräsentation von Kategorien und Dokumenten darzustellen. Teil des Corpus zur Bewertung –man benutzt ihn, um die Effektivität der Kategorisierung zu bewerten-. Cross-Validation: -man untergliedert ein Corpus in K-Stückchen, trennt mit K-1 und bewertet mit dem Rest (am Ende wird der Durchschnitt berechnet).

2.- DER PROZEß 1. Preprocessing: HTML oder andere <etiqueten> eliminieren stopwords eliminieren Stemming 2. Indexing: D.h.,eine Repräsentation für jedes Dokument durch Vektoren zu erhalten. Es soll repräsentieren: -wie viele Wörter es gibt -wieviele Male ein Wort in einem Dokument vorkommt -wieviele Male ein Wort in dem ganzen Corpus vorkommt 2. Mit dem letzten zwei Parametern wird ein Vektor mit dem Gewicht des Wortes aufgebaut.

3.- DER PROZEß Dimensionality reduccion mit so vielen Vektoren und Regeln ist der Prozess viel zu kompliziert: man kann die „dimensionality“ reduzieren: Dokument Frequency Thresholding: Die Häufigkeit eines Wortes (Anzahl der Dokumente, in denen dieses Wort vorkomm). Man eliminiert alle Wörter dessen Häufigkeit kleiner als eine vordefinierte Schwelle ist. Re-parameterisation - Neue Regeln werden durch Kombinierung oder Veränderung der alten Regeln geschaffen. 4. Klassifizierung mit den kommentierten Algorithmen.

1.-Kategorisierung zur Bewertungen Methode: MULTIPLE BINARY CLASSIFICATION (Sehen ob ein Dokument einer bestimmten Kategorie angehört oder nicht, für jedes Dokument und jede Kategorie) Kontingenz Tabelle für cj Es werden bewertet: recall, Präzision, Fallout, accurancy, Error (Micro/Macro-averaging) Angew. in cj Nicht angew in cj gehören cj a c geh. nicht cj b d 1K / alle K. a + c a recall = b + d b fall. = a + b + c +d a + d accur. = a + b a Präc. = a + b + c + d b + c error =

2.-Kategorisierung zur Bewertungen Andere Bewertungs-kriterien: MICRO-AVERAGING: -eine Einzel Kontingenz Tabelle MACRO-AVERAGING: -so viele Kontingenz-Tabellen wie Kategorien Kriterien die recall und Präzisionswerte kombinieren: Break-even-point Interpolation

3.-Kategorisierung zur Bewertungen Method: MULTI-CLASS UND MULTI-LABEL CLASSIFICATION (zur die Bewertung einer Kategorisierungs Methode welche eine Rangliste von Kategorien für jedes Dokument wiedergibt) 11-point average precision: für ein Einzel Dokument Anzahl von gefundene Kategorie die richtig sind recall = Summe aller (gef. und nicht gef. Kategorien) Anzahl von gefundenen Kategorien die richtig sind precision = Summe aller gefundenen Kategorien

1.DAS EXPERIMENT Ziel : Die 14 Algorithmen in einem Corpus aus probieren und anschließend bewert. Korpus: Reuters-21578 (1987) 3.299 stories testen, 9.603 stories zu trainieren, 135 Kategorien. Preprozesing: Nach dem Stemming bleiben 15.247 Kanonische Wörter. Dimensionality reduction: Beide: Feature selection und re-parameterisation waren benutzt. Methode: Knn um die Kategorien zu extraieren. Bewertungen: Präzision und recall. Micro-averaging

2.DAS EXPERIMENT ERGEBNIS Einige Dokument waren 14 Kategorien zugewiesen, wobei der Durchschnitt bei 1,24 Kategorien pro Dokument lag. Das Wort „earnings“ kommt in 2709 Dokumenten vor. Es gibt 75 Kategorien (mehr als 50%) die nur für 10 Dokumente zugewiesen waren. 21 Kategorien waren für kein Dokument zugewiesen. Allgemeine recall 79,2% Präzision 81,8 Break-even 80% Für die 10 Häufiger Schwelle 0,2 Kategorien mit Schwelle 0,3 break-even 89%

ERGEBNIS Author Train Test Topics Indexing Reduc. Method Measure Dumais 9.603 3.299 118 boolean MI Binary Breakeven Joachims 90 tfc IG Shapire ? tf x idf None Multicl. Weiss 95 frequenz Yang 7.789 3.309 93 ltc X² Author Rocchio Bayes k-NN Tree SVM Voting Dumais 61.7 75.2 - 87.0 Joachims 79.9 72.0 82.3 79.4 86.0 Shapire x Weiss 78.7 73.4 86.3 78.9 87.8 Yang 75.0 71.0 85.0 79.0

Automatische Dokument- kategorisierung Stellun kategorisierte Dokumente Analyse neue Stellungen von Kategorien Stellungen von neuen Dokumenten Berechnug der Ähnlichkeit Neue kategorissierte Kategorien

3.1.3-Lineare Klassifikatoren: Naive Bayes Algorithmus man hat z.B. 3 Kategorien: A,B und C. Man beschreibt die Dokumente durch 5 Punkte X1 X2 X3 X 4 X5 Wenn man ein Dokument 3 hat, wie hoch Wahrscheinlichkeit, dass dieses Dokument der Kategorie A,B oder C angehört? A B C P(A/3) P(3/A)= 4/7 1 2 1 1 P(B/3) P(3/B)= 0 2 2 2 1 P(C/3) P(3/C)= 2/7 3 3 5 1 4 2 5 3 5 3 5 2 6 3 4 3 7 3 2 1 Messbar P(Beobachtung), Voraussetzung (Klasse A) P(Klasse/Beobachtung)