Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Dokument-Kategorisierung

Ähnliche Präsentationen


Präsentation zum Thema: "Dokument-Kategorisierung"—  Präsentation transkript:

1 Dokument-Kategorisierung
Definition Was braucht man um Dokumente zu kategorisieren? 2.1 Dokumente: Corpus 2.2 Kategorien 2.3 Methoden 2.3.1 Rocchios Algorithmus Naive Bayes Algorithmus 3. Der Prozeß Bewertung der Kategorisierung : wann ist es gelungen? Einige Experimente Ripper: ein kontext-Sensibler Algorithmus

2 1.- Dokument-kategorisierung
Definition: -automatische/manuale Kategorisierung Sind: c = { c1,.....cm } eine Menge von vordefinierte Kategorien d = { d1,.....dm } eine Menge von Dokumente zu kategorisieren Wenn auf aij der Wert 1 entfällt dann gehört d1 zur Kategorie c1, ist der Wert dagegen 0, zählt d1 nicht zu c1 d1 ... dj dn C1 a11 a1j a1n Ci ai1 aij ain Cm am1 amj amn

3 Was braucht man um Dokumente zu kategorisieren
Was braucht man um Dokumente zu kategorisieren? Dokumente, Kategorien und Methoden zu kategorisieren 1.- Dokumente Die zwei bekanntesten Corpora -Der Reuters Corpus –newswire stories seit 1987 bis 1991. -Der OHSUMED Corpus –348,566 Referenzen aus Medizinische Zeitungen seit 1987 bis 1991. 2.- Kategorien man kann mit einer Menge oder einer Hierarchie von Kategorien arbeiten. Ein Dokument kann zu einer, keiner oder einigen Kategorien gehören. Die Kategorien sollen objektive Etiketten sein und ihre Auswahl hängt von der Anwendungen ab. 3.- Methode zur Kategorisierung

4 3.1- Methoden zur Kategorisierung
CONSTRUE Dtree. SWAP-1 Nnets Charade EG WH Sleeping Experts LLSF KNN Rocchio Naive Bayes Algorithmus Ripper

5 3.1.1 - Linearen Klasifikatoren: Roccios Algorithmus
Dokumente, werden representiert durch ein Gewichtsvektor (Vector space model) tf x idf -weighting. Die Repräsentierung jeder Kategorie ist die Mitte dieser Kategorie, d.h. der Durchschnitt der Dokumente, welche in der Kategorie existieren. Dokumente werden entsprechend ihrer Nähe zum zentralen Punkt klassifiziert. A B C D A – Dokument Class A D – neues Dokument

6 3.1.2-Lineare Klassifikatoren: Naive Bayes Algorithmus
Das Ziel ist die Berechnung, mit welcher Wahrscheinlichkeit ein Dokument einer Kategorie angehört. Es wird durch das Bayes Theorem berechnet. d –Dokument zum Kategorisieren cj - Kategorie Man benutzt die Information des Corpus der vorkategorisierten Dokumente um sie zu berechnen. Ein Dokument wird durch ein Gewichtsvektor repräsentiert. {0,1} Um P(d / cj ) zu kalkulieren vermutet man: dass die Erscheinung von einem Wort in einem Dokument unabhängig von der Erscheinung anderer Wörter im gleichen Dokument ist. (Hier wird der Unterschied zwischen Ripper und andere Klassifikatoren markiert. -Kontext Sensibilität-) ) ( | d P c j × =

7 1.-DER PROZEß Typische Kategorisierungsprozesse:
Die Auswahl eines Corpus und die Teilung jenes Corpus in zwei Teile: Teil des Corpus fürs Training – man benutzt ihn, um die Repräsentation von Kategorien und Dokumenten darzustellen. Teil des Corpus zur Bewertung –man benutzt ihn, um die Effektivität der Kategorisierung zu bewerten-. Cross-Validation: -man untergliedert ein Corpus in K-Stückchen, trennt mit K-1 und bewertet mit dem Rest (am Ende wird der Durchschnitt berechnet).

8 2.- DER PROZEß 1. Preprocessing:
HTML oder andere <etiqueten> eliminieren stopwords eliminieren Stemming 2. Indexing: D.h.,eine Repräsentation für jedes Dokument durch Vektoren zu erhalten. Es soll repräsentieren: -wie viele Wörter es gibt -wieviele Male ein Wort in einem Dokument vorkommt -wieviele Male ein Wort in dem ganzen Corpus vorkommt 2. Mit dem letzten zwei Parametern wird ein Vektor mit dem Gewicht des Wortes aufgebaut.

9 3.- DER PROZEß Dimensionality reduccion mit so vielen Vektoren und Regeln ist der Prozess viel zu kompliziert: man kann die „dimensionality“ reduzieren: Dokument Frequency Thresholding: Die Häufigkeit eines Wortes (Anzahl der Dokumente, in denen dieses Wort vorkomm). Man eliminiert alle Wörter dessen Häufigkeit kleiner als eine vordefinierte Schwelle ist. Re-parameterisation - Neue Regeln werden durch Kombinierung oder Veränderung der alten Regeln geschaffen. 4. Klassifizierung mit den kommentierten Algorithmen.

10 1.-Kategorisierung zur Bewertungen
Methode: MULTIPLE BINARY CLASSIFICATION (Sehen ob ein Dokument einer bestimmten Kategorie angehört oder nicht, für jedes Dokument und jede Kategorie) Kontingenz Tabelle für cj Es werden bewertet: recall, Präzision, Fallout, accurancy, Error (Micro/Macro-averaging) Angew. in cj Nicht angew in cj gehören cj a c geh. nicht cj b d 1K / alle K. a + c a recall = b + d b fall. = a + b + c +d a + d accur. = a + b a Präc. = a + b + c + d b + c error =

11 2.-Kategorisierung zur Bewertungen
Andere Bewertungs-kriterien: MICRO-AVERAGING: -eine Einzel Kontingenz Tabelle MACRO-AVERAGING: -so viele Kontingenz-Tabellen wie Kategorien Kriterien die recall und Präzisionswerte kombinieren: Break-even-point Interpolation

12 3.-Kategorisierung zur Bewertungen
Method: MULTI-CLASS UND MULTI-LABEL CLASSIFICATION (zur die Bewertung einer Kategorisierungs Methode welche eine Rangliste von Kategorien für jedes Dokument wiedergibt) 11-point average precision: für ein Einzel Dokument Anzahl von gefundene Kategorie die richtig sind recall = Summe aller (gef. und nicht gef. Kategorien) Anzahl von gefundenen Kategorien die richtig sind precision = Summe aller gefundenen Kategorien

13 1.DAS EXPERIMENT Ziel : Die 14 Algorithmen in einem Corpus aus probieren und anschließend bewert. Korpus: Reuters (1987) stories testen, stories zu trainieren, 135 Kategorien. Preprozesing: Nach dem Stemming bleiben Kanonische Wörter. Dimensionality reduction: Beide: Feature selection und re-parameterisation waren benutzt. Methode: Knn um die Kategorien zu extraieren. Bewertungen: Präzision und recall. Micro-averaging

14 2.DAS EXPERIMENT ERGEBNIS
Einige Dokument waren 14 Kategorien zugewiesen, wobei der Durchschnitt bei 1,24 Kategorien pro Dokument lag. Das Wort „earnings“ kommt in 2709 Dokumenten vor. Es gibt 75 Kategorien (mehr als 50%) die nur für 10 Dokumente zugewiesen waren. 21 Kategorien waren für kein Dokument zugewiesen. Allgemeine recall 79,2% Präzision 81,8 Break-even 80% Für die 10 Häufiger Schwelle 0, Kategorien mit Schwelle 0, break-even 89%

15 ERGEBNIS Author Train Test Topics Indexing Reduc. Method Measure
Dumais 9.603 3.299 118 boolean MI Binary Breakeven Joachims 90 tfc IG Shapire ? tf x idf None Multicl. Weiss 95 frequenz Yang 7.789 3.309 93 ltc Author Rocchio Bayes k-NN Tree SVM Voting Dumais 61.7 75.2 - 87.0 Joachims 79.9 72.0 82.3 79.4 86.0 Shapire x Weiss 78.7 73.4 86.3 78.9 87.8 Yang 75.0 71.0 85.0 79.0

16 Automatische Dokument- kategorisierung
Stellun kategorisierte Dokumente Analyse neue Stellungen von Kategorien Stellungen von neuen Dokumenten Berechnug der Ähnlichkeit Neue kategorissierte Kategorien

17 3.1.3-Lineare Klassifikatoren: Naive Bayes Algorithmus
man hat z.B. 3 Kategorien: A,B und C. Man beschreibt die Dokumente durch 5 Punkte   X X X X X5 Wenn man ein Dokument 3 hat, wie hoch Wahrscheinlichkeit, dass dieses Dokument der Kategorie A,B oder C angehört? A B C P(A/3) P(3/A)= 4/ P(B/3) P(3/B)= P(C/3) P(3/C)= 2/ Messbar P(Beobachtung), Voraussetzung (Klasse A) P(Klasse/Beobachtung)


Herunterladen ppt "Dokument-Kategorisierung"

Ähnliche Präsentationen


Google-Anzeigen