Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Dokument-Kategorisierung 1.Definition 2.Was braucht man um Dokumente zu kategorisieren? 2.1 Dokumente: Corpus 2.2 Kategorien 2.3 Methoden 2.3.1 Rocchios.

Ähnliche Präsentationen


Präsentation zum Thema: "Dokument-Kategorisierung 1.Definition 2.Was braucht man um Dokumente zu kategorisieren? 2.1 Dokumente: Corpus 2.2 Kategorien 2.3 Methoden 2.3.1 Rocchios."—  Präsentation transkript:

1 Dokument-Kategorisierung 1.Definition 2.Was braucht man um Dokumente zu kategorisieren? 2.1 Dokumente: Corpus 2.2 Kategorien 2.3 Methoden Rocchios Algorithmus Naive Bayes Algorithmus 3. Der Prozeß 4.Bewertung der Kategorisierung : wann ist es gelungen? 5.Einige Experimente 6.Ripper: ein kontext-Sensibler Algorithmus

2 1.- Dokument-kategorisierung Definition: -automatische/manuale Kategorisierung Sind: c = { c1,.....cm } eine Menge von vordefinierte Kategorien d = { d1,.....dm } eine Menge von Dokumente zu kategorisieren Wenn auf aij der Wert 1 entfällt dann gehört d1 zur Kategorie c1, ist der Wert dagegen 0, zählt d1 nicht zu c1 d1d1...djdj dndn C1C1 a 11 a 1j a 1n CiCi a i1 a ij a in... CmCm a m1 a mj a mn

3 Was braucht man um Dokumente zu kategorisieren? Dokumente, Kategorien und Methoden zu kategorisieren 1.- Dokumente Die zwei bekanntesten Corpora -Der Reuters Corpus –newswire stories seit 1987 bis Der OHSUMED Corpus –348,566 Referenzen aus 270 Medizinische Zeitungen seit 1987 bis Kategorien man kann mit einer Menge oder einer Hierarchie von Kategorien arbeiten. Ein Dokument kann zu einer, keiner oder einigen Kategorien gehören. Die Kategorien sollen objektive Etiketten sein und ihre Auswahl hängt von der Anwendungen ab. 3.- Methode zur Kategorisierung

4 »CONSTRUE »Dtree. »SWAP-1 »Nnets »Charade »EG »WH »Sleeping Experts »LLSF »KNN »Rocchio »Naive Bayes Algorithmus »Ripper 3.1- Methoden zur Kategorisierung

5 A A A A A B B B B B C C C C C A B C D A – Dokument Class A D – neues Dokument Linearen Klasifikatoren: Roccios Algorithmus Dokumente, werden representiert durch einGewichtsvektor (Vector space model) tf x idf -weighting. Die Repräsentierung jeder Kategorie ist die Mitte dieser Kategorie, d.h. der Durchschnitt der Dokumente, welche in der Kategorie existieren. Dokumente werden entsprechend ihrer Nähe zum zentralen Punkt klassifiziert.

6 3.1.2-Lineare Klassifikatoren: Naive Bayes Algorithmus Das Ziel ist die Berechnung, mit welcher Wahrscheinlichkeit ein Dokument einer Kategorie angehört. Es wird durch das Bayes Theorem berechnet. d –Dokument zum Kategorisieren c j - Kategorie Man benutzt die Information des Corpus der vorkategorisierten Dokumente um sie zu berechnen. Ein Dokument wird durch ein Gewichtsvektor repräsentiert. {0,1} Um P(d / c j ) zu kalkulieren vermutet man: – dass die Erscheinung von einem Wort in einem Dokument unabhängig von der Erscheinung anderer Wörter im gleichen Dokument ist. – (Hier wird der Unterschied zwischen Ripper und andere Klassifikatoren markiert. -Kontext Sensibilität-) )( )()|( )|( dP cPcdP dcP jj j

7 1.-DER PROZEß Typische Kategorisierungsprozesse: Die Auswahl eines Corpus und die Teilung jenes Corpus in zwei Teile: Teil des Corpus fürs Training – man benutzt ihn, um die Repräsentation von Kategorien und Dokumenten darzustellen. Teil des Corpus zur Bewertung –man benutzt ihn, um die Effektivität der Kategorisierung zu bewerten-. Cross-Validation: -man untergliedert ein Corpus in K-Stückchen, trennt mit K-1 und bewertet mit dem Rest (am Ende wird der Durchschnitt berechnet).

8 2.- DER PROZEß 1. Preprocessing: HTML oder andere eliminieren stopwords eliminieren Stemming 2. Indexing: 1.D.h.,eine Repräsentation für jedes Dokument durch Vektoren zu erhalten. Es soll repräsentieren: -wie viele Wörter es gibt -wieviele Male ein Wort in einem Dokument vorkommt -wieviele Male ein Wort in dem ganzen Corpus vorkommt 2. Mit dem letzten zwei Parametern wird ein Vektor mit dem Gewicht des Wortes aufgebaut.

9 3.- DER PROZEß 3.Dimensionality reduccion mit so vielen Vektoren und Regeln ist der Prozess viel zu kompliziert: man kann die dimensionality reduzieren: Dokument Frequency Thresholding: -Die Häufigkeit eines Wortes (Anzahl der Dokumente, in denen dieses Wort vorkomm). Man eliminiert alle Wörter dessen Häufigkeit kleiner als eine vordefinierte Schwelle ist. Re-parameterisation -Neue Regeln werden durch Kombinierung oder Veränderung der alten Regeln geschaffen. 4.Klassifizierung mit den kommentierten Algorithmen.

10 1.-Kategorisierung zur Bewertungen Methode: 1.MULTIPLE BINARY CLASSIFICATION (Sehen ob ein Dokument einer bestimmten Kategorie angehört oder nicht, für jedes Dokument und jede Kategorie) Kontingenz Tabelle für c j Es werden bewertet: recall, Präzision, Fallout, accurancy, Error (Micro/Macro-averaging) Angew. in c j Nicht angew in c j gehören c j ac geh. nicht c j bd 1K / alle K. a + c a recall a + b a Präc. b + d b fall. a + b + c +d a + d accur. a + b + c + d b + c error

11 2.-Kategorisierung zur Bewertungen Andere Bewertungs-kriterien: MICRO-AVERAGING: -eine Einzel Kontingenz Tabelle MACRO-AVERAGING: -so viele Kontingenz-Tabellen wie Kategorien Kriterien die recall und Präzisionswerte kombinieren: 1.Break-even-point 2.Interpolation

12 Method: 2.MULTI-CLASS UND MULTI-LABEL CLASSIFICATION (zur die Bewertung einer Kategorisierungs Methode welche eine Rangliste von Kategorien für jedes Dokument wiedergibt) 11-point average precision: für ein Einzel Dokument Anzahl von gefundene Kategorie die richtig sind recall = Summe aller (gef. und nicht gef. Kategorien) Anzahl von gefundenen Kategorien die richtig sind precision = Summe aller gefundenen Kategorien 3.-Kategorisierung zur Bewertungen

13 Ziel : Die 14 Algorithmen in einem Corpus aus probieren und anschließend bewert. Korpus: Reuters (1987) stories testen, stories zu trainieren, 135 Kategorien. Preprozesing: Nach dem Stemming bleiben Kanonische Wörter. Dimensionality reduction: Beide: Feature selection und re-parameterisation waren benutzt. Methode: Knn um die Kategorien zu extraieren. Bewertungen: Präzision und recall. Micro-averaging 1.DAS EXPERIMENT

14 2.DAS EXPERIMENT ERGEBNIS -Einige Dokument waren 14 Kategorien zugewiesen, wobei der Durchschnitt bei 1,24 Kategorien pro Dokument lag. -Das Wort earnings kommt in 2709 Dokumenten vor. -Es gibt 75 Kategorien (mehr als 50%) die nur für 10 Dokumente zugewiesen waren. -21 Kategorien waren für kein Dokument zugewiesen. -Allgemeine recall 79,2% -Präzision 81,8 -Break-even 80% Für die 10 Häufiger -Schwelle 0,2Kategorien -mit Schwelle 0,3 break-even 89%

15 ERGEBNIS AuthorRocchioBayesk-NNTreeSVMVoting Dumais Joachims Shapirexx---x Weiss Yang Author TrainTestTopicsIndexingReduc.MethodMeasure Dumais booleanMIBinaryBreakeven Joachims tfc IG BinaryBreakeven Shapire ? tf x idf NoneMulticl. Breakeven Weiss frequenz? BinaryBreakeven Yang ltcX²BinaryBreakeven

16 Automatische Dokument- kategorisierung kategorisierte Dokumente Analyse neue Dokumente Analyse Stellungen von Kategorien Stellungen von neuen Dokumenten Berechnug der Ähnlichkeit Neue kategorissierte Dokumenten Kategorien Stellun

17 3.1.3-Lineare Klassifikatoren: Naive Bayes Algorithmus man hat z.B. 3 Kategorien: A,B und C. Man beschreibt die Dokumente durch 5 Punkte X1 X2 X3 X 4 X5 Wenn man ein Dokument 3 hat, wie hoch Wahrscheinlichkeit, dass dieses Dokument der Kategorie A,B oder C angehört? ABC P(A/3)P(3/A)= 4/ P(B/3) P(3/B)= P(C/3) P(3/C)= 2/ Messbar P(Beobachtung), Voraussetzung (Klasse A) P(Klasse/Beobachtung)


Herunterladen ppt "Dokument-Kategorisierung 1.Definition 2.Was braucht man um Dokumente zu kategorisieren? 2.1 Dokumente: Corpus 2.2 Kategorien 2.3 Methoden 2.3.1 Rocchios."

Ähnliche Präsentationen


Google-Anzeigen