Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse

Ähnliche Präsentationen


Präsentation zum Thema: "Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse"—  Präsentation transkript:

1 Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse
Bestimmung der Klassen durch Merkmale (Attribute) Klasse/ Attribut Märchen Krimi Schnulze Fee Mord Liebe Hexe Kommissar Sehnsucht „und wenn sie nicht gestorben sind…“ Gewalt Kuss Prinzessin Kanone Arzt Aut = Grimm, Wilhelm Aut = Christie, Agatha Aut = Courths-Mahler, Hedwig Dok 1 Courths-Mahler, Hedwig: Der Arzt gab der Prinzessin einen Kuss. Das wollte der Kommissar mit Gewalt verhindern. Dok 2 Grimm, Wilhelm: Die Hexe und die Fee trafen auf dem Blocksberg die Prinzessin. LE 10

2 Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse
Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes Märchen 1 2 Krimi Schnulze Fee Mord Liebe Hexe Kommissar Sehnsucht „und wenn Sie nicht gestorben sind…“ Gewalt Kuss Prinzessin Kanone Arzt Aut = Grimm, Wilhelm Aut = Christie, Agatha Aut = Courths-Mahler, Hedwig Skalarprodukt: Klasse/Dok 4 3 Dok 1 Courths-Mahler, Hedwig: Der Arzt gab der Prinzessin eine Kuss. Das wollte der Kommissar mit Gewalt verhindern. Dok 2 Grimm, Wilhelm: Die Hexe und die Fee trafen auf dem Blocksberg die Prinzessin. Zuordnung zu Klasse: Märchen 1 Krimi 2 Schnulze 3 Zuordnung zu Klasse: Märchen 4 Krimi 0 Schnulze 0

3 Zwei Methoden der Berechnung der Zuordnung einer Klasse zu einem Dokument
Der naive Bayes Algorithmus / auch Relation Z Mit welcher Wahrscheinlichkeit wird einem Dokument d die Klasse Cj zugeordnet? P(Attribut i in Cj)= Gewicht Attribut i (Cj) / Gewicht Attribute in Cj In 100 Dokumenten der Klasse Märchen kommt Hexe 50 x vor Wahrscheinlichkeit von Hexe für Märchen 50/100 „nächster Nachbar“ Klassifikation Wird ein neues Dokument klassifiziert, so werden die x ähnlichsten Trainingsdokumente über ein Ähnlichkeitsmaß bestimmt Das neue Dokument wird jener Klasse zugeteilt, aus der die meisten dieser Trainingsdokumente stammen. Die 10 ähnlichsten Dok von Dok x werden errechnet Von diesen 10 fallen 8 in die Klasse Krimi und 4 in die Klasse Märchen = 8/10 -> 0,8 für Krimi und 4/10 -> 0,4 für Märchen

4 Analyse der Klassifikation
Ermittlung der Merkmale (Einträge im invertierten Dateisystem) der Dokumente, die manuell (oder durch Clustering) einer Klasse zugeordnet wurden Klasse Märchen: Hexe Teufel Gut Böse Zauberer Hänsel Gretel Prinzessin Bestimmung von Wahrscheinlichkeiten Wenn in einem Dokument Hexe vorkommt, wird es zu 80% als Märchen klassifiziert Wenn in einem Dokument gut vorkommt, wird es zu 25% als Märchen klassifiziert Bestimmung eines Vektorzentroids für die Klasse Märchen

5 Wahrscheinlichkeitsansatz jedes Dokument für jede Klasse neu
Neues Dokument kommt an Dokument analysieren: gewichteten Index erstellen Nachschauen, in welchen Klassen die Wörter aus dem Index des Dokumentes vorkommen Wort, das in keiner Klasse vorkommt, wird ignoriert Klassen nacheinander durchgehen Wahrscheinlichkeit, mit der das Wort in Dokumenten in der Klasse vorkommt auslesen Den Wahrscheinlichkeitswert des Merkmals für die Klasse mit dem Gewicht des Dokumentvektors multiplizieren Diesen Prozess für alle Merkmale der Klasse wiederholen Ergebnis errechnen Dokument der Klasse mit dem höchsten Wert zuordnen Text „Hänsel und Gretel“ Gewichteten Index erstellen (Dokumentvektor) Für jeden Indexeintrag nachschauen, in welcher Klasse er vorkommt Pfefferkuchenhaus ignorieren, da in keiner Klasse Hexe kommt in Märchen und Frauenbewegung vor Nacheinander alle Merkmale der Klasse Märchen und der Klasse Frauenbewegung mit den Merkmalen des neuen Dokuments vergleichen Märchen Hexe hat für Märchen einen Wert von 0,50 Gewicht von Hexe in Dokumentvektor 0,75 Wert aus Klassifikation mit Wert aus Dokument multiplizieren 0,50*0,75 Frauenbewegung Hexe hat für Frauenbewegung Wert von 0,15 0,15*0,75 Die einzelnen Werte zu einem Dokumentvektor aufaddieren Beispiel Märchen: Hexe 0,375 Fee 0 Köning 0,1 Prinzessin 0,2 = 0,675 Beispiel Frauenbewegung Hexe 0,1125 Heilerin 0,5 Feminismus 0,5 Pendel 0,25 =1,362 Dokument der Klassse Frauenbewegung zurechnen


Herunterladen ppt "Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse"

Ähnliche Präsentationen


Google-Anzeigen