Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Klasse/ Attribut MärchenKrimiSchnulze FeeMordLiebe HexeKommissarSehnsucht und wenn sie.

Ähnliche Präsentationen


Präsentation zum Thema: "Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Klasse/ Attribut MärchenKrimiSchnulze FeeMordLiebe HexeKommissarSehnsucht und wenn sie."—  Präsentation transkript:

1 Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Klasse/ Attribut MärchenKrimiSchnulze FeeMordLiebe HexeKommissarSehnsucht und wenn sie nicht gestorben sind… GewaltKuss PrinzessinKanoneArzt Aut = Grimm, Wilhelm Aut = Christie, AgathaAut = Courths-Mahler, Hedwig Dok 1 Courths-Mahler, Hedwig: Der Arzt gab der Prinzessin einen Kuss. Das wollte der Kommissar mit Gewalt verhindern. Dok 2 Grimm, Wilhelm: Die Hexe und die Fee trafen auf dem Blocksberg die Prinzessin. Bestimmung der Klassen durch Merkmale (Attribute) LE 10

2 Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Märchen12Krimi12Schnulze12 Fee01Mord00Liebe00 Hexe01Kommissar10Sehnsucht00 und wenn Sie nicht gestorben sind… 00Gewalt10Kuss10 Prinzessin11Kanone00Arzt10 Aut = Grimm, Wilhelm 01Aut = Christie, Agatha 00Aut = Courths-Mahler, Hedwig 1 Skalarprodukt: Klasse/Dok Dok 1 Courths-Mahler, Hedwig: Der Arzt gab der Prinzessin eine Kuss. Das wollte der Kommissar mit Gewalt verhindern. Dok 2 Grimm, Wilhelm: Die Hexe und die Fee trafen auf dem Blocksberg die Prinzessin. Zuordnung zu Klasse: Märchen 1 Krimi 2 Schnulze 3 Zuordnung zu Klasse: Märchen4 Krimi0 Schnulze0 Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes

3 Zwei Methoden der Berechnung der Zuordnung einer Klasse zu einem Dokument Der naive Bayes Algorithmus / auch Relation Z –Mit welcher Wahrscheinlichkeit wird einem Dokument d die Klasse Cj zugeordnet? P(Attribut i in Cj)= Gewicht Attribut i (Cj) / Gewicht Attribute in Cj –In 100 Dokumenten der Klasse Märchen kommt Hexe 50 x vor –Wahrscheinlichkeit von Hexe für Märchen »50/100 nächster Nachbar Klassifikation –Wird ein neues Dokument klassifiziert, so werden die x ähnlichsten Trainingsdokumente über ein Ähnlichkeitsmaß bestimmt –Das neue Dokument wird jener Klasse zugeteilt, aus der die meisten dieser Trainingsdokumente stammen. Die 10 ähnlichsten Dok von Dok x werden errechnet Von diesen 10 fallen 8 in die Klasse Krimi und 4 in die Klasse Märchen = 8/10 -> 0,8 für Krimi und 4/10 -> 0,4 für Märchen

4 Analyse der Klassifikation Ermittlung der Merkmale (Einträge im invertierten Dateisystem) der Dokumente, die manuell (oder durch Clustering) einer Klasse zugeordnet wurden –Klasse Märchen: Hexe Teufel Gut Böse Zauberer Hänsel Gretel Prinzessin –Bestimmung von Wahrscheinlichkeiten Wenn in einem Dokument Hexe vorkommt, wird es zu 80% als Märchen klassifiziert Wenn in einem Dokument gut vorkommt, wird es zu 25% als Märchen klassifiziert –Bestimmung eines Vektorzentroids für die Klasse Märchen

5 Wahrscheinlichkeitsansatz jedes Dokument für jede Klasse neu Neues Dokument kommt an –Dokument analysieren: gewichteten Index erstellen Nachschauen, in welchen Klassen die Wörter aus dem Index des Dokumentes vorkommen –Wort, das in keiner Klasse vorkommt, wird ignoriert Klassen nacheinander durchgehen –Wahrscheinlichkeit, mit der das Wort in Dokumenten in der Klasse vorkommt auslesen –Den Wahrscheinlichkeitswert des Merkmals für die Klasse mit dem Gewicht des Dokumentvektors multiplizieren –Diesen Prozess für alle Merkmale der Klasse wiederholen –Ergebnis errechnen Dokument der Klasse mit dem höchsten Wert zuordnen Text Hänsel und Gretel –Gewichteten Index erstellen (Dokumentvektor) Für jeden Indexeintrag nachschauen, in welcher Klasse er vorkommt –Pfefferkuchenhaus ignorieren, da in keiner Klasse Hexe kommt in Märchen und Frauenbewegung vor –Nacheinander alle Merkmale der Klasse Märchen und der Klasse Frauenbewegung mit den Merkmalen des neuen Dokuments vergleichen Märchen –Hexe hat für Märchen einen Wert von 0,50 –Gewicht von Hexe in Dokumentvektor 0,75 –Wert aus Klassifikation mit Wert aus Dokument multiplizieren »0,50*0,75 Frauenbewegung –Hexe hat für Frauenbewegung Wert von 0,15 –Wert aus Klassifikation mit Wert aus Dokument multiplizieren »0,15*0,75 –Die einzelnen Werte zu einem Dokumentvektor aufaddieren Beispiel Märchen: –Hexe 0,375 –Fee 0 –Köning 0,1 –Prinzessin 0,2 –= 0,675 Beispiel Frauenbewegung –Hexe 0,1125 –Heilerin 0,5 –Feminismus 0,5 –Pendel 0,25 =1,362 – Dokument der Klassse Frauenbewegung zurechnen


Herunterladen ppt "Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Klasse/ Attribut MärchenKrimiSchnulze FeeMordLiebe HexeKommissarSehnsucht und wenn sie."

Ähnliche Präsentationen


Google-Anzeigen