Automatisches Clustering und automatische Klassifikation Quelle: http://people.revoledu.com/kardi/tutorial/kMean/Image/kMeanClustering.jpg http://www.ecm.irislink.com/Documents/Image/images/Illustrations/classeur.jpg Spree SoSe 2011
Ausgangssituation Folgende 4 Dokumente sollen geclustert werden: D1 Fische in Olivenöl anbraten und mit Wasser ablöschen D2 Fische braten und mit Wasser ablöschen D3 den Fischen nur bei abgestellter Pumpe Fischfutter in das Wasser des Aquariums geben D4 Pumpe abstellen, bevor Sie den Fischen das Fischfutter geben Wie würden Sie diese 4 Dokumente in 2 Cluster aufteilen? Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011
Clustering Festlegung der Indexterme, die Dokument beschreiben indexvektor Festlegung der Indexterme, die Dokument beschreiben Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser D1: 1 1 1 0 0 1 D2: 1 1 0 0 0 1 D3: 1 0 0 1 1 1 D4: 1 0 0 1 1 1 Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011
Paarweise Multiplikation der Vektoren (verkürzt) indexvektor Der Ähnlichkeitsabgleich durch paarweises Multiplizieren aller Dokumente miteinander ergibt zwei Cluster Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser Cluster 1 (benenne ich Intellektuell Kochen) D1: 1 1 1 0 0 1 D2: 1 1 0 0 0 1 Cluster 2 (benenne ich intellektuell Aquarium) D3: 1 0 0 1 1 1 D4: 1 0 0 1 1 1 Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011
Clusterzentroid berechenen indexvektor Für die Cluster 1 und 2 lässt sich jetzt der Clusterzentroid (Mittelwert) berechnen D1: 1 1 1 0 0 1 D2: 1 1 0 0 0 1 Zentroidvektor Cluster 1: Kochen 1 1 0 0 0 1 D3: 1 0 0 1 1 1 Zentroidvektor Cluster 2 Aquarium D4: 1 0 0 1 1 1 1 0 0 1 1 1 Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011
Neues Dokument mit den Zentroidvektoren vergleichen indexvektor Welchem Cluster wird das neue Dokument D5 zugeordnet? D5 „Fisch mit Olivenöl in Wasser braten“ Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser Zuordnung Vektoren 1 1 1 0 0 1 1 1 0 0 0 1 Paarweise Mulitplikation mit den Zentroidvektoren der vorhandenen Cluster 1 1 0 0 0 1 = 3:6 =0,5 Zentroidvektor Kochen Zentroidvektor Aquarium 1 0 0 1 1 1 1 0 0 0 0 1 = 2:6 = 0,33 Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011
Neues Dokument wird Cluster Kochen zugeordnet indexvektor Welchem Cluster wird das neue Dokument D5 zugeordnet? D5 „Fisch mit Olivenöl in Wasser braten“ Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser Zuordnung Vektoren 1 1 1 0 0 1 1 1 0 0 0 1 1 1 0 0 0 1 = 3:6 = 0,5 Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011
Automatische klassifikation Automatische Zuordnung zu einer Klassifikation Automatische klassifikation Merkmale eine Klassifikation werden festgelegt Merkmale können einer Klasse zugeordnete Wörter sein In einer Klassifikation für Pressartikel IPTC wird die Klasse Freizeit durch die Terme Reisen, Spiel, Hobby, Wohnen definiert Das Vorkommen bestimmter Terme im Dokument wird mit dem Vorkommen dieser Terme in der Merkmals-Beschreibung der Klassen verglichen. Dies kann über die Bildung von Skalarprodukten zwischen den Dokumentvektoren (bestimmt über die Deskriptoren) und den Vektoren der Klassen (bestimmt über die Klassenbeschreibungen) geschehen. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011
Automatische Zuordnung zu einer Klassifikation beispiel Wie kann ein Programm automatisch erkennen, ob es sich bei diesen beiden Mails um Spam handelt? Mail a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Mail b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. Order now Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011
Automatische Zuordnung zu einer Klassifikation ausgangssituation Bestimmung der Klassen durch Merkmale (Attribute) - Ausgangslage Klasse/ Attribut SPAM Kein Spam Viagra Sehr geehrte Sex Hochachtungsvoll selling wissenschaftlich buy Hausarbeit pills Referat Merkmale der Klassen Dok a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Dok b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. 27.03.2017 Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011
Automatische Zuordnung zu einer Klassifikation ausgangssituation Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes SPAM a b Kein SPAM Viagra 1 Sehr geehrte sex Hochachtungsvoll selling wissenschaftliche buy Hausarbeit pills Referat Skalarprodukt: Klasse/Dok 1/5 4/5 Dok a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Dok b Hi,Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. 27.03.2017 Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011
Automatische Zuordnung zu einer Klassifikation ausgangssituation Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes SPAM a b Kein SPAM Viagra 1 Sehr geehrte sex Hochachtungsvoll selling wissenschaftliche buy Hausarbeit pills Referat Skalarprodukt: Klasse/Dok 1/5 4/5 Mail a ist : = 20% Spam = 80% kein Spam Einordnung kein Spam Mail b: = 0% kein Spam = 80% Spam Einordnung Spam Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011