Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Automatisches Clustering und automatische Klassifikation

Ähnliche Präsentationen


Präsentation zum Thema: "Automatisches Clustering und automatische Klassifikation"—  Präsentation transkript:

1 Automatisches Clustering und automatische Klassifikation
Quelle: Spree SoSe 2011

2  Ausgangssituation Folgende 4 Dokumente sollen geclustert werden:
D1 Fische in Olivenöl anbraten und mit Wasser ablöschen D2 Fische braten und mit Wasser ablöschen D3 den Fischen nur bei abgestellter Pumpe Fischfutter in das Wasser des Aquariums geben D4 Pumpe abstellen, bevor Sie den Fischen das Fischfutter geben Wie würden Sie diese 4 Dokumente in 2 Cluster aufteilen? Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011

3  Clustering Festlegung der Indexterme, die Dokument beschreiben
indexvektor Festlegung der Indexterme, die Dokument beschreiben Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser D1: D2: D3: D4: Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011

4  Paarweise Multiplikation der Vektoren (verkürzt)
indexvektor Der Ähnlichkeitsabgleich durch paarweises Multiplizieren aller Dokumente miteinander ergibt zwei Cluster Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser Cluster 1 (benenne ich Intellektuell Kochen) D1: D2: Cluster 2 (benenne ich intellektuell Aquarium) D3: D4: Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011

5  Clusterzentroid berechenen
indexvektor Für die Cluster 1 und 2 lässt sich jetzt der Clusterzentroid (Mittelwert) berechnen D1: D2: Zentroidvektor Cluster 1: Kochen D3: Zentroidvektor Cluster 2 Aquarium D4: Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011

6  Neues Dokument mit den Zentroidvektoren vergleichen
indexvektor Welchem Cluster wird das neue Dokument D5 zugeordnet? D5 „Fisch mit Olivenöl in Wasser braten“ Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser Zuordnung Vektoren Paarweise Mulitplikation mit den Zentroidvektoren der vorhandenen Cluster = 3:6 =0,5 Zentroidvektor Kochen Zentroidvektor Aquarium = 2:6 = 0,33 Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011

7  Neues Dokument wird Cluster Kochen zugeordnet
indexvektor Welchem Cluster wird das neue Dokument D5 zugeordnet? D5 „Fisch mit Olivenöl in Wasser braten“ Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser Zuordnung Vektoren = 3:6 = 0,5 Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011

8 Automatische klassifikation
Automatische Zuordnung zu einer Klassifikation Automatische klassifikation Merkmale eine Klassifikation werden festgelegt Merkmale können einer Klasse zugeordnete Wörter sein In einer Klassifikation für Pressartikel IPTC wird die Klasse Freizeit durch die Terme Reisen, Spiel, Hobby, Wohnen definiert Das Vorkommen bestimmter Terme im Dokument wird mit dem Vorkommen dieser Terme in der Merkmals-Beschreibung der Klassen verglichen. Dies kann über die Bildung von Skalarprodukten zwischen den Dokumentvektoren (bestimmt über die Deskriptoren) und den Vektoren der Klassen (bestimmt über die Klassenbeschreibungen) geschehen. Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011

9  Automatische Zuordnung zu einer Klassifikation
beispiel Wie kann ein Programm automatisch erkennen, ob es sich bei diesen beiden Mails um Spam handelt? Mail a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Mail b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. Order now Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011

10  Automatische Zuordnung zu einer Klassifikation
ausgangssituation Bestimmung der Klassen durch Merkmale (Attribute) - Ausgangslage Klasse/ Attribut SPAM Kein Spam Viagra Sehr geehrte Sex Hochachtungsvoll selling wissenschaftlich buy Hausarbeit pills Referat Merkmale der Klassen Dok a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Dok b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011

11  Automatische Zuordnung zu einer Klassifikation
ausgangssituation Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes SPAM a b Kein SPAM Viagra 1 Sehr geehrte sex Hochachtungsvoll selling wissenschaftliche buy Hausarbeit pills Referat Skalarprodukt: Klasse/Dok 1/5 4/5 Dok a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Dok b Hi,Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011

12  Automatische Zuordnung zu einer Klassifikation
ausgangssituation Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes SPAM a b Kein SPAM Viagra 1 Sehr geehrte sex Hochachtungsvoll selling wissenschaftliche buy Hausarbeit pills Referat Skalarprodukt: Klasse/Dok 1/5 4/5 Mail a ist : = 20% Spam = 80% kein Spam  Einordnung kein Spam Mail b: = 0% kein Spam = 80% Spam Einordnung Spam Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011


Herunterladen ppt "Automatisches Clustering und automatische Klassifikation"

Ähnliche Präsentationen


Google-Anzeigen