Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:

Ähnliche Präsentationen


Präsentation zum Thema: "Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:"—  Präsentation transkript:

1 Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle: ge/images/Illustrations/classeur.jpg

2 Ausgangssituation ausgangssituation Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Folgende 4 Dokumente sollen geclustert werden: D1 Fische in Olivenöl anbraten und mit Wasser ablöschen D2 Fische braten und mit Wasser ablöschen D3 den Fischen nur bei abgestellter Pumpe Fischfutter in das Wasser des Aquariums geben D4 Pumpe abstellen, bevor Sie den Fischen das Fischfutter geben Wie würden Sie diese 4 Dokumente in 2 Cluster aufteilen?

3 Clustering indexvektor Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Festlegung der Indexterme, die Dokument beschreiben Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser D1: D2: D3: D4:

4 Paarweise Multiplikation der Vektoren (verkürzt) indexvektor Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Der Ähnlichkeitsabgleich durch paarweises Multiplizieren aller Dokumente miteinander ergibt zwei Cluster Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser D1: D2: D3: D4: Cluster 1 (benenne ich Intellektuell Kochen) Cluster 2 (benenne ich intellektuell Aquarium)

5 Clusterzentroid berechenen indexvektor Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Für die Cluster 1 und 2 lässt sich jetzt der Clusterzentroid (Mittelwert) berechnen D1: D2: D3: D4: Zentroidvektor Cluster 1: Kochen Zentroidvektor Cluster 2 Aquarium

6 Neues Dokument mit den Zentroidvektoren vergleichen indexvektor Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Welchem Cluster wird das neue Dokument D5 zugeordnet? Zentroidvektor Kochen Zentroidvektor Aquarium D5 Fisch mit Olivenöl in Wasser braten Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser Zuordnung Vektoren Paarweise Mulitplikation mit den Zentroidvektoren der vorhandenen Cluster = 3:6 = 0, = 2:6 = 0,33

7 Neues Dokument wird Cluster Kochen zugeordnet indexvektor Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Welchem Cluster wird das neue Dokument D5 zugeordnet? D5 Fisch mit Olivenöl in Wasser braten Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser Zuordnung Vektoren = 3:6 = 0,5

8 Automatische Zuordnung zu einer Klassifikation Automatische klassifikation Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe Merkmale eine Klassifikation werden festgelegt Merkmale können einer Klasse zugeordnete Wörter sein In einer Klassifikation für Pressartikel IPTC wird die Klasse Freizeit durch die Terme Reisen, Spiel, Hobby, Wohnen definiertIPTC 1.Das Vorkommen bestimmter Terme im Dokument wird mit dem Vorkommen dieser Terme in der Merkmals- Beschreibung der Klassen verglichen. 1.Dies kann über die Bildung von Skalarprodukten zwischen den Dokumentvektoren (bestimmt über die Deskriptoren) und den Vektoren der Klassen (bestimmt über die Klassenbeschreibungen) geschehen.

9 Automatische Zuordnung zu einer Klassifikation beispiel Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Mail a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Mail b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. Order now Wie kann ein Programm automatisch erkennen, ob es sich bei diesen beiden Mails um Spam handelt?

10 Automatische Zuordnung zu einer Klassifikation ausgangssituation Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe Klasse/ Attribut SPAMKein Spam ViagraSehr geehrte SexHochachtungsvoll sellingwissenschaftlich buyHausarbeit pillsReferat Dok a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Dok b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. Bestimmung der Klassen durch Merkmale (Attribute) - Ausgangslage Merkmale der Klassen

11 Automatische Zuordnung zu einer Klassifikation ausgangssituation Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe SPAMabKein SPAMab Viagra11Sehr geehrte10 sex01Hochachtungsvoll00 selling01wissenschaftliche10 buy00Hausarbeit10 pills01Referat10 Skalarprodukt: Klasse/Dok 1/54/5 0 Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes Dok a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Dok b Hi,Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again.

12 Automatische Zuordnung zu einer Klassifikation ausgangssituation Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 SPAMabKein SPAMab Viagra11Sehr geehrte10 sex01Hochachtungsvoll00 selling01wissenschaftliche10 buy00Hausarbeit10 pills01Referat10 Skalarprodukt: Klasse/Dok 1/54/5 0 Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes Mail a ist : = 20% Spam = 80% kein Spam Einordnung kein Spam Mail b: = 0% kein Spam = 80% Spam Einordnung Spam


Herunterladen ppt "Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:"

Ähnliche Präsentationen


Google-Anzeigen