Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Spree SoSe 2011 Clustering – Wie Maschinen die Ähnlichkeit von Dokumenten erkennen.

Ähnliche Präsentationen


Präsentation zum Thema: "Spree SoSe 2011 Clustering – Wie Maschinen die Ähnlichkeit von Dokumenten erkennen."—  Präsentation transkript:

1 Spree SoSe 2011 Clustering – Wie Maschinen die Ähnlichkeit von Dokumenten erkennen

2 Welche der 4 Dokumente sind sich am Ähnlichsten? D1 Protest Sparmaßnahmen Sternmarsch Senat D 2 Studenten Protest Sparmaßnahmen D 3 Protest Sternmarsch Senat D 4 Studenten Protest Sparmaßnahmen Sternmarsch Senat DeskriptorD 1D 2D 3D4 Studenten0101 Protest1111 Sparmaßnahmen1101 Sternmarsch1011 Senat1011 Genau: D1 und D4

3 Welche der 4 Dokumente sind sich am Ähnlichsten? Wieso D1 und D4? Die Spalten lassen sich als VEKTOREN mathematisch darstellen Vektoren lassen sich paarweise multiplizieren = Skalarprodukt Das Skalarprodukt von Dok 1 und Dok 4 errechnet man also nach folgender Formel: 4 = 0*1 + 1*1 + 1*1 + 1*1 +1*1

4 Skalarprodukt für Mathematiker

5 Vektorraummodell Mit Vektoren wird vor allem in der Physik gearbeitet. Physikalische Größen wie Kraft, die auf einen Körper ausgeübt wird besteht aus mehreren Werten, nämlich Richtung und eine Stärke. Ein Vektor kann aus beliebig vielen Merkmalen bestehen. Auch die in den Spalten der Dokument-Deskriptor-Matrix festgehaltenen Dokumente lassen sich mathematisch als Vektoren darstellen. Die Deskriptoren bilden die Dimensionen des Vektorraums. Wenn für ein Dokument 5 Deskriptoren bestimmt werden, besitzt der Vektor des Dokuments 5 Dimensionen (n=5). 5 Dimensionen sind für uns graphisch nicht mehr umsetzbar. Versuche von Visualisierung müssen sich auf drei Dimensionen beschränken.

6 Visualisierung als Vektorraummodell Deskriptoren, Terme, Wörter durch die gestrichelte Linie symbolisiert Auch die Query (Suchanfrage kann man durch einen Vektor darstellen Protest Studenten Sternmarsch Dokumente repräsentiert durch die Terme (Doc 2 T2; T3) Je kleiner der Winkel zwischen den Pfeilen, desto ähnlicher sind die Dokumente sich.


Herunterladen ppt "Spree SoSe 2011 Clustering – Wie Maschinen die Ähnlichkeit von Dokumenten erkennen."

Ähnliche Präsentationen


Google-Anzeigen