Spree SoSe 2011 Clustering – Wie Maschinen die Ähnlichkeit von Dokumenten erkennen.

Slides:



Advertisements
Ähnliche Präsentationen
3. 3D-Betrachtungstransformationen
Advertisements

Elementare Grundlagen der Vektorrechnung
Erhard Künzel für Info 9. Klasse: Digitale Schule Bayern© Erhard Künzel.
13. Transformationen mit Matrizen
Wilhelm-Raabe-Schule Fachbereich: Mathematik Thema: Lineare Funktionen
Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri.
Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.
Seminar Textmining WS 06/07
Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval.
Grundlagen der Geometrie
Schleifen-beobachtung
Information Retrieval Modelle: Vektor-Modell
2D-Visualisierung von Daten
Geometrie. Geometrie 6. Ebene Geometrie Ein Punkt ist, was keinen Teil hat. Euklid ( ) Gerade analytisch: y = mx + c y(0) = c y(1)
Klausur „Diskrete Mathematik II“
Summenformeln (2. Teil) UNIVERSITÄT KASSEL -FACHBEREICH 17 MATHEMATIK-
Spree/Worg2/LE 10 Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen.
Automatisches Clustering und automatische Klassifikation
Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse
Qualität einer Dokumentation Relevanz- und Vollständigkeitsrate
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.
Quaternionen Eugenia Schwamberger.
Primzahlen Primzahlen sind natürliche Zahlen, die nur durch sich selbst und durch 1 teilbar sind? Bedingung: Die Zahl muss größer sein als 1.
§14 Basis und Dimension (14.1) Definition: V sei wieder ein K-Vektorraum. Eine Menge B von Vektoren aus V heißt Basis von V, wenn B ist Erzeugendensystem.
Folie 1 § 30 Erste Anwendungen (30.2) Rangberechnung: Zur Rangberechnung wird man häufig die elementaren Umformungen verwenden. (30.1) Cramersche Regel:
§14 Basis und Dimension  (14.1) Definition: V sei wieder ein K-Vektorraum. Eine Menge B von Vektoren aus V heißt Basis von V, wenn B ist Erzeugendensystem.
§11 Skalarprodukt. Euklidische Räume
Histogramm/empirische Verteilung Verteilungen
Computergraphik mit OpenGL Einführung. Bilder Objekt existiert im Raum unabhängig vom Betrachter Objekte sind beschrieben durch die Position verschiedener.
Arbeit, Energie.
Beispiel: Arbeit, Skalarprodukt zwischen Kraft- und Weg-Vektor
9 Mechanik 6 Mechanik 6 Mechanik 8 Mechanik 8 Mechanik 6 Mechanik 8
Gleichförmige Bewegung
Vektoren Grundbegriffe für das Information Retrieval
Skalare, Vektoren.
Folie 1 Kapitel IV. Matrizen Inhalt: Matrizen als eigenständige mathematische Objekte Zusammenhang zwischen Matrizen und linearen Abbildungen Produkt von.
§23 Basiswechsel und allgemeine lineare Gruppe
§3 Allgemeine lineare Gleichungssysteme
Mechanische Arbeit Arbeit bei unterschiedlicher Richtung von Kraft- und Weg am Beispiel der Hub-Arbeit.
Der magnetische Fluss Feldstärke und Raum.
Der elektrische Fluss Feldstärke und Raum.
Vektorrechnung in der Schule
Was ist eine Funktion? Eine Zuordnung,
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt
Multivariate Statistische Verfahren
Vektoraddition von Geschwindigkeiten
Multivariate Statistische Verfahren
Multivariate Statistische Verfahren
Drehung im Raum – Kreiseltheorie
Physik für Mediziner und Zahmediziner
Information Retrieval, Vektorraummodell
Scaffold 29S: Komplexe Zahlen
SINUS-Transfer NRW Projekt 2 Klaus Gerber
Skalare, Vektoren.
Grundlagen der Geometrie
Erhaltungsgrößen Egon Berger Didaktik der Physik
Didaktik der Geometrie (11) Vorlesung im Sommersemester 2004 Prof. Dr. Kristina Reiss Lehrstuhl für Didaktik der Mathematik Universität Augsburg.
Graphische Datenverarbeitung
8. Vektoren. 8. Vektoren Ortsvektor oder Polarvektor.
Rechnen mit negativen Klammern
Kräfte und ihre Wirkungen?
Die Kraft als physikalische Größe Hallo! Heute untersuchen wir die Kraft als physikalische Größe!
Der Winkel zwischen Vektoren
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
Lineare Algebra II (MAVT)
Kapitel IV. Matrizen Inhalt:
Herleitung der Formel zur Berechnung von Winkeln zwischen 2 Vektoren
 Präsentation transkript:

Spree SoSe 2011 Clustering – Wie Maschinen die Ähnlichkeit von Dokumenten erkennen

Welche der 4 Dokumente sind sich am Ähnlichsten? D1 Protest Sparmaßnahmen Sternmarsch Senat D 2 Studenten Protest Sparmaßnahmen D 3 Protest Sternmarsch Senat D 4 Studenten Protest Sparmaßnahmen Sternmarsch Senat DeskriptorD 1D 2D 3D4 Studenten0101 Protest1111 Sparmaßnahmen1101 Sternmarsch1011 Senat1011 Genau: D1 und D4

Welche der 4 Dokumente sind sich am Ähnlichsten? Wieso D1 und D4? Die Spalten lassen sich als VEKTOREN mathematisch darstellen Vektoren lassen sich paarweise multiplizieren = Skalarprodukt Das Skalarprodukt von Dok 1 und Dok 4 errechnet man also nach folgender Formel: 4 = 0*1 + 1*1 + 1*1 + 1*1 +1*1

Skalarprodukt für Mathematiker

Vektorraummodell Mit Vektoren wird vor allem in der Physik gearbeitet. Physikalische Größen wie Kraft, die auf einen Körper ausgeübt wird besteht aus mehreren Werten, nämlich Richtung und eine Stärke. Ein Vektor kann aus beliebig vielen Merkmalen bestehen. Auch die in den Spalten der Dokument-Deskriptor-Matrix festgehaltenen Dokumente lassen sich mathematisch als Vektoren darstellen. Die Deskriptoren bilden die Dimensionen des Vektorraums. Wenn für ein Dokument 5 Deskriptoren bestimmt werden, besitzt der Vektor des Dokuments 5 Dimensionen (n=5). 5 Dimensionen sind für uns graphisch nicht mehr umsetzbar. Versuche von Visualisierung müssen sich auf drei Dimensionen beschränken.

Visualisierung als Vektorraummodell Deskriptoren, Terme, Wörter durch die gestrichelte Linie symbolisiert Auch die Query (Suchanfrage kann man durch einen Vektor darstellen Protest Studenten Sternmarsch Dokumente repräsentiert durch die Terme (Doc 2 T2; T3) Je kleiner der Winkel zwischen den Pfeilen, desto ähnlicher sind die Dokumente sich.