Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

Ähnliche Präsentationen


Präsentation zum Thema: "ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von."—  Präsentation transkript:

1 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von in Matrizen enthalten orthonormale Spaltenvektoren Matrix ist Diagonalmatrix reduzierte, zerlegte Matrizen bedeuten Speichereinsparung Zerlegung entspricht Abbildung auf minimale, schlummernde (latente), künstliche Konzepte

2 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de2 Zerlegung der Feature-Matrix entspricht dem Rang der Matrix F

3 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de3 Beispiel Feature-Vektoren

4 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de4 Beispiel Feature-Vektoren nach Zerlegung Vektoren in Matrix :

5 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de5 Analyse der Matrix Diagonalwerte der Matrix geben Relevanz der einzelnen Konzepte an niedrige Werte entsprechen geringer Relevanz und umgekehrt absteigende Sortierung der Diagonalelemente durch geschicktes Tauschen der Spalten/Zeilen

6 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de6 Dimensionsreduzierung: Entfernen der Konzepte mit den kleinsten Diagonalwerten minimierter Approximationsfehler reduzierte Matrizen bedeuten häufig reduzierten Speicheraufwand Analyse der Matrix (2)

7 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de7 Dimensionsreduzierung graphisch

8 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de8 Korrespondenz von Spalten und Zeilen

9 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de9 Ähnlichkeitsvergleiche Ähnlichkeitsberechnung auf der Basis der drei Matrizen Vergleich von Feature-Vektoren: Skalarprodukt auf Matrizen und berechenbar daher Kosinusmaß und euklidsche Distanz leicht berechenbar

10 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de10 Vergleich der Dimensionen Skalarprodukt auf Matrizen und berechenbar z.B. Synonymerkennung in Texten Skalarprodukt ähnlich der Kovarianz zweier Dimensionen Ähnlichkeitsvergleiche

11 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de11 Dynamische Feature-Matrix ständige Neuberechnung der Zerlegung ist zu aufwändig Lösungsansatz: Zerlegung einer repräsentativen, statischen Untermenge der Feature-Vektoren neue Feature-Vektoren werden dann mit und multipliziert

12 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de12 Bewertung des LSI-Verfahrens Bewertung ähnlich zur KLT Hauptunterschiede: Zerlegung der Feature-Matrix an Stelle der Kovarianzmatrix Speichern und Manipulieren der zerlegten Matrizen an Stelle Rücktransformation nach Reduktion

13 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de13 Beispiel Feature-Matrix Beispiel Feature-Matrix: Erzeugung einer dritten Dimension durch Summierung der ersten beiden plus 0,5:

14 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de14 Singulärwertzerlegung ist spaltenorthonormale -Matrix ist -Diagonalmatrix ist zeilenorthonormale -Matrix ist Rang der Matrix

15 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de15 Singulärwertzerlegung (2) Berechnung durch Ausnutzung folgender Gesetze:

16 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de16 Singulärwertzerlegung des Beispiels

17 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de17 Reduzierung der Matrizen Zeilen-/Spaltentausch damit Diagonalwerte von absteigen Reduzieren heißt Streichen entspr. -Spalten

18 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de18 Reduzierung der Matrizen (2) Approximationsfehler ist abhängig von entfernten Diagonalwerten siehe Matrizenproduktion in dyadischer Schreibweise:

19 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de19 Reduzierung im Beispiel Wert 0,2295 im Vergleich zu anderen Werten verschwindend klein dritte Dimension wurde künstlich erzeugt Reduzierung der dritten Dimension

20 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de20 Transformation neuer Feature-Vektoren Annahme: Zerlegung erfolgte auf repräsentativer Feature- Matrix Ziel: Erzeugung der entsprechenden -Spaltenvektoren es gilt:

21 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de21 Transformation neuer Feature-Vektoren (2) sei zu transformierender Feature-Vektor erzeugt durch Multiplikation mit Matrizen und

22 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de22 Transformation im Beispiel Transformation von zu

23 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de23 Berechnungen auf transformierten Vektoren Ausnutzung von zur Berechnung Skalarprodukt Kosinusmaß:

24 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de24 Berechnungen auf transformierten Vektoren (2) Ausnutzung von zur Berechnung Skalarprodukt euklidsche Distanz:


Herunterladen ppt "ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von."

Ähnliche Präsentationen


Google-Anzeigen