Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider.

Ähnliche Präsentationen


Präsentation zum Thema: "Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider."—  Präsentation transkript:

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse

2 Scheffer/Sawade: Sprachtechnologie Scheffer/Dick/Haider/Prasse: Sprachtechnologie 2 Information Retrieval Konstruktion von Systemen, die die Informationsbedürfnisse der Benutzer befriedigen. Repräsentation, Speicherung, Zugriff auf Dokumente. Informationsbedürfnis kann, muss aber nicht durch Anfrage ausgedrückt werden.

3 Scheffer/Sawade: Sprachtechnologie Scheffer/Dick/Haider/Prasse: Sprachtechnologie 3 Schlüsselwort-Modell Dokument repräsentiert durch Schlüsselwörter. Schlüsselwörter unterschiedlich speziell und relevant, unterschiedliche Gewichte. K = {k 1, …, k t } sind Index-Terme. Dokument d J = (w 1,J, …, w t,J ) w i,J =0, wenn k i nicht in d J vorkommt, w i,J =g i (d J ) sonst. beliebige Funktion; berücksichtigt, ob und wie oft das Wort vorkommt

4 Scheffer/Sawade: Sprachtechnologie Scheffer/Dick/Haider/Prasse: Sprachtechnologie 4 Boolesches Modell Dokumente: beschrieben durch Vorkommen von Schlüsselwörtern. Suchanfrage sind Boolesche Ausdrücke. Ergebnisse der Suchanfrage werden durch Mengenoperationen bestimmt. Binäre Entscheidungen, kein Ranking der Ergebnisse. Dokument d J = (w 1,J, …, w t,J ), für Schlüsselwörter. w i,J =0, wenn k i nicht in d J vorkommt, w i,J =1 sonst.

5 Scheffer/Sawade: Sprachtechnologie Scheffer/Dick/Haider/Prasse: Sprachtechnologie Ranking oder binäre Entscheidungen Boolsches Modell gibt alle Dokumente zurück, die der Anfrage genügen. Keine Reihenfolge. Gefühlt „mehr Kontrolle“ für den Nutzer Score-Bewertungen implizieren Ranking Schlechtes Ranking bedeutet schlechte Performance 5

6 Scheffer/Sawade: Sprachtechnologie Scheffer/Dick/Haider/Prasse: Sprachtechnologie 6 Vektorraummodell Bag-of-Words:  Nur die Menge der Wörter wird berücksichtigt.  Keine Berücksichtigung der Wortreihenfolge. Vektorraummodell:  Jeder Text = Punkt in hochdimensionalem Raum.  Raum hat eine Dimension für jedes Wort der Sprache. Variante: nur Wortstämme berücksichtigen, „Stop- Wörter“ entfernen.

7 Scheffer/Sawade: Sprachtechnologie Scheffer/Dick/Haider/Prasse: Sprachtechnologie Vorverarbeitung Stemming: Nur Wortstämme verwenden  Auch: bin, bist, sind, … -> sein Lemmatizing: Wie Stemming, nur unter Zuhilfenahme von Parseinformationen. Normalisierung: z.B im Englischen: anti- discriminatory und antidiscriminatory. Auch Synonymauflösung: Auto, Wagen Stopwords: der, die, das, von, … 7

8 Scheffer/Sawade: Sprachtechnologie Scheffer/Dick/Haider/Prasse: Sprachtechnologie 8 Vektorraum-Modell Text wird repräsentiert durch Punkt im hochdimensionalen Raum, Wortreihenfolge bleibt unberücksichtigt, Wortstammbildung, „inverse document frequency“.

9 Scheffer/Sawade: Sprachtechnologie Scheffer/Dick/Haider/Prasse: Sprachtechnologie 9 Vektorraum-Modell: TFIDF-Repräsentation Termfrequenz eines Wortes in einem Text = # Vorkommen des Wortes im Text. Problem: Einige Wörter sind weniger relevant (und, oder, nicht, wenn, …) Lösung: Inverse Dokumentenfrequenz

10 Scheffer/Sawade: Sprachtechnologie Scheffer/Dick/Haider/Prasse: Sprachtechnologie 10 Vektorraum-Modell Problem: Lange Texte haben lange Vektoren, führt zu Verzerrungen beim Ähnlichkeitsmaß. Lösung: Normieren Repräsentation eines Textes:

11 Scheffer/Sawade: Sprachtechnologie Scheffer/Dick/Haider/Prasse: Sprachtechnologie TFIDF Alternative Definitionen für Termfrequenz, Dokumentfrequenz und Normalisierung Auszug aus Manning, et.al.: Introduction to Information Retrieval: 11

12 Scheffer/Sawade: Sprachtechnologie Scheffer/Dick/Haider/Prasse: Sprachtechnologie 12 Vektorraum-Modell Ähnlichkeit zwischen Text d J und und Anfrage q: Cosinus des Winkels zwischen den Vektoren. Ähnlichkeit: Zwischen 0 und 1.

13 Scheffer/Sawade: Sprachtechnologie Scheffer/Dick/Haider/Prasse: Sprachtechnologie 13 Probabilistisches Modell Binary independence retrieval (BIR) model. Dokument d J = (w 1,J, …, w t,J ), für Schlüsselwörter. w i,J =0, wenn k i nicht in d J vorkommt, w i,J =1 sonst. R ist die Menge der relevanten Dokumente. Gesucht: Schätzer für P(R | d J ): P(Dokument ist relevant). Ähnlichkeit: Odds-Ratio

14 Scheffer/Sawade: Sprachtechnologie Scheffer/Dick/Haider/Prasse: Sprachtechnologie 14 Probabilistisches Modell Bayes‘ Regel: P(R) ist konstant (für alle Dokumente gleich) Annahme: Die Terme des Dokuments sind unabhängig:

15 Scheffer/Sawade: Sprachtechnologie Scheffer/Dick/Haider/Prasse: Sprachtechnologie 15 Probabilistisches Modell Dann folgt für sim: : Wahrscheinlichkeit für Anfrageterm k i in relevanten Texten. : Wahrscheinlichkeit dafür, dass Anfrageterm k i in relevantem Text nicht auftritt.

16 Scheffer/Sawade: Sprachtechnologie Scheffer/Dick/Haider/Prasse: Sprachtechnologie Probabilistisches Modell Annahme: Wörter, die in der Anfrage q nicht auftauchen, haben gleiche Wahrscheinlichkeit in relevanten wie nicht relevanten Dokumenten vorzukommen. Logarithmiert und leicht umgeformt: 16

17 Scheffer/Sawade: Sprachtechnologie Scheffer/Dick/Haider/Prasse: Sprachtechnologie 17 Probabilistisches Modell Problem: P(k i | R) ist nicht bekannt. Muss irgendwie von Hand eingestellt oder aus Daten gelernt werden.

18 Scheffer/Sawade: Sprachtechnologie Scheffer/Dick/Haider/Prasse: Sprachtechnologie Fragen? 18


Herunterladen ppt "Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider."

Ähnliche Präsentationen


Google-Anzeigen