Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri.

Slides:



Advertisements
Ähnliche Präsentationen
Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"
Advertisements

Vorlesung Compilertechnik Sommersemester 2008
Wiederholung TexPoint fonts used in EMF.
Sortieren I - Bubblesort -
Relationentheorie AIFB SS Transitive (funktionale) Abhängigkeiten Transitive (funktionale) Abhängigkeiten (1|3) Geg.: r: (U | F); A,
Webseitenranking für Suchanfragen anhand von Linkgraphen
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.
Seminar Textmining WS 06/07 Themen I Übung in erster Linie um zugrundeliegende Methoden zu verstehen. D.h. es gibt immer einen/mehrere Themenschwerpunkte,
Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling.
Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.
Seminar Textmining WS 06/07 Aufgaben I 1.Metadaten 2.Einfache Inverse Liste 3.Modifizierte Inverse Liste für komplexere Anfragen 4.Boolsches Retrieval.
Seminar Textmining WS 06/07 Themen Übung 8 Diskussion über Erkennung von Eigennamen Question Answering Stemming.
Seminar Textmining WS 06/07
Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval.
Übung 2.1 Information Wieviele Fragen benötigen Sie beim „Zahlenraten“
3.1 3 Implementierungstechniken 3.1 Kompression von invertierten Dateien Warum? Parameter des Index: N = Anzahl Dokumente n = Anzahl Terme f t = Dokumentfrequenz.
Suchmaschinen Seminar Prinzipien und Algorithmen Peter K. Ibach Suchmaschinen.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
REKURSION + ITERATION. Bemerkung: Die in den folgenden Folien angegebenen "Herleitungen" sind keine exakten Beweise, sondern Plausibilitätsbetrachtungen.
Algorithmentheorie 02 – Polynomprodukt und Fast Fourier Transformation
Algorithmentheorie 7 – Bin Packing
Gottfried Vossen 5. Auflage 2008 Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme Kapitel 22: Grundlagen der Crash Recovery.
Information Retrieval Modelle: Vektor-Modell
Grundlegende Analysen & Zwischendarstellungen
Automatisches Clustering und automatische Klassifikation
Spree SoSe 2011 Clustering – Wie Maschinen die Ähnlichkeit von Dokumenten erkennen.
Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse
The Minerva Project Database Selection in the Context of P2P Search Christian Zimmer, Matthias Bender, Sebastian Michel, Gerhard Weikum Max-Planck-Institut.
Kapitel 3: Automatische Klassifikation von Dokumenten
M-L-Schätzer Erwartungswert
Statistische Methoden II SS 2007 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur nächste Woche - statt Vorlesungen -
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Information Retrieval: Methoden zur Selektivitätsabschätzung
Mikroprogrammierte Ablaufsteuerung
§ 28 Multilineare und Alternierende Abbildungen
Entitäten Extraktion Einführung
Prävention mit neuen Medien Möglichkeiten und Grenzen Dr. Yves Hänggi, 17. Januar 2013.
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
... Unternehmens- leitung
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Teilprojekt Forschungsunterstützung Präsentation aus Anlass des öffentlichen Hearings 23. Juni 2010 Prof. Dr. Jörg Rogge Historisches Seminar Fachbereich.
Regelfragen für Schiedsrichter-Anwärter
Die Methode public Datenelement getEnde (Datenelement d) Ziel: //Klasse Knoten public Datenelement getEnde(Datenelement d){ return nachfolger.getEnde(inhalt);
Algebraische Schleifen und Strukturelle Singularitäten
Jamshid Azizi: Folie Isomorphietest Jamshid Azizi
8D-Report - completion by supplier: Excel /
Grafisch Differenzieren
Eine mannschaftstaktische Maßnahme im Volleyball
3rd Review, Vienna, 16th of April 1999 SIT-MOON ESPRIT Project No Siemens AG Österreich Robotiker Technische Universität Wien Politecnico di Milano.
Brüche-Quartett Klasse 6-8 Spieler 4-6. Brüche-Quartett A1 Brüche-Quartett A2 Brüche-Quartett A3 Brüche-Quartett A4 Brüche-Quartett B1 Brüche-Quartett.
Information Retrieval, Vektorraummodell
Information Retrieval Modelle: Probabilistische Modelle Kursfolien
RONI R3D 3. April 2015 RONI R3D1 Koordinierung in 3D.
WS03/041 Dynamische Programmierung (3) Konstruktion optimaler Suchbäume Prof. Dr. S. Albers Prof. Dr. Th. Ottmann.
► Zahlen kleiner 0 heissen negative Zahlen.
 Präsentation transkript:

Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri

Seminar Textmining WS 06/07

1. Klassifikation Welche Sorten von Klassifikationen gibt es? –Erläutern Sie Facettenklassifikation, Registerklassifikation und Dezimalklassifikation? –Lässt sich eine Polyhierarchie stets in eine Monohierarchie überführen? Gegeben seien drei Dokumente und zwei Klassen. D1 = T1 T1 D2 = T2 T2 D3 = T1 T2 T3 K1 = T1 K2 = T2 Klassifizieren Sie die Dokumente in die zwei Klassen unter berücksichtigung einer Term-Term Korrelationsmatrix T1T2T3 T100 T20.5 T3

Seminar Textmining WS 06/07 2. Probabilistic Information Retrieval Im binary independence model, wenn P(rel), wie gross ist dann P(nrel)? Es werden Wahrscheinlichkeiten genutzt, um auszurechnen, wie ein Dokument zu einer query passt f(d,q) liefert einen Wert, der aussagt, wie sehr d zu q passt. Dadurch lassen sich alle d zu q ranken. f(d,q) = log (Pq(rel|(d1,…,dn)) / (1-Pq(rel…))) Um aber Pq abschaetzen zu können wird bedingte Unabhängigkeit angenommen, somit f(d,q) = Summei di log ((pi(1-qi)) / (qi(1-pi)) ) Dabei ist pi die Wkt. Dass ein relevantes Dokument Term i beinhaltet Und qi ist die Wkt., dass ein irrelevantes Dok. Term i beinhaltet Nach Schätzung durch Relevanzurteile dann nur noch einsetzen

Seminar Textmining WS 06/ Daten Berechnen sie, wie sehr Dokumente zu query passen, wenn Relevanz, Dokumente und Terme gegeben sind. T1 T2 T3 T4 T5 rel(q1) D n D n D n D r D r D r D n pi1 (ri/r) qi1 (fi-ri)/(f-r) -fi ist dok. mit i- f ist zahl dokumente -ri ist rel. mit i- r ist zahl rel. dokum. q f(d,q) = Summei dUNDqi log ((pi(1-qi)) / (qi(1-pi)) ) f(d1,q1) = f(d2,q1) = f(d3,q1) = F(d4,q1) = F(d5,q1) = F(d6,q1) = F(d7,q1) =

Seminar Textmining WS 06/ Daten T1 T2 T3 T4 T5 rel(q1) D n D n D n D r D r D r D n pi1 2/3 2/3 2/3 0 1/3 (ri/r) qi1 2/4 3/4 2/4 2/4 2/4 (fi-ri)/(f-r) -fi ist dok. mit i- f ist zahl dokumente -ri ist rel. mit i- r ist zahl rel. dokum. q f(d1,q1) = Si di log ((pi(1-qi)) / (qi(1-pi)) ) %aber nur da, wo Ti und Di != 0 = 1*log(0.6*0.5/0.5*0.3) + 1*log(0.6*0.25/0.75*0.3) = = = 0.12 f(d2,q1) = = f(d3,q1) = = -0.3 F(d4,q1) = = F(d5,q1) = = 0.12 F(d6,q1) = = 0 F(d7,q1) = = -0.18

Seminar Textmining WS 06/07 3. Indexierung von Dokumenten Welche Indexierungsvarianten sind Ihnen bekannt? Welche Terme sollen im Index stehen? Welche Faktoren spielen eine negative Rolle?

Seminar Textmining WS 06/ Indexierung von Dokumenten Welche Indexierungsvarianten sind Ihnen bekannt? –Titelbasiertes indexieren –Schlagwörterbasiert –Abstract –Ordnungssystem (Klassifikationssystem) Welche Terme sollen im Index stehen? Welche Faktoren spielen eine negative Rolle? –Ambiguität –Historisch verwandte Begriffe –Metaphorische Benutzung –Fachterminologie –Unspezifische Terme –Verwendung der Terme bei Recherche und bei Indexierung

Seminar Textmining WS 06/ WordNet n 02 organism 0 being n v c a c a c a 0000 ~ n 0000 ~ n 01 conspecific n 0000 | an organism belonging to the same species as another organism doc