Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt.

Ähnliche Präsentationen


Präsentation zum Thema: "Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt."—  Präsentation transkript:

1 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt von Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding Kursfolien, Karin Haenelt mit Folien aus: Yu-Wen Pang (2001). Sprachverarbeitung im Information Retrieval.

2 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 2 Das Projekt

3 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 3 Quellen dieser Kursfolien Originalartikel –Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). Natural Language Information Retrieval: TREC-5 Report –Tomek Strzalkowski, Jussi Karlgren, Jose Perez-Carballo, Anette Hulth, Pasi Tapanainen, Timo Lahtinen (1999). Natural Language Information Retrieval : TREC-8 Report /pubs/trec8/papers/ge8adhoc2.pdfhttp://trec.nist.gov /pubs/trec8/papers/ge8adhoc2.pdf –Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo (1999). Evaluating Natural Language Processing Techniques in Information Retrieval. In : T. Strzalkowski (ed.): Natural Language Information Retrieval, Kluwer Academic Publishers Kursfolien –Yu-Wen Pang (2001). Sprachverarbeitung im Information Retrieval. Seminarreferat kontext.fraunhofer.de/haenelt/kurs/Referate/Pang/pang.htm | ppt | pskontext.fraunhofer.de/haenelt/kurs/Referate/Pang/pang.htm pptps –Vanessa Micelli, Christian Pretzsch, Delphine Vennin (2003). Sprachverarbeitungsmethoden im Information Retrieval. Seminarreferat kontext.fraunhofer.de/haenelt/kurs/Referate/Micelli_Pretzsch_Vennin_WS02/Sprachver arbeitungInIR.htm, | pdf | ppt kontext.fraunhofer.de/haenelt/kurs/Referate/Micelli_Pretzsch_Vennin_WS02/Sprachver arbeitungInIR.htmpdfppt

4 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 4 mit Hilfe von NLP-Technik die Leistung des Volltext-Dokument-Retrieval verbessern Schwerpunkte – Verbesserung der Dokument- repräsentation (Indexierung) – Query Expansion Ziele des Projekts Folie nach: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 2

5 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 5 Inhalt Das Stream-Modell Stream-Merging Short Queries, Long Queries Query Expansion Retrievalexperimente und Ergebnisse

6 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 6 Das Stream-Modell Stream-Merging Short Queries, Long Queries Query Expansion Retrievalexperimente und Ergebnisse

7 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 7 Ansatz Verwendung verschiedender statistischer und sprachverarbeitender Verfahren für robuste Textanalyse Zusammenstellung der verwendeten Methoden im stream model

8 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 8 Verwendete Sprachverarbeitungsmethoden 1 1.Eliminate stopwords: original text words minus certain no- content words are used to index documents. 2.Morphological stemming: we normalize across morphological word variants using a lexicon-based stemmer. proliferation, proliferate, proliferating 3.Phrase extraction: we use various shallow text processing techniques, such as part-of-speech tagging, phrase boundary detection, and word co-occurrence metrics to identify stable strings of words, such as joint venture. Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 3/4

9 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 9 Verwendete Sprachverarbeitungsmethoden 2 4.Phrase normalization: we identify head+modifier pairs in order to normalize across syntactic variants such as weapon proliferation, proliferation of weapons, proliferate weapons, into weapon+proliferate. 5.Proper names: we identify proper names for indexing, including people names and titles, location names, organization names, etc. Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 3/4

10 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 10 Das Stream Modell Tomek Strzalkowski, Jussi Karlgren, Jose Perez-Carballo, Anette Hulth, Pasi Tapanainen, Timo Lahtinen (1999: 3)

11 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 11 Stream Modell Stream Indizes: Dokumentrepräsentationen erzeugt mit verschiedenen Methoden der –Dokumentindexierung –Termextraktion –Termgewichtung Anfragen (queries) vorverarbeitet mit der streamspezifischen Zusammenstellung von Methoden Endergebnis: Zusammenführung (merging) der Dokumentranglisten der einzelnen stream indexes Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 3

12 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 12 Stream: Stämme (stems stream) Funktion –ordnet den Textwörtern eine normalisierte Form zu Methode –Abtrennung von Suffixen (wie -ing, -s, -ment, -ation) implementation: implement –Ersetzung von Suffixen durch normalisierte Suffixe stor+age stor+e –Kontrolle der erzeugten Grundform mittels eines Wörterbuchs (gibt es die erzeugte Form als Wort?) Stream 1: stems Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo,(1999: 125)

13 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 13 Stream: Stämme (stems stream) Wirkung –einfachster aber wirksamster aller streams –erhöht recall –Gefahr: reduziert precision, Fehlerquelle –nicht zusammengehörige Wörter werden möglicherweise auf eine gemeinsame kanonische Form reduziert direction, directory > direct Stream 1: stems

14 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 14 Stream: Stämme Beispiel –originaler Text : The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. –Filtern von Stoppwörtern : The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. –Stemming: The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. veteranentitle award monetarycompensate medicalassist physicaldamageagentorange Stream 1: stems Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo,(1999: 125)

15 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 15 Stream: Phrasen (simple noun phrase stream) Funktion verwendet einfache Nominalphrasen als atomare Indexterme Basis part-of-speech tagging, stemming Identifikation der Phrasen: –reguläre Ausdrücke über part-of-speech tags –Länge (beliebig) limitiert auf 7 Wörter Stream 2: phrases Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo,(1999: 128/129)

16 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 16 Stream: Phrasen (simple noun phrase stream) verwendete Muster –Sequenz von Modifikatoren (vbn|vbg|jj) gefolgt von mindestens einem Nomen cryonic suspend, air traffic control system –Nomina als Modifikatoren von Nomina, u.s. citizen, china trade –Nomina (können & enthalten) warren commission, national air traffic controller Stream 2: phrases Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo,(1999: 129)

17 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 17 Stream: Namen (name stream) Funktion –verwendet Namen als atomare Indexterme –Namen nicht nach Typen unterschieden (Personen, Orte,..) Formen von Namen –United States of America, South Africa (nicht zerlegen) –Bill Clinton, President Bill Clinton (Varianten) Identifikation der Namen: –Standardverfahren: Wörter mit großem Anfangsbuchstaben im Englischen –hier verwendetes Verfahren: scanning of successive words labeled as proper names by the tagger (np and nps tags). Stream 3: name stream Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 7 Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 8

18 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 18 Stream: Namen (name stream) Beispiele –right+wing+christian+fundamentalism –u.s+constitution –gun+control+legislation –national+railroad+transportation+corporation –superfund+hazardous+waste+cleanup+programme –u.s+government –united+states –exxon+valdez –dow_corning+corporation –chairman+julius+d+winer –new+york –wall+street+journal Stream 3: name stream Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 7

19 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 19 Stream: Head+Modifier-Paare (Head+Modifier pairs stream) Dokumente repräsentiert durch H+M-Paare [head: retrieve] + [modifier: information]: information retrieval retrieval of information retrieve more information information that is retrieved Vorstellung: semantisch –Entdeckung von Konzepten –Erfassen semantischer Gleichheit verschiedener Oberflächenformen von Ausdrücken Realisierung: rein syntaktisch –Ermittlung von Wortpaaren durch syntaktische Analyse Stream 4: H+M Paare Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo,(1999: 123)

20 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 20 Head+Modifier-Paare (Head+Modifier pairs stream) erzeugt in 5 aufeinanderfolgenden Schritten 1. Part-of-speech (Wortart) tagging 2. Lexikon-basierte Normalisierung von Wörtern 3. syntaktische Analyse mit Tagged Text Parser 4. Extraktion von Head+Modifier Paaren 5. Korpus-basierte Disambiguierung von langen Nominalphrasen Folie übernommen von: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 9 Stream 4: H+M Paare

21 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 21 Schritt 1: Part-of-speech tagging Funktion –Zuordnung von morpho-syntaktischen Kategorien zu den Wörtern –Auflösung kategorialer lexikalischer Ambiguität they associate ball with sport associate partner Wirkung –genaueres stemming –Basis für Phrasenbegrenzung –Disambiguierung für nachfolgenden Parser verwendete Systeme –Brill tagger –BBN POST-tagger Stream 4: H+M Paare: Schritt 1 Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 10

22 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 22 Schritt 2: Normalisierung von Wörtern ( stemming ) Funktion –implementation implement –stores stor+e –stor+age stor+e s. Stream 2: stemming Stream 4: H+M Paare: Schritt 2

23 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 23 Schritt 3: Syntaktische Analyse mit Tagged Text Parser (TTP) Funktion –feinere Zusammenhänge zwischen Wörtern und Phrasen erkennen Eingabe –tagged text (d.h. disambiguierte Kategorien) –Linguistic String Grammar mit 400 Produktionen Ausgabe –Syntax-Bäume der Sätze Strategie –timer: begrenzt die Zeit für die Analyse eines Satzes –skip-and-fit-Modus (bei Zeitüberschreitung) approximative Analyse partielle Zuordnung zur Satzstruktur mit top-down Prädiktionen Stream 4: H+M Paare: Schritt 3

24 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 24 Schritt 4: Extraktion von Head+Modifier Paaren Ausgabe des Parsers: Prädikat-Argument-Strukturen Extraktion folgender Typen 1.a head noun and its left adjective or noun adjunct [h: example, m: good], [h: example, m: main] 2.a head noun and the head of its right adjunct awarding of monetary compensation [h: award, m: compensate] 3.the main verb of a clause and the head of its object phrase, [h: sell, m: weapon] 4.the head of the subject phrase and the main verb Europe + produce Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6 Stream 4: H+M Paare: Schritt 4

25 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 25 Schritt 4: Extraktion von Head+Modifier Paaren extrahierte Typen repräsentieren häufige syntaktische Varianten eines Konzepts Fehlerbeispiel former Soviet president > former president und Soviet president Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6 Stream 4: H+M Paare: Schritt 4

26 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 26 damage][cause+ Schritt 4: Extraktion von Head+Modifier Paaren Beispiel –originaler Text : The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. –Stemming: The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. –H+M Paare The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. veteranentitle award monetarycompensate medicalassist physicaldamageagentorange Stream 4: H+M Paare: Schritt 4 veteran][entitle + monetary][compensate+ medical] [damage+ agentorange [assist + [award+ assist] [award+ compensate] physical]

27 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 27 Schritt 4: Extraktion von Head+Modifier Paaren Beispiel –originaler Text : The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. –head+modifier Paare : damage+physical, cause+damage, award+assist, award+compensate, compensate+monetary, assist+medical, entitle+veteran Stream 4: H+M Paare: Schritt 4 Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo,(1999: 125)

28 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 28 Schritt 5: Disambiguierung langer Nominalphrasen Funktion zerlegt lange Nominalphrasen in sinnvolle H+M Paare Beispiel –natural language processing natural language language processing –insider trading case insider trading ? trading + case Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6 Stream 4: H+M Paare: Schritt 5

29 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 29 Schritt 5: Disambiguierung langer Nominalphrasen: Verfahren Disambiguierung erfolgt in zwei Phasen Phase 1 –Generierung nicht-ambiger H+M Paare –Übergabe strukturell ambiger Nominalphrasen an Phase 2 strukturell ambige Nominalphrase: Nominalphrase aus drei und mehr Wörtern, bestehend aus mindestens zwei Substantiven –Sammlung der Verteilungsstatistik der zusammengesetzten Terme (z.B. `insider trading´ häufiger als `trading case´) Phase 2 –Generierung von H+M Paaren aus den ambigen Nominalphrasen nach der Verteilungsstatistik -Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6 Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 11 Stream 4: H+M Paare: Schritt 5

30 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 30 Schritt 5: Disambiguierung langer Nominalphrasen: Verfahren Verteilungsbeispiel: Ketten von 2 Substantiven –viele nicht-ambige Vorkommen von insider trading, –wenige nicht-ambige Vorkommen von trading case. Verteilungsbeispiel: Ketten von mehreren Substantiven –viele Fälle: insider trading bleibt konstant: insider trading case, insider trading legislation, etc., –wenige Fälle: trading case bleibt konstant Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6 Stream 4: H+M Paare: Schritt 5

31 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 31 Weitere Streams nicht-normalisierte Wörter fragment stream: Dokumente zerlegt in Einheiten von 1024 Zeichen und Verwendung dieser Einheiten im Retrieval locality stream foreign country tags stream Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 8 weitere Streams

32 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 32 Das Stream-Modell Stream-Merging Short Queries, Long Queries Query Expansion Retrievalexperimente und Ergebnisse

33 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 33 Stream Merging Ergebnisse der einzelnen Streams: –Listen von Dokumenten, geordnet nach der Reihenfolge der Relevanz Gesamtergebnis: Merging –Berechnung der Gesamtrelevanz eines Dokuments aus der Relevanz der einzelnen Streams (stream merging) Faktoren, die das finale Ranking beeinflussen –Dokumentrelevanzwerte der einzelen Streams –Precision der Streams in bestimmten Rankingbereichen –durchschnittliche Precision eines Streams (gemessen am Trainingscorpus) –Anzahl von Streams, in denen ein Dokument ausgegeben wird –Relevanz eines Dokuments in den einzelnen Streams Tomek Strzalkowski, Fang Lin, Jin Wang,Jose Perez-Carballo,(1999: 133),Yu-Wen Pang (2001: 17)

34 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 34 Berechnung des Mergings d :Dokument d i : stream i A(i) : Koeffizient für stream i score(i)(d) : Relevanz des Dokuments d zur Query in Stream i nstreams(d) : Anzahl von Streams, in denen Dokument d ausgegeben wird ( beste Formel für das System PRISE) Folie nach: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 18

35 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 35 Das Stream-Modell Stream-Merging Short Queries, Long Queries Query Expansion Retrievalexperimente und Ergebnisse

36 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 36 Retrieval: TREC-Queries Long Query: verwendet alle Felder – Number: 252 Topic: Combating Alien Smuggling Description: What steps are being taken by governmental or even private entities world-wide to stop the smuggling of aliens. Narrative:To be relevant, a document must describe an effort being made (other than routine border patrols) in any country of the world to prevent the illegal penetration of aliens across borders. Short Query: verwendet nur das description field Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 15

37 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 37 Das Stream-Modell Stream-Merging Short Queries, Long Queries Query Expansion Retrievalexperimente und Ergebnisse

38 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 38 Query Expansion Beobachtung: Benutzerquery –approximiert Informationsbedarf –meistens nur semantisch oder begrifflich den relevanten Dokumenten ähnlich Ziel der Query Expansion Query soll den relevanten Dokumenten inhaltlich und strukturell ähnlicher werden Methoden der Query Expansion –Term-Expansion –Volltext-Expansion Folie nach: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 21

39 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 39 Retrieval mit originaler Query mit Hilfe `Relevance-Feedback´ beurteilen, ob die ausgegebenen Dokumente relevant sind Die Terme in den als relevant beurteilten Dokumenten werden zur Query hinzugefügt. Gewichtungen der Terme in der Query werden neu berechnet. Retrieval mit der bearbeiteten Query Folie übernommen von: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 22 Term-Expansion

40 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 40 In Top N Dokumente die zur Query relevanten Abschnitte aussuchen Retrieval mit originaler Query Indexierung für die expandierte Query ganze Abschnitte zur Query hinzufügen Retrieval mit der expandierter Query Folie übernommen von: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 23 Volltext-Expansion (neuer Vorschlag des Projekts)

41 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 41 Das Stream-Modell Stream-Merging Short Queries, Long Queries Query Expansion Retrievalexperimente und Ergebnisse

42 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 42 Retrieval: TREC-5 Ergebnisse genlp1: autom. multi-stream run with foreign country tagging + hyphened phrases. genlp2: autom. single-stream run (stems and bigrams) with foreign country tagging. genlp3: automatic, single-stream run with automatic full-text query expansion. genlp4: manual, multi-stream run with manual full-text query expansion. Baselines: SMART baseline with stems and bigrams sbase1: short queries sbase2: long queries sbase3: full-text expanded queries Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 19 R-precision is the precision at R where R is the number of relevant documents in the collection for the query. An R-precision of 1.0 is equivalent to perfect relevance ranking and perfect recall. (Mahesh)

43 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 43 Retrieval: Gewichtungsmethoden Stream 1: stems Dokument.Query lnc.ltc lnc.ntc

44 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 44 Retrieval: Verwendete Gewichtungsmethoden Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 19 Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo (1999: 133) Problem: konventionelle Ranking-Formeln sind nicht nach der Verteilung der Einheiten in den durch streams erweiterten Indizes entworfen The selection of one scheme over another can have dramatic effect on systems performance

45 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 45 Retrieval: Ergebnisse der einzelnen Streams durchschnittliche precision an den 11 Standardmesspunkten Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 19 genlp1: autom. multi-stream run with foreign country tagging + hyphened phrases. genlp4: manual, multi-stream run with manual full-text query expansion.

46 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 46 Retrieval: Verbesserungen mit Streams gegenüber der Baseline Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 20 genlp1: autom. multi-stream run with foreign country tagging + hyphened phrases. genlp4: manual, multi-stream run with manual full-text query expansion.

47 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 47 Retrieval: Ergebnisse des Experiments streams: geringe Verbesserungen query expansion: stärkere Verbesserungen

48 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 48 Retrieval: Stabilität der Ergebnisse? Stabilität der ermittelten Werte bei wechselnden Corpora und Anfragen bleibt zu überprüfen Einflussfaktoren bleiben zu ermitteln –Textlänge,Textsorte, Stil –Themen –.... H+M-Paare sind eine erste Annäherung an Konzepte (auf syntaktischer Basis) weitere Verbesserungen: –echte Prädikat-Argumentstrukturen (erfordert corpusbasierte Semantik-Analyse und sehr großen Datenmengen zur Ermittlung statistisch relevanter Vorkommen) –echte Textinhaltsanalyse (Themen, textübergreifende Themenentwicklung) –linguistisch motivierte Systeminteraktion

49 Karin Haenelt, ( ) Sprachverarbeitung im IR: Stream-Modell 49 Literatur Kavi Mahesh. Text Retrieval Quality: A Primer Vanessa Micelli, Christian Pretzsch, Delphine Vennin (2003). Sprachverarbeitungsmethoden im Information Retrieval. Seminarreferat kontext.fraunhofer.de/haenelt/kurs/Referate/Micelli_Pretzsch_Vennin_WS02/Sprachverarbei tungInIR.htm, | pdf | ppt kontext.fraunhofer.de/haenelt/kurs/Referate/Micelli_Pretzsch_Vennin_WS02/Sprachverarbei tungInIR.htm, | pdf | ppt Yu-Wen Pang (2001). Sprachverarbeitung im Information Retrieval. Seminarreferat kontext.fraunhofer.de/haenelt/kurs/Referate/Pang/pang.htm | ppt | pskontext.fraunhofer.de/haenelt/kurs/Referate/Pang/pang.htm pptps Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). Natural Language Information Retrieval : TREC-5 Report Tomek Strzalkowski, Jussi Karlgren, Jose Perez-Carballo, Anette Hulth, Pasi Tapanainen, Timo Lahtinen (1999). Natural Language Information Retrieval : TREC-8 Report /pubs/trec8/papers/ge8adhoc2.pdf /pubs/trec8/papers/ge8adhoc2.pdf Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo (1999). Evaluating Natural Language Processing Techniques in Information Retrieval. In : T. Strzalkowski (ed.): Natural Language Information Retrieval, Kluwer Academic Publishers Tomek Strzalkowski, Peter Scheyen (1996). Evaluation of the Tagged Text Parser, A Preliminary Report. In : H. Bunt, M. Tomita (ed.) : Recent Advances in Parsing Technology,Kluwer Academic Publishers


Herunterladen ppt "Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt."

Ähnliche Präsentationen


Google-Anzeigen