Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt von Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang.

Ähnliche Präsentationen


Präsentation zum Thema: "Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt von Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang."—  Präsentation transkript:

1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt von Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding Kursfolien, Karin Haenelt mit Folien aus: Yu-Wen Pang (2001). Sprachverarbeitung im Information Retrieval.

2 Das Projekt

3 Quellen dieser Kursfolien
Originalartikel Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). Natural Language Information Retrieval: TREC-5 Report Tomek Strzalkowski, Jussi Karlgren, Jose Perez-Carballo, Anette Hulth, Pasi Tapanainen, Timo Lahtinen (1999). Natural Language Information Retrieval : TREC-8 Report /pubs/trec8/papers/ge8adhoc2.pdf Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo (1999). Evaluating Natural Language Processing Techniques in Information Retrieval. In : T. Strzalkowski (ed.): Natural Language Information Retrieval, Kluwer Academic Publishers Kursfolien Yu-Wen Pang (2001). Sprachverarbeitung im Information Retrieval. Seminarreferat kontext.fraunhofer.de/haenelt/kurs/Referate/Pang/pang.htm | ppt | ps Vanessa Micelli, Christian Pretzsch, Delphine Vennin (2003). Sprachverarbeitungsmethoden im Information Retrieval. Seminarreferat kontext.fraunhofer.de/haenelt/kurs/Referate/Micelli_Pretzsch_Vennin_WS02/SprachverarbeitungInIR.htm, | pdf | ppt

4 Ziele des Projekts mit Hilfe von NLP-Technik die Leistung des Volltext-Dokument-Retrieval verbessern Schwerpunkte Verbesserung der Dokument- repräsentation (Indexierung) Query Expansion Das Projekt fing 1991 an. Die Hauptaufgabenstellung des Projekts war, die Leistung von Volltext-Dokument-Retrieval mit Hilfe der Technik zur Verarbeitung natürlicher Sprachen zu verbessern. Es ging davon aus, daß mit Hilfe von `natural language Processing (NLP)´ eine bessere Dokumentrepräsentation für die Indexierung erzeugt werden könnte, als durch einfache Darstellung einzelner Wörter oder Zeichenketten, die allgemein im statistischen Volltext-Retrieval verwendet wurde. Im Jahr 1996 wurde der Forschungsschwerpunkt von der Verbesserung der Dokumentrepräsentation auf die Query-Expansion verlagert. Folie nach: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 2

5 Inhalt Das Stream-Modell Stream-Merging Short Queries, Long Queries
Query Expansion Retrievalexperimente und Ergebnisse

6 Das Stream-Modell Stream-Merging Short Queries, Long Queries Query Expansion Retrievalexperimente und Ergebnisse

7 Ansatz Verwendung verschiedender statistischer und sprachverarbeitender Verfahren für robuste Textanalyse Zusammenstellung der verwendeten Methoden im „stream model“

8 Verwendete Sprachverarbeitungsmethoden 1
Eliminate stopwords: original text words minus certain no-content words are used to index documents. Morphological stemming: we normalize across morphological word variants using a lexicon-based stemmer. “proliferation”, “proliferate”, “proliferating” Phrase extraction: we use various shallow text processing techniques, such as part-of-speech tagging, phrase boundary detection, and word co-occurrence metrics to identify stable strings of words, such as “joint venture”. Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 3/4

9 Verwendete Sprachverarbeitungsmethoden 2
Phrase normalization: we identify “head+modifier” pairs in order to normalize across syntactic variants such as “weapon proliferation”, “proliferation of weapons”, “proliferate weapons”, into “weapon+proliferate”. Proper names: we identify proper names for indexing, including people names and titles, location names, organization names, etc. Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 3/4

10 Das „Stream Modell“ Tomek Strzalkowski, Jussi Karlgren, Jose Perez-Carballo, Anette Hulth, Pasi Tapanainen, Timo Lahtinen (1999: 3)

11 Stream Modell Stream Indizes: Dokumentrepräsentationen erzeugt mit verschiedenen Methoden der Dokumentindexierung Termextraktion Termgewichtung Anfragen (queries) vorverarbeitet mit der streamspezifischen Zusammenstellung von Methoden Endergebnis: Zusammenführung (merging) der Dokumentranglisten der einzelnen stream indexes Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 3

12 Stream: „Stämme“ (stems stream)
Stream 1: stems Stream: „Stämme“ (stems stream) Funktion ordnet den Textwörtern eine normalisierte Form zu Methode Abtrennung von Suffixen (wie -ing, -s, -ment, -ation) implementation: implement Ersetzung von Suffixen durch normalisierte Suffixe stor+age → stor+e Kontrolle der erzeugten Grundform mittels eines Wörterbuchs (gibt es die erzeugte Form als Wort?) Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo,(1999: 125)

13 Stream: „Stämme“ (stems stream)
Stream 1: stems Stream: „Stämme“ (stems stream) Wirkung einfachster aber wirksamster aller streams erhöht recall Gefahr: reduziert precision, Fehlerquelle nicht zusammengehörige Wörter werden möglicherweise auf eine gemeinsame kanonische Form reduziert direction, directory > direct

14 Stream: „Stämme“ Beispiel
Stream 1: stems Stream: „Stämme“ Beispiel originaler Text : The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. Filtern von Stoppwörtern : The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. Stemming: The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. veteran entitle award monetary compensate medical assist physical damage agent orange Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo,(1999: 125)

15 Stream: Phrasen (simple noun phrase stream)
Stream 2: phrases Stream: Phrasen (simple noun phrase stream) Funktion verwendet einfache Nominalphrasen als atomare Indexterme Basis part-of-speech tagging, stemming Identifikation der Phrasen: reguläre Ausdrücke über part-of-speech tags Länge (beliebig) limitiert auf 7 Wörter Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo,(1999: 128/129)

16 Stream: Phrasen (simple noun phrase stream)
Stream 2: phrases Stream: Phrasen (simple noun phrase stream) verwendete Muster Sequenz von Modifikatoren (vbn|vbg|jj) gefolgt von mindestens einem Nomen “cryonic suspend”, “air traffic control system” Nomina als Modifikatoren von Nomina, “u.s. citizen”, “china trade” Nomina (können ‘&’ enthalten) “warren commission”, “national air traffic controller” Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo,(1999: 129)

17 Stream: Namen (name stream)
Stream 3: name stream Stream: Namen (name stream) Funktion verwendet Namen als atomare Indexterme Namen nicht nach Typen unterschieden (Personen, Orte, ..) Formen von Namen „United States of America“, „South Africa“ (nicht zerlegen) „Bill Clinton, President Bill Clinton“ (Varianten) Identifikation der Namen: Standardverfahren: Wörter mit großem Anfangsbuchstaben im Englischen hier verwendetes Verfahren: scanning of successive words labeled as proper names by the tagger (“np” and “nps” tags). Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 7 Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 8

18 Stream: Namen (name stream)
Stream 3: name stream Stream: Namen (name stream) Beispiele right+wing+christian+fundamentalism u.s+constitution gun+control+legislation national+railroad+transportation+corporation superfund+hazardous+waste+cleanup+programme u.s+government united+states exxon+valdez dow_corning+corporation chairman+julius+d+winer new+york wall+street+journal Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 7

19 Stream: Head+Modifier-Paare (Head+Modifier pairs stream)
Stream 4: H+M Paare Stream: Head+Modifier-Paare (Head+Modifier pairs stream) Dokumente repräsentiert durch H+M-Paare [head: retrieve] + [modifier: information]: information retrieval retrieval of information retrieve more information information that is retrieved Vorstellung: semantisch Entdeckung von „Konzepten“ Erfassen semantischer Gleichheit verschiedener Oberflächenformen von Ausdrücken Realisierung: rein syntaktisch Ermittlung von Wortpaaren durch syntaktische Analyse Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo,(1999: 123)

20 Head+Modifier-Paare (Head+Modifier pairs stream)
Stream 4: H+M Paare Head+Modifier-Paare (Head+Modifier pairs stream) erzeugt in 5 aufeinanderfolgenden Schritten 1. Part-of-speech (Wortart) tagging 2. Lexikon-basierte Normalisierung von Wörtern 3. syntaktische Analyse mit Tagged Text Parser 4. Extraktion von Head+Modifier Paaren 5. Korpus-basierte Disambiguierung von langen Nominalphrasen Folie übernommen von: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 9

21 Schritt 1: Part-of-speech tagging
Stream 4: H+M Paare: Schritt 1 Schritt 1: Part-of-speech tagging Funktion Zuordnung von morpho-syntaktischen Kategorien zu den Wörtern Auflösung kategorialer lexikalischer Ambiguität they associate ball with sport associate partner Wirkung genaueres stemming Basis für Phrasenbegrenzung Disambiguierung für nachfolgenden Parser verwendete Systeme Brill tagger BBN POST-tagger Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 10

22 Schritt 2: Normalisierung von Wörtern (stemming)
Stream 4: H+M Paare: Schritt 2 Schritt 2: Normalisierung von Wörtern (stemming) Funktion implementation → implement stores → stor+e stor+age → stor+e s. Stream 2: stemming

23 Schritt 3: Syntaktische Analyse mit Tagged Text Parser (TTP)
Stream 4: H+M Paare: Schritt 3 Schritt 3: Syntaktische Analyse mit Tagged Text Parser (TTP) Funktion feinere Zusammenhänge zwischen Wörtern und Phrasen erkennen Eingabe tagged text (d.h. disambiguierte Kategorien) Linguistic String Grammar mit 400 Produktionen Ausgabe Syntax-Bäume der Sätze Strategie timer: begrenzt die Zeit für die Analyse eines Satzes „skip-and-fit“-Modus (bei Zeitüberschreitung) approximative Analyse partielle Zuordnung zur Satzstruktur mit top-down Prädiktionen

24 Schritt 4: Extraktion von Head+Modifier Paaren
Stream 4: H+M Paare: Schritt 4 Schritt 4: Extraktion von Head+Modifier Paaren Ausgabe des Parsers: Prädikat-Argument-Strukturen Extraktion folgender Typen a head noun and its left adjective or noun adjunct [h: example, m: good], [h: example, m: main] a head noun and the head of its right adjunct awarding of monetary compensation [h: award, m: compensate] the main verb of a clause and the head of its object phrase, [h: sell, m: weapon] the head of the subject phrase and the main verb Europe + produce Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6

25 Schritt 4: Extraktion von Head+Modifier Paaren
Stream 4: H+M Paare: Schritt 4 Schritt 4: Extraktion von Head+Modifier Paaren extrahierte Typen repräsentieren häufige syntaktische Varianten eines Konzepts Fehlerbeispiel “former Soviet president” > “former president” und “Soviet president” Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6

26 Schritt 4: Extraktion von Head+Modifier Paaren
Stream 4: H+M Paare: Schritt 4 Schritt 4: Extraktion von Head+Modifier Paaren Beispiel originaler Text : The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. Stemming: The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. H+M Paare The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. veteran entitle award monetary compensate medical assist physical damage agent orange [award+ compensate] [entitle + veteran] [award+ assist] [compensate+ monetary] [assist + medical] [damage+ physical] agent orange [cause+ damage]

27 Schritt 4: Extraktion von Head+Modifier Paaren
Stream 4: H+M Paare: Schritt 4 Schritt 4: Extraktion von Head+Modifier Paaren Beispiel originaler Text : The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. head+modifier Paare : damage+physical, cause+damage, award+assist, award+compensate, compensate+monetary, assist+medical, entitle+veteran Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo,(1999: 125)

28 Schritt 5: Disambiguierung langer Nominalphrasen
Stream 4: H+M Paare: Schritt 5 Schritt 5: Disambiguierung langer Nominalphrasen Funktion zerlegt lange Nominalphrasen in sinnvolle H+M Paare Beispiel natural language processing natural language language processing insider trading case insider trading ? trading + case Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6

29 Schritt 5: Disambiguierung langer Nominalphrasen: Verfahren
Stream 4: H+M Paare: Schritt 5 Schritt 5: Disambiguierung langer Nominalphrasen: Verfahren Disambiguierung erfolgt in zwei Phasen Phase 1 Generierung nicht-ambiger H+M Paare Übergabe strukturell ambiger Nominalphrasen an Phase 2 strukturell ambige Nominalphrase: Nominalphrase aus drei und mehr Wörtern, bestehend aus mindestens zwei Substantiven Sammlung der Verteilungsstatistik der zusammengesetzten Terme (z.B. `insider trading´ häufiger als `trading case´) Phase 2 Generierung von H+M Paaren aus den ambigen Nominalphrasen nach der Verteilungsstatistik Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6 Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 11

30 Schritt 5: Disambiguierung langer Nominalphrasen: Verfahren
Stream 4: H+M Paare: Schritt 5 Schritt 5: Disambiguierung langer Nominalphrasen: Verfahren Verteilungsbeispiel: Ketten von 2 Substantiven viele nicht-ambige Vorkommen von “insider trading”, wenige nicht-ambige Vorkommen von “trading case”. Verteilungsbeispiel: Ketten von mehreren Substantiven viele Fälle: „insider trading“ bleibt konstant: “insider trading case”, “insider trading legislation”, etc., wenige Fälle: „trading case“ bleibt konstant Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6

31 Weitere Streams nicht-normalisierte Wörter
fragment stream: Dokumente zerlegt in Einheiten von 1024 Zeichen und Verwendung dieser Einheiten im Retrieval locality stream foreign country tags stream Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 8

32 Das Stream-Modell Stream-Merging Short Queries, Long Queries Query Expansion Retrievalexperimente und Ergebnisse

33 Stream Merging Ergebnisse der einzelnen Streams:
Listen von Dokumenten, geordnet nach der Reihenfolge der Relevanz Gesamtergebnis: Merging Berechnung der Gesamtrelevanz eines Dokuments aus der Relevanz der einzelnen Streams (stream merging) Faktoren, die das finale Ranking beeinflussen Dokumentrelevanzwerte der einzelen Streams Precision der Streams in bestimmten Rankingbereichen durchschnittliche Precision eines Streams (gemessen am Trainingscorpus) Anzahl von Streams, in denen ein Dokument ausgegeben wird Relevanz eines Dokuments in den einzelnen Streams Tomek Strzalkowski, Fang Lin, Jin Wang,Jose Perez-Carballo,(1999: 133), Yu-Wen Pang (2001: 17)

34 Berechnung des Mergings
d : Dokument d i : stream i A(i) : Koeffizient für stream i score(i)(d) : Relevanz des Dokuments d zur Query in Stream i nstreams(d) : Anzahl von Streams, in denen Dokument d ausgegeben wird (beste Formel für das System PRISE) Folie nach: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 18

35 Das Stream-Modell Stream-Merging Short Queries, Long Queries Query Expansion Retrievalexperimente und Ergebnisse

36 Retrieval: TREC-Queries
Long Query: verwendet alle Felder <top> <num> Number: 252 <title> Topic: Combating Alien Smuggling <desc> Description: What steps are being taken by governmental or even private entities world-wide to stop the smuggling of aliens. <narr> Narrative:To be relevant, a document must describe an effort being made (other than routine border patrols) in any country of the world to prevent the illegal penetration of aliens across borders. </top> Short Query: verwendet nur das description field Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 15

37 Das Stream-Modell Stream-Merging Short Queries, Long Queries Query Expansion Retrievalexperimente und Ergebnisse

38 Query Expansion Beobachtung: Benutzerquery
approximiert Informationsbedarf meistens nur semantisch oder begrifflich den relevanten Dokumenten ähnlich Ziel der Query Expansion Query soll den relevanten Dokumenten inhaltlich und strukturell ähnlicher werden Methoden der Query Expansion Term-Expansion Volltext-Expansion Folie nach: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 21

39 Term-Expansion Term-Expansion Retrieval mit originaler Query
mit Hilfe `Relevance-Feedback´ beurteilen, ob die ausgegebenen Dokumente relevant sind Die Terme in den als relevant beurteilten Dokumenten werden zur Query hinzugefügt. Gewichtungen der Terme in der Query werden neu berechnet. Retrieval mit der bearbeiteten Query Folie übernommen von: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 22

40 Volltext-Expansion (neuer Vorschlag des Projekts)
Retrieval mit originaler Query In Top N Dokumente die zur Query relevanten Abschnitte aussuchen ganze Abschnitte zur Query hinzufügen Indexierung für die expandierte Query Retrieval mit der expandierter Query Folie übernommen von: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 23

41 Das Stream-Modell Stream-Merging Short Queries, Long Queries Query Expansion Retrievalexperimente und Ergebnisse

42 Retrieval: TREC-5 Ergebnisse
genlp1: autom. multi-stream run with foreign country tagging + hyphened phrases. genlp2: autom. single-stream run (stems and bigrams) with foreign country tagging. genlp3: automatic, single-stream run with automatic full-text query expansion. genlp4: manual, multi-stream run with manual full-text query expansion. Baselines: SMART baseline with stems and bigrams sbase1: “short” queries sbase2: “long” queries sbase3: full-text expanded queries R-precision is the precision at R where R is the number of relevant documents in the collection for the query. An R-precision of 1.0 is equivalent to perfect relevance ranking and perfect recall. (Mahesh) Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 19

43 Retrieval: Gewichtungsmethoden
Stream 1: stems Retrieval: Gewichtungsmethoden Dokument.Query lnc.ltc lnc.ntc

44 Retrieval: Verwendete Gewichtungsmethoden
Problem: konventionelle Ranking-Formeln sind nicht nach der Verteilung der Einheiten in den durch streams erweiterten Indizes entworfen „The selection of one scheme over another can have dramatic effect on system‘s performance“ Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo (1999: 133) Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 19

45 Retrieval: Ergebnisse der einzelnen Streams
durchschnittliche precision an den 11 Standardmesspunkten genlp1: autom. multi-stream run with foreign country tagging + hyphened phrases. genlp4: manual, multi-stream run with manual full-text query expansion. Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 19

46 Retrieval: Verbesserungen mit Streams gegenüber der Baseline
genlp1: autom. multi-stream run with foreign country tagging + hyphened phrases. genlp4: manual, multi-stream run with manual full-text query expansion. Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 20

47 Retrieval: Ergebnisse des Experiments
streams: geringe Verbesserungen query expansion: stärkere Verbesserungen

48 Retrieval: Stabilität der Ergebnisse?
Stabilität der ermittelten Werte bei wechselnden Corpora und Anfragen bleibt zu überprüfen Einflussfaktoren bleiben zu ermitteln Textlänge,Textsorte, Stil Themen .... H+M-Paare sind eine erste Annäherung an Konzepte (auf syntaktischer Basis) weitere Verbesserungen: echte Prädikat-Argumentstrukturen (erfordert corpusbasierte Semantik-Analyse und sehr großen Datenmengen zur Ermittlung statistisch relevanter Vorkommen) echte Textinhaltsanalyse (Themen, textübergreifende Themenentwicklung) linguistisch motivierte Systeminteraktion

49 Literatur Kavi Mahesh. Text Retrieval Quality: A Primer Vanessa Micelli, Christian Pretzsch, Delphine Vennin (2003). Sprachverarbeitungsmethoden im Information Retrieval. Seminarreferat kontext.fraunhofer.de/haenelt/kurs/Referate/Micelli_Pretzsch_Vennin_WS02/SprachverarbeitungInIR.htm, | pdf | ppt Yu-Wen Pang (2001). Sprachverarbeitung im Information Retrieval. Seminarreferat kontext.fraunhofer.de/haenelt/kurs/Referate/Pang/pang.htm | ppt | ps Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). Natural Language Information Retrieval : TREC-5 Report Tomek Strzalkowski, Jussi Karlgren, Jose Perez-Carballo, Anette Hulth, Pasi Tapanainen, Timo Lahtinen (1999). Natural Language Information Retrieval : TREC-8 Report /pubs/trec8/papers/ge8adhoc2.pdf Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo (1999). Evaluating Natural Language Processing Techniques in Information Retrieval. In : T. Strzalkowski (ed.): Natural Language Information Retrieval, Kluwer Academic Publishers Tomek Strzalkowski, Peter Scheyen (1996). Evaluation of the Tagged Text Parser, A Preliminary Report. In : H. Bunt, M. Tomita (ed.) : Recent Advances in Parsing Technology,Kluwer Academic Publishers


Herunterladen ppt "Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt von Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang."

Ähnliche Präsentationen


Google-Anzeigen