Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt von Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang.

Slides:

Advertisements

Ähnliche Präsentationen

Developing your Business to Success We are looking for business partners. Enterprise Content Management with OS|ECM Version 6.

Advertisements

E-Solutions mySchoeller.com for Felix Schoeller Imaging

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.

Einführung in die Informatik: Programmierung und Software-Entwicklung

Steinbeis Forschungsinstitut für solare und zukunftsfähige thermische Energiesysteme Nobelstr. 15 D Stuttgart WP 4 Developing SEC.

CPCP Institute of Clinical Pharmacology AGAH Annual Meeting, 29. Februar 2004, Berlin, Praktischer Umgang mit den Genehmigungsanträgen gemäß 12. AMG Novelle.

Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.

Peter Marwedel TU Dortmund, Informatik 12

1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.

= = = = 47 = 47 = 48 = =

study of medicine no obligatory training content in almost all medical schools (universities) in Germany elective subject for medical students during.

Ralf Schenkel joint work with Fabian Suchanek and Gjergji Kasneci YAWN A Semantically Annotated Wikipedia XML Corpus.

© 2006 W. Oberschelp, G. Vossen Rechneraufbau & Rechnerstrukturen, Folie 2.1.

Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.

Wozu die Autokorrelationsfunktion?

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.

PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.

Institut für Verkehrsführung und Fahrzeugsteuerung > Technologien aus Luft- und Raumfahrt für Straße und Schiene Automatic Maneuver Recognition in the.

Three minutes presentation I ArbeitsschritteW Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2010/2011 Giving directions.

Schieferdeckarten Dach.ppt

Introduction to the topic. Goals: Improving the students essay style in general Finding special words and expressions that can be used in essay writing.

Fachabteilung 16A Überörtliche Raumplanung Cross border co-operation from the view of a public administration unit.

Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.

Comparative Adjectives. The term comparison of adjectives is used when two or more persons or things have the same quality (height, size, color, any characteristic)

Linguistically Motivated Information Retrieval

1. 2 Schreibprojekt Zeitung 3 Überblick 1. Vorstellung ComputerLernWerkstatt 2. Schreibprojekt: Zeitung 2.1 Konzeption des Kurses 2.2 Projektverlauf.

Die Geschichte von Rudi

„Küsse deine Freunde“ – FlexKom-App teilen

Politikberatung und internationale Organisationen Das Beispiel Commission on Population and Development der UN AK Migration-Integration-Minderheiten.

Was kann HTML? EINLEITUNG EINLEITUNG Bsp Main Title First Subtitle.

Deutsch III Sport berichten – Correcting German Writing 9. Oktober 2012.

How many more nouns can you think of?

1 Ein kurzer Sprung in die tiefe Vergangenheit der Erde.

The free XML Editor for Windows COOKTOP Semistrukturierte Daten 1 Vortrag Semistrukturierte Daten 1 COOKTOP The free XML-Editor for Windows

Deutsch 1 G Stunde. Donnerstag, der 25. Oktober 2012 Deutsch 1, G Stunde Heute ist ein B- Tag Unit: Family & homeFamilie & Zuhause Objectives: Phrases.

You need to use your mouse to see this presentation © Heidi Behrens.

Titelmasterformat durch Klicken bearbeiten Textmasterformate durch Klicken bearbeiten Zweite Ebene Dritte Ebene Vierte Ebene Fünfte Ebene 1 Development.

INTAKT- Interkulturelle Berufsfelderkundungen als ausbildungsbezogene Lerneinheiten in berufsqualifizierenden Auslandspraktika DE/10/LLP-LdV/TOI/

NEU! 1 2. Wo kommt diese Art von Rezeptor im Körper vor?

DEUTSCHLAND UND DIE MEDIEN

DER FRÜHLING Der Frühling beginnt am 21. März, aber in Nova Scotia ist es im März oft noch kalt, und das Wetter ist meist nicht schön. Erst im Mai wird.

© Apr-14 Prof. Dr. Christian Zich, Folie 1 Unternehmensführung / Sendung 11 Neue Managementtrends II.

Deutsch III Unit 4 Part 5 Shopping. 1 to go shopping.

Staatsballett Berlin Ein Verbesserungskonzept für den Social- Media Auftritt Your picture here.

Ein Projekt des Technischen Jugendfreizeit- und Bildungsvereins (tjfbv) e.V. kommunizieren.de Blended Learning for people with disabilities.

Symmetrische Blockchiffren DES – der Data Encryption Standard

External Labels – The rules For all external labels the following rules apply (external labels are all labels which are not inside of a shape) - all labels.

1 von 10 ViS:AT Abteilung IT/3, IT – Systeme für Unterrichtszwecke ViS:AT Österreichische Bildung auf Europaniveau BM:UKK Apple.

Großer Altersunterschied bei Paaren fällt nicht auf!

1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.

RZPD Deutsches Ressourcenzentrum für Genomforschung GmbH DESPRAD-Meeting 02/09/2003 Steffen Schulze-Kremer (until 7/2003) Bernd Drescher (since 8/2003)

Sentence Structure Subject and verb are always together. Subject and verb are always together. Subject and verb must agree Subject and verb must agree.

Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.

Launch ON Global.vi System ID object name classname Services to suscribe Observer Control Ref vi-path Service name Step 1 : Objects register to the Global.vi´s,

1 Stevens Direct Scaling Methods and the Uniqueness Problem: Empirical Evaluation of an Axiom fundamental to Interval Scale Level.

1 Mathematical Programming Nichtlineare Programmierung.

Instrumente und Unterhaltung End of Unit Assessment.

Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.

Page 1 XXX21/08/2014 Implemented by Benutzen Sie diese Titelfolie für Programme und Projekte im Ausland. Setzen Sie das „einheitliche Logo der Zusammenarbeit“

Titelmasterformat durch Klicken bearbeiten Textmasterformate durch Klicken bearbeiten Zweite Ebene Dritte Ebene Vierte Ebene Fünfte Ebene 1 Rising energy.

Bildergalerie PRESEASON CAMP Juni 2014 Romanshorn Get ready for the Season!

1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Modalverben.

Numbers Greetings and Good-byes All about Me Verbs and Pronouns

1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Wie.

1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.

Monatsbericht Ausgleichsenergiemarkt Gas – Oktober

Präsentation transkript:

Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt von Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding Kursfolien, Karin Haenelt mit Folien aus: Yu-Wen Pang (2001). Sprachverarbeitung im Information Retrieval.

Das Projekt

Quellen dieser Kursfolien Originalartikel Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). Natural Language Information Retrieval: TREC-5 Report http://trec.nist.gov/pubs/trec5/papers/ge.ps.gz Tomek Strzalkowski, Jussi Karlgren, Jose Perez-Carballo, Anette Hulth, Pasi Tapanainen, Timo Lahtinen (1999). Natural Language Information Retrieval : TREC-8 Report http://trec.nist.gov /pubs/trec8/papers/ge8adhoc2.pdf Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo (1999). Evaluating Natural Language Processing Techniques in Information Retrieval. In : T. Strzalkowski (ed.): Natural Language Information Retrieval, Kluwer Academic Publishers Kursfolien Yu-Wen Pang (2001). Sprachverarbeitung im Information Retrieval. Seminarreferat 22.01.2001 kontext.fraunhofer.de/haenelt/kurs/Referate/Pang/pang.htm | ppt | ps Vanessa Micelli, Christian Pretzsch, Delphine Vennin (2003). Sprachverarbeitungsmethoden im Information Retrieval. Seminarreferat. 13.01.2003. kontext.fraunhofer.de/haenelt/kurs/Referate/Micelli_Pretzsch_Vennin_WS02/SprachverarbeitungInIR.htm, | pdf | ppt

Ziele des Projekts mit Hilfe von NLP-Technik die Leistung des Volltext-Dokument-Retrieval verbessern Schwerpunkte 1991-1996 Verbesserung der Dokument- repräsentation (Indexierung) 1996- Query Expansion Das Projekt fing 1991 an. Die Hauptaufgabenstellung des Projekts war, die Leistung von Volltext-Dokument-Retrieval mit Hilfe der Technik zur Verarbeitung natürlicher Sprachen zu verbessern. Es ging davon aus, daß mit Hilfe von `natural language Processing (NLP)´ eine bessere Dokumentrepräsentation für die Indexierung erzeugt werden könnte, als durch einfache Darstellung einzelner Wörter oder Zeichenketten, die allgemein im statistischen Volltext-Retrieval verwendet wurde. Im Jahr 1996 wurde der Forschungsschwerpunkt von der Verbesserung der Dokumentrepräsentation auf die Query-Expansion verlagert. Folie nach: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 2

Inhalt Das Stream-Modell Stream-Merging Short Queries, Long Queries Query Expansion Retrievalexperimente und Ergebnisse

Das Stream-Modell Stream-Merging Short Queries, Long Queries Query Expansion Retrievalexperimente und Ergebnisse

Ansatz Verwendung verschiedender statistischer und sprachverarbeitender Verfahren für robuste Textanalyse Zusammenstellung der verwendeten Methoden im „stream model“

Verwendete Sprachverarbeitungsmethoden 1 Eliminate stopwords: original text words minus certain no-content words are used to index documents. Morphological stemming: we normalize across morphological word variants using a lexicon-based stemmer. “proliferation”, “proliferate”, “proliferating” Phrase extraction: we use various shallow text processing techniques, such as part-of-speech tagging, phrase boundary detection, and word co-occurrence metrics to identify stable strings of words, such as “joint venture”. Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 3/4

Verwendete Sprachverarbeitungsmethoden 2 Phrase normalization: we identify “head+modifier” pairs in order to normalize across syntactic variants such as “weapon proliferation”, “proliferation of weapons”, “proliferate weapons”, into “weapon+proliferate”. Proper names: we identify proper names for indexing, including people names and titles, location names, organization names, etc. Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 3/4

Das „Stream Modell“ Tomek Strzalkowski, Jussi Karlgren, Jose Perez-Carballo, Anette Hulth, Pasi Tapanainen, Timo Lahtinen (1999: 3)

Stream Modell Stream Indizes: Dokumentrepräsentationen erzeugt mit verschiedenen Methoden der Dokumentindexierung Termextraktion Termgewichtung Anfragen (queries) vorverarbeitet mit der streamspezifischen Zusammenstellung von Methoden Endergebnis: Zusammenführung (merging) der Dokumentranglisten der einzelnen stream indexes Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 3

Stream: „Stämme“ (stems stream) Stream 1: stems Stream: „Stämme“ (stems stream) Funktion ordnet den Textwörtern eine normalisierte Form zu Methode Abtrennung von Suffixen (wie -ing, -s, -ment, -ation) implementation: implement Ersetzung von Suffixen durch normalisierte Suffixe stor+age → stor+e Kontrolle der erzeugten Grundform mittels eines Wörterbuchs (gibt es die erzeugte Form als Wort?) Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo,(1999: 125)

Stream: „Stämme“ (stems stream) Stream 1: stems Stream: „Stämme“ (stems stream) Wirkung einfachster aber wirksamster aller streams erhöht recall Gefahr: reduziert precision, Fehlerquelle nicht zusammengehörige Wörter werden möglicherweise auf eine gemeinsame kanonische Form reduziert direction, directory > direct

Stream: „Stämme“ Beispiel Stream 1: stems Stream: „Stämme“ Beispiel originaler Text : The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. Filtern von Stoppwörtern : The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. Stemming: The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. veteran entitle award monetary compensate medical assist physical damage agent orange Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo,(1999: 125)

Stream: Phrasen (simple noun phrase stream) Stream 2: phrases Stream: Phrasen (simple noun phrase stream) Funktion verwendet einfache Nominalphrasen als atomare Indexterme Basis part-of-speech tagging, stemming Identifikation der Phrasen: reguläre Ausdrücke über part-of-speech tags Länge (beliebig) limitiert auf 7 Wörter Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo,(1999: 128/129)

Stream: Phrasen (simple noun phrase stream) Stream 2: phrases Stream: Phrasen (simple noun phrase stream) verwendete Muster Sequenz von Modifikatoren (vbn|vbg|jj) gefolgt von mindestens einem Nomen “cryonic suspend”, “air traffic control system” Nomina als Modifikatoren von Nomina, “u.s. citizen”, “china trade” Nomina (können ‘&’ enthalten) “warren commission”, “national air traffic controller” Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo,(1999: 129)

Stream: Namen (name stream) Stream 3: name stream Stream: Namen (name stream) Funktion verwendet Namen als atomare Indexterme Namen nicht nach Typen unterschieden (Personen, Orte, ..) Formen von Namen „United States of America“, „South Africa“ (nicht zerlegen) „Bill Clinton, President Bill Clinton“ (Varianten) Identifikation der Namen: Standardverfahren: Wörter mit großem Anfangsbuchstaben im Englischen hier verwendetes Verfahren: scanning of successive words labeled as proper names by the tagger (“np” and “nps” tags). Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 7 Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 8

Stream: Namen (name stream) Stream 3: name stream Stream: Namen (name stream) Beispiele right+wing+christian+fundamentalism u.s+constitution gun+control+legislation national+railroad+transportation+corporation superfund+hazardous+waste+cleanup+programme u.s+government united+states exxon+valdez dow_corning+corporation chairman+julius+d+winer new+york wall+street+journal Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 7

Stream: Head+Modifier-Paare (Head+Modifier pairs stream) Stream 4: H+M Paare Stream: Head+Modifier-Paare (Head+Modifier pairs stream) Dokumente repräsentiert durch H+M-Paare [head: retrieve] + [modifier: information]: information retrieval retrieval of information retrieve more information information that is retrieved Vorstellung: semantisch Entdeckung von „Konzepten“ Erfassen semantischer Gleichheit verschiedener Oberflächenformen von Ausdrücken Realisierung: rein syntaktisch Ermittlung von Wortpaaren durch syntaktische Analyse Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo,(1999: 123)

Head+Modifier-Paare (Head+Modifier pairs stream) Stream 4: H+M Paare Head+Modifier-Paare (Head+Modifier pairs stream) erzeugt in 5 aufeinanderfolgenden Schritten 1. Part-of-speech (Wortart) tagging 2. Lexikon-basierte Normalisierung von Wörtern 3. syntaktische Analyse mit Tagged Text Parser 4. Extraktion von Head+Modifier Paaren 5. Korpus-basierte Disambiguierung von langen Nominalphrasen Folie übernommen von: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 9

Schritt 1: Part-of-speech tagging Stream 4: H+M Paare: Schritt 1 Schritt 1: Part-of-speech tagging Funktion Zuordnung von morpho-syntaktischen Kategorien zu den Wörtern Auflösung kategorialer lexikalischer Ambiguität they associate ball with sport associate partner Wirkung genaueres stemming Basis für Phrasenbegrenzung Disambiguierung für nachfolgenden Parser verwendete Systeme Brill tagger BBN POST-tagger Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 10

Schritt 2: Normalisierung von Wörtern (stemming) Stream 4: H+M Paare: Schritt 2 Schritt 2: Normalisierung von Wörtern (stemming) Funktion implementation → implement stores → stor+e stor+age → stor+e s. Stream 2: stemming

Schritt 3: Syntaktische Analyse mit Tagged Text Parser (TTP) Stream 4: H+M Paare: Schritt 3 Schritt 3: Syntaktische Analyse mit Tagged Text Parser (TTP) Funktion feinere Zusammenhänge zwischen Wörtern und Phrasen erkennen Eingabe tagged text (d.h. disambiguierte Kategorien) Linguistic String Grammar mit 400 Produktionen Ausgabe Syntax-Bäume der Sätze Strategie timer: begrenzt die Zeit für die Analyse eines Satzes „skip-and-fit“-Modus (bei Zeitüberschreitung) approximative Analyse partielle Zuordnung zur Satzstruktur mit top-down Prädiktionen

Schritt 4: Extraktion von Head+Modifier Paaren Stream 4: H+M Paare: Schritt 4 Schritt 4: Extraktion von Head+Modifier Paaren Ausgabe des Parsers: Prädikat-Argument-Strukturen Extraktion folgender Typen a head noun and its left adjective or noun adjunct [h: example, m: good], [h: example, m: main] a head noun and the head of its right adjunct awarding of monetary compensation [h: award, m: compensate] the main verb of a clause and the head of its object phrase, [h: sell, m: weapon] the head of the subject phrase and the main verb Europe + produce Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6

Schritt 4: Extraktion von Head+Modifier Paaren Stream 4: H+M Paare: Schritt 4 Schritt 4: Extraktion von Head+Modifier Paaren extrahierte Typen repräsentieren häufige syntaktische Varianten eines Konzepts Fehlerbeispiel “former Soviet president” > “former president” und “Soviet president” Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6

Schritt 4: Extraktion von Head+Modifier Paaren Stream 4: H+M Paare: Schritt 4 Schritt 4: Extraktion von Head+Modifier Paaren Beispiel originaler Text : The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. Stemming: The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. H+M Paare The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. veteran entitle award monetary compensate medical assist physical damage agent orange [award+ compensate] [entitle + veteran] [award+ assist] [compensate+ monetary] [assist + medical] [damage+ physical] agent orange [cause+ damage]

Schritt 4: Extraktion von Head+Modifier Paaren Stream 4: H+M Paare: Schritt 4 Schritt 4: Extraktion von Head+Modifier Paaren Beispiel originaler Text : The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. head+modifier Paare : damage+physical, cause+damage, award+assist, award+compensate, compensate+monetary, assist+medical, entitle+veteran Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo,(1999: 125)

Schritt 5: Disambiguierung langer Nominalphrasen Stream 4: H+M Paare: Schritt 5 Schritt 5: Disambiguierung langer Nominalphrasen Funktion zerlegt lange Nominalphrasen in sinnvolle H+M Paare Beispiel natural language processing natural language language processing insider trading case insider trading ? trading + case Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6

Schritt 5: Disambiguierung langer Nominalphrasen: Verfahren Stream 4: H+M Paare: Schritt 5 Schritt 5: Disambiguierung langer Nominalphrasen: Verfahren Disambiguierung erfolgt in zwei Phasen Phase 1 Generierung nicht-ambiger H+M Paare Übergabe strukturell ambiger Nominalphrasen an Phase 2 strukturell ambige Nominalphrase: Nominalphrase aus drei und mehr Wörtern, bestehend aus mindestens zwei Substantiven Sammlung der Verteilungsstatistik der zusammengesetzten Terme (z.B. `insider trading´ häufiger als `trading case´) Phase 2 Generierung von H+M Paaren aus den ambigen Nominalphrasen nach der Verteilungsstatistik Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6 Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 11

Schritt 5: Disambiguierung langer Nominalphrasen: Verfahren Stream 4: H+M Paare: Schritt 5 Schritt 5: Disambiguierung langer Nominalphrasen: Verfahren Verteilungsbeispiel: Ketten von 2 Substantiven viele nicht-ambige Vorkommen von “insider trading”, wenige nicht-ambige Vorkommen von “trading case”. Verteilungsbeispiel: Ketten von mehreren Substantiven viele Fälle: „insider trading“ bleibt konstant: “insider trading case”, “insider trading legislation”, etc., wenige Fälle: „trading case“ bleibt konstant Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6

Weitere Streams nicht-normalisierte Wörter fragment stream: Dokumente zerlegt in Einheiten von 1024 Zeichen und Verwendung dieser Einheiten im Retrieval locality stream foreign country tags stream Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 8

Das Stream-Modell Stream-Merging Short Queries, Long Queries Query Expansion Retrievalexperimente und Ergebnisse

Stream Merging Ergebnisse der einzelnen Streams: Listen von Dokumenten, geordnet nach der Reihenfolge der Relevanz Gesamtergebnis: Merging Berechnung der Gesamtrelevanz eines Dokuments aus der Relevanz der einzelnen Streams (stream merging) Faktoren, die das finale Ranking beeinflussen Dokumentrelevanzwerte der einzelen Streams Precision der Streams in bestimmten Rankingbereichen durchschnittliche Precision eines Streams (gemessen am Trainingscorpus) Anzahl von Streams, in denen ein Dokument ausgegeben wird Relevanz eines Dokuments in den einzelnen Streams Tomek Strzalkowski, Fang Lin, Jin Wang,Jose Perez-Carballo,(1999: 133), Yu-Wen Pang (2001: 17)

Berechnung des Mergings d : Dokument d i : stream i A(i) : Koeffizient für stream i score(i)(d) : Relevanz des Dokuments d zur Query in Stream i nstreams(d) : Anzahl von Streams, in denen Dokument d ausgegeben wird (beste Formel für das System PRISE) Folie nach: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 18

Das Stream-Modell Stream-Merging Short Queries, Long Queries Query Expansion Retrievalexperimente und Ergebnisse

Retrieval: TREC-Queries Long Query: verwendet alle Felder <top> <num> Number: 252 <title> Topic: Combating Alien Smuggling <desc> Description: What steps are being taken by governmental or even private entities world-wide to stop the smuggling of aliens. <narr> Narrative:To be relevant, a document must describe an effort being made (other than routine border patrols) in any country of the world to prevent the illegal penetration of aliens across borders. </top> Short Query: verwendet nur das description field Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 15

Das Stream-Modell Stream-Merging Short Queries, Long Queries Query Expansion Retrievalexperimente und Ergebnisse

Query Expansion Beobachtung: Benutzerquery approximiert Informationsbedarf meistens nur semantisch oder begrifflich den relevanten Dokumenten ähnlich Ziel der Query Expansion Query soll den relevanten Dokumenten inhaltlich und strukturell ähnlicher werden Methoden der Query Expansion Term-Expansion Volltext-Expansion Folie nach: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 21

Term-Expansion Term-Expansion Retrieval mit originaler Query mit Hilfe `Relevance-Feedback´ beurteilen, ob die ausgegebenen Dokumente relevant sind Die Terme in den als relevant beurteilten Dokumenten werden zur Query hinzugefügt. Gewichtungen der Terme in der Query werden neu berechnet. Retrieval mit der bearbeiteten Query Folie übernommen von: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 22

Volltext-Expansion (neuer Vorschlag des Projekts) Retrieval mit originaler Query In Top N Dokumente die zur Query relevanten Abschnitte aussuchen ganze Abschnitte zur Query hinzufügen Indexierung für die expandierte Query Retrieval mit der expandierter Query Folie übernommen von: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 23

Das Stream-Modell Stream-Merging Short Queries, Long Queries Query Expansion Retrievalexperimente und Ergebnisse

Retrieval: TREC-5 Ergebnisse genlp1: autom. multi-stream run with foreign country tagging + hyphened phrases. genlp2: autom. single-stream run (stems and bigrams) with foreign country tagging. genlp3: automatic, single-stream run with automatic full-text query expansion. genlp4: manual, multi-stream run with manual full-text query expansion. Baselines: SMART baseline with stems and bigrams sbase1: “short” queries sbase2: “long” queries sbase3: full-text expanded queries R-precision is the precision at R where R is the number of relevant documents in the collection for the query. An R-precision of 1.0 is equivalent to perfect relevance ranking and perfect recall. (Mahesh) Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 19

Retrieval: Gewichtungsmethoden Stream 1: stems Retrieval: Gewichtungsmethoden Dokument.Query lnc.ltc lnc.ntc

Retrieval: Verwendete Gewichtungsmethoden Problem: konventionelle Ranking-Formeln sind nicht nach der Verteilung der Einheiten in den durch streams erweiterten Indizes entworfen „The selection of one scheme over another can have dramatic effect on system‘s performance“ Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo (1999: 133) Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 19

Retrieval: Ergebnisse der einzelnen Streams durchschnittliche precision an den 11 Standardmesspunkten genlp1: autom. multi-stream run with foreign country tagging + hyphened phrases. genlp4: manual, multi-stream run with manual full-text query expansion. Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 19

Retrieval: Verbesserungen mit Streams gegenüber der Baseline genlp1: autom. multi-stream run with foreign country tagging + hyphened phrases. genlp4: manual, multi-stream run with manual full-text query expansion. Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 20

Retrieval: Ergebnisse des Experiments streams: geringe Verbesserungen query expansion: stärkere Verbesserungen

Retrieval: Stabilität der Ergebnisse? Stabilität der ermittelten Werte bei wechselnden Corpora und Anfragen bleibt zu überprüfen Einflussfaktoren bleiben zu ermitteln Textlänge,Textsorte, Stil Themen .... H+M-Paare sind eine erste Annäherung an Konzepte (auf syntaktischer Basis) weitere Verbesserungen: echte Prädikat-Argumentstrukturen (erfordert corpusbasierte Semantik-Analyse und sehr großen Datenmengen zur Ermittlung statistisch relevanter Vorkommen) echte Textinhaltsanalyse (Themen, textübergreifende Themenentwicklung) linguistisch motivierte Systeminteraktion

Literatur Kavi Mahesh. Text Retrieval Quality: A Primer http://www.oracle.com/technology/products/text/htdocs/imt_quality.htm Vanessa Micelli, Christian Pretzsch, Delphine Vennin (2003). Sprachverarbeitungsmethoden im Information Retrieval. Seminarreferat. 13.01.2003. kontext.fraunhofer.de/haenelt/kurs/Referate/Micelli_Pretzsch_Vennin_WS02/SprachverarbeitungInIR.htm, | pdf | ppt Yu-Wen Pang (2001). Sprachverarbeitung im Information Retrieval. Seminarreferat 22.01.2001 kontext.fraunhofer.de/haenelt/kurs/Referate/Pang/pang.htm | ppt | ps Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). Natural Language Information Retrieval : TREC-5 Report http://trec.nist.gov/pubs/trec5/papers/ge.ps.gz Tomek Strzalkowski, Jussi Karlgren, Jose Perez-Carballo, Anette Hulth, Pasi Tapanainen, Timo Lahtinen (1999). Natural Language Information Retrieval : TREC-8 Report http://trec.nist.gov /pubs/trec8/papers/ge8adhoc2.pdf Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo (1999). Evaluating Natural Language Processing Techniques in Information Retrieval. In : T. Strzalkowski (ed.): Natural Language Information Retrieval, Kluwer Academic Publishers Tomek Strzalkowski, Peter Scheyen (1996). Evaluation of the Tagged Text Parser, A Preliminary Report. In : H. Bunt, M. Tomita (ed.) : Recent Advances in Parsing Technology,Kluwer Academic Publishers