Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

Ähnliche Präsentationen


Präsentation zum Thema: "22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der."—  Präsentation transkript:

1 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der Leitung von General Electric (GE) Research Yu-wen Pang

2 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR2 Hauptaufgabenstellung des Projekts n mit Hilfe NLP-Technik die Leistung von Volltext-Dokument-Retrieval verbessern 1991-1996 : Verbesserung der Dokument- repräsentation (Indexierung) n 1996- jetzt : Query Expansion Schwerpunkt

3 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR3 Inhalt n Stream-basiertes IR Modell -- Übersicht des Stream-Konzepts -- Streams -- Stream Merging -- Leistung n Query Expansion -- Methoden -- bisheriges Ergebnis n Weitere Experimente n Andere Ansätze zum NLP im IR

4 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR4 Übersicht des Stream-Konzepts text data base Index-1 Index-2 Index-3 Index-4 Search queries merge stems phrases names Head+Modifier pairs match-1 match-4 match-3 match-2 (Tomek Strzalkowski u. a. 1999, S122)

5 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR5 Streams n Was sind Streams? Indizes, die mit verschiedenen Methoden als Dokumentrepräsentation erzeugt werden n 4 verwendete streams - Wortstämme (stems stream) - einfache Nominalphrasen (simple noun phrase stream ) - Namen (name stream) - Head+Modifier Paare (H+M pairs stream)

6 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR6 Wortstämme (stems stream) n einfachster, zur Zeit erfolgreichster aller streams n besteht aus Einzelwörtern in Wortstamm-Form n Probleme -- Mehrwortbegriffe (`joint venture´ Terme: `joint´ / `venture´) -- lexikalische Ambiguität unerwünschte Treffer

7 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR7 Einfache Nominalphrasen (simple noun phrase stream) n Zweck : Erfassung von Mehrwort-Termen n Extraktion von 3 Arten von Nominalphrasen Modifikation(adj,Partizip)+Substantiv(e) z.B.: air traffic control system Eigenname + Substantiv z.B.: U.S. citizen, China trade Eigenname(proper noun) z.B.: warren commission

8 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR8 Namen (name stream) n Eigennamen von Personen, Orten, Ereignissen, Organisationen usw. n 2 Prinzipien -- aus mehreren Wörtern zusammengesetzten Name als eine Einheit, nicht zerlegen -- Varianten desselben Name In der verwendeten Datenbank (TREC-5, 1996) sind 8% der generierten Terme zusammengesetzte Namen. z.B : South Africa= South+Africa z.B. : President Bill Clinton = President Clinton

9 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR9 Head+Modifier Paare (H+M pairs stream) n erzeugt in 5 aufeinanderfolgenden Schritten 1. Part-of-speech (Wortart) tagging 2. Lexikon-basierte Normalisierung von Wörtern 3. syntaktische Analyse mit Tagged Text Parser 4. Extraktion von Head+Modifier Paaren 5. Korpus-basierte Disambiguierung von langen Nominalphrasen

10 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR10 Schritt 1 : Part-of-speech tagging n Funktion lexikalische Ambiguität auflösen n Wirkung -- genaueres Stemming -- Basis für Phrasenbegrenzung

11 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR11 Schritt 2 : Normalisierung von Wörtern In dem Projekt wird ein Suffix Trimmer verwendet. n Funktion -- reduziert flektierte Wörter auf den Wortstamm wie im Wörterbuch angegeben -- wandelt nominalisierte Verben (z.B.: implementation, storage) in Stammform (implement, store) um n Beispiel originaler Text : The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. stemmed : veteran entitle award monetary compensate medical assist physical damage agent orange

12 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR12 Schritt 3 : Syntaktische Analyse mit Tagged Text Parser (TTP) n Funktion : Phrasen und deren Beziehung erzeugen TTP -- ein schneller und robuster Parser für natürliche Sprache (für einen Satz unter 1 Sekunde) -- eine wichtige Strategie vom TTP: skip-and-fit Nach der zugeteilten Zeit wird das problematische Fragment übersprungen. Eine approximative Analyse wird erzeugt. Der Parser setzt mit der nächsten Phrase fort. Das übersprungene Fragment wird später mit einem einfachen Phrasenparser analysiert und an der Hauptstruktur angebunden.

13 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR13 Schritt 4 : head+modifier Paare Extraktion (aus TTP parse tree) n 4 Paartypen werden in Betracht gezogen : 1. Kopf des Substantivs+linke adj/noun Adjunkte 2. Kopf des Substantivs+Kopf rechter Adjunkte 3. Hauptverb+Kopf seiner Objektphrase 4. Kopf des Subjekts+Hauptverb n Beispiel originaler Text : The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. head+modifier Paare : damage+physical, cause+damage, award+compensate, award+assist, compensate+monetary, assist+medical, entitle+veteran

14 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR14 Schritt 5 : Disambiguierung der langen Nominalphrasen n Funktion zerlegt lange Nominalphrasen in sinnvolle H+M Paare n Beispiel : `insider trading case´ `trading+insider´ sinnvoller als `case+trading´.

15 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR15 n Verfahren der Disambiguierung Phase 1 -- Die nicht-ambigen Paare werden generiert. -- Die strukturell ambigen Nominalphrasen (=Nominalphrasen bestehend aus mehr als 2 Wörter und mindestens 2 Wörter sind Substantive) werden zur Phase 2 verschoben. -- Die Verteilungsstatistik der zusammengesetzten Terme wird gesammelt. (z.B. `insider trading´ mehr als `trading case´) Phase 2 -- Die H+M Paare von ambigen Nominalphrasen werden nach der Statistik generiert.

16 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR16 n Erklärung am Beispiel : lnc.ntn 1. lnc : verwendet bei Dokumenten ntn : verwendet bei Query 2. lnc : log-tf, nicht-idf, Cosinus-Normalisierung ntn : straight-tf, idf, nicht-Normalisierung Termgewichtung in Streams Stream Gewichtungsschema Stämme lnc.ntn Phrasen ltn.ntn H+M Paare ltn.nsn Namen ltn.ntn In SMART verwendet

17 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR17 Stream Merging n Was ist Merging (Fusion)? -- ein Prozeß, in dem die Ergebnisse des Rankings von jedem Stream miteinander verschmolzen werden und ein finales Ranking erzeugt wird n Faktoren, die das finale Ranking beeinflussen -- Werte eines Dokuments von jedem stream -- Effizienz jedes Streams -- Anzahl von Streams, in denen ein bestimmtes Dokument ausgegeben wird -- Performance im bestimmten Rankingbereich von jedem Stream

18 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR18 Algorithmus des Mergings d : Dokument d i : stream i A(i) : Koeffizient für stream i score(i)(d) : Relevanz des Dokuments d zur Query in Stream i nstreams(d) : Anzahl von Streams, in denen Dokument d ausgegeben wird *Finalscore(d)= A(i) score(i)(d) (0.9+nstreams(d)/10) * der beste Algorithmus für PRISE

19 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR19 Leistungen von Streams n Leistungen einzelner Streams (11-pt avg. Prec) RUNS short queries long queries Stems 0.1682 0.2626 Phrases 0.1233 0.2365 H+M pairs 0.0755 0.2040 Names 0.0844 0.0608 (Tomek Strzalkowski u. a. 1999, S132)

20 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR20 n Erhöhung der Precision nach Merging der Streams gegenüber reinem stemming Streams merged short queries long queries % change % change alle streams +5.4 +20.94 stems+Phrases+Pairs +6.6 +22.85 stems+Phrases +7.0 +24.94 stems+Pairs +2.2 +15.27 stems+Names +0.6 +2.59 (Tomek Strzalkowski u. a. 1999, S134)

21 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR21 Query Expansion n Beobachtung -- Query vom Benutzer : meistens nur semantisch oder begrifflich ähnlich den relevanten Dokumente was noch nicht gut modelliert werden kann -- die Formulierung der Query : oft irreführend n Ziel der Query Die Query soll den relevanten Dokumente ähnlicher werden, sowohl inhaltlich als auch strukturell. n Methoden -- Term-Expansion -- Volltext-Expansion

22 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR22 Term-Expansion n Verfahren Retrieval mit originaler Query mit Hilfe `Relevance-Feedback´ beurteilen, ob die ausgegebenen Dokumente relevant sind Die Terme in den als relevant beurteilten Dokumenten werden zur Query hinzugefügt. Gewichtungen der Terme in der Query werden neu berechnet. Retrieval mit der bearbeiteten Query

23 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR23 n Probleme der Term-Expansion 1. Einige wichtige Aspekte, die bezüglich der Query manche Dokumente zur Relevanz bringen, sind mit der Term-Expansion nur schwer zu erfassen.(z.B. Textstruktur) 2. Der Expansion mit Relevance-Feedback von den Benutzenden legen einseitige Relevance-Informationen zugrunde.

24 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR24 Volltext-Expansion (neuer Vorschlag des Projekts) n Richtlinien In Top N Dokumente die zur Query relevanten Abschnitte aussuchen Retrieval mit originaler Query Indexierung für die expandierte Query ganze Abschnitte zur Query hinzufügen Retrieval mit der expandierter Query

25 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR25 Ergebnis der Query-Expansion Der beste offizielle Lauf bis 1999 Beschreibung durchschnittl. Precision in Recall von der Query Precision Top 10 Dok. 4728 Dok. Manuell-unterstützte 0.3346 0.6520 0.3325 Expansion In diesem Lauf : 1. Indexierung nur mit stem-stream 2. Relevance-Infos vom User mit Zusammenfassung (summary) 3. als `relevant´ beurteilte Zusammenfassungen zum Thema der Query hinzugefügt (Tomek Strzalkowski u.a. : NLIR TREC-8 Report)

26 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR26 Weitere Experimente in dem Projekt n Indexierung erweiterter Query mit allen Streams n automatische Expansion mit Textabschnitten vs. Zusammenfassungen n linguistische Verarbeitung für Indexierung vs. nur für Query

27 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR27 Andere Ansätze zum NLP in IR-Systeme in TREC n CLARIT : NLP verwendet bei Indexierung n InQuery (von UMass): NLP verwendet bei Verarbeitung von Query

28 22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR28 Literatur n T. Strzalkowski, L. Guthrie, J. Karlgren, J. Leistensnider, F. Lin, J. Perez-Carballo, T. Straszheim, J. Wang, J. Wilding : Natural Language Information Retrieval : TREC-5 Report http://trec.nist.gov/pubs/trec5/t5_proceedings.html http://trec.nist.gov/pubs/trec5/t5_proceedings.html n T. Strzalkowski, J. Karlgren, J. Perez-Carballo, A. Hulth, P. Tapanainen, T. Lahtinen : Natural Language Information Retrieval : TREC-8 Report http://trec.nist.gov /pubs/trec8/t8_proceedings.htmlhttp://trec.nist.gov /pubs/trec8/t8_proceedings.html n T. Strzalkowski, J. Perez-Carballo : Evaluating Natural Language Processing Techniques in Information Retrieval. In : T. Strzalkowski (ed.): Natural Language Information Retrieval, 1999 Kluwer Academic Publishers n T. Strzalkowski, P. Scheyen : Evaluation of the Tagged Text Parser, A Preliminary Report. In : H. Bunt, M. Tomita (ed.) : Recent Advances in Parsing Technology,1996 Kluwer Academic Publishers


Herunterladen ppt "22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der."

Ähnliche Präsentationen


Google-Anzeigen