22.01.01Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der.

Slides:

Advertisements

Ähnliche Präsentationen

Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch

Advertisements

Business Engineering Philipp Osl, Alexander Schmidt

Stefan Lohrum Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)

Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt von Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang.

Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

Information Retrieval in XML-Dokumenten

Kohonennetze für Information Retrieval mit User Feedback

Statistische Aspekte der PSG

Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Entwurf eines Bibliothekssystems

Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.

Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.

Seminar Textmining WS 06/07 Themen Übung 8 Diskussion über Erkennung von Eigennamen Question Answering Stemming.

Seminar Textmining WS 06/07

Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!

WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.

5. Sortier-Algorithmen Vorbemerkungen:

Inhaltlich orientierter Zugriff auf unstrukturierte Daten

Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.

Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.

Parser generieren Yet Another Compiler – Compiler YACC.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.

Geometrisches Divide and Conquer

XINDICE The Apache XML Project Name: Jacqueline Langhorst

Information Retrieval Modelle: Vektor-Modell

1 Endliche Automaten in der Sprachtechnologie Einführung Karin Haenelt

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Evaluierung von Information Retrieval Systemen Kursfolien Karin Haenelt.

Beata Kouchnir1 Part-of-Speech Tagging Eine Übersicht über verschiedene Ansätze sowie eine theoretische Beschreibung des TnT-Taggers von Thorsten.

Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger

Bau effizienter und effektiver Metasuchmaschinen

MMQL – Multimedia Query Language Eine Anfragesprache für Multimedia-Ähnlichkeitsanfragen Christian Mantei.

Grundlegende Analysen & Zwischendarstellungen

Semantisch gestützte Suche im Internet

NPGrammar NPGrammar. Nominalphrasenextraktion.

Access 2000 Datenbanken.

-> Sprachpsychologie -> Blickbewegungen

Indexierung - Verschlagwortung

Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.

Relevanz Ranking Bisher:

Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.

Inhalt der Präsentation

7.3 Hinweise für den Aufbau von ER-Schemata (1|7)

RDF-S3 und eRQL: RDF-Technologien für Informationsportale Karsten Tolle und Fabian Wleklinski.

UML Begleitdokumentation des Projekts

Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

Entitäten Extraktion Einführung

Nützlichkeit statistischer Phrasen in der Textklassifikation

Gradierte Grammatikalität SS 2003 Einheit 1. Quelle des Übels Klassische Linguistik Korpusorientiert (Tote Sprachen/ Literatur- sprachliche Norm) Dialektforschung.

Komponenten eines Information Retrieval Systems

Knowledge Discovery mit Wordnet und Alembic Workbench

1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

XML-Query. Übersicht Was ist XML-Query? Vergleich RDB XML-Dokument Syntaktisches und Use-Cases Kritik und Diskussion.

Von Isabelle Spörl und Simon Schausberger

Übung zu Einführung in die LDV I

Trust and context using the RDF- Source related Storage System (RDF‑S3) and easy RQL (eRQL) Karsten Tolle und Fabian Wleklinski.

Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.

Lernen durch Vergleiche

Information Retrieval, Vektorraummodell

Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen.

Inhaltserschliessung ein Beispiel A Bibliographic Search by Computer Updating plasma-physics data was a chance to experiment with information and programs.

5.1 5 Retrieval auf Bildern (.... in a nutshell)  Bedeutung.... ... im Zusammenhang mit Information Retrieval ... für Anwendungen Medizin: "Finde ähnliche.

Sprachprodukttechnologie SS 2001G. Heyer 1 Sprachstatistik  Grundlegende Definitionen  Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von.

Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)

Univ.-Prof. Dr. L. Müller-HagedornSofia 2007 Marketing 1 Kapitel 4 Nach der Bearbeitung des 4. Kapitels sollten Sie in der Lage sein, q Kennzahlen aufzuzeigen,

Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.

 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.

Terminologie-Extraktion

Einführung: Statistische Verfahren der automatischen Indexierung

Präsentation transkript:

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR1 Verarbeitung natürlicher Sprache im IR -- vorgestellt am Beispiel eines Projekts unter der Leitung von General Electric (GE) Research Yu-wen Pang

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR2 Hauptaufgabenstellung des Projekts n mit Hilfe NLP-Technik die Leistung von Volltext-Dokument-Retrieval verbessern : Verbesserung der Dokument- repräsentation (Indexierung) n jetzt : Query Expansion Schwerpunkt

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR3 Inhalt n Stream-basiertes IR Modell -- Übersicht des Stream-Konzepts -- Streams -- Stream Merging -- Leistung n Query Expansion -- Methoden -- bisheriges Ergebnis n Weitere Experimente n Andere Ansätze zum NLP im IR

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR4 Übersicht des Stream-Konzepts text data base Index-1 Index-2 Index-3 Index-4 Search queries merge stems phrases names Head+Modifier pairs match-1 match-4 match-3 match-2 (Tomek Strzalkowski u. a. 1999, S122)

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR5 Streams n Was sind Streams? Indizes, die mit verschiedenen Methoden als Dokumentrepräsentation erzeugt werden n 4 verwendete streams - Wortstämme (stems stream) - einfache Nominalphrasen (simple noun phrase stream ) - Namen (name stream) - Head+Modifier Paare (H+M pairs stream)

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR6 Wortstämme (stems stream) n einfachster, zur Zeit erfolgreichster aller streams n besteht aus Einzelwörtern in Wortstamm-Form n Probleme -- Mehrwortbegriffe (`joint venture´ Terme: `joint´ / `venture´) -- lexikalische Ambiguität unerwünschte Treffer

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR7 Einfache Nominalphrasen (simple noun phrase stream) n Zweck : Erfassung von Mehrwort-Termen n Extraktion von 3 Arten von Nominalphrasen Modifikation(adj,Partizip)+Substantiv(e) z.B.: air traffic control system Eigenname + Substantiv z.B.: U.S. citizen, China trade Eigenname(proper noun) z.B.: warren commission

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR8 Namen (name stream) n Eigennamen von Personen, Orten, Ereignissen, Organisationen usw. n 2 Prinzipien -- aus mehreren Wörtern zusammengesetzten Name als eine Einheit, nicht zerlegen -- Varianten desselben Name In der verwendeten Datenbank (TREC-5, 1996) sind 8% der generierten Terme zusammengesetzte Namen. z.B : South Africa= South+Africa z.B. : President Bill Clinton = President Clinton

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR9 Head+Modifier Paare (H+M pairs stream) n erzeugt in 5 aufeinanderfolgenden Schritten 1. Part-of-speech (Wortart) tagging 2. Lexikon-basierte Normalisierung von Wörtern 3. syntaktische Analyse mit Tagged Text Parser 4. Extraktion von Head+Modifier Paaren 5. Korpus-basierte Disambiguierung von langen Nominalphrasen

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR10 Schritt 1 : Part-of-speech tagging n Funktion lexikalische Ambiguität auflösen n Wirkung -- genaueres Stemming -- Basis für Phrasenbegrenzung

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR11 Schritt 2 : Normalisierung von Wörtern In dem Projekt wird ein Suffix Trimmer verwendet. n Funktion -- reduziert flektierte Wörter auf den Wortstamm wie im Wörterbuch angegeben -- wandelt nominalisierte Verben (z.B.: implementation, storage) in Stammform (implement, store) um n Beispiel originaler Text : The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. stemmed : veteran entitle award monetary compensate medical assist physical damage agent orange

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR12 Schritt 3 : Syntaktische Analyse mit Tagged Text Parser (TTP) n Funktion : Phrasen und deren Beziehung erzeugen TTP -- ein schneller und robuster Parser für natürliche Sprache (für einen Satz unter 1 Sekunde) -- eine wichtige Strategie vom TTP: skip-and-fit Nach der zugeteilten Zeit wird das problematische Fragment übersprungen. Eine approximative Analyse wird erzeugt. Der Parser setzt mit der nächsten Phrase fort. Das übersprungene Fragment wird später mit einem einfachen Phrasenparser analysiert und an der Hauptstruktur angebunden.

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR13 Schritt 4 : head+modifier Paare Extraktion (aus TTP parse tree) n 4 Paartypen werden in Betracht gezogen : 1. Kopf des Substantivs+linke adj/noun Adjunkte 2. Kopf des Substantivs+Kopf rechter Adjunkte 3. Hauptverb+Kopf seiner Objektphrase 4. Kopf des Subjekts+Hauptverb n Beispiel originaler Text : The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange. head+modifier Paare : damage+physical, cause+damage, award+compensate, award+assist, compensate+monetary, assist+medical, entitle+veteran

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR14 Schritt 5 : Disambiguierung der langen Nominalphrasen n Funktion zerlegt lange Nominalphrasen in sinnvolle H+M Paare n Beispiel : `insider trading case´ `trading+insider´ sinnvoller als `case+trading´.

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR15 n Verfahren der Disambiguierung Phase 1 -- Die nicht-ambigen Paare werden generiert. -- Die strukturell ambigen Nominalphrasen (=Nominalphrasen bestehend aus mehr als 2 Wörter und mindestens 2 Wörter sind Substantive) werden zur Phase 2 verschoben. -- Die Verteilungsstatistik der zusammengesetzten Terme wird gesammelt. (z.B. `insider trading´ mehr als `trading case´) Phase 2 -- Die H+M Paare von ambigen Nominalphrasen werden nach der Statistik generiert.

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR16 n Erklärung am Beispiel : lnc.ntn 1. lnc : verwendet bei Dokumenten ntn : verwendet bei Query 2. lnc : log-tf, nicht-idf, Cosinus-Normalisierung ntn : straight-tf, idf, nicht-Normalisierung Termgewichtung in Streams Stream Gewichtungsschema Stämme lnc.ntn Phrasen ltn.ntn H+M Paare ltn.nsn Namen ltn.ntn In SMART verwendet

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR17 Stream Merging n Was ist Merging (Fusion)? -- ein Prozeß, in dem die Ergebnisse des Rankings von jedem Stream miteinander verschmolzen werden und ein finales Ranking erzeugt wird n Faktoren, die das finale Ranking beeinflussen -- Werte eines Dokuments von jedem stream -- Effizienz jedes Streams -- Anzahl von Streams, in denen ein bestimmtes Dokument ausgegeben wird -- Performance im bestimmten Rankingbereich von jedem Stream

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR18 Algorithmus des Mergings d : Dokument d i : stream i A(i) : Koeffizient für stream i score(i)(d) : Relevanz des Dokuments d zur Query in Stream i nstreams(d) : Anzahl von Streams, in denen Dokument d ausgegeben wird *Finalscore(d)= A(i) score(i)(d) (0.9+nstreams(d)/10) * der beste Algorithmus für PRISE

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR19 Leistungen von Streams n Leistungen einzelner Streams (11-pt avg. Prec) RUNS short queries long queries Stems Phrases H+M pairs Names (Tomek Strzalkowski u. a. 1999, S132)

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR20 n Erhöhung der Precision nach Merging der Streams gegenüber reinem stemming Streams merged short queries long queries % change % change alle streams stems+Phrases+Pairs stems+Phrases stems+Pairs stems+Names (Tomek Strzalkowski u. a. 1999, S134)

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR21 Query Expansion n Beobachtung -- Query vom Benutzer : meistens nur semantisch oder begrifflich ähnlich den relevanten Dokumente was noch nicht gut modelliert werden kann -- die Formulierung der Query : oft irreführend n Ziel der Query Die Query soll den relevanten Dokumente ähnlicher werden, sowohl inhaltlich als auch strukturell. n Methoden -- Term-Expansion -- Volltext-Expansion

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR22 Term-Expansion n Verfahren Retrieval mit originaler Query mit Hilfe `Relevance-Feedback´ beurteilen, ob die ausgegebenen Dokumente relevant sind Die Terme in den als relevant beurteilten Dokumenten werden zur Query hinzugefügt. Gewichtungen der Terme in der Query werden neu berechnet. Retrieval mit der bearbeiteten Query

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR23 n Probleme der Term-Expansion 1. Einige wichtige Aspekte, die bezüglich der Query manche Dokumente zur Relevanz bringen, sind mit der Term-Expansion nur schwer zu erfassen.(z.B. Textstruktur) 2. Der Expansion mit Relevance-Feedback von den Benutzenden legen einseitige Relevance-Informationen zugrunde.

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR24 Volltext-Expansion (neuer Vorschlag des Projekts) n Richtlinien In Top N Dokumente die zur Query relevanten Abschnitte aussuchen Retrieval mit originaler Query Indexierung für die expandierte Query ganze Abschnitte zur Query hinzufügen Retrieval mit der expandierter Query

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR25 Ergebnis der Query-Expansion Der beste offizielle Lauf bis 1999 Beschreibung durchschnittl. Precision in Recall von der Query Precision Top 10 Dok Dok. Manuell-unterstützte Expansion In diesem Lauf : 1. Indexierung nur mit stem-stream 2. Relevance-Infos vom User mit Zusammenfassung (summary) 3. als `relevant´ beurteilte Zusammenfassungen zum Thema der Query hinzugefügt (Tomek Strzalkowski u.a. : NLIR TREC-8 Report)

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR26 Weitere Experimente in dem Projekt n Indexierung erweiterter Query mit allen Streams n automatische Expansion mit Textabschnitten vs. Zusammenfassungen n linguistische Verarbeitung für Indexierung vs. nur für Query

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR27 Andere Ansätze zum NLP in IR-Systeme in TREC n CLARIT : NLP verwendet bei Indexierung n InQuery (von UMass): NLP verwendet bei Verarbeitung von Query

Yu-wen Pang : Verarbeitung natürlicher Sprache im IR28 Literatur n T. Strzalkowski, L. Guthrie, J. Karlgren, J. Leistensnider, F. Lin, J. Perez-Carballo, T. Straszheim, J. Wang, J. Wilding : Natural Language Information Retrieval : TREC-5 Report n T. Strzalkowski, J. Karlgren, J. Perez-Carballo, A. Hulth, P. Tapanainen, T. Lahtinen : Natural Language Information Retrieval : TREC-8 Report /pubs/trec8/t8_proceedings.htmlhttp://trec.nist.gov /pubs/trec8/t8_proceedings.html n T. Strzalkowski, J. Perez-Carballo : Evaluating Natural Language Processing Techniques in Information Retrieval. In : T. Strzalkowski (ed.): Natural Language Information Retrieval, 1999 Kluwer Academic Publishers n T. Strzalkowski, P. Scheyen : Evaluation of the Tagged Text Parser, A Preliminary Report. In : H. Bunt, M. Tomita (ed.) : Recent Advances in Parsing Technology,1996 Kluwer Academic Publishers