Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.

Slides:

Advertisements

Ähnliche Präsentationen

Relative Clauses.

Advertisements

Support.ebsco.com Lernprogramm zum Erstellen einer lokalen Sammlung.

Durchführen einer erweiterten Suche in EBSCOhost Felder für die geführte Suche Lernprogramm support.ebsco.com.

Perceptrons and the perceptron learning rule

Kohonennetze für Information Retrieval mit User Feedback

Frame-Logik Eine Einführung Andreas Glausch.

IuK 2003 Ansätze zur TeX-to-MathML Konvertierung - Semantik durch fachspezifische Usepackages Prof. Dr. Günter Törner Sebastian Pokutta Universität Duisburg-Essen.

Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.

Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.3 Karhunen-Loeve-Transformation Minimalität und Orthogonalität innerhalb.

Kollisionen erkennen Kollisions- und Schnittpunkttests auf Dreieckbasis Kollisions- und Schnittpunkttests auf Viereckbasis Einsatz von achsenausgerichteten.

Grundlagen der Geometrie

Doris Kocher, PH Freiburg

Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.

Brainstorming Name des Vortragenden.

es gibt (fast) nichts, was nicht anders gemacht werden könnte

Sortierverfahren Richard Göbel.

Sortierverfahren Richard Göbel.

FH-Hof Effizienz - Grundlagen Richard Göbel. FH-Hof Inhalt Einführung Aufwand für Anfragen ohne Indexierung Indexstrukturen für Anfragen an eine Tabelle.

So sieht ein Protokoll aus:

Was ist die artikulatorische Grundlage von Locus-Gleichungen? Hauptseminar: Modelle der Sprachproduktion & - perzeption Dozent: Prof. Dr. Jonathan Harrington.

Dynamische Programmierung (2) Matrixkettenprodukt

WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.

Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.

Nicht-Lineare Regression

Konfidenzintervalle für Parameter

Information Retrieval Modelle: Vektor-Modell

Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.

Numerische Klassifikation TWINSPAN

Seminar: Architekturbeschreibungssprachen

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.

DVG Klassen und Objekte

Effects of 3-D complexity on the perception of 2-D depictions of objects (Flip Phillips, Colin H Thomson, Martin G Voshell, 2004) Seminar: Bildwahrnehmung.

Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.

Übersicht Das Berufspraktikum und die Berufsinformationsbörse

FH-Hof HTML - Einführung Richard Göbel. FH-Hof Komponenten des World Wide Webs WWW Browser HyperText Transfer Protocol (HTTP) via Internet WWW Server.

Entitäten Extraktion Einführung

Histogramm/empirische Verteilung Verteilungen

1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

W w w. s a f e r i n t e r n e t. a t Die Welt zu Hause Informationen suchen und finden.

Beispiel: Arbeit, Skalarprodukt zwischen Kraft- und Weg-Vektor

Ishikawa Diagramm.

Automatic composition of UI mashups Vortrag zum Seminar Webengineering 2011 Michael Reißner.

Tabor: KI & Sprachtechnologien Reise um die KI Turing-Spiel (Wer ist der Junge?) Turing-Test (Wer ist der Computer?) KI-Systeme simulieren künstl. Intelligenz.

Abschlussvortrag zur Studienarbeit

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Polynome und schnelle Fourier-Transformation

Erfindervon Fuzzy Logic

Feedback from WWW )18-22 mai )sheraton hotel and towers congress center, new york city, USA 3)keine teilnehmerliste, meine schätzung: ca.

TYPO3 free Open Source content management system Einführung Verlinkungen.

Klassifikation und Regression mittels neuronaler Netze

Information Retrieval, Vektorraummodell

10 Aufgaben zum Rechnen mit Einheiten für die Klasse 8e

Lexit.at Michael Hausenblas Semantische Darstellung und Abfrage von Rechtsnormen – IRIS 2004 Semantische Darstellung und Abfrage von Rechtsnormen am Beispiel.

THE MATHEMATICS OF PARTICLES & THE LAWS OF MOTION.

The PicSOM Retrieval System 1 Christian Steinberg.

Hier wird Wissen Wirklichkeit 1 Lektion in Statistik.

Lexikalische Semantik

Inhaltserschliessung ein Beispiel A Bibliographic Search by Computer Updating plasma-physics data was a chance to experiment with information and programs.

Nachweis von B 0 s -Oszillationen mit dem ATLAS Detektor am LHC B. Epp 1, V.M. Ghete 2, E. Kneringer 1, D. Kuhn 1, A. Nairz 3 1 Institut für Experimentalphysik,

Vorstellen und Herleiten der Horner Schemas

EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.

CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.

Hier finde ich neue Kreise Xing - Businessplattform.

Igor Vaynerman ISMOD-V ÜbungSS061 ISMOD-V Übung 3 Igor Vaynerman 8 Juni 2006.

Besonderheiten der elektronischen Prüfungen im Fachsprachenunterricht

Comprehension and Production of Analogical Problems by a Chimpanzee

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Präsentation transkript:

Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information Extraktion Von Carl Rauch 06. Dezember 2004

Inhalt Latent Semantic Analysis Erweiterung auf zwei Schritte Test zur Performanceevaluierung

Latent Semantic Analysis Ziel: Identifikation von semantisch äquivalenten, aber unterschiedlich geschriebenen Wörtern (z.B. Automobile & Car, Mumbai & Bombay, Yeltsin & Jelzin, …) Input: Texte (z.B. Sammlung von CNN) oder kurze Textphrasen in einer einheitlichen Sprache Ergebnis: Eine Auflistung von Wörtern, die zu einem Begriff semantisch äquivalent sein könnten.

Ablauf der LSA (1/2) Erstellung einer Dokument(n) x Wort(m) Matrix A Filterung der Wörter mit Hilfe des TF/IDF-Werts Durchführung der Singular Value Decomposition –Spaltung von A in die orthogonalen Matrixen U und V´ und in die Diagonale Matrix Σ m n A m n U n n Σ n n V´ =

Ablauf der LSA (2/2) Neuordnung von Σ entsprechend der Höhe der singular values σ i und gleichzeitige Umsortierung von U und V` Projektion von A in einen geringer dimensionalen Raum durch das Nullsetzen aller σ i außer der k höchsten. Die Ähnlichkeit zweier Worte wird durch die Position der Wort-Vektoren aus U im k- dimensionalen Raum bestimmt. (z.B. durch die euklidische Distanz, durch den Winkel zwischen den Vektoren).

Parameter Parameter, die für die Güte des Ergebnisses verantwortlich sind: –K….. Anzahl der zu berücksichtigten singulären Werte –TF/IDF-Wert….. Berechnung eines Werts für jedes Wort der Wort-Dokument Matrix. TF…. Term-frequency IDF….Inverse document frequency –T…. Grenzwert, unter dem Wörter nicht mehr zugelassen werden. W(t,d) = tf * idf

Ablauf des Experiments Wahl einer Beispielsammlung: Hier 77 Dokumente von (mit zw. 131 und 1923 Wörtern) 49 Dokumente enthalten den Term al Qaeda Ersetzen von Al Qaeda durch alqaeda1 in 50 % der Dokumente und durch alqaeda2 in den anderen Überprüfung der Wörter, die auf alqaeda1 semantisch am nächsten sind unter gleichzeitiger Variation der Parameter t und k There is no way for a user running LSA on a new document collection to determine good values of k & t a priori.

Ergebnisse der LSA T = 2,5

Erweiterung auf 2 Stufen Berücksichtigung des Kontexts eines Wortes Kreation neuer Dokumente, bestehend aus dem gefundenen möglichen Synonym und seinen Nachbarn Zweiter Durchlauf und erneute Auswertung der LSA t k

Kritische Punkte Trotz mehrerer am Anfang erwähnter realer Anwendungsmöglichkeiten wird nur die künstliche Umgebung verwendet – das Paper konzentriert sich auf dieses eine Beispiel Wahl der Parameter so, dass die erste Methode relativ schlecht abschneidet. Bei guter Wahl der Parameter bringt der zweite Durchlauf nur noch marginale Verbesserungen Relativ kurze und ungenaue Beschreibung der Singular Value Decomposition