Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.

Slides:



Advertisements
Ähnliche Präsentationen
Relative Clauses.
Advertisements

Support.ebsco.com Lernprogramm zum Erstellen einer lokalen Sammlung.
Durchführen einer erweiterten Suche in EBSCOhost Felder für die geführte Suche Lernprogramm support.ebsco.com.
Perceptrons and the perceptron learning rule
Kohonennetze für Information Retrieval mit User Feedback
Frame-Logik Eine Einführung Andreas Glausch.
IuK 2003 Ansätze zur TeX-to-MathML Konvertierung - Semantik durch fachspezifische Usepackages Prof. Dr. Günter Törner Sebastian Pokutta Universität Duisburg-Essen.
Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.
Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.3 Karhunen-Loeve-Transformation Minimalität und Orthogonalität innerhalb.
Kollisionen erkennen Kollisions- und Schnittpunkttests auf Dreieckbasis Kollisions- und Schnittpunkttests auf Viereckbasis Einsatz von achsenausgerichteten.
Grundlagen der Geometrie
Doris Kocher, PH Freiburg
Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.
Brainstorming Name des Vortragenden.
es gibt (fast) nichts, was nicht anders gemacht werden könnte
Sortierverfahren Richard Göbel.
Sortierverfahren Richard Göbel.
FH-Hof Effizienz - Grundlagen Richard Göbel. FH-Hof Inhalt Einführung Aufwand für Anfragen ohne Indexierung Indexstrukturen für Anfragen an eine Tabelle.
So sieht ein Protokoll aus:
Was ist die artikulatorische Grundlage von Locus-Gleichungen? Hauptseminar: Modelle der Sprachproduktion & - perzeption Dozent: Prof. Dr. Jonathan Harrington.
Dynamische Programmierung (2) Matrixkettenprodukt
WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
Nicht-Lineare Regression
Konfidenzintervalle für Parameter
Information Retrieval Modelle: Vektor-Modell
Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.
Numerische Klassifikation TWINSPAN
Seminar: Architekturbeschreibungssprachen
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.
DVG Klassen und Objekte
Effects of 3-D complexity on the perception of 2-D depictions of objects (Flip Phillips, Colin H Thomson, Martin G Voshell, 2004) Seminar: Bildwahrnehmung.
Tutorium
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
Übersicht Das Berufspraktikum und die Berufsinformationsbörse
FH-Hof HTML - Einführung Richard Göbel. FH-Hof Komponenten des World Wide Webs WWW Browser HyperText Transfer Protocol (HTTP) via Internet WWW Server.
Entitäten Extraktion Einführung
Histogramm/empirische Verteilung Verteilungen
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
W w w. s a f e r i n t e r n e t. a t Die Welt zu Hause Informationen suchen und finden.
Beispiel: Arbeit, Skalarprodukt zwischen Kraft- und Weg-Vektor
Ishikawa Diagramm.
Automatic composition of UI mashups Vortrag zum Seminar Webengineering 2011 Michael Reißner.
Tabor: KI & Sprachtechnologien Reise um die KI Turing-Spiel (Wer ist der Junge?) Turing-Test (Wer ist der Computer?) KI-Systeme simulieren künstl. Intelligenz.
Abschlussvortrag zur Studienarbeit
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Polynome und schnelle Fourier-Transformation
Erfindervon Fuzzy Logic
Feedback from WWW )18-22 mai )sheraton hotel and towers congress center, new york city, USA 3)keine teilnehmerliste, meine schätzung: ca.
TYPO3 free Open Source content management system Einführung Verlinkungen.
4 Töchter.
Klassifikation und Regression mittels neuronaler Netze
Information Retrieval, Vektorraummodell
10 Aufgaben zum Rechnen mit Einheiten für die Klasse 8e
Lexit.at Michael Hausenblas Semantische Darstellung und Abfrage von Rechtsnormen – IRIS 2004 Semantische Darstellung und Abfrage von Rechtsnormen am Beispiel.
THE MATHEMATICS OF PARTICLES & THE LAWS OF MOTION.
The PicSOM Retrieval System 1 Christian Steinberg.
Hier wird Wissen Wirklichkeit 1 Lektion in Statistik.
Lexikalische Semantik
Inhaltserschliessung ein Beispiel A Bibliographic Search by Computer Updating plasma-physics data was a chance to experiment with information and programs.
Nachweis von B 0 s -Oszillationen mit dem ATLAS Detektor am LHC B. Epp 1, V.M. Ghete 2, E. Kneringer 1, D. Kuhn 1, A. Nairz 3 1 Institut für Experimentalphysik,
Vorstellen und Herleiten der Horner Schemas
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
Hier finde ich neue Kreise Xing - Businessplattform.
Igor Vaynerman ISMOD-V ÜbungSS061 ISMOD-V Übung 3 Igor Vaynerman 8 Juni 2006.
Besonderheiten der elektronischen Prüfungen im Fachsprachenunterricht
Comprehension and Production of Analogical Problems by a Chimpanzee
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
 Präsentation transkript:

Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information Extraktion Von Carl Rauch 06. Dezember 2004

Inhalt Latent Semantic Analysis Erweiterung auf zwei Schritte Test zur Performanceevaluierung

Latent Semantic Analysis Ziel: Identifikation von semantisch äquivalenten, aber unterschiedlich geschriebenen Wörtern (z.B. Automobile & Car, Mumbai & Bombay, Yeltsin & Jelzin, …) Input: Texte (z.B. Sammlung von CNN) oder kurze Textphrasen in einer einheitlichen Sprache Ergebnis: Eine Auflistung von Wörtern, die zu einem Begriff semantisch äquivalent sein könnten.

Ablauf der LSA (1/2) Erstellung einer Dokument(n) x Wort(m) Matrix A Filterung der Wörter mit Hilfe des TF/IDF-Werts Durchführung der Singular Value Decomposition –Spaltung von A in die orthogonalen Matrixen U und V´ und in die Diagonale Matrix Σ m n A m n U n n Σ n n V´ =

Ablauf der LSA (2/2) Neuordnung von Σ entsprechend der Höhe der singular values σ i und gleichzeitige Umsortierung von U und V` Projektion von A in einen geringer dimensionalen Raum durch das Nullsetzen aller σ i außer der k höchsten. Die Ähnlichkeit zweier Worte wird durch die Position der Wort-Vektoren aus U im k- dimensionalen Raum bestimmt. (z.B. durch die euklidische Distanz, durch den Winkel zwischen den Vektoren).

Parameter Parameter, die für die Güte des Ergebnisses verantwortlich sind: –K….. Anzahl der zu berücksichtigten singulären Werte –TF/IDF-Wert….. Berechnung eines Werts für jedes Wort der Wort-Dokument Matrix. TF…. Term-frequency IDF….Inverse document frequency –T…. Grenzwert, unter dem Wörter nicht mehr zugelassen werden. W(t,d) = tf * idf

Ablauf des Experiments Wahl einer Beispielsammlung: Hier 77 Dokumente von (mit zw. 131 und 1923 Wörtern) 49 Dokumente enthalten den Term al Qaeda Ersetzen von Al Qaeda durch alqaeda1 in 50 % der Dokumente und durch alqaeda2 in den anderen Überprüfung der Wörter, die auf alqaeda1 semantisch am nächsten sind unter gleichzeitiger Variation der Parameter t und k There is no way for a user running LSA on a new document collection to determine good values of k & t a priori.

Ergebnisse der LSA T = 2,5

Erweiterung auf 2 Stufen Berücksichtigung des Kontexts eines Wortes Kreation neuer Dokumente, bestehend aus dem gefundenen möglichen Synonym und seinen Nachbarn Zweiter Durchlauf und erneute Auswertung der LSA t k

Kritische Punkte Trotz mehrerer am Anfang erwähnter realer Anwendungsmöglichkeiten wird nur die künstliche Umgebung verwendet – das Paper konzentriert sich auf dieses eine Beispiel Wahl der Parameter so, dass die erste Methode relativ schlecht abschneidet. Bei guter Wahl der Parameter bringt der zweite Durchlauf nur noch marginale Verbesserungen Relativ kurze und ungenaue Beschreibung der Singular Value Decomposition