WS 05/06Automatische Akquisition linguistischen Wissens1 Musterbasierte Extraktion spezifischer Relationen (Identifying/detecting/extracting thesaurus.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Seite 1 Find Economic Literature Stand
Algorithmen und Datenstrukturen
Vorlesung Programmieren II
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
Wissensanalyse von Aufgaben mit TKS Eine Methode zur Problemlösung
Suche in Texten (Stringsuche )
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Seminar Textmining WS 06/07
Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.
Seminar Textmining WS 06/07 Themen Übung 8 Diskussion über Erkennung von Eigennamen Question Answering Stemming.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
WS 05/06Automatische Akquisition linguistischen Wissens1 Vollautomatisches bestimmen von Relationen 1.Anforderungen Welches Wissen und welches nicht Komplexitätsprobleme.
Automatische Akquisition linguistischen Wissens
Automatische Akquisition linguistischen Wissens
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
Automatische Akquisition linguistischen Wissens
WS 05/06Automatische Akquisition linguistischen Wissens1 Extraktion Morphologischen Wissens 1.Problemstellung - Facetten der Morphologie 2.Anwendungen.
Automatische Akquisition linguistischen Wissens
Automatische Akquisition linguistischen Wissens
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
8 Behandlung von Begriffen 8.1 Grundlagen aus Logik und Psychologie
Ontologien- Query 1 Teil2
Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
DOM (Document Object Model)
Algorithmentheorie 04 –Hashing
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Deklaratives Debugging (Seminar Software Engineering) Tim Sender Deklaratives Debugging Seminar Software Engineering.
Sebastian Grahn Sebastian Kühn
Grammatik als Deduktionssystem
Grundlegende Analysen & Zwischendarstellungen
MeiNetz-Suche Wie kann man in meiNetz etwas suchen? 1.durch Gruppen browsen 2.Suchfunktion.
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Inhalt der Präsentation
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Hauptseminar Automaten und Formale Sprachen
Entitäten Extraktion Einführung
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Eignung von Grammatik-basiertem Layout für grafische Programmiersprachen Seminar Layout-Algorithmen für Graphen Institut für Informatik Christian-Albrechts.
Knowledge Discovery mit Wordnet und Alembic Workbench
Unterwegs im Internet.
Automatic composition of UI mashups Vortrag zum Seminar Webengineering 2011 Michael Reißner.
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt WS 06/
Erfindervon Fuzzy Logic
ProSeminar WS 2007/08 Leo Hackstein
Abteilung für automatische Sprachverarbeitung
Paradigmenwechsel in der Unternehmensmodellierung Prof. Dr. Wolfgang Voigt Dipl.-Ing. Päd. Alexander Huwaldt UML Extrakt UML Seminar, Chemnitz
Wie mache ich eine PowerPoint Präsentation??!
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 1: Wiederholung (Vor allem Folien von Priv.-Doz. Dr. Kindler vom WS 2001/02.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
PHP: Operatoren und Kontrollstrukturen
Web 2.0 Interaktives Internet.
Information Retrieval, Vektorraummodell
Lösen physikalischer Probleme mit Reibung und / oder mehr als drei Kräften Die folgenden Seiten sind für das selbständige Erarbeiten eines physikalischen.
1 XCDL eXtensible Characterisation Description Language Von Maike Wosnitza.
7. Formale Sprachen und Grammatiken
WINDOWS 2003 Server. Standart Varianten für 32 Bit: Web Edition: Unterstützt Single(1)- oder Dual(2)-Prozessor-Systeme und bis zu 2 GB RAM 32-Bit Standard.
Funktionale Unifikations-Grammatik (FUG)  Hauptmerkmale der FUG.
Lexikalische Semantik
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
Asymmetrische Kryptographie
Binärbäume.
- Seite 1 TIME INTELLIGENCE ® by Zeichenrand – Löschen! Titel.
1 Suchprofile erstellen und verwalten. 2 Suchprofile bei Registrierung Hier können Sie bis zu drei Suchprofile einrichten. Diese finden Sie später unter.
- Seite 1 TIME INTELLIGENCE ® by Titel.
Gliederung 0. Motivation und Einordnung 1. Endliche Automaten
 Präsentation transkript:

WS 05/06Automatische Akquisition linguistischen Wissens1 Musterbasierte Extraktion spezifischer Relationen (Identifying/detecting/extracting thesaurus relations) 1.Ziele 2.Aktuelle Ansätze 1.Clustertechniken 2.Wildcardmuster 3.Semantische Ausrichtung von Adjektiven Referat: Meronyme (Berland, Charniak) oder Adjektivausrichtung (Hatzivassiliglou)

WS 05/06Automatische Akquisition linguistischen Wissens2 1. Ziele Design von möglichst stabilen Algorithmen Halb-automatischen Extraktion genau spezifizierter Relationen mit Belegstellen Ebenfalls (gleiche Methoden) Extraktion von konkretem Wissen (Information Extraction) Unterstützung manueller Annotation Information Retrieval statt Text Retrieval, welches normalerweise IR genannt wird –So können z.B. alle Firmennamen in einer Sammlung von Dokumenten automatisch gesammelt werden –Feine Extraktion z.B. nur von Firmennamen, die irgend etwas mit Medizin zu tun haben

WS 05/06Automatische Akquisition linguistischen Wissens Eigenschaften Zu extrahierendes Wissen oder Relationen müssen sprachliche Regelmäßigkeiten aufweisen: –Teil-von:X ist ein Teil von Y –Oberbegriffe: X ist ein Y –Synonyme ungünstig, da keine deutlichen sprachlichen Repräsentationen –Allerdings auch ungewöhnliche Dinge wie Adjektivausrichtung möglich (Hatzivassiliglou 97) Idealerweise lassen sich Muster möglichst abstrakt ausdrücken –Nicht einfach nur Muster, sondern auch syntaktische Konstruktionen –aber auch nicht zu komplex, um möglichst Sprachneutralität zu behalten

WS 05/06Automatische Akquisition linguistischen Wissens Ausblicke Ultimativ derartiger Algorithmus anschließend an automatische Extraktion von auffälligen Mustern. Dazu sollte Algorithmus möglichst Fehlertolerant sein, bzw. Verifizierung der erhaltenen Ergebnisse beinhalten Dabei je strukturierter die extrahierten Daten, umso mehr Verifizierung kann stattfinden: –Titel, Beruf, Name und Vorname für Personenextraktion –Dann können Widersprüche automatisch aufgelöst werden, denn was Name ist, ist meist nicht gleichzeitig Titel. –Widersprüche dabei nicht im streng logischen Sinne sondern lediglich Wahrscheinlichkeiten, bzw. Unwahrscheinlichkeiten

WS 05/06Automatische Akquisition linguistischen Wissens Verwandtheit mit Information Extraction (siehe Beispiel nächste Folie) Allerdings hat Information Extraktion den Vorteil, größtenteils mit sehr strukturierten Daten zu arbeiten. Namen sind dabei die einfachste Variante Bestimmte gut definierbare Sorten von Ereignissen Entitäten aller Arten (Firmen, Produkte, Neuerungen, Technologien) haben alle eigene Strukturen –Firma: X Inc., Chief Executive of X, X Association, … –Produkte: Our newly designed X, problems with the X, … –Technologien: this new technology X will help us … Extraktion von Relationen jedoch meist genereller und nicht sehr domänenspezifisch (Meronyme kommen in technischen Artikeln natürlich häufiger vor)

WS 05/06Automatische Akquisition linguistischen Wissens Beispiel Die Aufgabe lautet, ein Template mit Information über Nachfolgeereignisse auszufüllen Folgender Key vorgegeben: NAME : "New York Times Co." NAME : "New York Times" NAME : "Russell T. Lewis" NAME : "Lance R. Primis" wsj93_ Marketing Noted /19/93 WALL STREET JOURNAL (J), PAGE B5 NYTA MEDIA (MED), PUBLISHING (PUB) New York Times Co. named Russell T. Lewis, 45, president and general manager of its flagship New York Times newspaper, responsible for all business-side activities. He was executive vice president and deputy general manager. He succeeds Lance R. Primis, who in September was named president and chief operating officer of the parent.

WS 05/06Automatische Akquisition linguistischen Wissens Beispiel fortgesetzt SUCCESSION-1> ORGANIZATION : POST : "president" WHO_IS_IN : WHO_IS_OUT: ORGANIZATION : POST : "general manager" WHO_IS_IN : WHO_IS_OUT: ORGANIZATION : POST : "executive vice president" WHO_IS_IN : WHO_IS_OUT : ORGANIZATION : POST : "deputy general manager" WHO_IS_IN : WHO_IS_OUT : ORGANIZATION : POST : "president" WHO_IS_IN : WHO_IS_OUT : ORGANIZATION : POST: "chief operating officer" WHO_IS_IN : WHO_IS_OUT :

WS 05/06Automatische Akquisition linguistischen Wissens Beispiel strukturiert wsj93_ Marketing Noted /19/93 WALL STREET JOURNAL (J), PAGE B5 NYTA MEDIA (MED), PUBLISHING (PUB) New York Times Co. named Russell T. Lewis, 45, president and general manager of its flagship New York Times newspaper, responsible for all business-side activities. He was executive vice president and deputy general manager. He succeeds Lance R. Primis, who in September was named president and chief operating officer of the parent. Vorgegebene und dem System vermutlich bekannte Elemente sind markiert Dadurch Struktur des Artikels: Es wird deutlich, dass derartige Artikel Formularhaftigen Charakter haben Dadurch mit Hilfe einfacher regulärer Ausdrücke interpretierbar Speziell: He succeeds X Einfache Auflösung des nächsten Personennamens zurück im Text (welcher auch noch vorgegeben war) Zusätzliche Verifizierung durch named vs. was named

WS 05/06Automatische Akquisition linguistischen Wissens9 2. Aktuelle Ansätze Teilen sich grob in mehrere verschiedene: –Clustertechniken von Head-Modifier Strukturen (z.B. Ruge 97) –Echte Muster, ausgedrückt per reguläre Ausdrücke (z.B. Berland & Charniak 99) –Clustern anhand von vorgegebenen Punkten, optional mit Tagging (Hatzivassiloglou 97) –Hybride Verfahren (Hearst 92) Gemeinsam ist, dass alle Verfahren jeweils für eine sehr spezielle, aber allgemeine Relation ausgelegt sind: –Hyperonymie (Hearst 92) –Ausrichtung von Adjektiven (Hatzivassiloglou 97) –Synonyme (bzw. ähnliche Wörter) (Ruge 97) –Meronyme (Berland & Charniak 99)

WS 05/06Automatische Akquisition linguistischen Wissens Was ist Bambara ndang? … oder der Hearst-Ansatz, welcher aus zwei Teilen besteht: Zunächst wird halbautomatisch eine Menge von lexiko- syntaktischen Mustern identifiziert, welche –häufig, –über mehrere Genres hinweg auftreten, –und unzweifelbare Indikatoren für die gewünschte Relation sind Diese Menge von Mustern wird dann zur Extraktion von Wortpaaren, die in der Relation stehen genutzt –Und dabei gleich noch die Struktur eines manuell erstellten Thesaurus analysiert und kritisiert Wichtiger Unterschied zu klassischen linguistischen Parsern und dergleichen ist, dass nicht jeder Satz im Detail geparst wird

WS 05/06Automatische Akquisition linguistischen Wissens Beispiel Im Detail muss auch gar nicht immer geparst werden, da Information oft offensichtlich da steht: The bow lute, such as the Bambara ndang, is plucked and has an individual curved neck for each string. Ohne bow lute würde ein Mensch dennoch eine Ahnung bekommen, dass es sich evtl. um ein musikalisches Gerät handelt Allerdings steht die Definition viel Einfacher erklärend direkt im Satz. Interessanterweise haben Menschen zusätzlich eine Vorstellung davon, was eine bow lute ist, obwohl sie diesen Begriff oder ein entsprechendes Objekt vermutlich nie vorher gesehen haben –Aber das ist nicht unser Gebiet… –Wichtig für uns ist, dass bow lute vermutlich eine spezielle lute ist und Bambara ndang nach diesem Satz offenbar eine spezielle bow lute

WS 05/06Automatische Akquisition linguistischen Wissens Generierung von Mustern Aus dem gegebenen Beispiel ließe sich folgendes Muster ableiten (getaggter Korpus vorausgesetzt): NP 0 such as {NP 1, NP 2, …, NP n-1 (and | or)} NP n Aus diesem Muster folgt dann die Implikation, dass für alle NP i,1in, Unterbegriff(NP i, NP 0 ) Dieses und andere derartige Muster erfüllen neben den bereits genannten Eigenschaften noch eine weitere: –Wenn das POS-tagging bereits gegeben ist, lassen sie sich ohne komplizierte und fehleranfällige Parser oder ähnliches erkennen –Dies wiederum umgeht das zirkuläre Problem, dass der Algorithmus sonst ein Tool bräuchte, welches es eigentlich helfen würde zu erstellen –Und das impliziert wiederum, dass die evtl. zu groben Ergebnisse dieses Algorithmus in den Bau komplexerer Parser u.ä. für feinere Extraktionsmechanismen gesteckt werden können

WS 05/06Automatische Akquisition linguistischen Wissens Die Menge der Muster Angefangen wird mit einer kleinen Menge von per Hand definierten Mustern: 1.such NP as {NP,} * {or|and} NP … works by such authors as Herrick, Goldsmith, and Shakespeare Unterbegriff(Herrick,author(s)) Unterbegriff(Goldsmith,author(s)) Unterbegriff(Shakespeare,author(s)) 2.NP {, NP} * {,} or|and other NP … bruises, wounds, broken bones or other injuries … Unterbegriff(bruises,injury(ies)) Unterbegriff(wound,injury(ies)) Unterbegriff(broken bone,injury(ies))

WS 05/06Automatische Akquisition linguistischen Wissens Auswertung der Muster Weitere Muster: 3.NP {, NP} * {,} and other NP temples, treasuries and other important civic buildings 4.NP {,} including {NP,} * {or | and} NP All common-law countries, including Canada and England 5.NP {,} especially {NP,} * most European countries, including France, England and Spain. Wenn eine Relation zwischen zwei NPs gefunden wurde, wird zwar –Lemmatisierung durchgeführt, –Aber keine weitere Analyse Das führt dazu, dass broken bone ebenfalls ein neuer Eintrag in das Thesaurus wäre, aber auch important civic buildings

WS 05/06Automatische Akquisition linguistischen Wissens Erweiterung der Mustermenge Initiale Mustermenge (1-2) wird genutzt, um Menge von Wortpaaren zu finden, die in der gesuchten Relation stehen Danach wir diese Menge von Wörtern wieder genutzt, um die Muster zu erweitern, indem beobachtet, in welchen Konstruktionen diese vorkommen. So wurden Regeln 3-5 gefunden. Hearst haben diesen Bootstrappingprozess nicht implementiert, sondern teilweise manuell gelassen, da speziell das Erkennen von gleichen oder relevanten Konstruktionen gegenüber ambigen problematisch war

WS 05/06Automatische Akquisition linguistischen Wissens Vergleichen der Resultate mit WordNet Es können drei Situationen eintreten: Verifizieren: Wenn sowohl N 0 als auch N 1 in WordNet sind und (evtl. durch transitives schliessen) sie in der Unterbegriff() Relation stehen Kritik: Wenn sowohl N 0 als auch N 1 in WordNet vorhanden sind, aber nicht in Relation Unterbegriff() stehen Verändern: Wenn N 0 oder N 1 nicht in WordNet vorkommen Beispiel für Kritik: Other input-output devices, such as printers, color plotters, … Unterbegriff(printer,input-output device) In WordNet jedoch:

WS 05/06Automatische Akquisition linguistischen Wissens Generierte Kritik Hier ist aber I/O device keinesfalls Überbegriff zu printer, überhaupt Unterschied zwischen mechanism und device artifact, article, artefact device mechanism machineI/O_devicemechanical_device machine, simple_machine computer printer, printing_machine line_printerlaser_printer typeprinter

WS 05/06Automatische Akquisition linguistischen Wissens Hearsts Versuchsaufbau Benutze Enzyklopädie (Groliers American Academic Enzyclopedia), um Text mit vielen Definitionen zu erhalten Insgesamt 152 verschiedene Wortpaare, die allen Bedingungen entsprachen und mit such as verbunden waren Dabei 180 von 226 unterschiedlichen Wörtern waren in WordNet und 61 von 106 gutartige Relationen (wo beide Wörter in WordNet vorkamen Dabei manches problematisch: –king, institution (Metonymie) –Steatornis, species (Unterspezifizierung) –Washington, nationalist –Aircraft, target (recht… domänenspezifisch)

WS 05/06Automatische Akquisition linguistischen Wissens Head-modifier oder (Ruge 97) Ansatz Dependenzgrammatik hat als zentralen Bestandteil das head- modifier Prinzip. Dabei ist head ein Term, der durch weitere Ausdrücke modifiziert werden kann: –thesaurus construction –construction of a complete domain independent monolingual thesaurus –automatic thesaurus generation or construction Allerdings kann ein Modifier auch mehrere heads haben (automatic) Dependency Grammatik ist sprachunabhängiger als Chomsky Grammatik

WS 05/06Automatische Akquisition linguistischen Wissens Berechnung von Synonymie Head-Modifier Relation kann auch als Baumstruktur dargestellt werden. Durch weglassen von Stopwörtern kann mehr oder weniger sprachunabhängige Grammatik von Sätzen erreicht werden: –Peter drinks sweet hot coffee. –Peter drinks a coffee which is sweet and hot. Diverse einfache Tagger können genutzt werden, um head-modifier Bäume in rohem Text zu taggen mit 85% Genauigkeit Synonyme sollen dann als Ähnlichkeit über Modifier berechnet werden: –Je mehr modifier und heads ein Term mit einem anderen meistens gemeinsam hat, umso ähnlicher sind sie drink Petercoffee sweethot

WS 05/06Automatische Akquisition linguistischen Wissens Berechnung von Synonymie II Ruge verwendet ein logarithmisch gesmoothstes cosinus Mass, in welchem heads und modifier gleiches Gewicht haben, um gerankte Liste von Ähnlichen Wörtern zu berechnen Performanz leider kaum gemessen, allerdings angeblich im Schnitt 70% Wörter, die für querz expansion genutzt werden konnten. In einem anderen Paper wurde eine Ähnliche Technik verwendet und eine Verbesserung der Retrieval Qualität um 20% erreicht. Bei diesem Ansatz ist vor allem der zweistufige Ansatz zur Ähnlichkeitsberechnung interessant und wie nächstes Seminar deutlich wird, ist die Extraktion von head-modifiern evtl. nicht so wichtig. –da sie zu gleichen Gewichten in cosinus eingehen, ist Unterscheidung unwichtig –Und durch Entfernung der Stoppwörter ist das Finden von head-modifiern in diesem Fall vermutlich äquivalent zu einem richtigen Signifikanzmaß bei Satzkookkurrenzen

WS 05/06Automatische Akquisition linguistischen Wissens22 Referat: Auswahl aus mehreren Veröffentlichungen Meronyme: Berland & Charniak 99 Adjektivorientierung: Hatzivassiloglou 97 Ober- Unterbegriffe: Hearst 92 Oder allgemein Ruge 97