Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

WS 05/06Automatische Akquisition linguistischen Wissens1 Musterbasierte Extraktion spezifischer Relationen (Identifying/detecting/extracting thesaurus.

Ähnliche Präsentationen


Präsentation zum Thema: "WS 05/06Automatische Akquisition linguistischen Wissens1 Musterbasierte Extraktion spezifischer Relationen (Identifying/detecting/extracting thesaurus."—  Präsentation transkript:

1 WS 05/06Automatische Akquisition linguistischen Wissens1 Musterbasierte Extraktion spezifischer Relationen (Identifying/detecting/extracting thesaurus relations) 1.Ziele 2.Aktuelle Ansätze 1.Clustertechniken 2.Wildcardmuster 3.Semantische Ausrichtung von Adjektiven Referat: Meronyme (Berland, Charniak) oder Adjektivausrichtung (Hatzivassiliglou)

2 WS 05/06Automatische Akquisition linguistischen Wissens2 1. Ziele Design von möglichst stabilen Algorithmen Halb-automatischen Extraktion genau spezifizierter Relationen mit Belegstellen Ebenfalls (gleiche Methoden) Extraktion von konkretem Wissen (Information Extraction) Unterstützung manueller Annotation Information Retrieval statt Text Retrieval, welches normalerweise IR genannt wird –So können z.B. alle Firmennamen in einer Sammlung von Dokumenten automatisch gesammelt werden –Feine Extraktion z.B. nur von Firmennamen, die irgend etwas mit Medizin zu tun haben

3 WS 05/06Automatische Akquisition linguistischen Wissens Eigenschaften Zu extrahierendes Wissen oder Relationen müssen sprachliche Regelmäßigkeiten aufweisen: –Teil-von:X ist ein Teil von Y –Oberbegriffe: X ist ein Y –Synonyme ungünstig, da keine deutlichen sprachlichen Repräsentationen –Allerdings auch ungewöhnliche Dinge wie Adjektivausrichtung möglich (Hatzivassiliglou 97) Idealerweise lassen sich Muster möglichst abstrakt ausdrücken –Nicht einfach nur Muster, sondern auch syntaktische Konstruktionen –aber auch nicht zu komplex, um möglichst Sprachneutralität zu behalten

4 WS 05/06Automatische Akquisition linguistischen Wissens Ausblicke Ultimativ derartiger Algorithmus anschließend an automatische Extraktion von auffälligen Mustern. Dazu sollte Algorithmus möglichst Fehlertolerant sein, bzw. Verifizierung der erhaltenen Ergebnisse beinhalten Dabei je strukturierter die extrahierten Daten, umso mehr Verifizierung kann stattfinden: –Titel, Beruf, Name und Vorname für Personenextraktion –Dann können Widersprüche automatisch aufgelöst werden, denn was Name ist, ist meist nicht gleichzeitig Titel. –Widersprüche dabei nicht im streng logischen Sinne sondern lediglich Wahrscheinlichkeiten, bzw. Unwahrscheinlichkeiten

5 WS 05/06Automatische Akquisition linguistischen Wissens Verwandtheit mit Information Extraction (siehe Beispiel nächste Folie)http://gate.ac.uk/ie/ Allerdings hat Information Extraktion den Vorteil, größtenteils mit sehr strukturierten Daten zu arbeiten. Namen sind dabei die einfachste Variante Bestimmte gut definierbare Sorten von Ereignissen Entitäten aller Arten (Firmen, Produkte, Neuerungen, Technologien) haben alle eigene Strukturen –Firma: X Inc., Chief Executive of X, X Association, … –Produkte: Our newly designed X, problems with the X, … –Technologien: this new technology X will help us … Extraktion von Relationen jedoch meist genereller und nicht sehr domänenspezifisch (Meronyme kommen in technischen Artikeln natürlich häufiger vor)

6 WS 05/06Automatische Akquisition linguistischen Wissens Beispiel Die Aufgabe lautet, ein Template mit Information über Nachfolgeereignisse auszufüllen Folgender Key vorgegeben: NAME : "New York Times Co." NAME : "New York Times" NAME : "Russell T. Lewis" NAME : "Lance R. Primis" wsj93_ Marketing Noted /19/93 WALL STREET JOURNAL (J), PAGE B5 NYTA MEDIA (MED), PUBLISHING (PUB) New York Times Co. named Russell T. Lewis, 45, president and general manager of its flagship New York Times newspaper, responsible for all business-side activities. He was executive vice president and deputy general manager. He succeeds Lance R. Primis, who in September was named president and chief operating officer of the parent.

7 WS 05/06Automatische Akquisition linguistischen Wissens Beispiel fortgesetzt SUCCESSION-1> ORGANIZATION : POST : "president" WHO_IS_IN : WHO_IS_OUT: ORGANIZATION : POST : "general manager" WHO_IS_IN : WHO_IS_OUT: ORGANIZATION : POST : "executive vice president" WHO_IS_IN : WHO_IS_OUT : ORGANIZATION : POST : "deputy general manager" WHO_IS_IN : WHO_IS_OUT : ORGANIZATION : POST : "president" WHO_IS_IN : WHO_IS_OUT : ORGANIZATION : POST: "chief operating officer" WHO_IS_IN : WHO_IS_OUT :

8 WS 05/06Automatische Akquisition linguistischen Wissens Beispiel strukturiert wsj93_ Marketing Noted /19/93 WALL STREET JOURNAL (J), PAGE B5 NYTA MEDIA (MED), PUBLISHING (PUB) New York Times Co. named Russell T. Lewis, 45, president and general manager of its flagship New York Times newspaper, responsible for all business-side activities. He was executive vice president and deputy general manager. He succeeds Lance R. Primis, who in September was named president and chief operating officer of the parent. Vorgegebene und dem System vermutlich bekannte Elemente sind markiert Dadurch Struktur des Artikels: Es wird deutlich, dass derartige Artikel Formularhaftigen Charakter haben Dadurch mit Hilfe einfacher regulärer Ausdrücke interpretierbar Speziell: He succeeds X Einfache Auflösung des nächsten Personennamens zurück im Text (welcher auch noch vorgegeben war) Zusätzliche Verifizierung durch named vs. was named

9 WS 05/06Automatische Akquisition linguistischen Wissens9 2. Aktuelle Ansätze Teilen sich grob in mehrere verschiedene: –Clustertechniken von Head-Modifier Strukturen (z.B. Ruge 97) –Echte Muster, ausgedrückt per reguläre Ausdrücke (z.B. Berland & Charniak 99) –Clustern anhand von vorgegebenen Punkten, optional mit Tagging (Hatzivassiloglou 97) –Hybride Verfahren (Hearst 92) Gemeinsam ist, dass alle Verfahren jeweils für eine sehr spezielle, aber allgemeine Relation ausgelegt sind: –Hyperonymie (Hearst 92) –Ausrichtung von Adjektiven (Hatzivassiloglou 97) –Synonyme (bzw. ähnliche Wörter) (Ruge 97) –Meronyme (Berland & Charniak 99)

10 WS 05/06Automatische Akquisition linguistischen Wissens Was ist Bambara ndang? … oder der Hearst-Ansatz, welcher aus zwei Teilen besteht: Zunächst wird halbautomatisch eine Menge von lexiko- syntaktischen Mustern identifiziert, welche –häufig, –über mehrere Genres hinweg auftreten, –und unzweifelbare Indikatoren für die gewünschte Relation sind Diese Menge von Mustern wird dann zur Extraktion von Wortpaaren, die in der Relation stehen genutzt –Und dabei gleich noch die Struktur eines manuell erstellten Thesaurus analysiert und kritisiert Wichtiger Unterschied zu klassischen linguistischen Parsern und dergleichen ist, dass nicht jeder Satz im Detail geparst wird

11 WS 05/06Automatische Akquisition linguistischen Wissens Beispiel Im Detail muss auch gar nicht immer geparst werden, da Information oft offensichtlich da steht: The bow lute, such as the Bambara ndang, is plucked and has an individual curved neck for each string. Ohne bow lute würde ein Mensch dennoch eine Ahnung bekommen, dass es sich evtl. um ein musikalisches Gerät handelt Allerdings steht die Definition viel Einfacher erklärend direkt im Satz. Interessanterweise haben Menschen zusätzlich eine Vorstellung davon, was eine bow lute ist, obwohl sie diesen Begriff oder ein entsprechendes Objekt vermutlich nie vorher gesehen haben –Aber das ist nicht unser Gebiet… –Wichtig für uns ist, dass bow lute vermutlich eine spezielle lute ist und Bambara ndang nach diesem Satz offenbar eine spezielle bow lute

12 WS 05/06Automatische Akquisition linguistischen Wissens Generierung von Mustern Aus dem gegebenen Beispiel ließe sich folgendes Muster ableiten (getaggter Korpus vorausgesetzt): NP 0 such as {NP 1, NP 2, …, NP n-1 (and | or)} NP n Aus diesem Muster folgt dann die Implikation, dass für alle NP i,1in, Unterbegriff(NP i, NP 0 ) Dieses und andere derartige Muster erfüllen neben den bereits genannten Eigenschaften noch eine weitere: –Wenn das POS-tagging bereits gegeben ist, lassen sie sich ohne komplizierte und fehleranfällige Parser oder ähnliches erkennen –Dies wiederum umgeht das zirkuläre Problem, dass der Algorithmus sonst ein Tool bräuchte, welches es eigentlich helfen würde zu erstellen –Und das impliziert wiederum, dass die evtl. zu groben Ergebnisse dieses Algorithmus in den Bau komplexerer Parser u.ä. für feinere Extraktionsmechanismen gesteckt werden können

13 WS 05/06Automatische Akquisition linguistischen Wissens Die Menge der Muster Angefangen wird mit einer kleinen Menge von per Hand definierten Mustern: 1.such NP as {NP,} * {or|and} NP … works by such authors as Herrick, Goldsmith, and Shakespeare Unterbegriff(Herrick,author(s)) Unterbegriff(Goldsmith,author(s)) Unterbegriff(Shakespeare,author(s)) 2.NP {, NP} * {,} or|and other NP … bruises, wounds, broken bones or other injuries … Unterbegriff(bruises,injury(ies)) Unterbegriff(wound,injury(ies)) Unterbegriff(broken bone,injury(ies))

14 WS 05/06Automatische Akquisition linguistischen Wissens Auswertung der Muster Weitere Muster: 3.NP {, NP} * {,} and other NP temples, treasuries and other important civic buildings 4.NP {,} including {NP,} * {or | and} NP All common-law countries, including Canada and England 5.NP {,} especially {NP,} * most European countries, including France, England and Spain. Wenn eine Relation zwischen zwei NPs gefunden wurde, wird zwar –Lemmatisierung durchgeführt, –Aber keine weitere Analyse Das führt dazu, dass broken bone ebenfalls ein neuer Eintrag in das Thesaurus wäre, aber auch important civic buildings

15 WS 05/06Automatische Akquisition linguistischen Wissens Erweiterung der Mustermenge Initiale Mustermenge (1-2) wird genutzt, um Menge von Wortpaaren zu finden, die in der gesuchten Relation stehen Danach wir diese Menge von Wörtern wieder genutzt, um die Muster zu erweitern, indem beobachtet, in welchen Konstruktionen diese vorkommen. So wurden Regeln 3-5 gefunden. Hearst haben diesen Bootstrappingprozess nicht implementiert, sondern teilweise manuell gelassen, da speziell das Erkennen von gleichen oder relevanten Konstruktionen gegenüber ambigen problematisch war

16 WS 05/06Automatische Akquisition linguistischen Wissens Vergleichen der Resultate mit WordNet Es können drei Situationen eintreten: Verifizieren: Wenn sowohl N 0 als auch N 1 in WordNet sind und (evtl. durch transitives schliessen) sie in der Unterbegriff() Relation stehen Kritik: Wenn sowohl N 0 als auch N 1 in WordNet vorhanden sind, aber nicht in Relation Unterbegriff() stehen Verändern: Wenn N 0 oder N 1 nicht in WordNet vorkommen Beispiel für Kritik: Other input-output devices, such as printers, color plotters, … Unterbegriff(printer,input-output device) In WordNet jedoch:

17 WS 05/06Automatische Akquisition linguistischen Wissens Generierte Kritik Hier ist aber I/O device keinesfalls Überbegriff zu printer, überhaupt Unterschied zwischen mechanism und device artifact, article, artefact device mechanism machineI/O_devicemechanical_device machine, simple_machine computer printer, printing_machine line_printerlaser_printer typeprinter

18 WS 05/06Automatische Akquisition linguistischen Wissens Hearsts Versuchsaufbau Benutze Enzyklopädie (Groliers American Academic Enzyclopedia), um Text mit vielen Definitionen zu erhalten Insgesamt 152 verschiedene Wortpaare, die allen Bedingungen entsprachen und mit such as verbunden waren Dabei 180 von 226 unterschiedlichen Wörtern waren in WordNet und 61 von 106 gutartige Relationen (wo beide Wörter in WordNet vorkamen Dabei manches problematisch: –king, institution (Metonymie) –Steatornis, species (Unterspezifizierung) –Washington, nationalist –Aircraft, target (recht… domänenspezifisch)

19 WS 05/06Automatische Akquisition linguistischen Wissens Head-modifier oder (Ruge 97) Ansatz Dependenzgrammatik hat als zentralen Bestandteil das head- modifier Prinzip. Dabei ist head ein Term, der durch weitere Ausdrücke modifiziert werden kann: –thesaurus construction –construction of a complete domain independent monolingual thesaurus –automatic thesaurus generation or construction Allerdings kann ein Modifier auch mehrere heads haben (automatic) Dependency Grammatik ist sprachunabhängiger als Chomsky Grammatik

20 WS 05/06Automatische Akquisition linguistischen Wissens Berechnung von Synonymie Head-Modifier Relation kann auch als Baumstruktur dargestellt werden. Durch weglassen von Stopwörtern kann mehr oder weniger sprachunabhängige Grammatik von Sätzen erreicht werden: –Peter drinks sweet hot coffee. –Peter drinks a coffee which is sweet and hot. Diverse einfache Tagger können genutzt werden, um head-modifier Bäume in rohem Text zu taggen mit 85% Genauigkeit Synonyme sollen dann als Ähnlichkeit über Modifier berechnet werden: –Je mehr modifier und heads ein Term mit einem anderen meistens gemeinsam hat, umso ähnlicher sind sie drink Petercoffee sweethot

21 WS 05/06Automatische Akquisition linguistischen Wissens Berechnung von Synonymie II Ruge verwendet ein logarithmisch gesmoothstes cosinus Mass, in welchem heads und modifier gleiches Gewicht haben, um gerankte Liste von Ähnlichen Wörtern zu berechnen Performanz leider kaum gemessen, allerdings angeblich im Schnitt 70% Wörter, die für querz expansion genutzt werden konnten. In einem anderen Paper wurde eine Ähnliche Technik verwendet und eine Verbesserung der Retrieval Qualität um 20% erreicht. Bei diesem Ansatz ist vor allem der zweistufige Ansatz zur Ähnlichkeitsberechnung interessant und wie nächstes Seminar deutlich wird, ist die Extraktion von head-modifiern evtl. nicht so wichtig. –da sie zu gleichen Gewichten in cosinus eingehen, ist Unterscheidung unwichtig –Und durch Entfernung der Stoppwörter ist das Finden von head-modifiern in diesem Fall vermutlich äquivalent zu einem richtigen Signifikanzmaß bei Satzkookkurrenzen

22 WS 05/06Automatische Akquisition linguistischen Wissens22 Referat: Auswahl aus mehreren Veröffentlichungen Meronyme: Berland & Charniak 99 Adjektivorientierung: Hatzivassiloglou 97 Ober- Unterbegriffe: Hearst 92 Oder allgemein Ruge 97


Herunterladen ppt "WS 05/06Automatische Akquisition linguistischen Wissens1 Musterbasierte Extraktion spezifischer Relationen (Identifying/detecting/extracting thesaurus."

Ähnliche Präsentationen


Google-Anzeigen