für Kommunikation, Informationstechnik und Ergonomie

Slides:



Advertisements
Ähnliche Präsentationen
Word Order in German Subordiante Clauses
Advertisements

Vorlesung Compilertechnik Sommersemester 2008
Prof. Dr. W. Conen 15. November 2004
Die deutsche Satzstellung
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
Parser generieren Yet Another Compiler – Compiler YACC.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
XHTML 1.1 C. Nimz Abstrakte Module XHTML 1.1 C. Nimz Was ist ein abstraktes Modul? Definition eines XHTML-Moduls in spezieller leichter.
NP-Bewegung & wh-Bewegung
Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &
Wechselpräpositionen
Infinitivkonstruktionen
Relative clauses What is a relative clause?
1 Cases accusative + dative either or prepositions
Dienstag LT: Using Dative vs. Akkusative Reflexive Pronouns #2
TEST - RECAP PRESENT PERFECT TENSE
Genitiv-Präpositionen
The Accusative Case By Herr Loeffler.
Niklas: Was möchte ___________ (your) Schwester denn zum Geburtstag?
Passiv What are these sentences expressing?
 Every part in a sentence has a grammatical function. Some common functions are: - Subject - Verb - Direct object / accusative object - Indirect object.
Lust auf Lesen Treffpunkt Deutsch Sixth Edition. Relative Pronoun object of a preposition Recall from chapter 9 that relative clauses describe people,
You need to use your mouse to see this presentation © Heidi Behrens.
The prepositions in and an Two way prepositions. What are two-way prepositions? 0 A set of prepositions can take the dative or the accusative case: "an",
Die Fragen Wörter Wer? Was? Wann?.
Learning Target / Lernziel:
Nominative & Accusative Basic Rules for Relative Pronouns in German:
I will be able to use the accusative pronouns in a sentence (Buch Seite 200)
Learning Target / Lernziel: To be
Akkusativ Präpositionen
Alltagsleben Treffpunkt Deutsch Sixth Edition
Name: ___________________________________________ Hör verstehen: (______/10) Mark whether you hear a “du”, an “ihr” or a “Sie” command Wer sagt.
Rules of Play - Game Design Fundamentals by Katie Salen and Eric Zimmerman Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung.
What is a “CASE”? in English: pronouns, certain interrogatives
Frage des Tages Vor meinem Prüfung war ich sehr __________.
Possessive Adjectives How to show belonging… The information contained in this document may not be duplicated or distributed without the permission of.
What is a “CASE”? in English: pronouns, certain interrogatives
Es gibt there is (singular) or there are (plural)
type / function / form type of words:
Common mistakes Morgen habe Ich das buch für dich. Nouns are capitalized + the formal form of address Morgen habe ich das Buch für dich. Jetzt, ich wohne.
Kapitel 9 Grammar INDEX 1.Prepositions 2.Dative Prepositions 3.Accusative Prepositions.
Kapitel 4 Grammar INDEX 1.Ordinal Numbers 2.Relative Pronouns and Relative Clauses 3.Conditional Sentences 4.Posessive: Genitive Case.
Kapitel 1 Grammar INDEX 1.Questions 2.Nouns 3.Definite Articles 4.Subjects 5.Subject Pronouns & Sein.
Kapitel 11 Grammar INDEX 1.Indirect Object. Indirect Object  Auf Klebepapier schreib was du erinnerst über Indirect Objects  Notizen über Indirect Objects.
FRAU SNELL Wie ist das Datum heute? _______________________________________________.
Kapitel 2 Grammar INDEX 1.Subjects & Verbs 2.Conjugation of Verbs 3.Subject Verb Agreement 4.Person and Number 5.Present Tense 6.Word Order: Position of.
Kapitel 7 Grammar INDEX 1.Comparison 2.Adjectives 3.Adjective Endings Following Ein-Words.
Memorisation techniques
Kapitel 5: Einkaufen Sprache. Alles klar Look over and know all of the Wortschatz on Seite 171 and 172. Look over the illustration found on Seite 145.
Kapitel 9 Grammar INDEX 1.Formal Sie- Command 2.There Is/There Are 3.Negation: Nicht/Klein.
Strukturen 4A.1 LEKTION 4A 4A.1-1© 2014 by Vista Higher Learning, Inc. All rights reserved. Das Plusquamperfekt Startblock Use the Plusquamperfekt tense.
Interrogative and Relative Pronouns. Interrogative pronouns Used to ask questions –Wer nominativ –Wen akkusativ –Wem dativ –Wessen whose –Was (n or a)
Word order: 1.In a main clause the VERB is the second idea: Helgakommteben aus der Bäckerei This may not be the second word Meiner Meinung nachsind Hobbys.
On the case of German has 4 cases NOMINATIVE ACCUSATIVE GENITIVE DATIVE.
Komm Mit! 1 Kapitel 4 Alles für die Schule!. ÜH, GH ÜH38, GH28.
German “ da - compounds ” Provided by deutschdrang. com for individual and classroom use only. May not be reproduced for any other purposes.
Interrogatives and Verbs
Dom zu Lübeck The Lübeck Cathedral (German: Dom zu Lübeck, or colloquially Lübecker Dom) is a large brick Lutheran cathedral in Lübeck, Germany and part.
Grundlagen Englisch Passive voice HFW Bern.
Type / function / form Type of words:
predicate nominative This house is his official residence.
Kapitel 7.
You need to use your mouse to see this presentation
9 Two-Way Prepositions über in an neben vor auf hinter zwischen unter.
type / function / form type of words:
Quality assured by the ALL Connect project (2015)
 Präsentation transkript:

für Kommunikation, Informationstechnik und Ergonomie Computerlinguistik 9. Vorlesung (08.12.2012) apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de

Computerlinguistik Inhalt der Vorlesung Einführung Methoden Tagging Formale Methoden Parsing Ontologien Anwendungen Informationsextraktion Maschinelle Übersetzung Textanalyse

Anwendungen der Computerlinguistik Die „Königsdisziplin“ der Computerlinguistik ist die „Maschinelle Übersetzung“ (Machine Translation – MT), da sehr viele Techniken und Anwendungen der Computerlinguistik in der MT genutzt werden. Dies gilt auch für die Anwendung „Informationsextraktion“ (IE). Um den Nutzen der IE für die MT besser einordnen zu können, beginnen wir mit einem Blick auf die MT und deren regelbasierten Varianten.

Maschinelle Übersetzung Computerlinguistik Maschinelle Übersetzung Bei der maschinellen Übersetzung unterscheiden wir generell (ältere) regelbasierte Verfahren, (neuere) statistikbasierte Verfahren und (noch neuere) hybride Verfahren.

Maschinelle Übersetzung: regelbasierte Verfahren Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren Bei den regelbasierten Verfahren betrachten wir das so genannte Vauquois-Dreieck (nach Bernard Vauquois, 1929-1985).  Ausgangssprache/ Quellsprache (SL) Zielsprache (TL)

Maschinelle Übersetzung: regelbasierte Verfahren Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren Ausgangssprache/ Quellsprache (SL) direkte Übersetzung Zielsprache (TL)

Maschinelle Übersetzung: regelbasierte Verfahren Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren In the end, Tyrion chose a cask of strongwine marked as the private stock of Lord Runceford Redwyne, the grandfather of the present Lord of the Arbor. The taste of it was languorous and heady on the tongue, the color a purple so dark that it looked almost black in the dim-lit cellar. Direkte Übersetzung: Wort für Wort In die(?) Ende, Tyrion wählte(?) ein(?) Fass von Starkwein markiert als ... Direkte Übersetzung mit morphologischer Analyse In dem Ende / in das Ende, Tyrion wählte ein Fass von Starkwein ...

Maschinelle Übersetzung: regelbasierte Verfahren Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren In the end, Tyrion chose a cask of strongwine marked as the private stock of Lord Runceford Redwyne, the grandfather of the present Lord of the Arbor. The taste of it was languorous and heady on the tongue, the color a purple so dark that it looked almost black in the dim-lit cellar. Google Im Ende wählte Tyrion eine Tonne strongwine gekennzeichnet als der private Vorrat an Lord Runceford Redwyne, der Großvater des anwesenden Lords des Dornes. Der Geschmack von ihm war languorous und heady auf der Zunge, schwach-beleuchtete die Farbe eine Dunkelheit des Purple so, die sie in fast schwarz schaute, Keller.

Maschinelle Übersetzung: regelbasierte Verfahren Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren Ein offensichtliches Problem der direkten Übersetzung ist das Problem der Wortstellung. In the end, Tyrion chose a cask of strongwine … Direkte Übersetzung mit morphologischer Analyse In dem Ende / in das Ende, Tyrion wählte ein Fass von Starkwein ... Google Im Ende wählte Tyrion eine Tonne strongwine … Dieses Problem kann mit „syntaktischen Transfer“ angegangen werden.

Maschinelle Übersetzung: regelbasierte Verfahren Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren Transfer Synthese Analyse Ausgangssprache/ Quellsprache (SL) Zielsprache (TL)

Maschinelle Übersetzung: regelbasierte Verfahren Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren Interlingua semantischer Transfer syntaktischer Transfer Ausgangssprache/ Quellsprache (SL) Zielsprache (TL)

Maschinelle Übersetzung: regelbasierte Verfahren Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren Beim syntaktischen Transfer wird im Analyseschritt die syntaktische Struktur des zu übersetzenden Satzes der Ausgangssprache erstellt. Diese Struktur wird in eine entsprechende Struktur der Zielsprache transferiert, woraus dann der übersetzte Satz generiert wird. Yesterday, Angela met Lady Gaga. Analyse s(adv(zeit), np(subjekt), v, np(object)) Transfer s(adv(zeit), v, np(subjekt), np(object)) Synthese Gestern traf Angela Lady Gaga.

Maschinelle Übersetzung: regelbasierte Verfahren Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren Beim semantischen Transfer wird im Analyseschritt die semantische Struktur des zu übersetzenden Satzes der Ausgangssprache erstellt. Wiederum folgen Transfer und Synthese. Yesterday, Angela met Lady Gaga. Analyse assertive(meet(Agent(Angela)), Patient(Lady Gaga)), (PointInTime(deixis(07.12.2011))) Transfer assertive(treffen(Agent(Angela)), Patient(Lady Gaga)), (PointInTime(deixis(07.12.2011))) Synthese Gestern traf Angela Lady Gaga.

Informationsextraktion – Maschinelle Übersetzung Computerlinguistik Informationsextraktion – Maschinelle Übersetzung Die bei der Informationsextraktion eingesetzten Verfahren entsprechen denjenigen, die für den Analyseschritt bei der Maschinellen Übersetzung, syntaktischer bzw. semantischer Transfer, zu leisten sind, um die entsprechenden Repräsentationen für die Sätze der Ausgangssprache aufzubauen.

Informationsextraktion Computerlinguistik Informationsextraktion Informationsextraktion (Information Extraction, IE) ist eine Anwendung computerlinguistischer Verfahren mit dem Ziel, aus so genannten „unstrukturierten“ Texten Information (oder sogar „Wissen“) zu entnehmen. In der Regel beziehen sich die zu analysierenden Texte auf einen festen Gegenstandsbereich, was die Einbeziehung von entsprechenden Ontologien in den Prozess der Informations-extraktion ermöglicht.

Informationsextraktion Computerlinguistik Informationsextraktion Informationsextraktionssysteme bestehen aus mehreren Komponenten. Der zu analysierende Text muss zunächst morphologisch und syntaktisch aufbereitet werden. Dazu dienen die Komponenten wie „Sentence Splitter“, „Part-of-Speech Tagger“ und „Parser“. Im Idealfall liegt für den Text nach der Verarbeitung eine Liste von Sätzen vor, aus denen der Text besteht. Des Weiteren sollte für jeden Satz in dieser Liste ein Parsingresultat, etwa in der Gestalt eines zugehörigen Syntaxbaums, berechnet sein.

Informationsextraktion Computerlinguistik Informationsextraktion Wir haben die ersten dieser Schritte unter dem Stichwort „Tagging“ bereits betrachtet: Texte werden vom Tokenizer zunächst in Zeichen (Token) unterteilt (Wörter, Zahlen, Leerzeichen und Satzzeichen). Danach werden mit dem „Sentence Splitter“ die Grenzen der Sätze bestimmt. Der Tokenizer kann Probleme haben, wenn die Wortgrenzen nicht erkennbar sind (keine Leerzeichen wie im Chinesischen). Der Sentence Splitter muss beachten, dass nicht jeder Punkt das Ende eines Satzes bezeichnet.

Informationsextraktion Computerlinguistik Informationsextraktion Über einen so genannten POS-Tagger werden dann für die Wörter die grammatischen Kategorien bestimmt. Sprachen, die über eine detaillierte Flektionsmorphologie verfügen (Latein), ermöglichen eine bessere Bestimmung der syntaktischen Hauptkategorie. Englisch access access Deutsch Zugriff zugreifen Nomen Verb

Informationsextraktion Computerlinguistik Informationsextraktion So genannte „Look Up“-Funktionen finden Namen in Gazetteer-Listen, welche dann mit einer „Named Entity Recognition“ zu Einheiten zusammengefügt werden, die dadurch auch syntaktisch und semantisch annotiert sind. Ein Parser bzw. ein Chunker erzeugt für die Sätze auf der Grundlage der vorgegebenen syntaktischen Kategorien syntaktische Strukturen. Diese Strukturen können dann im syntaktischen Transfer verwendet werden.

Informationsextraktion Computerlinguistik Informationsextraktion Nach der morpho-syntaktischen Analyse sind im Wesentlichen noch zwei Schritte zu tun: die semantische Analyse der einzelnen Sätze die Textanalyse durch die Verknüpfung der ermittelten Satzinhalte Die semantische Struktur kann im semantischen Transfer genutzt werden, aber auch der Verknüpfungsschritt kann für Verfahren der Maschinellen Übersetzung von Bedeutung sein, etwa für die Auflösung von Referenzbeziehungen.

Informationsextraktion Computerlinguistik Informationsextraktion Die semantische Analyse von Einzelsätzen geht aus von der vorliegenden syntaktischen Struktur. Der Übergang von der syntaktischen Struktur zur semantischen Struktur ist jedoch, wie wir wissen, nicht eindeutig. Vgl. dazu auch Sadock, J.M. (2003): Mismatches in Autonomous Modular versus Derivational Grammars. http://csli-publications.stanford.edu/LFG/5/bfg00/bfg00sadock.html

Informationsextraktion Computerlinguistik Informationsextraktion Das offensichtlichste (aber nicht unbedingt schwierigste) Problem beim Übergang von der syntaktischen Struktur zur semantischen Struktur ergibt sich in Sprachen wie Deutsch und Englisch aus dem Unterschied zwischen Aktiv und Passiv. In einem Aktivsatz ist das Subjekt (Syntax) zumeist Agent oder Effector (Semantik); in einem Passivsatz ist das Subjekt dagegen Patient oder Theme.

Informationsextraktion Computerlinguistik Informationsextraktion Hamilton hatte sich für ein speziell angefertigtes Paar reichverzierter Pistolen entschieden. Zwei Schüsse waren ertönt, und Hamilton war soeben getroffen worden.

Informationsextraktion Computerlinguistik Informationsextraktion Ein anderes Problem beim Übergang von Syntax nach Semantik ergibt sich aus den reichlichen Mehrdeutigkeiten, die in der natürlichen Sprache verborgen sind: lexikalische Mehrdeutigkeiten („Bank“, „Jaguar“) syntaktische Mehrdeutigkeiten („Visiting relatives can be boring.“) semantische Mehrdeutigkeiten („Jeder Student besucht eine Pflichtveranstaltung.“)

Informationsextraktion Computerlinguistik Informationsextraktion Betrachten wir (mal wieder) die beiden Sätze „The widow drove her old Mercedes to the church.“ „The widow donated her old Mercedes to the church.“ Von der syntaktischen Struktur her sind die Sätze gleich. Trotzdem gibt es semantische Unterschiede.

Informationsextraktion Computerlinguistik Informationsextraktion „The widow drove her old Mercedes to the church.“ Im ersten Satz bezeichnet die Konstituente „the church“ den Zielort (Destination) der durch „drove“ denotierten Bewegung. „Church“ ist hier ein Gebäude. „The widow donated her old Mercedes to the church.“ Im zweiten Satz bezeichnet die Konstituente „the church“ den Nutznießer (Beneficiary) des durch „donate“ denotierten Transfers. „Church“ ist hier eine Organisation.

Informationsextraktion Computerlinguistik Informationsextraktion Der wesentliche Hinweis für die Zuordnung der semantischen / thematischen Rollen zu den Konstituenten des zu analysierenden Satz ergibt sich aber aus dem Verb des Satzes. Das Verb bestimmt, dass in dem einen Fall (Bewegungsverb „drove“) eine „spatiale“ Rolle zuzuordnen ist und in dem anderen Fall (Transferverb „donate“) die Rolle des Nutznießers. Die Information, die hier ausgenutzt wird, hängt also direkt an dem verwendeten Verb. Es ist eine „lexikalische“ Information. Informationsextraktion ist also „lexical driven“ oder noch genauer „verb driven“.

Informationsextraktion Computerlinguistik Informationsextraktion Wenn man ein Informationsextraktionssystem zu bauen beabsichtigt, kann man die benötigte lexikalische Verb-information selbst aufzubauen, zum Beispiel in Form einer Ontologie. Man kann auch versuchen, eine der Quellen zu nutzen, die das Internet bereitstellt. Eine dieser Quellen ist FrameNet: http://framenet.icsi.berkeley.edu/

Informationsextraktion Computerlinguistik Informationsextraktion FrameNet-Beispiel to hit ist verbunden mit folgenden „Frames“: Hit_target Hit_or_miss Cause_harm Cause_impact Impact Experience_bodily_harm Frames haben „Core“-Rollen und weitere (ergänzende) zugehörige semantische Rollen.

Informationsextraktion Computerlinguistik Informationsextraktion FrameNet-Beispiel Der Frame „Cause_harm“ hat folgende Definition: The words in this frame describe situations in which an Agent or a Cause injures a Victim. The Body_part of the Victim which is most directly affected may also be mentioned in the place of the Victim. In such cases, the Victim is often indicated as a genitive modifier of the Body_part, in which case the Victim FE is indicated on a second FE layer. (FE = Frame Element)

Informationsextraktion Computerlinguistik Informationsextraktion FrameNet-Beispiel Der Frame „Cause_harm“ hat folgende „Core“-Rollen: Agent [Agt] (Semantic Type: SentientAgent) is the person causing the Victim's injury.         Jolosa, who BROKE a rival player 's jaw, was told to model his play on the England striker.         Someone BASHED him on the back of the head with a heavy smooth object.         Claire McLaren, 16, was punched and KICKED senseless by a thug. 

Informationsextraktion Computerlinguistik Informationsextraktion FrameNet-Beispiel Der Frame „Cause_harm“ hat folgende „Core“-Rollen: Body_part [BodP] (Semantic Type: Body_part) identifies the location on the body where the bodily injury takes place.         Someone BASHED him on the back of the head with a heavy smooth object.         Jolosa, who BROKE a rival player 's jaw , was told to model his play on the England striker.

Informationsextraktion Computerlinguistik Informationsextraktion FrameNet-Beispiel Der Frame „Cause_harm“ hat folgende „Core“-Rollen: Cause [cause] marks expressions that indicate some non-intentional, typically non-human, force that inflicts harm on the Victim.         A falling rock CRUSHED my ankle.

Informationsextraktion Computerlinguistik Informationsextraktion FrameNet-Beispiel Der Frame „Cause_harm“ hat folgende „Core“-Rollen: Victim [Vic] (Semantic Type Sentient) is the being or entity that is injured. If the Victim is included in the phrase indicating Body_part, the Victim FE is tagged on a second FE layer (see 3rd example).            The farmer tied him to the fence to stop him BUTTING the sheep. Jolosa, who BROKE a rival player 's jaw, was told to model his play on the England striker.         

Informationsextraktion Computerlinguistik Informationsextraktion Neben den „Core“-Rollen gibt es stets weitere Rollen, die auftreten können. Beispiele dafür sind: Manner [Manr] (Semantic Type: Manner) is the Manner in which the Agent acts upon the Victim.         He violently SLAPPED his assailant.       Time [Time] (Semantic Type: TimeTime) identifies the time when the harm-causing event occurs.         Riot police in Nairobi CLUBBED four women unconscious on March 3. 

Informationsextraktion Computerlinguistik Informationsextraktion Neben den „Core“-Rollen gibt es stets weitere Rollen, die auftreten können. Beispiele dafür sind: Place [] (Semantic Type: Locative_relation) identifies the place where the harm causing event occurs.         Boys are PUNCHED at school for payback.    Instrument [Ins] (Semantic Type: Physical_entity) is any object used to cause the injury.         Someone BASHED him on the back of the head with a heavy smooth object.

Informationsextraktion Computerlinguistik Informationsextraktion Verben und Frames stehen in einer „many to many“-Beziehung. Es gibt zu jedem Verb mehrere Frames und es gibt zu jedem Frame mehrere Verben, durch die der Frame evoziert wird.

Informationsextraktion Computerlinguistik Informationsextraktion Es gibt zu jedem Frame mehrere Verben, durch die der Frame evoziert wird. Zu „Cause_harm“ gehören etwa die Verben bash.v, batter.v, bayonet.v, beat up.v, beat.v, belt.v, biff.v, bludgeon.v, boil.v, break.v, bruise.v, buffet.v, burn.v, butt.v, cane.v, chop.v, claw.v, clout.v, club.v, crack.v, crush.v, cudgel.v, cuff.v, cut.v, elbow.v, electrocute.v, electrocution.n, flagellate.v, flog.v, fracture.v, gash.v, hammer.v, hit.v, horsewhip.v, hurt.v, impale.v, injure.v, jab.v, kick.v, knee.v, knife.v, knock.v, lash.v, maim.v, maul.v, mutilate.v, pelt.v, poison.v, poisoning.n, pummel.v, punch.v, slap.v, slice.v, smack.v, smash.v, spear.v, squash.v, stab.v, sting.v, stone.v, strike.v, swipe.v, thwack.v, torture.v, transfix.v, welt.v, whip.v, wound.v

Informationsextraktion Computerlinguistik Informationsextraktion Wie wir bereits gesehen haben, gibt es unterschiedliche Systeme von semantischen / thematischen Rollen. Das System von Sowa unterscheidet sich von dem bei FrameNet genutzten System. Sowa (http://www.jfsowa.com/ontology/thematic.htm) verwendet statt „Victim“ die Rolle „Patient“ (Patiens), die er wie folgt definiert: „An essential participant that undergoes some structural change as a result of the event.“ Sowas Beispiel war: The cat swallowed the canary.

Informationsextraktion Computerlinguistik Informationsextraktion Wir könnten jetzt als Vergleich bei FrameNet nachsehen, welche Rahmen dort für „swallow“ vorgesehen sind. Leider ist „swallow“ bei FrameNet nicht enthalten.  Also schauen wir uns „donate“ an. „donate.v“ hat in FrameNet nur einen Rahmen, nämlich „Giving“.

Informationsextraktion Computerlinguistik Informationsextraktion „Giving“ hat drei „Core“-Rollen: Donor [Donor], the person that begins in possession of the Theme and causes it to be in the possession of the Recipient. Recipient [Rec], the entity that ends up in possession of the Theme. Theme [Thm], the object that changes ownership. „The widow donated her old Mercedes to the church.“

Informationsextraktion Computerlinguistik Informationsextraktion Wir haben damit folgende Situation: „The widow donated her old Mercedes to the church.“ Sowa FrameNet Agent Donor Beneficiary Recipient Theme Theme

Informationsextraktion Computerlinguistik Informationsextraktion Die Rollen sind unterschiedlich spezifisch. Aber die Richtung hierbei ist unterschiedlich. Sowa FrameNet Agent > Donor Beneficiary < Recipient Theme Theme

Informationsextraktion Computerlinguistik Informationsextraktion Wir vergleichen die Definitionen der Rollen: Agent (Sowa): An active animate entity that voluntarily initiates an action. Donor (FrameNet): The person that begins in possession of the Theme and causes it to be in the possession of the Recipient. Beneficiary (Sowa): A recipient that derives a benefit from the successful completion of the event. Recipient (FrameNet): The entity that ends up in possession of the Theme. Recipient (Sowa): An animate goal of an act.

Informationsextraktion Computerlinguistik Informationsextraktion Agent Recepient Assailant person (or other self-directed entity) that is attempting physical harm to the Victim.    Beneficiary Donor Semantische Rollen können in eine „ISA“-Hierarchie gebracht werden. Spezifischere Rollen ermöglichen eine genauere Analyse; sie erhöhen aber auch die Möglichkeit der falschen Analyse.

Informationsextraktion Computerlinguistik Informationsextraktion Dies lässt sich am besten über die „semantic types“ verdeutlichen, welche in FrameNet den semantischen Rollen zugeordnet sind. Auch diese „semantic types“ können taxonomisch (in einer ISA-Hierarchie) angeordnet werden. In FrameNet dient diese Taxonomie sogar als Grundlage einer Ontologie (für „semantic types“); vgl. Lönneker-Rodman & Baker (2009). Auf der folgenden Folie findet sich ein Ausschnitt aus dieser Taxonomie.

Informationsextraktion Computerlinguistik Informationsextraktion Physical_entity Physical_object Living_thing Location Body_part Animate_being Region Sentient Body_of_water Landform Human (Person) Running_water

Informationsextraktion Computerlinguistik Informationsextraktion Wie hilft uns das? Wie wir gesehen haben, hat „hit“ unterschiedliche Frames, etwa „Cause_harm“. „Cause_harm“ hat als semantische Rolle „Agent“, welches vom Typ „Sentient“ ist. Das gilt für die meisten der Frames von „hit“, aber nicht für den Frame „Impact“. „Impact“ hat als „Core“-Rollen „Impactor“ (the entity that hits the Impactee) und „Impactee“ (the entity which is hit by the Impactor). Beide „Core“-Rollen sind vom Typ „Entity“.

Informationsextraktion Computerlinguistik Informationsextraktion Wie hilft uns das? Wenn wir nun den Satz „The rock hits the sand with a thump.“ analysieren, erkennen wir das Verb „to hit“. Das Verb „to hit“ hat, wie wir wissen, mehrere Frames, aber die meisten dieser Frames erwarten, dass eine Konstituente des zu analysierenden Satzes die Rolle „Agent“ mit dem Typ „Sentient“ erfüllt. Aus syntaktischer Sicht (Subjekt im Aktivsatz) müsste das im zu analysierenden Satz die Konstituente „the rock“ sein. Wenn man nun über eine Ontologie verfügt, die „rock“ als „non living object“ klassifiziert, ergibt sich, dass die meisten Frames nicht passen und somit der Frame „Impact“ zu wählen ist.

Informationsextraktion Computerlinguistik Informationsextraktion Analysen der aufgezeigten Art können fehlschlagen, wenn verwendete Ontologien nicht zu dem Gegenstandsbereich passen, auf den sich der zu analysierenden Text bezieht. Beispielsweise könnte der Frame zu „lügen“ einen „Agent“ vom Typ „Human“ einfordern. (In FrameNet wird hier die Rolle „Speaker“ verwendet, die allerdings auch nur auf „Sentient“ eingeschränkt ist.) Ein Satz wie „The White Rabbit lied to Alice.“ könnte dann nicht analysiert werden.

Informationsextraktion Computerlinguistik Informationsextraktion Ergebnis der Satzanalyse: „The White Rabbit lied to Alice.“ relation: lie Speaker: type: rabbit color: white Addressee: Alice Topic: - relation: lie Speaker: White Rabbit Addressee: Alice Topic: - oder

Computerlinguistik Literatur Ellis, J.J. (2002). Sie schufen Amerika. München: Beck. Hutchins, J. (2003). Machine Translation: General Overview. In: Mitkov (Ed.), The Oxford Handbook of Computational Linguistics. Lönneker-Rodman, B. & Baker, C.F. (2009). The FrameNet Model and its Applications. Natural Language Engineering, 15, 415-453. Martin, G.R.R. (2011). A Dance with Dragons. Bantam Books. Mitkov, R. (2003). The Oxford Handbook of Computational Linguistics. Oxford, UK: Oxford University Press.

Computerlinguistik Literatur Sadock, J.M. (2003): Mismatches in Autonomous Modular versus Derivational Grammars. In Francis, E.J. & Michaelis, L.A. (Eds.) Mismatch: Form-Function Incongruity and the Architecture of Grammar (pp. 333-354). Stanford, CA: CSLI. Somers, H. (2003). Machine Translation: Latest Developments. In: Mitkov (Ed.), The Oxford Handbook of Computational Linguistics. Sowa, J. F. (2000). Knowledge Representation. Pacific Grove, CA: Brooks/Cole.