Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

für Kommunikation, Informationstechnik und Ergonomie

Ähnliche Präsentationen


Präsentation zum Thema: "für Kommunikation, Informationstechnik und Ergonomie"—  Präsentation transkript:

1 für Kommunikation, Informationstechnik und Ergonomie
Computerlinguistik 6. Vorlesung ( ) apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie

2 Computerlinguistik Inhalt der Vorlesung Einführung Methoden Tagging
Formale Methoden Parsing Ontologien Anwendungen Informationsextraktion Maschinelle Übersetzung Textanalyse

3 Parsing: „Richtung“ des Parsing
Computerlinguistik Parsing: „Richtung“ des Parsing Wiederholung In Bezug auf die Richtung von Parsing unterscheiden wir zwei Hauptvarianten: „top down“ und „bottom up“. „Top down“ erfolgt durch Expansion des Startsymbols (s = Satz) mit dem Ziel, auf die Wortkette zu expandieren. „Bottom up“ geht von der Wortkette aus und versucht, diese auf das Startsymbol zu reduzieren.

4 Parsing: „Richtung“ des Parsing
Computerlinguistik Parsing: „Richtung“ des Parsing Wiederholung „Top down“-Parser funktionieren im Prinzip so, dass sie alle Sätze, die mit der zugrunde liegenden Grammatik generiert werden können, zusammen mit der syntaktischen Struktur des jeweiligen Satzes erzeugen und überprüfen, welcher bzw. ob überhaupt einer der so erzeugten Sätze dem Eingabesatz entspricht. Bei einer Entsprechung ist die syntaktische Struktur, die zusammen mit dem Satz erzeugt wurde, das Ergebnis. Bei „top down“-Parsern ist die Gefahr gegeben, dass über die Umsetzung rekursiver Grammatikregeln Endlosschleifen entstehen.

5 Parsing: „Richtung“ des Parsing
Computerlinguistik Parsing: „Richtung“ des Parsing Wiederholung „Bottom up““-Parser funktionieren am besten nach dem so genannten „shift-reduce“-Prinzip. Dabei wird von der Wortfolge des Eingabesatzes ausgegangen. Der Parser verfügt über einen Stack, welcher zu Beginn des Parsingpozesses leer ist. „shift-reduce“ beruht auf einer Abfolge von „shift“- und „reduce“-Schritten. Der Stackinhalt wird jeweils mit Hilfe der Grammatik reduziert (Wörter und Konstituenten werden zu größeren Einheiten zusammengefasst). Ist das nicht mehr möglich, wird das jeweils nächste Wort von der Wortliste auf den Stack geschoben, wonach wieder die Reduktion einsetzt. Ein Parse gelingt, wenn alle Wörter der Wortfolge in den Stack geschoben wurden und die letzte Reduktion damit endet, dass sich nur noch eine Konstituente (vom richtigen Typ) im Stack befindet.

6 Parsing: „Richtung“ des Parsing
Computerlinguistik Parsing: „Richtung“ des Parsing Wiederholung Eine Alternative zu „top down“- und „bottom up“-Parsern stellen die so genannten „left corner“-Parser dar, die „bottom up“-Analyseschritte mit „top down“-Vorhersagen kombinieren.

7 Parsing: „left corner“-Parser
Computerlinguistik Parsing: „left corner“-Parser „Left corner“-Parser können wie „bottom up“-Parser als „shift reduce“-Parser realisiert werden. Auch hier wird ein Stack angelegt, der zu Beginn leer ist. Nach dem „Shiften“ eines Worts auf den Stack erfolgen so weit wie möglich Reduktionsschritte. Ist keine Reduktion mehr möglich wird – im Gegensatz zur „bottom up“-Technik kein neues Wort eingelesen, sondern zunächst ein Vorhersageschritt ausgeführt. [] [calvin] [np(calvin)] [s(np(calvin), vp(VP))] shift reduce predict

8 Parsing: „left corner“-Parser
Computerlinguistik Parsing: „left corner“-Parser Erst nach dem Vorhersageschritt (nur einer !!) wird das nächste Wort des zu analysierenden Satzes auf den Stack geschoben, woraufhin wieder eine Reduktion beginnt. Als Reduktion gelten dabei auch Verifikationsschritte, also Schritte, die besagen, dass eine nachfolgenden Konstituente von der erwarteten Art und damit durch den Vorhersageschritt angekündigt ist. [s(np(calvin), vp(VP))] [s(...), dream] [s(...), v(dream)] [s(np(calvin)),vp(VP), vp(v(dream))] [s(np(calvin), vp(v(dream)))] shift reduce reduce verify

9 Parsing: Kontextfreie Grammatik
Computerlinguistik Parsing: Kontextfreie Grammatik zur Erinnerung: Bei einer kontextfreien Grammatik gibt es Probleme a) mit Nebenkategoriekohärenzbedingungen Calvin dreams vs. *Calvin dream *Das finden Sie in „TV Smart“, ihre Programmzeitschrift. und b) mit der Subkategorisierung Pompeius erreicht Ägypten vs. *Pompeius erreicht Lösungsansätze sind häufig nicht elegant, weil sie statt über morphologische Herleitungen über „Vollformen“-Lexika realisiert werden.

10 Computerlinguistik S  NP(Pers,Num) VP(Pers,Num)
Parsing: Kontextfreie Grammatik unter Berücksichtigung von Nebenkategorien S  NP(Pers,Num) VP(Pers,Num) VP(Pers,Num)  V(Pers,Num) NP(_,_) VP(Pers,Num)  V(Pers,Num) V(Pers1,Sg)  dream V(Pers1,Sg)  hit V(Pers2,Sg)  dream V(Pers2,Sg)  hit V(Pers3,Sg)  dreams V(Pers3,Sg)  hits V(_,Pl)  dream V(_,Pl)  hit NP(Pers1,sg)  I NP(Pers1,pl)  we NP(Pers2,_)  you NP(Pers3,sg)  Calvin NP(Pers3,sg)  Hobbs

11 Computerlinguistik S  NP(Pers,Num) VP(Pers,Num)
Parsing: Kontextfreie Grammatik unter Berücksichtigung von Nebenkategorien und Subkategorisierung S  NP(Pers,Num) VP(Pers,Num) VP(Pers,Num)  Vtrans(Pers,Num) NP(_,_) VP(Pers,Num)  Vintrans(Pers,Num) Vintrans(Pers1,Sg)  dream Vtrans(Pers1,Sg)  hit Vintrans(Pers2,Sg)  dream Vtrans(Pers2,Sg)  hit Vintrans(Pers3,Sg)  dreams Vtrans(Pers3,Sg)  hits Vintrans(_,Pl)  dream Vtrans(_,Pl)  hit NP(Pers1,sg)  I NP(Pers1,pl)  we NP(Pers2,_)  you NP(Pers3,sg)  Calvin NP(Pers3,sg)  Hobbs

12 Computerlinguistik Parsing: Kontextfreie Grammatik unter Berücksichtigung von Nebenkategorien und Subkategorisierung Die durch diese Grammatik generierte Sprache sieht damit wie folgt aus: L = { I dream, you dream, Calvin dreams, Hobbs dreams, we dream, you dream, I hit I, I hit you, I hit Calvin, I hit Hobbs, I hit we, I hit you, you hit I, you hit you, ... , you hit you, Calvin hits I, Calvin hits you, ... , Calvin hits you, Hobbs hits I, Hobbs hits you, ... , Hobbs hits you, we hit I, we hit you, we hit Calvin, we hit Hobbs, we hit we, we hit you, you hit I, you hit you, ... , you hit you } (Wir müssen als Nebenkategorie noch „Kasus“ berücksichtigen.)

13 Computerlinguistik Parsing: Kontextfreie Grammatik unter Berücksichtigung von Nebenkategorien und Subkategorisierung Wir müssen als Nebenkategorie noch „Kasus“ (und „Genus“) berücksichtigen, wenn wir nicht nur mit Namen, sondern mit „echten“ Nominalphrasen arbeiten. VP(Pers,Num)  Vtrans(Pers,Num,RegCas) NP(RegCas,_,_,_) NP(Cas,Num,Gen,3)  DET(Cas,Num,Gen) N(Cas,Num,Gen)

14 „nicht-deterministische“ Regelsysteme
Computerlinguistik „nicht-deterministische“ Regelsysteme Wiederholung Beim Parsing tritt immer dann ein Problem auf, wenn es möglich ist, mehrere Regeln anzuwenden. Eine Möglichkeit, damit umzugehen, ist „Backtracking“: Der Parser merkt sich alle Verzweigungspunkte und springt immer dann, wenn der Prozess in eine „Sackgasse“ läuft, zum letzten Verzweigungspunkt zurück und testet die nächste dort verfügbare Alternative.

15 „nicht-deterministische“ Regelsysteme
Computerlinguistik „nicht-deterministische“ Regelsysteme Wiederholung Beim Parsing tritt immer dann ein Problem auf, wenn es möglich ist, mehrere Regeln anzuwenden. Eine andere Möglichkeit, damit umzugehen, besteht darin, bei Verzweigungspunkten die Alternativen in einer Tabelle zu notieren und alle Varianten „parallel“ zu bearbeiten.

16 „top down“-Parsing mit Tabelle
Computerlinguistik „top down“-Parsing mit Tabelle Satz: Calvin hits Hobbs S  NP VP S NP VP Calvin hits Hobbs

17 „top down“-Parsing mit Tabelle
Computerlinguistik „top down“-Parsing mit Tabelle Satz: Calvin hits Hobbs NP  Calvin S NP VP Calvin hits Hobbs

18 „top down“-Parsing mit Tabelle
Computerlinguistik „top down“-Parsing mit Tabelle Satz: Calvin hits Hobbs VP  V VP  V NP NP VP VP V NP Calvin hits Hobbs S S

19 „top down“-Parsing mit Tabelle
Computerlinguistik „top down“-Parsing mit Tabelle Satz: Calvin hits Hobbs V  hits NP VP VP V NP Calvin hits Hobbs S S

20 „top down“-Parsing mit Tabelle
Computerlinguistik „top down“-Parsing mit Tabelle Satz: Calvin hits Hobbs NP  Hobbs NP VP VP V NP Calvin hits Hobbs S S

21 „top down“-Parsing mit Tabelle
Computerlinguistik „top down“-Parsing mit Tabelle Bereinigung S NP VP V NP Calvin hits Hobbs

22 „bottom up“-Parsing mit Tabelle
Computerlinguistik „bottom up“-Parsing mit Tabelle NP VP VP V NP Calvin hits Hobbs Der Vorteil von Parsern mit Tabellen kann darin bestehen, dass man Teile des Textes nur ein einziges Mal parsen muss und nicht in jedem Schritt des Backtrackings erneut. Die klassische Standardform eines „bottom up“-Parsers mit Tabelle stammt von Kasami (1965) und Younger (1967). S S

23 „bottom up“-Parsing mit Tabelle
Computerlinguistik „bottom up“-Parsing mit Tabelle Die Tatsache, dass man Teile des Parsevorgangs für mehrere Alternativen nutzen kann, wird noch deutlicher, wenn man die Beispiele zur Mehr- deutigkeit beim Phänomen „PP-Attachment“ betrachtet (Der Mann sieht das Mädchen mit dem Fernglas). S VP NP V NP PP NP

24 „nicht-deterministische“ Regelsysteme
Computerlinguistik „nicht-deterministische“ Regelsysteme Das menschliche Gehirn arbeitet offensichtlich mit einer speziellen Art von Backtracking, bei dem sehr gezielt nicht der letzte Verzweigungspunkt, sondern ein geeigneter Verzweigungspunkt angesprungen wird, wenn ein Fail im Parse entdeckt wird. Dies lässt sich beim Parse von so genannten „garden path“-Sätzen erkennen, also von Sätzen, bei denen Menschen zunächst eine falsche Lesart auswählen. Zu „garden path“-Sätzen gibt es sehr viel Literatur, weil man in der Psycholinguistik versucht hat, mit Experimenten zur Verarbeitung solcher Sätze die Prinzipien ausfindig zu machen, nach denen die Auswahl der zu nutzenden Regel zunächst erfolgt.

25 Nicht-Determinismus und „garden path“-Sätze
Computerlinguistik Nicht-Determinismus und „garden path“-Sätze „garden path“-Sätze: Sätze, bei denen Menschen zunächst eine falsche Struktur erzeugen. klassische Beispiele „The horce raced past the barn fell.“ (Bever, 1970) „The cop arrested by the detective was guilty of taking bribes“ (McRae et al., 1997) zitiert nach Kempen, G. (1998). Sentence Parsing. In: Friederici, A.D. (Ed.), Language Comprehension: A Biological Perspective. Berlin: Springer.

26 Nicht-Determinismus und „garden path“-Sätze
Computerlinguistik Nicht-Determinismus und „garden path“-Sätze The horce raced past the barn fell. NP V PP ?? VP S

27 Nicht-Determinismus und „garden path“-Sätze
Computerlinguistik Nicht-Determinismus und „garden path“-Sätze The horce raced past the barn fell. NP V PP V VP VP REL NP‘ S

28 Nicht-Determinismus und „garden path“-Sätze
Computerlinguistik Nicht-Determinismus und „garden path“-Sätze The cop arrested by In diesem klassischen Beispiel passt die über einen „left corner“- Algorithmus bestimmte Vorerwartung (es folgt eine NP) nicht mit der vorliegenden Wortfolge (Präposition) zusammen. NP V Präp NP VP S

29 Computerlinguistik Evaluation
Für Parser gibt es folgende Evaluationskriterien (bzgl. eines vorgegebenen Korpus / Standards): Accuracy bestimmt die Prozentzahl der Sätze (aus einem Evaluationskorpus), denen eine korrekte syntaktische Satzstruktur zugewiesen wird, wobei die Sätze nicht zählen, denen keine syntaktische Struktur zugewiesen wird. Coverage bestimmt die Prozentzahl der Sätze aus dem Evaluationskorpus, die eine Struktur zugeordnet bekommen. (Die zugewiesenen Strukturen müssen nicht korrekt sein.)

30 Computerlinguistik Evaluation
Bei der Entwicklung eines Parsers kann man versuchen, entweder die accuracy das coverage zu optimieren. Man kann Parser auch nach ihrer Effizienz (Laufzeitverhalten) bewerten, aber das ist eher eine Frage der Informatik als der Computerlinguistik.  Wir schauen also näher auf accuracy und coverage.

31 Computerlinguistik Evaluation
Die Chance auf eine korrekte Zuweisung einer syntaktischen Struktur nimmt mit der Komplexität der zu bearbeitenden Sätze ab. Dazu als Beispiel der erste Satz aus „Mommsen, T., Römische Geschichte“: Rings um das mannigfaltig gegliederte Binnenmeer, das tief einschneidend in die Erdfeste den größten Busen des Ozeans bildet und, bald durch Inseln oder vorspringende Landfesten verengt, bald wieder sich in beträchtlicher Breite ausdehnend, die drei Teile der Alten Welt scheidet und verbindet, siedelten in alten Zeiten Völkerstämme sich an, welche, ethnographisch und sprachgeschichtlich betrachtet, verschiedenen Rassen angehörig, historisch ein Ganzes ausmachen.

32 Computerlinguistik Evaluation
Die Abdeckung („coverage“) wird sowohl durch die Komplexität der zu bearbeitenden Sätze als insbesondere auch durch die Nutzung von Wörtern und Namen, die nicht im Lexikon stehen, gefährdet. Rings um das mannigfaltig gegliederte Binnenmeer, das tief einschneidend in die Erdfeste den größten Busen des Ozeans bildet und, bald durch Inseln oder vorspringende Landfesten verengt, bald wieder sich in beträchtlicher Breite ausdehnend, die drei Teile der Alten Welt scheidet und verbindet, siedelten in alten Zeiten Völkerstämme sich an, welche, ethnographisch und sprachgeschichtlich betrachtet, verschiedenen Rassen angehörig, historisch ein Ganzes ausmachen.

33 Evaluationskriterien
Computerlinguistik Evaluationskriterien Accuracy vs. Precision Wir beurteilen etwas binär und erhalten folgende Matrix: Realität besagt wahr falsch Beurteilung bzw. Test besagt wahr korrekt wahr fälschlich Vorhersage: wahr falsch fälschlich falsch korrekt Vorhersage: falsch (sensitivity) (specificity) accuracy

34 Evaluationskriterien
Computerlinguistik Evaluationskriterien Accuracy vs. Precision „wahr korrekt“ + „falsch korrekt“ accuracy = alle „wahr korrekt“ precision = „wahr korrekt“ + „wahr fälschlich“

35 Evaluationskriterien
Computerlinguistik Evaluationskriterien Accuracy vs. Precision high accuracy + low precision high precision + low accuracy Bilder von

36 Evaluationskriterien
Computerlinguistik Evaluationskriterien Precision und Recall „wahr korrekt“ precision = „wahr korrekt“ + „wahr fälschlich“ „wahr korrekt“ recall = „wahr korrekt“ + „falsch fälschlich“

37 Evaluationskriterien
Computerlinguistik Evaluationskriterien Precision und Recall Bei „precision“ wird geschaut, wie hoch der Anteil der korrekten Ergebnisse bei den als „wahr“ vorhergesagten Ereignissen ist. (Bei einer hohen Präzision wird ein Fehler zuverlässig  reproduziert.) Bei „recall“ wird geschaut, wie hoch der Anteil der korrekten Ergebnisse bei den wahren Ereignissen ist. (Bei einem hohen „Recall“ werden die wahren Ereignisse fast alle als wahr vorhergesagt, aber evtl. auch viele, die nicht „wahr“ sind.) Zusammen sind „precision“ und „recall“ besser als „accuracy“.

38 Computerlinguistik Shallow Parsing
Wenn ein Parser als Komponente in einem größeren System arbeiten soll, ist es ein Problem, wenn der Parser für manche Sätze keine Ergebnisse liefert, da in diesem Fall auch die weitere Verarbeitung nicht ausgeführt werden kann. In solchen Konstellationen (Architekturen) empfiehlt es sich, so genannte „flache“ („shallow“) Parser zu nutzen. Diese ordnen nur den Teilen des Satzes, die sie bearbeiten können, Strukturen zu. Diese Satzteile sind in der Regel Sequenzen aufeinanderfolgender Wörter. Vorteile: Der Parser ist robust: Es gibt immer ein (Teil-)Ergebnis. Der Parser ist effizient.

39 Computerlinguistik Shallow Parsing
Wenn ein Parser als Komponente in einem größeren System arbeiten soll, ist es ein Problem, wenn der Parser für manche Sätze keine Ergebnisse liefert, da in diesem Fall auch die weitere Verarbeitung nicht ausgeführt werden kann. In solchen Konstellationen (Architekturen) empfiehlt es sich, so genannte „flache“ („shallow“) Parser zu nutzen. Diese ordnen nur den Teilen des Satzes, die sie bearbeiten können, Strukturen zu. Diese Satzteile sind in der Regel Sequenzen aufeinanderfolgender Wörter. Nachteile: Der Parser liefert häufig nur Teilergebnisse und keine komplette Analyse. Der Parser erkennt keine Konstituenten, die nicht zusammenhängen.

40 Computerlinguistik Shallow Parsing Beispiel:
Seit dem Tag, als erst durch bitteren Zank sich entzweiten Atreus Sohn, der Herrscher des Volkes, und der edle Achilleus. Präp Det N adverbiale Bestimmung der Zeit / „START“  thematische Rolle PP

41 Computerlinguistik Literatur
Homers Ilias. Vossische Übersetzung. München: Friedrich Bruckmanns Verlag 1882. Johnson-Laird, P.N. (1983). Mental Models (Kapitel 13: Parsing and Performance). Cambridge, UK: Cambridge University Press. Kasami, J. (1965). An Efficient Recognition and Syntax Analysis Algorithm for Context-free Languages. Report AFCRL Air Force Cambridge Research Laboratory, Bedford, MA. Kempen, G. (1998). Sentence Parsing. In: Friederici, A.D. (Ed.), Language Comprehension: A Biological Perspective. Berlin: Springer.

42 Computerlinguistik Literatur
Mitkov, R. (2002). The Oxford Handbook of Computational Linguistics. Oxford, UK: Oxford University Press. Mommsen, T. (1854). Römische Geschichte. 6. Auflage: DTV, 2002. Sowa, J.F. (2000). Knowledge Representation. Pacific Grove, CA: Brooks/Cole. Younger, D. (1967). Recognition and parsing of context-free languages in time n3. Information and Control, 10,


Herunterladen ppt "für Kommunikation, Informationstechnik und Ergonomie"

Ähnliche Präsentationen


Google-Anzeigen