Einführung in die Computerlinguistik

Slides:



Advertisements
Ähnliche Präsentationen
Seminar über Algorithmen
Advertisements

Vorlesung Compilertechnik Sommersemester 2008
Christian Schindelhauer
Statistische Aspekte der PSG
Kontextfreie Grammatiken
Gliederung 1. Grundlagen der Bottom-Up-Syntaxanalyse
10. Kapitel: Syntaxanalyse (Parsing)
Institut für Informatik Abt. Intelligente Systeme
8. Formale Sprachen und Grammatiken
Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Notationen A = ist eine endliche, nichtleere menge,
Grammatiken, Definitionen
Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Grammatiken beschreiben Sprachen L µ *, indem.
Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Reduktionen Def: L · L (L ist reduzierbar auf.
Kapitel 4 Syntaktische Analyse: LR Parsing.
Listen & Beweisstrategie
Maschinelle Übersetzung I
FH-Hof Grammatiken Richard Göbel. FH-Hof Begriffe Eine Grammatik definiert die Struktur (Syntax) einer Zeichenkette Eine Grammatik definiert nicht die.
CFGs und Kellerautomaten
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (06 – Reduktion endlicher Automaten) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (12 – Kellerautomaten, PDA) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (17 –Turingmaschinen) Prof. Dr. Th. Ottmann.
Prof. Dr. rer.nat. Ralph Großmann Fakultät Informatik / Mathematik Sommersemester 2012 Internet-Technologien XML-basierte Techniken Teil Metasprache der.
Prolog Grundkurs WS 99/00 Christof Rumpf
Prolog Grundkurs WS 98/99 Christof Rumpf
Parsing Prolog Aufbaukurs SS 2000 Heinrich-Heine-Universität Düsseldorf Christof Rumpf.
1 Ein Computermodell zur Bestimmung von Begriffstypen Christof Rumpf Heinrich-Heine-Universität Tag der Forschung
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
Parsing regulärer Ausdrücke
Sprachwissenschaftliches Institut Einführung in die HPSG Grammatiktheorie 4./11. Mai 2004.
Beispiele für Ausdrucksalgebren
Grammatik als Deduktionssystem
High Performance = Innovative Computer Systems + Efficient Algorithms Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen.
1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Einführung in Berechenbarkeit, Formale Sprachen und Komplexitätstheorie Wintersemester.
Christian Schindelhauer
Christian Schindelhauer
Christian Schindelhauer
Einführung in Berechenbarkeit, Formale Sprachen und Komplexitätstheorie Wintersemester 2005/ Vorlesung Dominic Dumrauf.
Christian Schindelhauer
Christian Schindelhauer
Christian Schindelhauer
Christian Schindelhauer
Von der Sprache zum Programm
Maschinelles Lernen und automatische Textklassifikation
Entitäten Extraktion Einführung
Grenzen der Regularität
Christian Schindelhauer Wintersemester 2006/07 8. Vorlesung
Erfindervon Fuzzy Logic
Formale Sprachen Grammatiken und die Chomsky-Hierarchie
Formale Sprachen Reguläre Sprachen Rudolf FREUND, Marian KOGLER.
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 1: Wiederholung (Vor allem Folien von Priv.-Doz. Dr. Kindler vom WS 2001/02.
Städtisches Gymnasium Beverungen Friedel Berlage
Institut für Softwarewissenschaft – Universität WienP.Brezany 1 Beispiele Beispiel 1 Konstruieren Sie für folgende Sprachen über = { a, b, c.
Beispiele: KFG 2.Teil Beispiel 1: Sei G eine Grammatik mit den folgenden Regeln: S  Ac | Bd A  aAb | ab B  aBbb | abb Definieren Sie.
Noam CHOMSKY, Sheila GREIBACH
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 3: Potenzreihen und kontextfreie Sprachen (Vgl. Buch von A. Salomaa)
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Arne Vater Wintersemester 2006/07 28.
Christian Schindelhauer Wintersemester 2006/07 5. Vorlesung
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Christian Schindelhauer Wintersemester 2006/07 6. Vorlesung
Christian Schindelhauer Wintersemester 2006/07 2. Vorlesung
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Der Hund jagt die Katze. Theoretische Informatik Satz S P O
Institut für Softwarewissenschaft – Universität WienP.Brezany 1 Beispiele (Frist: ) Beispiel 1: Sei  = {a, b} ein Alphabet und Q = {q 0, q 1 } eine.
7. Formale Sprachen und Grammatiken
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
Kapitel 4:Die Chomsky Hierarchie
2 Grundlagen In diesem Abschnitt werden die Grundbegriffe und Methoden der Theorie der formalen Sprachen und der Automaten wiederholt, soweit diese ben.
Prolog Grundkurs WS 99/00 Christof Rumpf
Wann ist eine Funktion (über den natürlichen Zahlen) berechenbar?
 Präsentation transkript:

Einführung in die Computerlinguistik Im Rahmen des Seminars Grundkurs Linguistik Heinrich-Heine-Universität Düsseldorf, WS 2007/2008 Gastdozent: Christof Rumpf, 31.01.2008 Diese Präsentation finden Sie unter: http://www.phil-fak.uni-duesseldorf.de/~rumpf/talks/clintro2.pdf

Computerlinguistik in Düsseldorf Computerlinguistik ist an der Heinrich-Heine-Universität Düsseldorf eine von drei Abteilungen im Institut für Sprache und Information Allgemeine Sprachwissenschaft (Linguistik) Computerlinguistik Informationswissenschaft Studiengänge BA, MA Linguistik (mit Schwerpunkt Computerlinguistik) BA, MA Informationswissenschaft und Sprachtechnologie 31.01.2008 Einführung in die Computerlinguistik

Was ist Computerlinguistik? Computerlinguistik (CL) ist ein interdisziplinäres Fachgebiet zwischen den Gebieten Linguistik linguistics computational Informatik computer science linguistics In der CL geht es um die maschinelle (algorithmische) Verarbeitung natürlicher Sprache. CL ist eine der Säulen der sogen. Künstlichen Intelligenz. 31.01.2008 Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Anwendungen der CL ausgewählte Maschinelle Übersetzung z.B. automatische Übersetzung von geschriebenem oder gesprochenem Chinesisch ins Deutsche (siehe z.B. http://babelfish.altavista.com/) Information Retrieval Auffinden von Dokumenten (Texten) in grossen Dokumentsammlungen aufgrund des Inhalts (z.B. alle Einführungen in die CL) Informationsextraktion Gewinnung von strukturierter Information (Relationen) aus unstrukturierter Information (Texten) Beispiel: Wer hat JFK erschossen? Szenario: Dialogsysteme z.B. Fahrplanauskunftssysteme, Diagnosesysteme (Medizin, Technik) etc. (die Liste lässt sich noch rahmensprengend verlängern) 31.01.2008 Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Methoden der CL Symbolische Methoden Parsing ist die Analyse natürlicher Sprache anhand von Grammatiken auf Basis der Theorie der Automaten und formalen Sprachen. Grammatikformalismen basieren auf formalen Logiken zur Repräsentation und Verarbeitung linguistischen Wissens (Inferenz). Statistische Methoden Statistische Modelle über grossen Textmengen (Korpora) basieren auf Wahrscheinlichkeitstheorie und evt. Informationstheorie. Hybride Methoden (gemischte Methoden) Statistisches Parsing verbindet z.B. symbolische und statistische Methoden Subsymbolische Methoden Neuronale Netze sind heute weitgehend bedeutungslos geworden. 31.01.2008 Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Probleme der CL Ambiguität (Mehrdeutigkeit) führt zur Explosion der Analysen: Polysemie: Bank (Gebäude, Institution, Sitzgelegenheit) Komposita: Aluminiumherstellung z.B. alu+mini+umher+stellung (+11) Skopus: ((alte Männer) und Frauen) vs. (alte (Männer und Frauen)) PP-Zuordnung: Peter kauft das Auto mit Heckspoiler. Peter kauft das Auto mit Kreditkarte. Peter kauft das Auto mit Gabi. Robustheit erfordert Fehlertoleranz und vollständiges Wissen mangelnde Fehlertoleranz unvollständige Lexika behindern die Funktionsfähigkeit unvollständige Grammatiken von CL-Anwendungen Dilemma: je robuster (vollständiger), desto mehr Ambiguitäten. Präpositionalphrase 31.01.2008 Einführung in die Computerlinguistik

Wie komplex ist eine Sprache? Um entscheiden zu können, welche Mittel man zur Lösung eines Problems benötigt, muss man sich über die Komplexität des Problems klar werden. In der Theorie der Automaten und formalen Sprachen werden Sprachen in eine Komplexitätshierarchie gebracht: Typ 0: rekursiv aufzählbar komplexer Typ 1: kontextsensitiv Typ 2: kontextfrei Typ 3: regulär einfacher Natürliche Sprache gilt als schwach kontextsensitiv. Den Sprachklassen werden Automatenklassen zugeordnet. Chomsky-Hierarchie 31.01.2008 Einführung in die Computerlinguistik

Die Chomsky-Hierarchie Sprache Automat Grammatik Erkennung Abhängigkeit Biology rekursiv aufzählbar Turing Maschine unbeschränkt Baa  e unentscheidbar beliebig Unknown kontext- sensitiv Linear gebunden kontext-sensitiv At  aA NP-vollständig überkreuzt Pseudoknots, etc. kontext- frei Kellerautomat (Stapel) kontextfrei S  gSc polynomiell eingebettet Orthodox 2o Structure regulär Endlicher Automat regulär A  cA linear strikt lokal Central Dogma nach D. Searls 31.01.2008 Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Endliche Automaten Endliche Automaten sind die einfachste Automatenklasse. Sie bestehen aus Zuständen, die mit beschrifteten Übergängen verbunden sind (Übergangsfunktion). Eine Kette von Symbolen aus einem Alphabet S gilt als akzeptiert, wenn beginnend mit dem Startzustand die ganze Kette verarbeitet werden kann und der Automat sich dann in einem Endzustand befindet. start Der abgebildete Automat erkennt Sprachen, deren Ketten die Teilkette skr enthalten. z.B. für ein Alphabet S = {a,b,c,s,k,r }, L = S*skrS*, wobei S* die Menge aller Ketten ist, die sich aus beliebigen Symbolen aus dem Alphatet S zusammensetzt. Der Stern heisst Kleenscher Stern. Beispielsweise ist aabcskrab  L, aber aabcska  L. 31.01.2008 Einführung in die Computerlinguistik

Kontextfreie Grammatiken Kontextfreie Grammatiken sind neben den einfacheren regulären Grammatiken die wichtigsten Grammatiken für die Computerlinguistik. Die Regeln einer kontextfreien Grammatik definieren zwei Relationen: Unmittelbare Dominanz zwischen Mutterkategorie und Tochterkategorien Lineare Präzedenz zwischen Schwesterkategorien Hier ist eine kontexfreie Grammatik für ein Fragment der deutschen Sprache: S → NP VP NP → Det N VP → V NP Det → Jeder Det → eine N → Mann N → Frau V → liebt Legende S Satz NP Nominalphrase VP Verbalphrase Det Determiner (Artikel) N Nomen (Substantiv) V Verb 31.01.2008 Einführung in die Computerlinguistik

Parsing engl. to parse: „grammatisch zerlegen“ Ein Parser ist ein Automat, der auf Basis einer Grammatik für eine Kette einen Ableitungsbaum (parse tree) erzeugt. S NP VP Det N V NP Jeder Mann liebt Det N eine Frau Grammatik & „Jeder Mann liebt eine Frau“ 31.01.2008 Einführung in die Computerlinguistik

Deklarativ vs. Prozedural Eine Grammatik ist eine deklarative Beschreibung der wohlgeformten Syntaxbäume einer Sprache. Eine deklarative Beschreibung stellt einen logischen Sachverhalt dar. Ein Algorithmus ist eine Folge von Anweisungen (eine Prozedur), wie man in endlich vielen Schritten von einem Ausgangszustand (zu lösendes Problem) zu einem Zielzustand (gelöstes Problem) kommt. Ein Parser verwendet einen Algorithmus, um Grammatiken zu interpretieren: eine prozedurale Parsingstrategie. 31.01.2008 Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Parsingstrategien Parsingstrategien unterscheiden sich durch die Reihenfolge, in der bei der Konstruktion des Syntaxbaums die Knoten im Baum besucht werden (Traversierung). top-down bottom-up left-corner depth-first breadth-first left-to-right right-to-left 31.01.2008 Einführung in die Computerlinguistik

Beispielgrammatik (CFPSG) Syntax S → NP VP NP → Det N NP → NP Conj NP1 VP → V NP Det → e2 Lexikon Det → the Conj → and N → dog N → cat V → chases 1 nicht für top-down-Parser 2 nicht für bottom-up-Parser 31.01.2008 Einführung in die Computerlinguistik

Top-Down-Traversierung top-down depth-first left-to-right S1 NP2 VP7 D3 N5 V8 NP10 D11 N13 the4 dog6 chased9 the12 cat14 31.01.2008 Einführung in die Computerlinguistik

Problem: Linksrekursion Top-Down-Strategie gerät bei linksrekursiven Regeln in Endlosschleifen (Endlosberechnungen): NP  NP Conj NP Die erste NP auf der linken Regelseite kann beliebig oft mit der gleichen Regel expandiert werden. Auswege: Linksrekursion vermeiden (unbefriedigend) Bottom-Up- oder Left-Corner-Strategie 31.01.2008 Einführung in die Computerlinguistik

Bottom-Up-Traversierung NP5 VP13 D2 N4 V7 NP12 D9 N11 the1 dog3 chased6 the8 cat10 31.01.2008 Einführung in die Computerlinguistik

Shift-Reduce-Algorithmus Der Shift-Reduce-Algorithmus verfolgt eine Bottom-Up-Strategie. Shift: lege ein Wort aus der Eingabekette auf einen Stapel. Reduce: reduziere den Stapel mit Hilfe der Grammatik soweit wie möglich. Falls die Eingabekette noch Wörter enthält, gehe zu Shift, sonst halte. 31.01.2008 Einführung in die Computerlinguistik

Shift-Reduce-Beispiel 31.01.2008 Einführung in die Computerlinguistik

Problem: Leere Kategorien Bottom-Up-Strategie loopt (Endlosschleife) bei leeren Kategorien, weil zwischen zwei Konstituenten beliebig viele leere Kategorien eingesetzt werden können. Det  . Auswege Leere Kategorien vermeiden (für manche unbefriedigend). Oder eine andere Parsing-Strategie: Left-Corner-Parsing mit Linking (wer wissen möchte, wie das funktioniert, soll Computerlinguistik studieren!) 31.01.2008 Einführung in die Computerlinguistik

Klassifikationsprobleme Viele Probleme der Text- bzw. Sprachtechnologie sind Klassifikationsprobleme, z.B: Satzgrenzenerkennung Frau Dr. X. hatte am 31. Jan. 2.000€ auf der Bank. Am 1. Feb. waren es 1.000 weniger. Wortartenerkennung TimeN fliesV likeA anD arrowN. vs TimeN fliesN likeV anD arrowN. Term- bzw. Named-Entity-Erkennung z.B. Personen-, Währungs-, Datums-, oder Ortsbezeichnungen Wortsinndisambiguierung Das Geld liegt auf der Bank. Peter sitzt auf der Bank. 31.01.2008 Einführung in die Computerlinguistik

Automatische Klassifikation Ein Klassifikator ist eine Wahrscheinlichkeitsfunktion p(a|b) p(a|b) ist die Wahrscheinlichkeit von Klasse a im Kontext b p(Institutioni |Das Geld liegt auf der Banki) = 0,6 p(Gebäudei |Das Geld liegt auf der Banki) = 0,1 p(Sitzmöbeli |Das Geld liegt auf der Banki) = 0,3 1,0 Klassifikatoren können aus Trainingstexten automatisch gelernt werden: Maschinelles Lernen Das Lernen basiert i.d.R. auf dem Zählen der gemeinsamen Vorkommen von Klassen mit Kontextmerkmalen 31.01.2008 Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Markov-Modelle Markov-Modelle sind gewichtete endliche Automaten. Markov-Modelle reduzieren die komplexen Zusammenhänge einer Kette von Ereignissen (z.B. Wörter in einem Text). Markov-Modelle zur Wortartenerkennung: Kombination aus zwei Wahrscheinlichkeitsfunktionen: Wie häufig kommt ein Wort mit einer Wortart vor? Wie häufig folgt eine Wortart auf eine andere? TimeN fliesV likeA anD arrowN. vs TimeN fliesN likeV anD arrowN. 31.01.2008 Einführung in die Computerlinguistik

Beruf ComputerlinguistIn Computerlinguistische Arbeit erfordert Wissen aus mehreren Bereichen: Linguistik Informatik Mathematik Philosophie Logik Informationswissenschaft Je nach Spezialisierung kann der Schwerpunkt einzelner ComputerlinguistInnen stark auf bestimmte der genannten Bereiche verlagert sein. Sofern es um bestimmte Anwendungsdomänen geht, können natürlich weitere Fachbereiche involviert sein: Philologie(n), Biologie, Soziologie, Forensik, Kryptologie, … 31.01.2008 Einführung in die Computerlinguistik