Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Einführung in die Computerlinguistik Im Rahmen des Seminars Grundkurs Linguistik Heinrich-Heine-Universität Düsseldorf, WS 2007/2008 Gastdozent: Christof.

Ähnliche Präsentationen


Präsentation zum Thema: "Einführung in die Computerlinguistik Im Rahmen des Seminars Grundkurs Linguistik Heinrich-Heine-Universität Düsseldorf, WS 2007/2008 Gastdozent: Christof."—  Präsentation transkript:

1 Einführung in die Computerlinguistik Im Rahmen des Seminars Grundkurs Linguistik Heinrich-Heine-Universität Düsseldorf, WS 2007/2008 Gastdozent: Christof Rumpf, Diese Präsentation finden Sie unter:

2 Einführung in die Computerlinguistik2 Computerlinguistik in Düsseldorf Computerlinguistik ist an der Heinrich-Heine-Universität Düsseldorf eine von drei Abteilungen im Institut für Sprache und Information –Allgemeine Sprachwissenschaft (Linguistik) –Computerlinguistik –Informationswissenschaft Studiengänge –BA, MA Linguistik (mit Schwerpunkt Computerlinguistik) –BA, MA Informationswissenschaft und Sprachtechnologie

3 Einführung in die Computerlinguistik3 Was ist Computerlinguistik? Computerlinguistik (CL) ist ein interdisziplinäres Fachgebiet zwischen den Gebieten –Linguistik linguisticscomputational –Informatik computer science linguistics In der CL geht es um die maschinelle (algorithmische) Verarbeitung natürlicher Sprache. CL ist eine der Säulen der sogen. Künstlichen Intelligenz.

4 Einführung in die Computerlinguistik4 Anwendungen der CL Maschinelle Übersetzung –z.B. automatische Übersetzung von geschriebenem oder gesprochenem Chinesisch ins Deutsche (siehe z.B. Information Retrieval –Auffinden von Dokumenten (Texten) in grossen Dokumentsammlungen aufgrund des Inhalts (z.B. alle Einführungen in die CL) Informationsextraktion –Gewinnung von strukturierter Information (Relationen) aus unstrukturierter Information (Texten) –Beispiel: Wer hat JFK erschossen? Szenario: Dialogsysteme –z.B. Fahrplanauskunftssysteme, Diagnosesysteme (Medizin, Technik) etc. (die Liste lässt sich noch rahmensprengend verlängern) ausgewählte

5 Einführung in die Computerlinguistik5 Methoden der CL Symbolische Methoden –Parsing ist die Analyse natürlicher Sprache anhand von Grammatiken auf Basis der Theorie der Automaten und formalen Sprachen. –Grammatikformalismen basieren auf formalen Logiken zur Repräsentation und Verarbeitung linguistischen Wissens (Inferenz). Statistische Methoden –Statistische Modelle über grossen Textmengen (Korpora) basieren auf Wahrscheinlichkeitstheorie und evt. Informationstheorie. Hybride Methoden (gemischte Methoden) –Statistisches Parsing verbindet z.B. symbolische und statistische Methoden Subsymbolische Methoden –Neuronale Netze sind heute weitgehend bedeutungslos geworden.

6 Einführung in die Computerlinguistik6 Probleme der CL Ambiguität (Mehrdeutigkeit) führt zur Explosion der Analysen: –Polysemie: Bank (Gebäude, Institution, Sitzgelegenheit) –Komposita: Aluminiumherstellung z.B. alu+mini+umher+stellung (+11) –Skopus: ((alte Männer) und Frauen) vs. (alte (Männer und Frauen)) –PP-Zuordnung: Peter kauft das Auto mit Heckspoiler. Peter kauft das Auto mit Kreditkarte. Peter kauft das Auto mit Gabi. Robustheit erfordert Fehlertoleranz und vollständiges Wissen –mangelnde Fehlertoleranz –unvollständige Lexikabehindern die Funktionsfähigkeit –unvollständige Grammatikenvon CL-Anwendungen Dilemma: je robuster (vollständiger), desto mehr Ambiguitäten. Präpositionalphrase

7 Einführung in die Computerlinguistik7 Wie komplex ist eine Sprache? Um entscheiden zu können, welche Mittel man zur Lösung eines Problems benötigt, muss man sich über die Komplexität des Problems klar werden. In der Theorie der Automaten und formalen Sprachen werden Sprachen in eine Komplexitätshierarchie gebracht: –Typ 0: rekursiv aufzählbarkomplexer –Typ 1: kontextsensitiv –Typ 2: kontextfrei –Typ 3: reguläreinfacher Natürliche Sprache gilt als schwach kontextsensitiv. Den Sprachklassen werden Automatenklassen zugeordnet. Chomsky-Hierarchie

8 Einführung in die Computerlinguistik8 Die Chomsky-Hierarchie regulär kontext- frei kontext- sensitiv rekursiv aufzählbar SpracheAutomat Turing Maschine Linear gebunden Kellerautomat (Stapel) Endlicher Automat Grammatik unbeschränkt Baa kontext- sensitiv At aA kontextfrei S gSc regulär A cA Erkennung linear polynomiell NP-vollständig unentscheidbar AbhängigkeitBiology strikt lokal eingebettet überkreuzt beliebig Central Dogma Pseudoknots, etc. Orthodox 2 o Structure Unknown nach D. Searls

9 Einführung in die Computerlinguistik9 Endliche Automaten Endliche Automaten sind die einfachste Automatenklasse. Sie bestehen aus Zuständen, die mit beschrifteten Übergängen verbunden sind (Übergangsfunktion). Eine Kette von Symbolen aus einem Alphabet gilt als akzeptiert, wenn beginnend mit dem Startzustand die ganze Kette verarbeitet werden kann und der Automat sich dann in einem Endzustand befindet. Der abgebildete Automat erkennt Sprachen, deren Ketten die Teilkette skr enthalten. start z.B. für ein Alphabet = {a,b,c,s,k,r }, L = *skr *, wobei * die Menge aller Ketten ist, die sich aus beliebigen Symbolen aus dem Alphatet zusammensetzt. Der Stern heisst Kleenscher Stern. Beispielsweise ist aabcskrab L, aber aabcska L.

10 Einführung in die Computerlinguistik10 Kontextfreie Grammatiken Kontextfreie Grammatiken sind neben den einfacheren regulären Grammatiken die wichtigsten Grammatiken für die Computerlinguistik. Die Regeln einer kontextfreien Grammatik definieren zwei Relationen: –Unmittelbare Dominanz zwischen Mutterkategorie und Tochterkategorien –Lineare Präzedenz zwischen Schwesterkategorien Hier ist eine kontexfreie Grammatik für ein Fragment der deutschen Sprache: S NP VP NP Det N VP V NP Det Jeder Det eine N Mann N Frau V liebt Legende SSatz NPNominalphrase VPVerbalphrase DetDeterminer (Artikel) NNomen (Substantiv) VVerb

11 Einführung in die Computerlinguistik11 Parsing engl. to parse: grammatisch zerlegen Ein Parser ist ein Automat, der auf Basis einer Grammatik für eine Kette einen Ableitungsbaum (parse tree) erzeugt. S NP VP Det N V NP Jeder Mann liebt Det N eine Frau Grammatik & Jeder Mann liebt eine Frau

12 Einführung in die Computerlinguistik12 Deklarativ vs. Prozedural Eine Grammatik ist eine deklarative Beschreibung der wohlgeformten Syntaxbäume einer Sprache. Eine deklarative Beschreibung stellt einen logischen Sachverhalt dar. Ein Algorithmus ist eine Folge von Anweisungen (eine Prozedur), wie man in endlich vielen Schritten von einem Ausgangszustand (zu lösendes Problem) zu einem Zielzustand (gelöstes Problem) kommt. Ein Parser verwendet einen Algorithmus, um Grammatiken zu interpretieren: eine prozedurale Parsingstrategie.

13 Einführung in die Computerlinguistik13 Parsingstrategien top-down bottom-up left-corner Parsingstrategien unterscheiden sich durch die Reihenfolge, in der bei der Konstruktion des Syntaxbaums die Knoten im Baum besucht werden (Traversierung). depth-first breadth-first left-to-right right-to-left

14 Einführung in die Computerlinguistik14 Beispielgrammatik (CFPSG) Syntax S NP VP NP Det N NP NP Conj NP 1 VP V NP Det 2 Lexikon Det the Conj and N dog N cat V chases 1 nicht für top-down-Parser 2 nicht für bottom-up-Parser

15 Einführung in die Computerlinguistik15 Top-Down-Traversierung S 1 NP 2 VP 7 D 3 N 5 V 8 NP 10 D 11 N 13 the 4 dog 6 chased 9 the 12 cat 14 top-down depth-first left-to-right

16 Einführung in die Computerlinguistik16 Problem: Linksrekursion Top-Down-Strategie gerät bei linksrekursiven Regeln in Endlosschleifen (Endlosberechnungen): NP NP Conj NP Die erste NP auf der linken Regelseite kann beliebig oft mit der gleichen Regel expandiert werden. Auswege: –Linksrekursion vermeiden (unbefriedigend) –Bottom-Up- oder Left-Corner-Strategie

17 Einführung in die Computerlinguistik17 Bottom-Up-Traversierung S 14 NP 5 VP 13 D 2 N 4 V 7 NP 12 D 9 N 11 the 1 dog 3 chased 6 the 8 cat 10

18 Einführung in die Computerlinguistik18 Shift-Reduce-Algorithmus Der Shift-Reduce-Algorithmus verfolgt eine Bottom-Up- Strategie. 1.Shift: lege ein Wort aus der Eingabekette auf einen Stapel. 2.Reduce: reduziere den Stapel mit Hilfe der Grammatik soweit wie möglich. 3.Falls die Eingabekette noch Wörter enthält, gehe zu Shift, sonst halte.

19 Einführung in die Computerlinguistik19 Shift-Reduce-Beispiel

20 Einführung in die Computerlinguistik20 Problem: Leere Kategorien Bottom-Up-Strategie loopt (Endlosschleife) bei leeren Kategorien, weil zwischen zwei Konstituenten beliebig viele leere Kategorien eingesetzt werden können. Det. Auswege –Leere Kategorien vermeiden (für manche unbefriedigend). –Oder eine andere Parsing-Strategie: Left-Corner-Parsing mit Linking (wer wissen möchte, wie das funktioniert, soll Computerlinguistik studieren!)

21 Einführung in die Computerlinguistik21 Klassifikationsprobleme Viele Probleme der Text- bzw. Sprachtechnologie sind Klassifikationsprobleme, z.B: Satzgrenzenerkennung Frau Dr. X. hatte am 31. Jan auf der Bank. Am 1. Feb. waren es weniger. Wortartenerkennung Time N flies V like A an D arrow N. vs Time N flies N like V an D arrow N. Term- bzw. Named-Entity-Erkennung z.B. Personen-, Währungs-, Datums-, oder Ortsbezeichnungen Wortsinndisambiguierung Das Geld liegt auf der Bank. Peter sitzt auf der Bank.

22 Einführung in die Computerlinguistik22 Automatische Klassifikation Ein Klassifikator ist eine Wahrscheinlichkeitsfunktion p(a|b) p(a|b) ist die Wahrscheinlichkeit von Klasse a im Kontext b p(Institution i |Das Geld liegt auf der Bank i ) = 0,6 p(Gebäude i |Das Geld liegt auf der Bank i ) = 0,1 p(Sitzmöbel i |Das Geld liegt auf der Bank i ) = 0,3 1,0 Klassifikatoren können aus Trainingstexten automatisch gelernt werden: Maschinelles Lernen Das Lernen basiert i.d.R. auf dem Zählen der gemeinsamen Vorkommen von Klassen mit Kontextmerkmalen

23 Einführung in die Computerlinguistik23 Markov-Modelle Markov-Modelle sind gewichtete endliche Automaten. Markov-Modelle reduzieren die komplexen Zusammenhänge einer Kette von Ereignissen (z.B. Wörter in einem Text). Markov-Modelle zur Wortartenerkennung: Kombination aus zwei Wahrscheinlichkeitsfunktionen: –Wie häufig kommt ein Wort mit einer Wortart vor? –Wie häufig folgt eine Wortart auf eine andere? Time N flies V like A an D arrow N. vs Time N flies N like V an D arrow N.

24 Einführung in die Computerlinguistik24 Beruf ComputerlinguistIn Computerlinguistische Arbeit erfordert Wissen aus mehreren Bereichen: –Linguistik –Informatik –Mathematik –Philosophie –Logik –Informationswissenschaft Je nach Spezialisierung kann der Schwerpunkt einzelner ComputerlinguistInnen stark auf bestimmte der genannten Bereiche verlagert sein. Sofern es um bestimmte Anwendungsdomänen geht, können natürlich weitere Fachbereiche involviert sein: Philologie(n), Biologie, Soziologie, Forensik, Kryptologie, …


Herunterladen ppt "Einführung in die Computerlinguistik Im Rahmen des Seminars Grundkurs Linguistik Heinrich-Heine-Universität Düsseldorf, WS 2007/2008 Gastdozent: Christof."

Ähnliche Präsentationen


Google-Anzeigen