Einführung in die Computerlinguistik: statistische Sprachverarbeitung Dietrich Klakow.

Slides:



Advertisements
Ähnliche Präsentationen
Excel – Kurs Philip Clasen
Advertisements

Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Stochastik und Markovketten
Statistische Aspekte der PSG
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Normalverteilte Zufallsvariablen
What do you get marks for?
Stochastik in der Sek. II Sabrina Schultze.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
Grundbegriffe der Wahrscheinlichkeitstheorie
© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Differentieller Stromverstärker
Statistische Methoden I
Statistische Methoden II SS 2007 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Nachholung der Vorlesung vom Freitag
Bitte mein Manuskript (liegt im Bibliotheksgebäude aus) nicht nach Außerhalb tragen. Die Weitergabe an Dritte (d. h. an Personen, die nicht Hörer der Vorlesung.
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur - statt Vorlesungen -
Erwartungswert und Varianz I Der endliche Fall Erwartungswert Varianz.
Statistische Methoden I WS 2007/2008 Probeklausur Donnerstag, 31. Januar 2008 und Freitag, 1. Februar statt Vorlesungen -
Zeit: 14:15 Ort: Hörsaal Loefflerstraße Heute wird die Vorlesung vom vergangenen Freitag nachgeholt! im Anschluss an die heutige reguläre Vorlesung.
II. Wahrscheinlichkeitstheorie
Wahrscheinlichkeitstheorie. Statistische Methoden I WS 2009/2010 Einleitung: Wie schätzt man die Zahl der Fische in einem See? Zur Geschichte der Statistik.
Erwartungswert und Varianz I Der endliche Fall Erwartungswert Varianz.
Wahrscheinlichkeitsräume. A. N. Kolmogorov Kolmogorov wurde (mehr zufällig, seine Mutter war auf der Durchreise) in Tambov, Russland, geboren.
Die Vorlesung Statistische Methoden I fällt morgen ( ) aus! Zeit: 14:15 Ort: Hörsaal Loefflerstraße Diese Vorlesung wird am nächsten Donnerstag.
Urnenmodelle. Wahrscheinlichkeitsräume A. N. Kolmogorov Kolmogorov wurde (mehr zufällig, seine Mutter war auf der Durchreise) in Tambov,
Extra-SPSS-Kurse Durchführung: Birte Holtfreter Termine Di Mi Mi Ort PC-Pool Loefflerstarße.
Urnenmodelle. Die Normalverteilung (Gauß-Verteilung) (Gaußsche Glockenkurve)
Statistische Methoden I WS 2009/2010 Probeklausur Montag, 25. Januar statt Vorlesung -
Grundbegriffe der (deskriptiven) Statistikder Wahrscheinlichkeitstheorie.
Statistische Methoden I WS 2004/2005 Probeklausur Freitag, 21. Januar statt Vorlesung - In 2 Wochen In 2 Wochen!
Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:
Extended multistep outflow method for the accurate determination of soil hydraulic properties close to water saturation W. Durner und S.C. Iden, SS2012.
1. 2 Schreibprojekt Zeitung 3 Überblick 1. Vorstellung ComputerLernWerkstatt 2. Schreibprojekt: Zeitung 2.1 Konzeption des Kurses 2.2 Projektverlauf.
Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.
20:00.
Die Geschichte von Rudi
Wahrscheinlichkeitsrechnung Grundbegriffe
Beschreibung der energetischen Zustände der Elektronen
Wir üben die Malsätzchen
Polynome und schnelle Fourier-Transformation
VL 19 VL Laser (Light Amplification by Stimulated Emission of Radiation) Maser = Laser im Mikrowellenbereich, d.h. Microwave Amplification by.
Wahrscheinlichkeit Zufallsexperiment:
Tag 25 – Stadt Frankfurt Ihr braucht Papier, Bleistift, Kuli, Handout.
STATISIK LV Nr.: 0028 SS Mai 2005.
© Bibliothek und Archiv der Österreichischen Akademie der Wissenschaften Katalogisierung in RAK / MAB2 Beispiele 1. Teil Lösungen Verbund für Bildung und.
Analyse von Ablaufdiagrammen
HORIZONT 1 XINFO ® Das IT - Informationssystem HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 /
HORIZONT 1 XINFO ® Das IT - Informationssystem PL/1 Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsrechnung
Referat über das Thema STOCHASTIK.
Das IT - Informationssystem
Großer Altersunterschied bei Paaren fällt nicht auf!
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
Paris Beim Glücksspiel
1 (C) 2002, Hermann Knoll, HTW Chur, Fachhochschule Ostschweiz Wahrscheinlichkeitsverteilung Lernziele: Wahrscheinlichkeitsverteilung und der Wahrscheinlichkeitsdichte.
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Analyseprodukte numerischer Modelle
1. 2. Berechnen von Wahrscheinlichkeiten
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Vortrag von Rechtsanwältin Verena Nedden, Fachanwältin für Steuerrecht zur Veranstaltung Wege zum bedingungslosen Grundeinkommen der Piratenpartei Rhein-Hessen.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Begrüßung und Abschied
Numbers Greetings and Good-byes All about Me Verbs and Pronouns
Stochastik Grundlagen
Lust auf Lesen Treffpunkt Deutsch Sixth Edition. Relative Pronoun object of a preposition Recall from chapter 9 that relative clauses describe people,
Das IT - Informationssystem
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
 Präsentation transkript:

Einführung in die Computerlinguistik: statistische Sprachverarbeitung Dietrich Klakow

2 The notion "probability of a sentence" is an entirely useless one… Noam Chomsky, 1969

3 statistische und konnektionistische Methoden in der CL deklarative linguistische Formalismen in der CL spezielle Verfahren für die CL direkte Programmierung, keine Trennung von Beschreibung und Verarbeitung Hauptansätze der CL (siehe 1. Vorlesung)

4 Literature Foundations of Statistical Natural Language Processing by Christopher D. Manning, Hinrich SchützeChristopher D. ManningHinrich Schütze Publisher: The MIT Press; 1st edition (June 18, 1999) ISBN: List Price:$77.00

5 Warnung Diese Vorlesung enthält Mathematik Programmierbeispiele

6 Motivation

7 Motivation 1 Nicht alles was auftreten könnte tritt auch auf

8 Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften. Ambiguität (Beispiel aus 1. Vorlesung) Wie viele Lesarten hat der Satz? Wahrscheinlichkeitstheorie hilft entscheiden, welche Lesarten plausibel sind -> probabilistische kontextfreie Grammatiken

9 Motivation 2 Mit Wahrscheinlichkeitstheorie können leistungsstarke Systeme entwickelt werden

10 Sprachkodierung und Kompression

11 Spracherkennung

12 Übersetzungen des Wortes band (Leos Dictonary) band das BandbanddasBand band die Band - MusikgruppebanddieBand band [tech.] das BandbanddasBand band die BandbreitebanddieBandbreite band [chem.] die Bande - im Spektrum band das Beffchen band der Bereich band der Bund band der Frequenzbereich band die Gruppe band der Gurt band die Kapelle band die Leiste band die Musikkapelle band das Orchester band die Schar band die Schnur band [mus.] der Spielmannszug band der Streifen band die Truppe narrowband also: narrow-band adj. engbandig narrowband also: narrow- band adj. schmalbandig sideband also: side band [elec.] [telecom.] das Seitenband Verben und Verbzusammensetzungen to band together sich verbinden to band together sich vereinigen to band together sich zusammenrotten to band together sich zusammentun to band together zu einer Gruppe vereinigen to beat the band nie da gewesen sein to cross-band [tech.] absperren [Holzverarbeitung] Zusammengesetzte Einträge abrasive band - cloth [tech.] das Bandschleifleinen abrasive band - paper [tech.] das Bandschleifpapier adhesive band [tech.] das Klischeeklebeband attenuating band [aviat.] der Dämpfungsbereich audio band [phys.] der Hörbereich band aerial die Bandantenne band-aid das Heftpflaster band-aid [Amer.] [med.] das Pflaster band-aid [Amer.] [med.] das Wundpflaster band box die Hutschachtel band ceramics die Bandkeramik band collar der Stehkragen band-conveyor das Fließband band conveyor [tech.] der Gurtförderer band-conveyor das Transportband band edge die Bandkante band emission [autom.] die Bandemission band emission [autom.] die Bandenemission band gap [phys.] die Bandlücke band gate [tech.] der Bandausschnitt - Spritzgusswerkzeug [Kunststoffe] band grinder [tech.] die Bandschleifmaschine band matrix [math.] die Bandmatrix band of barrel das Fassband band of barrel der Fassreifen band of radiation [phys.] der Strahlungsbereich band of robbers die Räuberbande band overlap [tech.] die Bandüberlappung band printer [print.] der Banddrucker band radiation [autom.] die Bandenstrahlung band resaw [tech.] die Trennbandsäge band saw [tech.] die Bandsäge band-saw die Bandsäge band spectrum [tech.] das Bandenspektrum band-spread die Bandspreizung band-stand der Musikpavillon band structure [phys.] die Bandstruktur band-switch der Bereichsschalter band-switch der Bereichsumschalter band width die Bandbreite base band [tech.] das Basisband brake band [tech.] das Bremsband brass band [mus.] die Blaskapelle brass band [mus.] die Blechmusik brass band [mus.] der Spielmannszug broad band [tech.] das Breitband carrier band [tech.] das Trägerfrequenzband clay band [geol.] das Salband clincher band [autom.] das Wulstband [Reifen] conveyer band das Förderband cover band [tech.] das Deckband currency band [bank.] die Währungsbandbreite dance band die Tanzkapelle dead band [metr.] die Totzone edge band [tech.] der Umleimer [Tischlerei] elastic band [tech.] das Gummiband elastic band der Gummistrumpf error band der Zufallsstreubereich filter band [tech.] das Siebband flexible band die Randzeit - Arbeitszeit glassy band [tech.] glasiger Streifen guard band [elec.] der Rasen - Abstand zwischen den Schrägspuren, den Videospuren, der benutzt wird, um eine gegenseitige Beeinflussung der Spuren zu vermeiden guard band [elec.] der Schutzabstand - Abstand zwischen den Schrägspuren, den Videospuren, der benutzt wird, um eine gegenseitige Beeinflussung der Spuren zu vermeiden guard band [elec.] [telecom.] der Schutzbereich - zwischen zwei Kanälen zur Vermeidung von Interferenzen guard band [telecom.] der Schutzbereicht guard band [elec.] [telecom.] das Sicherheitsband - zwischen zwei Kanälen zur Vermeidung von Interferenzen guard band [elec.] [telecom.] das Sicherheitsfrequenzband - zwischen zwei Kanälen zur Vermeidung von Interferenzen guide band das Führungsband hair-band das Haarband heating band [tech.] das Heizband hinge band [tech.] das Gelenkband mehr >>band dieBande banddasBeffchen bandderBereich bandderBund bandderFrequenzbereich banddieGruppe bandderGurt banddieKapelle banddieLeiste banddieMusikkapelle banddasOrchester banddieSchar banddieSchnur bandderSpielmannszug bandderStreifen banddieTruppe narrowbandnarrow-bandengbandig narrowbandnarrow- bandschmalbandig sidebandsidebanddasSeitenband toband togethersichverbinden tobandtogethersichvereinigen tobandtogethersichzusammenrotten tobandtogethersichzusammentun toband togetherzueinerGruppevereinigen tobeatthebandniedagewesensein tocross-bandabsperren abrasivebanddasBandschleifleinen abrasivebanddasBandschleifpapier adhesivebanddasKlischeeklebeband attenuatingbandderDämpfungsbereich audiobandderHörbereich bandaerialdieBandantenne band-aiddasHeftpflaster band-aiddasPflaster band-aiddasWundpflaster bandboxdieHutschachtel bandceramicsdieBandkeramik bandcollarderStehkragen band-conveyordas Fließband bandconveyorderGurtförderer band-conveyordasTransportband bandedgedieBandkante bandemissiondie Bandemission bandemissiondieBandenemission bandgapdieBandlücke bandgatederBandausschnitt bandgrinderdieBandschleifmaschine bandmatrixdieBandmatrix bandofbarreldas Fassband bandofbarrelderFassreifen bandofradiationderStrahlungsbereich bandofrobbersdieRäuberbande bandoverlapdieBandüberlappung bandprinterderBanddrucker bandradiationdieBandenstrahlung bandresawdie Trennbandsäge bandsawdieBandsäge band-sawdieBandsäge bandspectrumdasBandenspektrum band-spreaddie Bandspreizung band-standderMusikpavillon bandstructuredieBandstruktur band-switchderBereichsschalter band-switchder Bereichsumschalter bandwidthdieBandbreite basebanddasBasisband brakebanddasBremsband brassbanddie Blaskapelle brassbanddieBlechmusik brassbandderSpielmannszug broadbanddasBreitband carrierbanddas Trägerfrequenzband claybanddasSalband clincherbanddasWulstband conveyerbanddasFörderband cover banddasDeckband currencybanddieWährungsbandbreite dancebanddieTanzkapelle deadbanddieTotzone edge bandderUmleimer elasticbanddasGummiband elasticbandderGummistrumpf errorband der ZufallsstreubereichfilterbanddasSiebband flexiblebanddieRandzeit glassybandglasigerStreifen guardbandderRasen guardbandderSchutzabstand guardbandderSchutzbereich guardbandderSchutzbereicht guardbanddasSicherheitsband guardbanddasSicherheitsfrequenzband guidebanddasFührungsband hair-banddasHaarband heatingbanddasHeizband hingebanddasGelenkband mehr >> Word Sense Disambiguation

13 Part-Of-Speech Tagging Xinhua News Agency, Guangzhou, March 16 ( Reporter Chen Ji ) The latest statistics show that from January through February this year, the export of high-tech products in Guangdong Province reached 3.76 billion US dollars, up 34.8% over the same period last year and accounted for 25.5% of the total export in the province.

14 Part-Of-Speech Tagging Xinhua/NNP News/NNP Agency/NNP,/, Guangzhou/NNP,/, March/NNP 16/CD (/( Reporter/NNP Chen/NNP Ji/NNP )/SYM The/DT latest/JJS statistics/NNS show/VBP that/IN from/IN January/NNP through/IN February/NNP this/DT year/NN,/, the/DT export/NN of/IN high-tech/JJ products/NNS in/IN Guangdong/NNP Province/NNP reached/VBD 3.76/CD billion/CD US/PRP dollars/NNS,/, up/IN 34.8%/CD over/IN the/DT same/JJ period/NN last/JJ year/NN and/CC accounted/VBD for/IN 25.5%/CD of/IN the/DT total/JJ export/NN in/IN the/DT province/NN./.

15 Named Entity Tagging Task: Identify names of people, organizations, locations, … in text President Richard Nixon in Moscow.

16 Information Retrieval

17 Text-Klassifikation z.B. Spam-Mail Klassification V / a g r a $ 3, 3 l A m b / e n M e r / d i a C / a l i s $ 3, 7 5 V a l / u m $ l, 2 1 X & n a x S o m &

18 Whereas recognition of the inherent dignity and of the equal and inalienable rights of all members of the human family is the foundation of freedom, justice and peace in the world Statistische Maschinelle Übersetzung

19 Geschichte der Wahrscheinlichkeitstheorie

20 Geschichte der Wahrscheinlichkeitstheorie Altertum Suche nach dem idealen Würfel Glücksspiel, Orakel Versicherungswesen Babylon, China Renten Rom Keine Formalisierung überliefert

21 Geschichte der Wahrscheinlichkeitstheorie Mittelalter Forschung wurde hauptsächlich in Klöstern betrieben Keine wesentlichen Arbeiten in Wahrscheinlichkeitstheorie

22 Geschichte der Wahrscheinlichkeitstheorie Blaise Pascal ( ) z.B. Würfelproblem: Wie hoch ist die Wahrscheinlichkeit beim werfen von vier Würfeln mindestens eine sechs zu werfen. Erste Ansätze zur Kombinatorik

23 Geschichte der Wahrscheinlichkeitstheorie Jakob Bernoulli ( ) Binomialverteilung Ziehen aus Urne mit zurücklegen Bernoulli-Ketten Gesetz der großen Zahl: Die relative Häufigkeit eines Zufallsergebnisses nähert sich immer weiter an den theoretisch erwarteten Anteil für dieses Ergebnis an, je häufiger das Zufallsexperiment durchgeführt wird.

24 Gesetz der großen Zahl Anzahl Würfe davon KopfVerhältnis absoluter Abstand relativer Abstand Theore tisch Beo bachtet Theore tisch Beo bachtet

25 Geschichte der Wahrscheinlichkeitstheorie Abraham de Moivre ( ) Normalverteilung Zentraler Grenzwertsatz Die Zufallsvariable X sei die Summe einer unendlich großen Zahl von gleichverteilten Zufallsvariablen. Dann ist X normalverteilt. Simulation von it.html

26 Geschichte der Wahrscheinlichkeitstheorie Thomas Bayes (1702–1761) Bedingte Wahrscheinlichkeiten Satz von Bayes

27 Geschichte der Wahrscheinlichkeitstheorie Andrej Kolmogorov ( ) Axiomatisierung: Wahrscheinlichkeiten haben Werte zwischen 0 und 1 Wahrscheinlichkeiten sind normiert Wahrscheinlichkeiten für unterschiedliche Ereignisse sind additiv

28 Anfänge der Wahrscheinlichkeitstheorie in der Computerlinguistik Part-Of-Speech Tagging Einführung von HMMs in Mitte der 80iger Jahre In der Regel besser als bis dahin bekannte Verfahren Spracherkennung ca. 1980: Hidden-Markov-Modelle

29 Einfache Experimente

30 Einfache Statistische Experimente Die Zipf-Verteilung -> Perl-Skript

31 Einfache Statistische Experimente Verteilung von der Länge von Fragen -> Perl-Skript

32 Einführung in die Wahrscheinlichkeitstheorie -> Tafel

33 Korrelationsfunktion Definition: d: Abstand zwischen zwei Beobachtungen von Wort w Statistische Unabhängigkeit: c(w)=1

34 Correlation Function and Only weak short range dependencies

35 Correlation Function President -Long range (semantic) dependency -Decay of correlations after about 1000 words

36 Correlation Function he Short- and Long Range Dependencies

37 Correlation Function seven 7*7: Boeing Airplanes

38 Zusammenfassung Beispiele für Anwendungen Geschichte der Wahrscheinlichkeitstheorie Einfache Experimente Grundbegriffe