Statische Sprachmodellierung Training Sprachmodellen in SLM-Toolkit Buyu Xiao 24.Maerze.2010.

Slides:



Advertisements
Ähnliche Präsentationen
1 Schritt 1 Liste der Behörden auswählen. 2 Schritt 2 Ihre Behörde auswählen (Beispiel: Albanien)
Advertisements

NADIA Workshop Folien MMK. Übersicht Modelle Dekodertechnologie Modellerzeugung Vorversuch Stand eigener Erkenner TODOs.
Statistische Aspekte der PSG
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Einführung in die Informatik: Programmierung und Software-Entwicklung
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Abschlussprüfung 2010/2011 IM Fertigungstechnik 101 Prüflinge.
Vorteile der Online-Produkte
Ein paar Grundlagen zur Informatik
Telefonnummer.
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Klicke Dich mit der linken Maustaste durch das Übungsprogramm! Vereinfachung von Termen Ein Übungsprogramm der IGS - Hamm/Sieg © IGS-Hamm/Sieg 2006 Dietmar.
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
Grundkurs Theoretische Informatik, Folie 3.1 © 2004 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 3 Gottfried Vossen Kurt-Ulrich Witt.
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
Beata Kouchnir1 Part-of-Speech Tagging Eine Übersicht über verschiedene Ansätze sowie eine theoretische Beschreibung des TnT-Taggers von Thorsten.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
September 2009DEGES Kooperativer Beteiligungsprozess Hamburg Süd Prognosenullfall Gesamtlärm, nachts.
Differentielles Paar UIN rds gm UIN
1Ausgewählte Themen des analogen Schaltungsentwurfs Zusammenfassung Einführung Teilchendetektore – Sensorstrukturen, Verstärker, Rauschen, Geschwindigkeit.
Prof. Dr. Bernhard Wasmayr
Univariate Statistik M. Kresken.
SQL-Datentypen INTEGER
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Grundkurs Theoretische Informatik
Nützlichkeit statistischer Phrasen in der Textklassifikation
Statische Sprachmodellierung Training Sprachmodellen in SLM-Toolkit Buyu Xiao 24.Maerze.2010.
Statische Sprachmodellierung Training Sprachmodellen in SLM-Toolkit Buyu Xiao 24.Maerze.2010.
Herzlich Willkommen zur Pressekonferenz anlässlich der
20:00.
Programmieren Kapitel 3 – Variablen.
Wie spät ist es? Wie viel Uhr ist es?
Arbeit, Energie.
Eine Einführung in die CD-ROM
EasyM Ein Werkzeug zur Dokumentation Ihrer Leistung Ablaufschemata BERGER Analysen und Informationstechnik GmbH A-4048 Puchenau Klingberg 3
Entwicklung des sprachgesteuerten Schachcomputers Speech2Chess
Wir üben die Malsätzchen
Effektives Arbeiten mit Formatvorlagen
Arbeit, Energie, Energieerhaltung, Leistung
1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,
Korpuslinguistik für und mit Computerlinguistik
Der Mond Warum ist das so?
Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.
Das entscheidende Kriterium ist Schönheit; für häßliche Mathematik ist auf dieser Welt kein beständiger Platz. Hardy.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
EDV-Anwendungen im Archivwesen II KU 2WS WS07.
Informationstheorie Begr. von Claude Shannon
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
SOFTWARE TECHNOLOGY 2009/2010 Faculty of Electrical Engineering and Technical Informatics Budapest University of Technology and Economics OO problems 1.
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Technische Frage Technische Frage Bitte löse die folgende Gleichung:
Evaluation des sprachgesteuerten Assistenten Jasper
Sprachsignalverarbeitung
Bildergalerie PRESEASON CAMP Juni 2014 Romanshorn Get ready for the Season!
Folie Einzelauswertung der Gemeindedaten
Numbers Greetings and Good-byes All about Me Verbs and Pronouns
1.6.3 Test auf Verlustfreiheit (Verbundtreue) (4|10)
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Wie.
Das IT - Informationssystem
WS03/041 Dynamische Programmierung (3) Konstruktion optimaler Suchbäume Prof. Dr. S. Albers Prof. Dr. Th. Ottmann.
MS Word 2010 Word Texte eingeben und bearbeiten automatische und manuelle Korrekturen Text bearbeiten Word Texte eingeben und bearbeiten automatische und.
Spracherkennung mit dynamisch geladenen, spezifischen Akustikmodellen
Beispiel: Divisem. Beispiel: Divisem Beispiele für komplexe Bewegungen und sprach-begleitende Gesten Springen auf der Stelle Aufzählung von fünf Gliederungs-
 Präsentation transkript:

Statische Sprachmodellierung Training Sprachmodellen in SLM-Toolkit Buyu Xiao 24.Maerze.2010

Sprachmodell – Uebersicht und Anwendungsbereich eines Sprachmodell – M-Gramme – Discounting – Back-off Example beim SLM-Toolkit Zusammenfassung

Sprachmodell Aufbau eines Spracherkennungssystem

Sprachmodell Durch die Wahrscheinlichkeit Woeter oder Wortfolgen Awendungsbereich – Vereinfachen eines Spracherkenner – Texte-Komprimierung – Extraktion von Schluessewoertern aus Texten – etc...

Sprachmodell:M-Gramme Komplete Sprachmodell

Sprachmodell:M-Gramme Uigramm(m=1) Bigramm(m=2) Trigramm(m=3)

Schaetzung

Maximu-Liklihood schaetzwerte :absoulte Haeufigkeit der Wortfolge w(n),w(n-1)(n-m+1) in Trainingskorpus :absoulte Haeufigkeit der Wortfolge w(n-1)(n-m+1) in Trainingskorpus

Discounting Absolute discounting Add-One Smoothing Witten-Bell Good-Turing

Discounting Absolutes Discounting

Discounting Absolutes Discounting – d auswahlen

Add-One Smoothing Unigramme Bigramme

Witten-Bell Discounting uigramm

Witten-Bell Discounting bigramm

Witten-Bell Discounting M-Gramm

Good-Turing Discounting M-Gramm count

Backing-off Trigramm

Kombination von Backing-off mit Discounting M-gramm – X:binaeren Indikatorfunktion – P(*):gelättete Wahrscheinlichkeit Trigramm

Schaezhung der Sprachmodell Entropie: Schaetzung der M_Gramm System

Schaezhung der Sprachmodell True-Entropy Cross Entropy for Comparing Models

Perplexitaet Mass fuer die Staerke der Einschraekung der durch das Sprachmodell; mittlere Zahl der Wahlmöglichkeiten für das nächste Wort

SLM Toolkit CMU-Cambridge Statical Lange Modeling Toolkit v2 – Ein Satz von Unix-Software zu m-Gramm-Sparchmodellierung und Schaetzung.

SLM Toolkit Typische Anwendung

Good-turingPerplexityEntropie 3-gramm gramm gramm witten-bellPerplexityEntropie 3-gramm gramm gramm

Absolute(uncomp elte training) PerplexityEntropie 3-gramm gramm gramm

perlexityEntropy Good-turing3-gramm gramm gramm witten-bell3-gramm gramm gramm Absolute3-gramm (uncompelte training)2-gramm gramm

Automatisch Ausfuehren Bearbeite Trainningdatenbank – unpack.pl – convertfile.pl Abruf SLM-Toolkit – Call_toolkitEx.pl – Call_toolkit.ini

Zusammfasung Statische Sprachmodell: M-Gramm Qualitaet:Trigramm>Bigramm>unigramm

Danke!