Sprachprodukttechnologie SS 2001G. Heyer 1 Sprachstatistik  Grundlegende Definitionen  Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von.

Slides:



Advertisements
Ähnliche Präsentationen
Wie spät ist es?.
Advertisements

Beispiel zum RSA-Algorithmus
Christian Scheideler SS 2009
Vorlesung Compilertechnik Sommersemester 2008
Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Eine dynamische Menge, die diese Operationen unterstützt,
Statistische Aspekte der PSG
In order to ask the time in German you need to say:
Suche in Texten (Stringsuche )
8. Formale Sprachen und Grammatiken
Wie spät ist es? Wieviel Uhr ist es?
REKURSION + ITERATION. Bemerkung: Die in den folgenden Folien angegebenen "Herleitungen" sind keine exakten Beweise, sondern Plausibilitätsbetrachtungen.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Bäume: Grundlagen und natürliche Suchbäume) Prof. Th. Ottmann.
Union-Find-Strukturen
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 16 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
Algorithmen und Datenstrukturen
Kapitel 5 Stetigkeit.
Kapitel 6 Differenzierbarkeit. Kapitel 6: Differenzierbarkeit © Beutelspacher Juni 2005 Seite 2 Inhalt 6.1 Die Definition 6.2 Die Eigenschaften 6.3 Extremwerte.
Beispiele für Ausdrucksalgebren
Hauptseminar Automaten und Formale Sprachen
DIE UHR Write the complete sentence telling time.
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Formale Sprachen Grundbegriffe für formale Sprachen
Externe Bewertung in IB-Biologie
Passwörter.
1. Mengenlehre Grundbegriffe.
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
§10 Vektorraum. Definition und Beispiele
Folie 1 § 28 Multilineare und Alternierende Abbildungen (28.1) Definition: V und W seien wieder ein K-Vektorräume. Eine Abbildung von V nach W stets linear.
WIE SPÄT IST ES?.
Heute ist Dienstag, der 28. August 2007.
Wahrscheinlichkeitsrechnung
German Year 4 Units Numbers/Zahlen 1 – 12 How old are you? Wie alt bist du? On these pages you find the vocabulary from units 5 to 6. Try to practice.
Dieser nicht Fehler finden Algorithmus enthält einfach einen gravierenden welcher zu ist.
Beispiele: KFG 2.Teil Beispiel 1: Sei G eine Grammatik mit den folgenden Regeln: S  Ac | Bd A  aAb | ab B  aBbb | abb Definieren Sie.
PHP: Operatoren und Kontrollstrukturen
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 3: Potenzreihen und kontextfreie Sprachen (Vgl. Buch von A. Salomaa)
Wie spät ist es?.
Test 1B 1) Schreibt die Nummern: i)elf ii)sechs iii)achtzehn 2) Schreibt die Wörter: i)20 ii)13 iii)7 3) Ordnet die.
Magst du Mathe? 15+ = 1B Rechnen Reisepass.
Wie spät ist es? Wie viel Uhr ist es?
Es ist fünf vor zwölf Wie spät ist es?
WIE VIEL UHR IST ES?.
Lesen! Open to page 31. Read about Christina, Johannes, Sonja, Sandra, und Tim and respond the 3 questions under section A. (Hint use page 30 for help)
Mensch – Maschine - Kommunikation
Wie spät ist es?.
Institut für Softwarewissenschaft – Universität WienP.Brezany 1 Beispiele (Frist: ) Beispiel 1: Sei  = {a, b} ein Alphabet und Q = {q 0, q 1 } eine.
Stochastik Grundlagen
7. Formale Sprachen und Grammatiken
Institut für Softwarewissenschaft – Universität WienP.Brezany 1 Beispiele: KFG und Automaten Beispiel 1: Sei G eine Grammatik mit den folgenden Regeln:
Lexikalische Semantik
Information - syntaktisch
Die Uhr lernen mit dem kleinen Gespenst
Deutsch 1 G Stunde. Donnerstag, der 13. September 2012 Deutsch 1 (G Stunde)Heute ist ein G - Tag  Unit: Introduction to German & Germany  Objectives:
Numbers 1 and Time LO: Count to 12 and tell the time SC I can count to 12 in German I can count back and forwards to 12 with.
GRAMMATIK WIEDERHOLUNG. Personal pronouns Singular 1. ich I 2. du you informal 3. er, sie, es he, she, it Plural 1. wir we 2. ihr you informal 3. sie,
Große Nummern! (big #’s!).
More Smalltalk! Wo wohnst du? Ich wohne in... Woher kommst du? Ich komme aus.... Where do you live? I live in... Where do you come from? I come from....
D I E U H R Z E I T.
Arbeiten mit WordSmith 4. Inhalt 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus) 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus)
© Regine Eckardt blabla Thomas Ede Zimmermann (Frankfurt, SS 2001) Kontentextabhängigkeit.
Deutsch I Telling time….
Die Zahlen

sein (to be) ich du er sie es bin wir ihr Sie, sie sind bist seid ist
Wie spät ist es?
 Präsentation transkript:

Sprachprodukttechnologie SS 2001G. Heyer 1 Sprachstatistik  Grundlegende Definitionen  Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von Zeichen, A={l 1,l 2,..., l k }. Wir nennen A ein Alphabet von NL der Größe k. Bsp. A E = {a, b,..., z} k E = 26  Zeichenkette Seien l 1,l 2,..., l n Buchstaben aus A. Das Tupel t mit t={ l 1,l 2,..., l n } wird Zeichenkette genannt und n ist die Länge von t.

Sprachprodukttechnologie SS 2001G. Heyer 2  Menge von Zeichenketten Sei A n das kartesische Produkt des Alphabets A. A n wird Menge von Zeichenketten der Länge n genannt. Bsp. A 3 = { (a,a,a), (a,a,b),... (a,a,z), (b,a,a), (b,a,b),... (b,a,z),... (z,z,z)}  Lexikon einer Sprache Sei NL eine natürliche Sprache und L eine Teilmenge von A + (A + = U n>o A n ). Wir nennen L  A + ein Lexikon von NL. Grundlegende Definitionen

Sprachprodukttechnologie SS 2001G. Heyer 3  Wortform, Menge von Wortformen der Länge n Jedes Element W des Lexikons L wird Wortform genannt. W n ist die Schnittmenge von A n mit L und wird Menge von Wortformen der Länge n genannt.  Wortkombinationen der Länge r Sei L ein Tupel von Wortformen, L=(W 1, W 2,... W r ) mit W i  L. Wir nennen L eine Wortkombination der Länge r.  Menge von Wortkombinationen Sei L r das kartesische Produkt von L. L + wird Menge von Wortkombinationen der Länge r genannt. (L + = U n>o L r ) Grundlegende Definitionen

Sprachprodukttechnologie SS 2001G. Heyer 4  Menge von Sätzen SYN sei eine Menge von syntaktischen Restriktionen. Die Menge S, mit S  L +, die SYN folgen, wird Menge von Sätzen genannt. Grundlegende Definitionen

Sprachprodukttechnologie SS 2001G. Heyer 5  Anzahl der Wörter  Rang x Häufigkeit = konstant  Die Länge eines Wortes ist umgekehrt proportional zu seiner Häufigkeit. Zipfsche Gesetze WortHäufigkeitRangf * r he but be friends family

Sprachprodukttechnologie SS 2001G. Heyer 6  Rangliste deutscher Wörter (Deutscher Wortschatz ) 1: der 6: von 2: die 7: zu 3: und 8: das 4: in 9: mit 5: den 10: sich Zipfsche Gesetze

Sprachprodukttechnologie SS 2001G. Heyer 7  Rangliste deutscher Wörter (Deutscher Wortschatz ) der, die, und, in, den, von, zu, das, mit, sich, des, auf, für, ist, im, dem, nicht, ein, Die, eine, als, auch, es, an, werden, aus, er, hat, daß, sie, nach, wird, bei, einer, Der, um, am, sind, noch, wie, einem, über, einen, Das, so, Sie, zum, war, haben, nur, oder, aber, vor, zur, bis, mehr, durch, man, sein, wurde, sei, In, Prozent, hatte, kann, gegen, vom, können, schon, wenn, habe, seine, Mark, ihre, dann, unter, wir, soll, ich, eines, Es, Jahr, zwei, Jahren, diese, dieser, wieder, keine, Uhr, seiner, worden, Und, will, zwischen, Im, immer, Millionen, Ein, was, sagte Zipfsche Gesetze

Sprachprodukttechnologie SS 2001G. Heyer 8  Rangliste deutscher Wörter (Fachwortschatz SAP ) die, Sie, der, und, in, werden, den, für, das, im, können, wird, zu, eine, auf, des, %N%, Die, ist, mit, ein, von, dem, the, oder, nicht, an, einer, aus, sind, In, einen, zur, als, über, System, kann, bei, einem, Wenn, Das, auch, nur, diesem, sich, eines, müssen, Daten, Der, daß, zum, to, haben, diese, alle, B, durch, z, R, wenn, nach, es, Feld, dann, of, wählen, Funktion, bzw, um, dieser, Wählen, Im, a, wie, is, Informationen, Diese, Bei, for, muß, and, vom, so, Für, Mit, unter, sein, keine, ob, soll, definieren, Es, verwendet, automatisch, Tabelle, Geben, wurde, finden, you, beim Zipfsche Gesetze

Sprachprodukttechnologie SS 2001G. Heyer 9  Anwendung: Abschätzung niederfrequenter Terme r n sei der letzte Rang derjenigen Worte, die genau n Mal vorkommen, I n die Anzahl der Terme, die genau n Mal vorkommen und t der Term mit dem höchsten Rang. Zipfsche Gesetze

Sprachprodukttechnologie SS 2001G. Heyer 10  Anwendung: Abschätzung niederfrequenter Terme Zipfsche Gesetze

Sprachprodukttechnologie SS 2001G. Heyer 11  Anwendung: Wachstum des Lexikons mit typischen Werten für k=10 und  = 0,5 Zipfsche Gesetze

Sprachprodukttechnologie SS 2001G. Heyer 12  Anwendung: Charakteristische Begriffe (einer Domäne) Vergleiche die Häufigkeiten von Termen einer Domäne mit den Häufigkeiten im allgemeinen Wortschatz. Diejenigen Terme, die im Fachwortschatz relativ zum allgemeinen Wortschatz (nach einem festgelegten Schlüssel) wesentlich häufiger vorkommen, sind wahrscheinlich charakteristisch für die Domäne. Zipfsche Gesetze

Sprachprodukttechnologie SS 2001G. Heyer 13  Rangliste deutscher Wörter (Differenzliste signifikanter Fachwortschatzterme SAP/Deutscher Wortschatz ; Mindesthäufigkeitsklasse 8, Faktor 16) etc (314), TCP (164), INDX (28), dsn (25), Nachfolgeposition (24), SHIFT (24), TRANSLATE (24), entreprise (24), Abrechnungskostenart (23), Alternativmengeneinheit (23), Anordnungsbeziehung (23), Anwendungssicht (23), Bandstation (23), Banf-Position (23), Berichtsspalte (23), Berichtszeile (23), CO-PC (23), DBSTATC (23), DSplit (23), Datumsart (23), ELSE (23), ENDDO (23), Entries (23), Freigabecodes (23), Hauptkondition (23), Leiterplanstelle (23), Merkmalswertekombination (23), Nachfolgematerial (23), Nettoberechnung (23), Zipfsche Gesetze

Sprachprodukttechnologie SS 2001G. Heyer 14  Anzahl der Bedeutungen Die Anzahl der Bedeutungen eines Wortes korreliert mit seiner Häufigkeit. Zipfsche Gesetze

Sprachprodukttechnologie SS 2001G. Heyer 15  Signifikante Terme clustern Tritt ein niederfrequenter Term häufiger auf, tritt er meist gehäuft auf. Zipfsche Gesetze

Sprachprodukttechnologie SS 2001G. Heyer 16  Die flektierten Formen eines Wortes sind nicht gleich häufig magst: 17 (Anzahl: 67) spricht: 8 (Anzahl: 27143) möchte: 8 (Anzahl: 29788) spräche: 15 (Anzahl: 219) Weitere statistische Auffälligkeiten

Sprachprodukttechnologie SS 2001G. Heyer 17  Einzelne Wortformen treten unterschiedlich oft mit anderen Wortformen auf Signifikante linke Nachbarn von As: Coeur (142), Treff (114), Karo (87), Treasure (44), Teatime (36), Known (29), Herz (20), Beating (18), Bad (14), Doreen (13), einziges (13), Assenheims (11), Good (11), Grannus (11), Thick (11), van (11), Fragile (10), Light (7), Trumpf (7), Shakespeares (6), E (5), Komödie (5), Zeitung (5), achten (5), letztes (5), kein (4), schlug (4), per (3) Signifikante linke Nachbarn von Asse: deutschen (33), Salzbergwerk (15), Versuchsendlager (13), Vier (10), Zwei (10), elf (9), Neun (6), neun (6), sechs (6), roten (5), sieben (5), tausend (5), vieler (5), vier (5), beiden (4), ehemalige (4), viele (4), wenige (4), Alle (3), acht (3), paar (3), welche (3), zwölf (3) Weitere statistische Auffälligkeiten