Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Sprachprodukttechnologie SS 2001G. Heyer 1 Sprachstatistik  Grundlegende Definitionen  Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von.

Ähnliche Präsentationen


Präsentation zum Thema: "Sprachprodukttechnologie SS 2001G. Heyer 1 Sprachstatistik  Grundlegende Definitionen  Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von."—  Präsentation transkript:

1 Sprachprodukttechnologie SS 2001G. Heyer 1 Sprachstatistik  Grundlegende Definitionen  Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von Zeichen, A={l 1,l 2,..., l k }. Wir nennen A ein Alphabet von NL der Größe k. Bsp. A E = {a, b,..., z} k E = 26  Zeichenkette Seien l 1,l 2,..., l n Buchstaben aus A. Das Tupel t mit t={ l 1,l 2,..., l n } wird Zeichenkette genannt und n ist die Länge von t.

2 Sprachprodukttechnologie SS 2001G. Heyer 2  Menge von Zeichenketten Sei A n das kartesische Produkt des Alphabets A. A n wird Menge von Zeichenketten der Länge n genannt. Bsp. A 3 = { (a,a,a), (a,a,b),... (a,a,z), (b,a,a), (b,a,b),... (b,a,z),... (z,z,z)}  Lexikon einer Sprache Sei NL eine natürliche Sprache und L eine Teilmenge von A + (A + = U n>o A n ). Wir nennen L  A + ein Lexikon von NL. Grundlegende Definitionen

3 Sprachprodukttechnologie SS 2001G. Heyer 3  Wortform, Menge von Wortformen der Länge n Jedes Element W des Lexikons L wird Wortform genannt. W n ist die Schnittmenge von A n mit L und wird Menge von Wortformen der Länge n genannt.  Wortkombinationen der Länge r Sei L ein Tupel von Wortformen, L=(W 1, W 2,... W r ) mit W i  L. Wir nennen L eine Wortkombination der Länge r.  Menge von Wortkombinationen Sei L r das kartesische Produkt von L. L + wird Menge von Wortkombinationen der Länge r genannt. (L + = U n>o L r ) Grundlegende Definitionen

4 Sprachprodukttechnologie SS 2001G. Heyer 4  Menge von Sätzen SYN sei eine Menge von syntaktischen Restriktionen. Die Menge S, mit S  L +, die SYN folgen, wird Menge von Sätzen genannt. Grundlegende Definitionen

5 Sprachprodukttechnologie SS 2001G. Heyer 5  Anzahl der Wörter  Rang x Häufigkeit = konstant  Die Länge eines Wortes ist umgekehrt proportional zu seiner Häufigkeit. Zipfsche Gesetze WortHäufigkeitRangf * r he but be friends family

6 Sprachprodukttechnologie SS 2001G. Heyer 6  Rangliste deutscher Wörter (Deutscher Wortschatz ) 1: der 6: von 2: die 7: zu 3: und 8: das 4: in 9: mit 5: den 10: sich Zipfsche Gesetze

7 Sprachprodukttechnologie SS 2001G. Heyer 7  Rangliste deutscher Wörter (Deutscher Wortschatz ) der, die, und, in, den, von, zu, das, mit, sich, des, auf, für, ist, im, dem, nicht, ein, Die, eine, als, auch, es, an, werden, aus, er, hat, daß, sie, nach, wird, bei, einer, Der, um, am, sind, noch, wie, einem, über, einen, Das, so, Sie, zum, war, haben, nur, oder, aber, vor, zur, bis, mehr, durch, man, sein, wurde, sei, In, Prozent, hatte, kann, gegen, vom, können, schon, wenn, habe, seine, Mark, ihre, dann, unter, wir, soll, ich, eines, Es, Jahr, zwei, Jahren, diese, dieser, wieder, keine, Uhr, seiner, worden, Und, will, zwischen, Im, immer, Millionen, Ein, was, sagte Zipfsche Gesetze

8 Sprachprodukttechnologie SS 2001G. Heyer 8  Rangliste deutscher Wörter (Fachwortschatz SAP ) die, Sie, der, und, in, werden, den, für, das, im, können, wird, zu, eine, auf, des, %N%, Die, ist, mit, ein, von, dem, the, oder, nicht, an, einer, aus, sind, In, einen, zur, als, über, System, kann, bei, einem, Wenn, Das, auch, nur, diesem, sich, eines, müssen, Daten, Der, daß, zum, to, haben, diese, alle, B, durch, z, R, wenn, nach, es, Feld, dann, of, wählen, Funktion, bzw, um, dieser, Wählen, Im, a, wie, is, Informationen, Diese, Bei, for, muß, and, vom, so, Für, Mit, unter, sein, keine, ob, soll, definieren, Es, verwendet, automatisch, Tabelle, Geben, wurde, finden, you, beim Zipfsche Gesetze

9 Sprachprodukttechnologie SS 2001G. Heyer 9  Anwendung: Abschätzung niederfrequenter Terme r n sei der letzte Rang derjenigen Worte, die genau n Mal vorkommen, I n die Anzahl der Terme, die genau n Mal vorkommen und t der Term mit dem höchsten Rang. Zipfsche Gesetze

10 Sprachprodukttechnologie SS 2001G. Heyer 10  Anwendung: Abschätzung niederfrequenter Terme Zipfsche Gesetze

11 Sprachprodukttechnologie SS 2001G. Heyer 11  Anwendung: Wachstum des Lexikons mit typischen Werten für k=10 und  = 0,5 Zipfsche Gesetze

12 Sprachprodukttechnologie SS 2001G. Heyer 12  Anwendung: Charakteristische Begriffe (einer Domäne) Vergleiche die Häufigkeiten von Termen einer Domäne mit den Häufigkeiten im allgemeinen Wortschatz. Diejenigen Terme, die im Fachwortschatz relativ zum allgemeinen Wortschatz (nach einem festgelegten Schlüssel) wesentlich häufiger vorkommen, sind wahrscheinlich charakteristisch für die Domäne. Zipfsche Gesetze

13 Sprachprodukttechnologie SS 2001G. Heyer 13  Rangliste deutscher Wörter (Differenzliste signifikanter Fachwortschatzterme SAP/Deutscher Wortschatz ; Mindesthäufigkeitsklasse 8, Faktor 16) etc (314), TCP (164), INDX (28), dsn (25), Nachfolgeposition (24), SHIFT (24), TRANSLATE (24), entreprise (24), Abrechnungskostenart (23), Alternativmengeneinheit (23), Anordnungsbeziehung (23), Anwendungssicht (23), Bandstation (23), Banf-Position (23), Berichtsspalte (23), Berichtszeile (23), CO-PC (23), DBSTATC (23), DSplit (23), Datumsart (23), ELSE (23), ENDDO (23), Entries (23), Freigabecodes (23), Hauptkondition (23), Leiterplanstelle (23), Merkmalswertekombination (23), Nachfolgematerial (23), Nettoberechnung (23), Zipfsche Gesetze

14 Sprachprodukttechnologie SS 2001G. Heyer 14  Anzahl der Bedeutungen Die Anzahl der Bedeutungen eines Wortes korreliert mit seiner Häufigkeit. Zipfsche Gesetze

15 Sprachprodukttechnologie SS 2001G. Heyer 15  Signifikante Terme clustern Tritt ein niederfrequenter Term häufiger auf, tritt er meist gehäuft auf. Zipfsche Gesetze

16 Sprachprodukttechnologie SS 2001G. Heyer 16  Die flektierten Formen eines Wortes sind nicht gleich häufig magst: 17 (Anzahl: 67) spricht: 8 (Anzahl: 27143) möchte: 8 (Anzahl: 29788) spräche: 15 (Anzahl: 219) Weitere statistische Auffälligkeiten

17 Sprachprodukttechnologie SS 2001G. Heyer 17  Einzelne Wortformen treten unterschiedlich oft mit anderen Wortformen auf Signifikante linke Nachbarn von As: Coeur (142), Treff (114), Karo (87), Treasure (44), Teatime (36), Known (29), Herz (20), Beating (18), Bad (14), Doreen (13), einziges (13), Assenheims (11), Good (11), Grannus (11), Thick (11), van (11), Fragile (10), Light (7), Trumpf (7), Shakespeares (6), E (5), Komödie (5), Zeitung (5), achten (5), letztes (5), kein (4), schlug (4), per (3) Signifikante linke Nachbarn von Asse: deutschen (33), Salzbergwerk (15), Versuchsendlager (13), Vier (10), Zwei (10), elf (9), Neun (6), neun (6), sechs (6), roten (5), sieben (5), tausend (5), vieler (5), vier (5), beiden (4), ehemalige (4), viele (4), wenige (4), Alle (3), acht (3), paar (3), welche (3), zwölf (3) Weitere statistische Auffälligkeiten


Herunterladen ppt "Sprachprodukttechnologie SS 2001G. Heyer 1 Sprachstatistik  Grundlegende Definitionen  Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von."

Ähnliche Präsentationen


Google-Anzeigen