Sprachprodukttechnologie SS 2001G. Heyer 1 Sprachstatistik Grundlegende Definitionen Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von Zeichen, A={l 1,l 2,..., l k }. Wir nennen A ein Alphabet von NL der Größe k. Bsp. A E = {a, b,..., z} k E = 26 Zeichenkette Seien l 1,l 2,..., l n Buchstaben aus A. Das Tupel t mit t={ l 1,l 2,..., l n } wird Zeichenkette genannt und n ist die Länge von t.
Sprachprodukttechnologie SS 2001G. Heyer 2 Menge von Zeichenketten Sei A n das kartesische Produkt des Alphabets A. A n wird Menge von Zeichenketten der Länge n genannt. Bsp. A 3 = { (a,a,a), (a,a,b),... (a,a,z), (b,a,a), (b,a,b),... (b,a,z),... (z,z,z)} Lexikon einer Sprache Sei NL eine natürliche Sprache und L eine Teilmenge von A + (A + = U n>o A n ). Wir nennen L A + ein Lexikon von NL. Grundlegende Definitionen
Sprachprodukttechnologie SS 2001G. Heyer 3 Wortform, Menge von Wortformen der Länge n Jedes Element W des Lexikons L wird Wortform genannt. W n ist die Schnittmenge von A n mit L und wird Menge von Wortformen der Länge n genannt. Wortkombinationen der Länge r Sei L ein Tupel von Wortformen, L=(W 1, W 2,... W r ) mit W i L. Wir nennen L eine Wortkombination der Länge r. Menge von Wortkombinationen Sei L r das kartesische Produkt von L. L + wird Menge von Wortkombinationen der Länge r genannt. (L + = U n>o L r ) Grundlegende Definitionen
Sprachprodukttechnologie SS 2001G. Heyer 4 Menge von Sätzen SYN sei eine Menge von syntaktischen Restriktionen. Die Menge S, mit S L +, die SYN folgen, wird Menge von Sätzen genannt. Grundlegende Definitionen
Sprachprodukttechnologie SS 2001G. Heyer 5 Anzahl der Wörter Rang x Häufigkeit = konstant Die Länge eines Wortes ist umgekehrt proportional zu seiner Häufigkeit. Zipfsche Gesetze WortHäufigkeitRangf * r he but be friends family
Sprachprodukttechnologie SS 2001G. Heyer 6 Rangliste deutscher Wörter (Deutscher Wortschatz ) 1: der 6: von 2: die 7: zu 3: und 8: das 4: in 9: mit 5: den 10: sich Zipfsche Gesetze
Sprachprodukttechnologie SS 2001G. Heyer 7 Rangliste deutscher Wörter (Deutscher Wortschatz ) der, die, und, in, den, von, zu, das, mit, sich, des, auf, für, ist, im, dem, nicht, ein, Die, eine, als, auch, es, an, werden, aus, er, hat, daß, sie, nach, wird, bei, einer, Der, um, am, sind, noch, wie, einem, über, einen, Das, so, Sie, zum, war, haben, nur, oder, aber, vor, zur, bis, mehr, durch, man, sein, wurde, sei, In, Prozent, hatte, kann, gegen, vom, können, schon, wenn, habe, seine, Mark, ihre, dann, unter, wir, soll, ich, eines, Es, Jahr, zwei, Jahren, diese, dieser, wieder, keine, Uhr, seiner, worden, Und, will, zwischen, Im, immer, Millionen, Ein, was, sagte Zipfsche Gesetze
Sprachprodukttechnologie SS 2001G. Heyer 8 Rangliste deutscher Wörter (Fachwortschatz SAP ) die, Sie, der, und, in, werden, den, für, das, im, können, wird, zu, eine, auf, des, %N%, Die, ist, mit, ein, von, dem, the, oder, nicht, an, einer, aus, sind, In, einen, zur, als, über, System, kann, bei, einem, Wenn, Das, auch, nur, diesem, sich, eines, müssen, Daten, Der, daß, zum, to, haben, diese, alle, B, durch, z, R, wenn, nach, es, Feld, dann, of, wählen, Funktion, bzw, um, dieser, Wählen, Im, a, wie, is, Informationen, Diese, Bei, for, muß, and, vom, so, Für, Mit, unter, sein, keine, ob, soll, definieren, Es, verwendet, automatisch, Tabelle, Geben, wurde, finden, you, beim Zipfsche Gesetze
Sprachprodukttechnologie SS 2001G. Heyer 9 Anwendung: Abschätzung niederfrequenter Terme r n sei der letzte Rang derjenigen Worte, die genau n Mal vorkommen, I n die Anzahl der Terme, die genau n Mal vorkommen und t der Term mit dem höchsten Rang. Zipfsche Gesetze
Sprachprodukttechnologie SS 2001G. Heyer 10 Anwendung: Abschätzung niederfrequenter Terme Zipfsche Gesetze
Sprachprodukttechnologie SS 2001G. Heyer 11 Anwendung: Wachstum des Lexikons mit typischen Werten für k=10 und = 0,5 Zipfsche Gesetze
Sprachprodukttechnologie SS 2001G. Heyer 12 Anwendung: Charakteristische Begriffe (einer Domäne) Vergleiche die Häufigkeiten von Termen einer Domäne mit den Häufigkeiten im allgemeinen Wortschatz. Diejenigen Terme, die im Fachwortschatz relativ zum allgemeinen Wortschatz (nach einem festgelegten Schlüssel) wesentlich häufiger vorkommen, sind wahrscheinlich charakteristisch für die Domäne. Zipfsche Gesetze
Sprachprodukttechnologie SS 2001G. Heyer 13 Rangliste deutscher Wörter (Differenzliste signifikanter Fachwortschatzterme SAP/Deutscher Wortschatz ; Mindesthäufigkeitsklasse 8, Faktor 16) etc (314), TCP (164), INDX (28), dsn (25), Nachfolgeposition (24), SHIFT (24), TRANSLATE (24), entreprise (24), Abrechnungskostenart (23), Alternativmengeneinheit (23), Anordnungsbeziehung (23), Anwendungssicht (23), Bandstation (23), Banf-Position (23), Berichtsspalte (23), Berichtszeile (23), CO-PC (23), DBSTATC (23), DSplit (23), Datumsart (23), ELSE (23), ENDDO (23), Entries (23), Freigabecodes (23), Hauptkondition (23), Leiterplanstelle (23), Merkmalswertekombination (23), Nachfolgematerial (23), Nettoberechnung (23), Zipfsche Gesetze
Sprachprodukttechnologie SS 2001G. Heyer 14 Anzahl der Bedeutungen Die Anzahl der Bedeutungen eines Wortes korreliert mit seiner Häufigkeit. Zipfsche Gesetze
Sprachprodukttechnologie SS 2001G. Heyer 15 Signifikante Terme clustern Tritt ein niederfrequenter Term häufiger auf, tritt er meist gehäuft auf. Zipfsche Gesetze
Sprachprodukttechnologie SS 2001G. Heyer 16 Die flektierten Formen eines Wortes sind nicht gleich häufig magst: 17 (Anzahl: 67) spricht: 8 (Anzahl: 27143) möchte: 8 (Anzahl: 29788) spräche: 15 (Anzahl: 219) Weitere statistische Auffälligkeiten
Sprachprodukttechnologie SS 2001G. Heyer 17 Einzelne Wortformen treten unterschiedlich oft mit anderen Wortformen auf Signifikante linke Nachbarn von As: Coeur (142), Treff (114), Karo (87), Treasure (44), Teatime (36), Known (29), Herz (20), Beating (18), Bad (14), Doreen (13), einziges (13), Assenheims (11), Good (11), Grannus (11), Thick (11), van (11), Fragile (10), Light (7), Trumpf (7), Shakespeares (6), E (5), Komödie (5), Zeitung (5), achten (5), letztes (5), kein (4), schlug (4), per (3) Signifikante linke Nachbarn von Asse: deutschen (33), Salzbergwerk (15), Versuchsendlager (13), Vier (10), Zwei (10), elf (9), Neun (6), neun (6), sechs (6), roten (5), sieben (5), tausend (5), vieler (5), vier (5), beiden (4), ehemalige (4), viele (4), wenige (4), Alle (3), acht (3), paar (3), welche (3), zwölf (3) Weitere statistische Auffälligkeiten