Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Romanisierung: Chinesische Schriftzeichen -> Pinyin

Ähnliche Präsentationen


Präsentation zum Thema: "Romanisierung: Chinesische Schriftzeichen -> Pinyin"—  Präsentation transkript:

1 Romanisierung: Chinesische Schriftzeichen -> Pinyin
Vortragende: Jue Wang, Wenchao Li

2 Überblick Chinesische Schriftzeichen Pinyin
Schwierigkeiten und Lösungen Test Programme

3 Chinesische Schriftzeichen
Anzahl:

4 Verwendungsumfang Chinesische Zeichen werden außerdem in der japanischen Schrift als Kanji, der koreanischen Schrift als Hanja und in der vietnamesischen Schrift als chữ Hán verwendet.

5 Kodierung von chinesischer Schriftzeichen
CNS11643: 76,067 BIG-5: 13,053 GBK: 20,912 Unicode CJK: 20,902 Unicode CJK + ExtA + ExtB : >70,000

6 Pinyin Pinyin (chin. 拼音, Pīnyīn): die offizielle chinesische Romanisierung des Hochchinesischen in der Volksrepublik China. Eigentlich heißt es Hànyǔ Pīnyīn Wénzì (chin. 汉语拼音文字/漢語拼音文字 „Zeichen zur Fixierung der Laute im Chinesischen“). Eine Lautumschrift für chinesische Zeichen Aussprache: Anaute, Auslaute Bezeichnung der Töne: Tone

7 Schwierigkeiten Chinesisch - das klingt ja alles gleich
Jedes chinesische Schriftzeichen steht für ein Wort. llerdings gibt es nur 415 Silben. Diese werden in ihrer Aussprache durch 4 verschiedene Töne unterschieden.

8 1. Lösung: 2_gram 2_gram Mathing Method: Zeitaufwand für Länge Aufsatz

9 2. Lösung : Tokenisieren The Maximum Matching Method
The Opposite Directional Maximum Matching Method The Optimum Matching Method 中国/经济/发展/很/快。 Chinesische/ Wirtschaft/ entwickelt/ sehr/ schnell.

10 Tokenisieren:Personennamen
Nachname: Personennamen List der Nachnamen

11 Program Einzelnes Zeichen --- Alle Möglichkeiten ausliefern: 啊
Phrase: entsprechende Möglichkeit von Ergebnis des Tokenisieren 评论/语言  ping2lun4/yu3yan2 评/论语/言  ping2/lun2yu3/yan2

12 Program laufen


Herunterladen ppt "Romanisierung: Chinesische Schriftzeichen -> Pinyin"

Ähnliche Präsentationen


Google-Anzeigen