Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Romanisierung: Chinesische Schriftzeichen -> Pinyin Vortragende: Jue Wang, Wenchao Li.

Ähnliche Präsentationen


Präsentation zum Thema: "Romanisierung: Chinesische Schriftzeichen -> Pinyin Vortragende: Jue Wang, Wenchao Li."—  Präsentation transkript:

1 Romanisierung: Chinesische Schriftzeichen -> Pinyin Vortragende: Jue Wang, Wenchao Li

2 Überblick Chinesische Schriftzeichen Pinyin Schwierigkeiten und Lösungen Test Programme

3 Chinesische Schriftzeichen Anzahl:

4 Verwendungsumfang Chinesische Zeichen werden außerdem in der japanischen Schrift als Kanji, der koreanischen Schrift als Hanja und in der vietnamesischen Schrift als chữ Hán verwendet.japanischen SchriftKanji koreanischen SchriftHanja vietnamesischen Schriftchữ Hán

5 Kodierung Anzahl der Zeichen unter verschiednen Kodierungen –CNS11643: 76,067 –BIG-5: 13,053 –GBK: 20,912 –Unicode CJK: 20,902 –Unicode CJK + ExtA + ExtB : >70,000

6 Pinyin Pinyin (chin. 拼音, Pīnyīn): die offizielle chinesische Romanisierung des Hochchinesischen in der Volksrepublik China. –Eigentlich heißt es Hànyǔ Pīnyīn Wénzì (chin. 汉语 拼音文字 / 漢語拼音文字 „Zeichen zur Fixierung der Laute im Chinesischen“). –Eine Lautumschrift für chinesische Zeichen –http://de.wikipedia.org/wiki/Pinyinhttp://de.wikipedia.org/wiki/Pinyin –Aussprache: Anaute, Auslaute

7 Töne Chinesisch - das klingt ja alles gleich Nur 415 Silben. Diese werden in ihrer Aussprache durch 4 verschiedene Töne unterschieden.Töne Bezeichnung der Töne: Tone

8 Schwierigkeiten und Lösungen Ambiguität: Mehrere Aussprache – 会: 会和 (Hui4-He2, zusammen treffen) 会计 (Kuai4-Ji4, Bilanzbuchhalter) –Familienamen, Ortnamen, usw. 华 (Hua2) – 华罗庚 (Hua4-Luo2geng1, ein Mathematiker) 燕 (Yan4) – 燕京 (Yan1-Jing, alter Name von Beijing) –Wörter Matching, Namenerkennung Keine Leerzeichen zwischen Wörter –N_Gramm Matching, Tokenisieren

9 Lösungen: N_gram N_gram Matching Method: Zeitaufwand für Länge Aufsatz

10 Lösungen : Tokenisieren The Maximum Matching Method The Opposite Directional Maximum Matching Method The Optimum Matching Method 中国 / 经济 / 发展 / 很 / 快。 Chinesische/ Wirtschaft/ entwickelt/ sehr/ schnell.

11 Tokenisieren:Personennamen Familiennamen+Anrede List der Familienamen –Zeichen nur als Familienamen verwendet –Extra 1 oder 2 Bedeutungen –Allgemeine Zeichen

12 Program Einzelnes Zeichen --- Alle Möglichkeiten ausliefern: 啊 Phrase: entsprechende Möglichkeit von Ergebnis des Tokenisieren 评论 / 语言  ping2lun4/yu3yan2 评 / 论语 / 言  ping2/lun2yu3/yan2

13 Program laufen

14 Danke!


Herunterladen ppt "Romanisierung: Chinesische Schriftzeichen -> Pinyin Vortragende: Jue Wang, Wenchao Li."

Ähnliche Präsentationen


Google-Anzeigen