Präsentation herunterladen
Veröffentlicht von:Ottila Rahn Geändert vor über 9 Jahren
1
Romanisierung: Chinesische Schriftzeichen -> Pinyin
Vortragende: Jue Wang, Wenchao Li
2
Überblick Chinesische Schriftzeichen Pinyin
Schwierigkeiten und Lösungen Test Programme
3
Chinesische Schriftzeichen
Anzahl:
4
Verwendungsumfang Chinesische Zeichen werden außerdem in der japanischen Schrift als Kanji, der koreanischen Schrift als Hanja und in der vietnamesischen Schrift als chữ Hán verwendet.
5
Kodierung von chinesischer Schriftzeichen
CNS11643: 76,067 BIG-5: 13,053 GBK: 20,912 Unicode CJK: 20,902 Unicode CJK + ExtA + ExtB : >70,000
6
Pinyin Pinyin (chin. 拼音, Pīnyīn): die offizielle chinesische Romanisierung des Hochchinesischen in der Volksrepublik China. Eigentlich heißt es Hànyǔ Pīnyīn Wénzì (chin. 汉语拼音文字/漢語拼音文字 „Zeichen zur Fixierung der Laute im Chinesischen“). Eine Lautumschrift für chinesische Zeichen Aussprache: Anaute, Auslaute Bezeichnung der Töne: Tone
7
Schwierigkeiten Chinesisch - das klingt ja alles gleich
Jedes chinesische Schriftzeichen steht für ein Wort. llerdings gibt es nur 415 Silben. Diese werden in ihrer Aussprache durch 4 verschiedene Töne unterschieden.
8
1. Lösung: 2_gram 2_gram Mathing Method: Zeitaufwand für Länge Aufsatz
9
2. Lösung : Tokenisieren The Maximum Matching Method
The Opposite Directional Maximum Matching Method The Optimum Matching Method 中国/经济/发展/很/快。 Chinesische/ Wirtschaft/ entwickelt/ sehr/ schnell.
10
Tokenisieren:Personennamen
Nachname: Personennamen List der Nachnamen
11
Program Einzelnes Zeichen --- Alle Möglichkeiten ausliefern: 啊
Phrase: entsprechende Möglichkeit von Ergebnis des Tokenisieren 评论/语言 ping2lun4/yu3yan2 评/论语/言 ping2/lun2yu3/yan2
12
Program laufen
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.