Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Rosamund Kessel Geändert vor über 9 Jahren
1
Romanisierung: Chinesische Schriftzeichen -> Pinyin Vortragende: Jue Wang, Wenchao Li
2
Überblick Chinesische Schriftzeichen Pinyin Schwierigkeiten und Lösungen Test Programme
3
Chinesische Schriftzeichen Anzahl:
4
Verwendungsumfang Chinesische Zeichen werden außerdem in der japanischen Schrift als Kanji, der koreanischen Schrift als Hanja und in der vietnamesischen Schrift als chữ Hán verwendet.japanischen SchriftKanji koreanischen SchriftHanja vietnamesischen Schriftchữ Hán
5
Kodierung Anzahl der Zeichen unter verschiednen Kodierungen –CNS11643: 76,067 –BIG-5: 13,053 –GBK: 20,912 –Unicode CJK: 20,902 –Unicode CJK + ExtA + ExtB : >70,000
6
Pinyin Pinyin (chin. 拼音, Pīnyīn): die offizielle chinesische Romanisierung des Hochchinesischen in der Volksrepublik China. –Eigentlich heißt es Hànyǔ Pīnyīn Wénzì (chin. 汉语 拼音文字 / 漢語拼音文字 „Zeichen zur Fixierung der Laute im Chinesischen“). –Eine Lautumschrift für chinesische Zeichen –http://de.wikipedia.org/wiki/Pinyinhttp://de.wikipedia.org/wiki/Pinyin –Aussprache: Anaute, Auslaute
7
Töne Chinesisch - das klingt ja alles gleich Nur 415 Silben. Diese werden in ihrer Aussprache durch 4 verschiedene Töne unterschieden.Töne Bezeichnung der Töne: Tone
8
Schwierigkeiten und Lösungen Ambiguität: Mehrere Aussprache – 会: 会和 (Hui4-He2, zusammen treffen) 会计 (Kuai4-Ji4, Bilanzbuchhalter) –Familienamen, Ortnamen, usw. 华 (Hua2) – 华罗庚 (Hua4-Luo2geng1, ein Mathematiker) 燕 (Yan4) – 燕京 (Yan1-Jing, alter Name von Beijing) –Wörter Matching, Namenerkennung Keine Leerzeichen zwischen Wörter –N_Gramm Matching, Tokenisieren
9
Lösungen: N_gram N_gram Matching Method: Zeitaufwand für Länge Aufsatz
10
Lösungen : Tokenisieren The Maximum Matching Method The Opposite Directional Maximum Matching Method The Optimum Matching Method 中国 / 经济 / 发展 / 很 / 快。 Chinesische/ Wirtschaft/ entwickelt/ sehr/ schnell.
11
Tokenisieren:Personennamen Familiennamen+Anrede List der Familienamen –Zeichen nur als Familienamen verwendet –Extra 1 oder 2 Bedeutungen –Allgemeine Zeichen
12
Program Einzelnes Zeichen --- Alle Möglichkeiten ausliefern: 啊 Phrase: entsprechende Möglichkeit von Ergebnis des Tokenisieren 评论 / 语言 ping2lun4/yu3yan2 评 / 论语 / 言 ping2/lun2yu3/yan2
13
Program laufen
14
Danke!
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.