Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 Ludwig Maximilians Unversität Centrum für Informations- und Spracherarbeitung Computerlinguistik Computerlinguistische Grundlagen f ü r die Verarbeitung.

Ähnliche Präsentationen


Präsentation zum Thema: "1 Ludwig Maximilians Unversität Centrum für Informations- und Spracherarbeitung Computerlinguistik Computerlinguistische Grundlagen f ü r die Verarbeitung."—  Präsentation transkript:

1 1 Ludwig Maximilians Unversität Centrum für Informations- und Spracherarbeitung Computerlinguistik Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen Encoding Methode Dozent : Yeong Su Lee Referent : Myoung Ryun Kim

2 2 Begriff Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen Kodierung : Unter (Zeichen)Kodierung versteht man das Darstellen eines Zeichens, also eines Buchstabens, einer Ziffer oder eines Symbols, mittels eines im Aufbau einfacheren oder für die betreffende Anwendung geeigneteren Codes. Häufig geschieht dies mittels Zahlenkodierung, um Zeichen für Computer verarbeitungsfähig zu machen. BuchstabensZifferSymbols CodesComputer

3 3 Kategorien von Kodierung Methoden Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen Drei Kategorien von Kodierungsmethoden Modal Non-Modal Fixed-Length

4 4 Kategorien von Kodierung Methoden Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen Modal Kodierungsmethode : fodert Escape Sequence oder irgendein spezell Charakter, um eine Verbindung zwischen Chrakter Sets herzustellen. Modal Kodierungsmethode benutzt typisch sieben-bit Bytes. Die Beispiele von Modal Kodierungsmethode sind ISO-2022, UTF-7 usw.

5 5 Kategorien von Kodierung Methoden Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen Non-modal Kodierungsmethode : benutzen die numerischen Werte von Bytes um die Verbindung zwischen ein- und zwei-Byte Module herzustellen. Diese Kodierungsmethode benutzen acht-bit Bytes. Die Beispiele sind Big Five, Big Five Plus, EUC, GBK, Jobab, Shift-JIS, UTF-8,UTF-16 usw.

6 6 Kategorien von Kodierung Methoden Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen Fixed-length Kodierungsmothode : benutzen die gleiche Nummer von Bytes um zu repräsentieren alle Charakters in Charakter Sets. Diese Kodierungsmethode vereinfacht text-intensive Operationen, wie Searching, Indexing und Sorting von Text. Die Beispiele von Fixed-length Kodierungsmethde sind ASCII, UCS-2 und UCS-4.

7 7 Locale-Independent Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen ASCII / CJKV-Roman Kodierungen ASCII und CJKV-Roman (GB-Roman, CNS - Roman, JIS-Roman, KS-Roman und TCVN- Roman) werden unterschiedliches Charakter Set betrachtet, aber sie benutzen (oder teilen) die gleiche Encoding. Die ASCII / CJKV-Roman Encoding Methode spezifiziert dass, sieben-Bits benutzt wird und sie 128 einzigartige encoded Charakters erlaubt.

8 8 Locale-Independent Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen ASCII / CJKV-Roman Kodierungen 94 Charakters beinhalten das ASCII / CJKV- Roman Charakter Set und sie sind in Bildschirm sichtbar. Übrige 34 Charakters sind nicht sichtbar, d.h. sie sind entweder Kontrollcharakter oder Space. Nur Japanisch erlaubt die Mischung von ASCII und halbbreite Katakana Charakter Sets.

9 9 Locale-Independent Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen ASCII / CJKV-Roman Kodierungen Die erweiterte von ISO 8859 definierte ASCII Charakter Set Encoding verwendet Acht Bits. Mehr 256 mögliche Charakters sind benutzbar und sie werden als Grafik Charakter encodiert.

10 10 Locale-Independent Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen ISO-2022 Encoding Die äußerst grundlegende Codierungsmethode für CJKV Text Es ist modale Kodierung, d.h. Escape- Sequences oder andere speziellcharakters benutzt, um verschiedene Modus zu verbinden (Switching Modes).

11 11 Locale-Independent Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen ISO-2022 Encoding Es bezieht sich auf entweder zwischen Ein- und Zwei-Byte Modus oder unter Charakter Sets. Die ISO-2022 Encoding ist eine generische Referenz von ISO-2022-CN, ISO-2022-CN- EXT, ISO-2022-JP, ISO-2022-KR und ähnliche Encodings.

12 12 Locale-Independent Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen ISO-2022 Encoding ISO-2022 Codierung ist nicht ganz effizient für internen Speicher oder Processing in Computer Systeme. Es wird ursprünglich als ein Information Austausch Code für bewegenden Text zwischen Computer Systeme, wie E-mail.

13 13 Locale-Independent Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen EUC Encoding EUC (Extended Unix Code) Encoding ist eine 8-Bit-Zeichencodierung, die vor allem für Chinesisch, Japanisch und Koreanisch gebraucht wird. EUC ist eine Sammelbezeichnung für verschiedene Kodierungen, die je nach Land bis zu 4 unterschiedliche Zeichensätze kodieren können.

14 14 Locale-Independent Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen EUC Encoding Ursprünglich entwickelt von der Open Software Foundation (OSF), Unix International (UI) und den Unix System Laboratories Pacific (USLP) als Standardkodierung für UNIX-Systeme wenig verwendet ; da sie oft von weiter verbreiteten lokalen Kodierungen (Shift-JIS, Big5, etc.) und/oder Unicode abgelöst wurde.

15 15 Locale-Independent Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen EUC Encoding Alle EUC Kordierungen unterstützen bis zu 4 verschiedene Zeichensätze. Code Set 0 ist immer (7-Bit)-ASCII, Code Sets 1-3 sind je nach Unterart verschieden. 2 Spezialzeichen (Escape-Zeichen), die zum Umschalten auf Code Set 2 bzw. Code Set 3 verwendet werden: SS2 (0x9e) und SS3 (0x8f).

16 16 Locale-Independent Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen EUC Encoding Es gibt mehrere reservierte Codepositionen in EUC, die die nicht druckbaren Zeichen zu kodieren verwendet werden können. Diese Code-Positionen und -Bereiche bestehen aus das Space-Zeichen, das Delete- Zeichen und zwei unabhängige Bereiche von Control-Zeichen.

17 17 Locale-Independent Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen EUC Encoding EUC Reserved Code Range and Positions DecimalHexadecimal Ctrl. set 00-3100-1F Sp. Char.3220 Del. Char.1277F Ctrl. set 1128-15980-9F

18 18 Locale-Independent Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen EUC Encoding Für die Code Sets 1 bis 3 gibt es mehrere Möglichkeiten der Kodierung (je nach Untervariante von EUC unterschiedlich). Diese Repräsentation wird oft als EUC Packed Format bezeichnet und repräsentiert am häufigsten gebrauchte Instanz von EUC Kodierung.

19 19 Locale-Independent Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen EUC Encoding Es gibt zwei fixierte Länge von EUC Repräsentationen : 16- und 32-Bit. Die Bedeutung von diese fixierte Länge Repräsentagionen : alle Zeichen wird von gleiche Nummer von Bits oder Bytes repräsentiert Obwohl es mehrere Speicherplatz benötigt, macht es die interne Processing effizient.

20 20 Locale-Independent Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen EUC-CN Encoding : China EUC-CN wird in China verwendet und entspricht GB2312. Es kodiert die vereinfachten chinesischen Schriftzeichen. In EUC-CN Kordierung wird EUC Code Sets 2 und 3 nicht verwendet. EUC-CN Kodierung ist nahezu identisch mit EUC-KR.

21 21 Locale-Independent Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen EUC-CN Encoding : China Char. SetNr. of Bytes Code Set 1ASCII / GB- Roman 1 Code Set 2BG-2312-802 Code Set 3Unused Code Set 4Unused

22 22 Locale-Independent Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen EUC-TW Encoding : Taiwan EUC-TW nur sehr selten verwendet. Sehr viel verbreiteter ist dort Big5. (traditionellen chinesischen Schriftzeichen) die kompliziertste Instanz von EUC Kordierung. EUC Code Set 2 völlig überlastet, aber EUC Code Set 3 kaum verwendet.

23 23 Locale-Independent Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen EUC-JP Encoding : Japan Code Set 0 ist ASCII (genaugenommen JIS- Roman) und wird durch 1 Byte aus dem Bereich 0x21 bis 0x7e direkt kodiert.ASCIIJIS- Roman Code Set 1 ist JIS X 0208:1997 und wird durch 2 Zeichen kodiertJIS X 0208:1997 Code Set 2 sind halbbreite Katakana die auch durch 2 Bytes kodiert werden.Katakana

24 24 Locale-Independent Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen EUC-JP Encoding : Japan Das zweite Byte ist hierbei allerdings nur aus dem Bereich 0xa1 bis 0xdf, da es nur 56 Katakana (und eine Handvoll Sonderzeichen) gibt und diese dann der 1-Byte Kodierung aus JIS X 0201:1997 entsprechen (nur eben mit dem Escape-Zeichen 0x8e als Prefix). JIS X 0201:1997Escape-ZeichenPrefix In Code Set 3 wird JIS X 0212:1990 in der 3 Byte Variante kodiertJIS X 0212:1990

25 25 Locale-Independent Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen EUC-KR Encoding : Korea Es ähnelt ISO-2022-KR (bzw. KS X 1001).ISO-2022-KRKS X 1001 EUC-KR Kodierung, (wie EUC-CN) verwendet keine Code Sets 2 und 3. Deswegen ist es kaum unmöglich, dass EUC- KR Kodierung sich von EUC-CN ohne irgendeine Sorte von Sprache oder lokale Attribute unterscheidet.

26 26 Locale-Specific Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen Alle 4 CJKV Regionen haben mindestens eine eigene lokal spezifische Kodierung Methode. Char. SetEn. Meth.Country GBK China Big Five Taiwan Big Five Plus Taiwan JIS X 0208:1997 Shift-JISJapan KS X 1001:1992 JohabKorea

27 27 Locale-Specific Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen GBK Encoding-GB 2312-80 Extension Die GBK (Guojia Biaozhun Kuozhan) Kodierung enthält sowohl die vereinfachten als auch die traditionellen Schriftzeichen. Sie wurde für den Gebrauch auf dem chinesischen Festland entworfen, wenn beide Schriftzeichenvarianten in einem einzigen Font benötigt werden. Mit dem Release von Unicode 2.1 im Jahre 1993 wurde ein Standard namens GB 13000.1 veröffentlicht, welcher alle Glyphen von Unicode 2.1 enthält.

28 28 Locale-Specific Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen GBK Encoding-GB 2312-80 Extension Um alle zusätzlichen Hanzi Schriftzeichen, die in GB 13000.1 spezifiziert wurden, die aber nicht in GB 2312-1980 enthalten sind, unterzubringen, wurde eine neue Spezifikation namens GBK vorgestellt. GBK beinhaltet 21886 Schriftzeichen darunter 21003 Hanzi (das sind 101 mehr Zeichen als Unicode 2.1, welches aus 20902 Hanzi Glyphen besteht).

29 29 Locale-Specific Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen Big Five Encoding Die Big5 Kodierung beinhaltet traditionelle chinesische Schriftzeichen und wurde für den Gebrauch in Taiwan und Hongkong entworfen. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII- Kodierung. Chinesische Zeichen werden in zwei Bytes kodiert.

30 30 Locale-Specific Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen Big Five Encoding Im Vergleich zu EUC-TW hat Big Five Kodierung einen zusätzlichen Kodierung Block. Big 5 enthält 13463 Glyphen, darunter 13053 Hanzi.

31 31 Locale-Specific Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen Big Five Plus Encoding-Another Big Five Extension Auf Grund von Unicode und CNS 11643-1992 hat das Big Five Charakter Set mit Einschluss zusätzliche Charakters (meistens Hanzi) expandiert. Ex erfordert eine Expansion von Kodierung Space. Diese neue expandierte Version von Big Five heißt Big Five Plus.

32 32 Locale-Specific Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen Shift-JIS Encoding-JIS X 0208:1997 Shift-JIS (Abkürzung SJIS) ist eine Zeichencodierung für die japanische Schrift, entwickelt von Microsoft, basierend auf der ISO-2022-JP (JIS), aber mit verschobenen (shifted) Bytewerten, um 64 zusätzliche Katakana-Zeichen im Bereich von 0xA0 bis 0xDF unterzubringen.Abkürzungjapanische SchriftMicrosoftJIS Katakana

33 33 Locale-Specific Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen Shift-JIS Encoding-JIS X 0208:1997 Weil die Code Positionen für 2-Byte Charakters rund um die Code Positionen für halbbreite Katakana umgeschaltet (shifted) wird, nennt man Shift-JIS. Katakana Im Gegensatz zur üblichen JIS-Codierung braucht Shift-JIS ein 8-Bit-Medium für die Übertragung.CodierungMedium Übertragung

34 34 Locale-Specific Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen Shift-JIS Encoding-JIS X 0208:1997 Das erste Byte befindet sich im oberen ASCII- Bereich und der dezimale Wertbereich ist 129- 159 und 224-239.ByteASCII Der dezimale Wertbereich des zweiten Bytes ist 64-126 und 128-252. Shift-JIS kodiert auch halbbreite Katakana und ASCII/JIS-Roman..

35 35 Locale-Specific Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen Shift-JIS Encoding-JIS X 0208:1997 Shift-JIS kommt neben EUC vor allem in japanischen Webseiten vor, seltener ISO-2022-JP, während sonst Unicode (vor allem UTF-8) vorgezogen wird.UnicodeUTF-8

36 36 Locale-Specific Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen Johab Encoding-KS X 1001:1992 Johab Kodierung ist eine Zeichencodierung für die koreanische Schrift und beinhaltet alle mögliche moderne Hanguel-11172. Johab Kodierung ist grundlegend basiert auf drei 5-Bit Segments. 5-Bits wird um drei grundsätzlichen Positionen von Jamo zu präsentieren verwendet.

37 37 Locale-Specific Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen Johab Encoding-KS X 1001:1992 Es gibt 19 Initiale Jamo (Konsonanten), 21 Mittel Jamo (Vokale) und 28 Final Jamo (Konsonanten ; mit 'leer' Fall für zwei Jamo Hanguel). 5-Bits können leicht die Nummer von unique Jamo von einzelnen drei Positionen repräsentieren

38 38 International Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen UCS-4 und UCS-2 Encodings Die beiden Kodierungen werden von Charakter Set ISO 10646-1:1993 definiert. Die erste Methode ist die 32-Bit Form, betrachtet als UCS-4 (Universal Character Set ; beinhaltet 4 Bytes). Die zwiete ist die 16-Bit Form, betrachtet als UCS-2 (Universal Chracater Set ; beinhaltet 2 Bytes).

39 39 International Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen UCS-4 und UCS-2 Encodings Für alle praktischen Belange ist dies dasselbe wie Unicode (bes. USC-2).Unicode Ein 16-Bit Repräsentation kann bis 65.536 einzelnen Code Points kodieren. Dagegen kann ein 32-Bit Repräsentation bis 4.294.967.296 einzelne Code Points kodieren.

40 40 International Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen UCS-4 und UCS-2 Encodings Die beiden Kodierungen benutzen die gleiche Nummer von Bytes um jeden Charakter zu repräsentieren. Alle Charakters haben die gleiche Kodierung Länge. D.h. werden sie als die Gleiche für die bestimmten Processing Operationen behandelt, wie Suche.

41 41 International Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen UTF Encodings UTF bezieht sich auf die Folge von entwickelten Kodierung Methoden für Unicode und ISO 10646-1:1993. UTF (Unicode Transformation Format) beschreibt Methoden, ein Unicode-Zeichen auf eine Folge von Bytes abzubilden.Unicode

42 42 International Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen UTF Encodings Für die Repräsentation der Unicode-Zeichen zum Zweck der elektronischen Datenverarbeitung gibt es verschiedene Transformationsformate (16- oder 32-Bit Repräsentationen). Auch lässt sich jedes dieser Formate verlustfrei in ein anderes UTF-Format konvertieren.UTF

43 43 International Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen UTF Encodings Die verschiedenen Formate unterscheiden sich hinsichtlich deren Platzbedarf auf Speichermedien, dem Kodierungs- und Dekodierungsaufwand sowie in ihrer Kompatibilität zu anderen Kodierungsarten. Während beispielsweise einige Formate sehr effizienten Zugriff auf einzelne Zeichen innerhalb einer Zeichenfolge erlauben, gehen andere sparsam mit Speicherplatz um.

44 44 International Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen UTF Encodings Daher ist bei der Auswahl eines bestimmten Unicode-Transformationsformats das für das vorgesehene Anwendungsgebiet geeignetste zu bestimmen.

45 45 International Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen UTF-7 Encoding UTF-7 ist eine Kodierung des Unicode- Zeichensatzes. UTF-7 erlaubt die Verwendung von Unicode in nicht 8-bit-festen Umgebungen.Unicode

46 46 International Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen UTF-7 Encoding Es existieren verschiedene Kodierungsverfahren, die beliebige 8-Bit- Binärdaten in 7-bit-ASCII-Text umwandeln. UTF-7 wurde entworfen, um diesen Kodierungsoverfarhren bei der Verwendung von Texten, die nur wenige Unicode-Zeichen enthalten, möglichst gering zu halten, und gleichzeitig Textpassagen, die in 7-bit-ASCII darstellbar sind, lesbar zu lassen.

47 47 International Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen UTF-7 Encoding Bei UTF-7 werden die Zeichen A-Za-z0-9'(),-./:? so übermittelt, wie sie sind. Die ASCII-Zeichen !"#$%&*; @[]^_`{|} können direkt übertragen werden, sollten aber ebenfalls kodiert werden, da sie eventuell nicht durch alle e-Mail-Gateways korrekt übertragen werden.

48 48 International Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen UTF-7 Encoding Alle anderen Zeichen werden speziell kodiert. Hierfür wird eine Folge von zu kodierenden Zeichen als Strom von 2-Byte-Zeichen nach einem modifizierten Base64-Verfahren in einen Strom von ASCII-Zeichen umgewandelt. Der Start einer solchen kodierten Zeichensequenz wird durch ein Pluszeichen ("+") angezeigt, das Ende durch ein Minuszeichen ("-") oder durch das erste ASCII- Zeichen.

49 49 International Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen UTF-7 Encoding UTF-7 hat sich trotz seiner höheren Kodierungseffizienz jedoch nicht durchsetzen können, da andere Verfahren wie Quoted Printable und Base64 von nahezu jedem E- Mail- und News-Programm verstanden werden und der größere Kodierungsüberhang in der Praxis keine Rolle spielt.

50 50 International Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen UTF-8 Encoding UTF-8 (Abk. für 8-bit Unicode Transformation Format) ist die populärste Kodierung für Unicode-Zeichen; dabei wird jedem Unicode- Zeichen eine speziell kodierte Bytekette von variabler Länge zugeordnet.Kodierung UnicodeBytekette UTF-8 unterstützt bis zu 4 Byte, auf die sich wie bei allen UTF-Formaten alle 1.114.112 Unicode-Zeichen abbilden lassen.UTF

51 51 International Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen UTF-8 Encoding Unicode-Zeichen mit den Werten aus dem Bereich von 0 bis 127 (0 bis 7F hexadezimal) werden in der UTF-8-Kodierung als ein Byte mit dem gleichen Wert wiedergegeben.Byte Alle Daten, die ausschließlich echte ASCII- Zeichen verwenden, sind in beiden Darstellungen identisch.ASCII

52 52 International Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen UTF-8 Encoding Unicode-Zeichen größer als 127 werden in der UTF-8-Kodierung zu Byteketten der Länge zwei bis vier kodiert. Das erste Byte eines UTF-8-kodierten Zeichens nennt man dabei Start-Byte, weitere Bytes nennt man Folgebytes. Startbytes beginnen also mit der Bitfolge 11 oder einem 0-Bit, während Folgebytes immer mit der Bitfolge 10 beginnen.

53 53 International Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen UTF-16 Encoding UTF-16 ist eine Kodierung für Unicode-Zeichen, optimiert auf die häufig gebrauchten Zeichen aus der "Basic multilingual plane" (BMP).KodierungUnicode

54 54 International Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen UTF-16 Encoding UTF-16 wird sowohl vom Unicode-Konsortium als auch von ISO/IEC 10646 definiert. Die BMP enthält die Unicode-Zeichen, deren Code im Bereich U+0000 bis U+FFFF liegt. In diesem Bereiche sind Ersatz-Zeichen (engl. surrogate characters) reserviert, die für UTF-16 reserviert sind.

55 55 International Encoding Methods Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen UTF-16 Encoding Die Zeichen aus der BMP werden dabei direkt auf die 16 Bits einer UTF-16-Code-Unit abgebildet. Unicode-Zeichen, deren Code sich nicht mit 16 Bit darstellen lässt, belegen zwei 16-Bit-Wörter (engl: code units).


Herunterladen ppt "1 Ludwig Maximilians Unversität Centrum für Informations- und Spracherarbeitung Computerlinguistik Computerlinguistische Grundlagen f ü r die Verarbeitung."

Ähnliche Präsentationen


Google-Anzeigen