Semistrukturierte Daten 1 Gruppe 8

Slides:



Advertisements
Ähnliche Präsentationen
Cadastre for the 21st Century – The German Way
Advertisements

An new European Power Network: Student Power
Peter S. Niess Steinbeis-Europa-Zentrum
Themenportal Europäische Geschichte / Web portal European History
SUCONET-K-Slave Integration of SUCONET-K Slave in XSystem
G21Billing Document Outbound via EDI Overview
G66 Empties Processing Overview
G20 Sales Order Processing via EDI Overview
Transportation Management Overview (G82)
Neue Mobilität Frank Prengel Developer Evangelist Developer Platform & Strategy Group Microsoft Deutschland GmbH
© 2006 Open Grid Forum OGF26 - Chapel Hill, May 2009 Addressing Metadata Challenges OGF Digital Repositories RG.
Steinbeis Forschungsinstitut für solare und zukunftsfähige thermische Energiesysteme Nobelstr. 15 D Stuttgart WP 4 Developing SEC.
Dr. M. Schlottke Common Description of Web Services Source: P. Gerbert, 2002 Web Services allow to establish B2B e-commerce on the fly Web Services allow.
Telling Time in German Deutsch 1 Part 1 Time in German There are two ways to tell time in German. There are two ways to tell time in German. Standard.
Wozu die Autokorrelationsfunktion?
Institut für Verkehrsführung und Fahrzeugsteuerung > Technologien aus Luft- und Raumfahrt für Straße und Schiene Automatic Maneuver Recognition in the.
Three minutes presentation I ArbeitsschritteW Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2010/2011 Giving directions.
.NET – Quo Vadis? Dariusz Parys Developer Group Microsoft GmbH.
Deutsche Gesellschaft für Technische Zusammenarbeit GmbH Integrated Experts as interface between technical cooperation and the private sector – An Example.
Laurie Clarcq The purpose of language, used in communication, is to create a picture in the mind and/or the heart of another.
Case Study Session in 9th GCSM: NEGA-Resources-Approach
Calendar Week 40 Gunnar Beutner. Bug Tracker Hi zusammen, bei der Vorbereitung auf das Meeting ist mir folgende aufgefallen bzw. unklar: - # Ich.
| DC-IAP/SVC3 | © Bosch Rexroth Pneumatics GmbH This document, as well as the data, specifications and other information set forth in.
Vergleich der verschiedenen kommerziellen Datenbanksysteme
Dienstag, den Hausaufgabe für Mittwoch den IA 10.4 and printout LB 10.4 A-C Guten Tag!
BAS5SE | Fachhochschule Hagenberg | Daniel Khan | S SPR5 MVC Plugin Development SPR6P.
Smalltalk-Anbieter Helge K. Nowak
3rd Review, Vienna, 16th of April 1999 SIT-MOON ESPRIT Project Nr Siemens AG Österreich Robotiker Technische Universität Wien Politecnico di Milano.
Z Corp Customer Examples
© All rights reserved. Zend Technologies, Inc. Jan Burkl System Engineer, Zend Technologies Zend Server im Cluster.
The free XML Editor for Windows COOKTOP Semistrukturierte Daten 1 Vortrag Semistrukturierte Daten 1 COOKTOP The free XML-Editor for Windows
Your name Bedeutung von Internet- Technologien Gruppe 1 Andreas Feuerstein Philipp Hochratner Christian Weinzinger.
Neno Loje Berater & MVP für Visual Studio ALM und TFS (ehemals VSTS) Hochqualitative Produkte mit Visual Studio & TFS 2010.
Frank Fischer + Bernhard Frank Microsoft Deutschland GmbH.
3/28/2017 8:11 PM Visual Studio Tools für Office { Rapid Application Development für Office } Jens Häupel Platform Strategy Manager Microsoft Deutschland.
The future tense with werden The verb werden werdensie / Sie werdetihr werdenwir wirder / sie / es wirstdu werdeich.
You need to use your mouse to see this presentation © Heidi Behrens.
Department of Computer Science Homepage HTML Preprocessor Perl Database Revision Control System © 1998, Leonhard Jaschke, Institut für Wissenschaftliches.
States in the development of a new service During the development a service will pass through a chain of stages determining the service.
XML IV: Cocoon 2.
Guten Morgen!.
Verben Wiederholung Deutsch III Notizen.
SIT-MOON ESPRIT Project Nr st Review, Brussels, 27th of April 1998 slide 1 Siemens AG Österreich Robotiker Technische Universität Wien Politecnico.
Template v5 October 12, Copyright © Infor. All Rights Reserved.
Staatsballett Berlin Ein Verbesserungskonzept für den Social- Media Auftritt Your picture here.
SAP Protects its Valuable Innovations Alexandra Koseva/ Intellectual Property Department at SAP Labs Bulgaria November 29, 2012.
How To Guide – Workflow BCS
Ein Projekt des Technischen Jugendfreizeit- und Bildungsvereins (tjfbv) e.V. kommunizieren.de Blended Learning for people with disabilities.
The NAMA Facility – Support for the Implementation of NAMAs Subsidiary Body for Implementation in-session workshop on NAMAs Ben Lyon, DECC Norbert Gorißen,
Digital Dashboard Toolkit 2001 SharePoint Portal Server released targeting portal market SharePoint Team Services (STS) released as free add-
Talking about yourself
Microsoft Cloud Day Herzlich willkommen!. Microsoft Cloud Day MSDN Veranstaltung Die Cloud Plattform als Erfolgsbaustein – Wie Sie als Softwarefirma von.
1 von 10 ViS:AT Abteilung IT/3, IT – Systeme für Unterrichtszwecke ViS:AT Österreichische Bildung auf Europaniveau BM:UKK Apple.
3rd Review, Vienna, 16th of April 1999 SIT-MOON ESPRIT Project Nr Siemens AG Österreich Robotiker Technische Universität Wien Politecnico di Milano.
RZPD Deutsches Ressourcenzentrum für Genomforschung GmbH DESPRAD-Meeting 02/09/2003 Steffen Schulze-Kremer (until 7/2003) Bernd Drescher (since 8/2003)
Sentence Structure Subject and verb are always together. Subject and verb are always together. Subject and verb must agree Subject and verb must agree.
1 Intern | ST-IN/PRM-EU | | © Robert Bosch GmbH Alle Rechte vorbehalten, auch bzgl. jeder Verfügung, Verwertung, Reproduktion, Bearbeitung,
The NAMA Facility – Support for the Implementation of NAMAs Subsidiary Body for Implementation in-session workshop on NAMAs Ben Lyon, DECC Norbert Gorißen,
EN/FAD Ericsson GmbH EDD/ Information im 21. Jahrundert muss Erwünscht Relevant Erreichbar Schnell Kostenlos!?
Technische Universität München 1 CADUI' June FUNDP Namur G B I The FUSE-System: an Integrated User Interface Design Environment Frank Lonczewski.
J64 Production Planning and Discrete Manufacturing Overview
Title G81 - Integrated WM with PO Return. G81 - Integrated WM with PO Return / 2 Overview Scenario – Integrated WM In this scenario you are shown a complete.
SAP Best Practices Baseline Package U.S. Scenario Overview
Martin Rink, SAP Trust Center Services SAP Trust Center Services SAP Passports - Scenarios of Usage.
Page 1 XXX21/08/2014 Implemented by Benutzen Sie diese Titelfolie für Programme und Projekte im Ausland. Setzen Sie das „einheitliche Logo der Zusammenarbeit“
Proposal for a unified XML-file of the avalanche report... © Patrick NAIRZ, Avalanche Warning Center Tyrol - Why do we need a unified XML-file? - Integration.
? What is Open PS? SAP Open PS based on EPS 4.0
The Journey to America… The Immigrant Experience.
LLP DE-COMENIUS-CMP Dieses Projekt wurde mit Unterstützung der Europäischen Kommission finanziert. Die Verantwortung für den Inhalt dieser.
Azure Mobile Services Deep dive into node.js scripting
 Präsentation transkript:

Semistrukturierte Daten 1 Gruppe 8 UNICODE Semistrukturierte Daten 1 Gruppe 8

Inhalt Motivation History – Birth of Unicode Die Organisation Anwendungsgebiete Technische Sichtweise / Charactersets Fonts / Kodierungskriterien Unicode in HTML / XML Links & Resources / Q & A

Motivation Problem: andere Länder – andere Schriften… Ziel: alle weltweit bekannten Textzeichen in einem Zeichensatz zusammenzufassen Anzahl riesig (allein >9000 chinesische Zeichen) Gesucht: innovative Lösung um alles unter einen Hut zu kriegen

Was wird nun codiert? Zeilenende Absatzende Schreibrichtung (nach rechts / links) 94.140 Zeichen (auf mehreren Ebenen) ABER: Darstellung nicht durch jeden Font möglich – meist kostenpflichtig

Was ist Unicode Internationaler Standard Zeichensatz  eine eindeutige Nummer für jedes Zeichen Unicode ist: Plattformunabhängig Programm/Programmiersprachen unabhängig Sprachenunabhängig Erste vereinheitlichende Codierung, die ALLE Zeichen darstellen konnte Durch zentrales gemeinnütziges Konsortium entwickelt und geregelt Einsatzbereich, vor allem für Programme die: auf mehreren Plattformen laufen in mehreren Sprachen laufen ohne großen Aufwand verschiedenste Sprachen implementieren Aktuellste Version: 4.1.0 Unicode ist KEIN Font

History – Birth of Unicode V 1.0 1986 Xerox works on an idea to merge Japanese and Chinese characters more easily Apple works out a theory to come up with a universal character set for the Apple File Exchange development 1987 Unicode's original "begin at 0 and add the next character" architecture is created Xerox begins discussing multilingual issues, new character encoding is a major topic, fixed-width design is preferable. Earliest documented use of the term "Unicode” 1988 Apple advances the idea about fixed-width 16 bit characters First presentation of the Unicode principles in Dallas

History – Birth of Unicode V 1.0 1989 Meetings joined by Sun, then Adobe, Claris, HP, NeXT and Pacific Rim Connections (later morphed into Unicode Technical Committee) Decision to incorporate all composite characters in existing ISO registered standards and to guarantee round trip conversion to existing standards. Decision to use logical ordering for bidirectional (Middle Eastern) and Indic text. ANSI proposes a compromised Han Unification and use of C0, C1 to ISO. Apple, Claris, Metaphor, NeXT, and Sun participate on behalf of Unicode. As a result of this compromise, the Unicode working group decides to use existing ISO orderings for script subsets, and use the ISO naming schemes. Unicode is presented to Microsoft , IBM, Unix, ISO SC2, WG2 1990 Microsoft shows interest in Unicode, also Apple Japan, Microsoft KK, IBM becomes active First implementation of a WYSIWYG prototype for demonstration Final review draft of Unicode is distributed internationally Decision to use logical ordering for all South Asian scripts, add length marks

History – Birth of Unicode V 1.0 1991 Creation of the Unicode Technical Committee (UTC) first articles about Unicode appears in the New York Times Novell joins first unofficial 2-day Unicode Workshop a success first Unicode book appears finally 1992 The Unicode Standard Version 1.0, Volume 2 is printed. Article "Kiss your ASCII Goodbye" appears in PC Magazine.

Die Organisation Unicode durch zentrales Konsortium geregelt Non-Profit Organisation Zusammenarbeit mit W3C und ISO Zuständig für Zeichensatz ISO/IEC 10646 Ziel: Entwicklung und Erweiterung Mitglieder aus allen Global Playern der IT-Wirtschaft (IBM, Microsoft, Apple, Cisco, Oracle, …) Zu finden unter: www.unicode.org Non Profit Organisation zur des UNICODE Standards => Ziel: Entwicklung und Weiterentwicklung: Internationalisierung, Erweiterung auf Sprachen, IMMER im Bezug auf den mittlerweile bestehenden UNICODE Standard

Die Organisation Ursprüngliche Vorstandsmitglieder von Unicode Inc: Larry Tesler, Vice President Advanced Products,   Apple Computer, Inc. Robert Carr, Vice President Software Development, GO Corporation Richard Holleman, Director of Telecommunications, IBM Corporation Charles Irby, Vice President of Development,  Metaphor Computer Systems Paul Maritz, Vice President Advanced Operating Systems,  Microsoft Corporation Bud Tribble, Vice President Software Engineering, NeXT Computer Inc. Jay Israel, Vice President Advanced Technology, Novell, Inc. David Richards, Director of Development, The Research Libraries Group. John Gage, Vice President Desktop Development, Sun Microsystems Inc. Geschäftsführer bzw. Gründungsmiglieder: Mark Davis, President Mike Kernaghan, Vice-President Joe Becker, Technical Vice-President Ken Whistler, Secretary Bill English, Treasurer

Anwendungsgebiete (1) Datenbanken Adabas NCR Teradata Caché and Ensemble FrontBase IBM Ingres Justsystem Goro Microsoft Access, SQL Server Mimer SQL NCR Teradata Onix Oracle 8 PostgreSQL Progress Software Qwikly Sybase Unisys UREP

Anwendungsgebiete (2) Betriebssysteme Apple Mac OS 9.2, Mac OS X 10.1, Mac OS X Server, ATSUI Compaq's Tru64 UNIX, Open VMS GNU/Linux with glibc 2.2.2 or newer - FAQ support IBM AIX, AS/400, OS/2 Inferno by Vita Nuova Microsoft Windows CE, NT, 2000, XP SCO UnixWare 7.1.0 Sun Solaris Symbian Platform

Anwendungsgebiete (3) Standards Suchmaschinen XML XHTML XSL LDAP CORBA 3.0 WAP (WML) … Suchmaschinen Alta Vista Yahoo Google Fastsearch

Anwendungsgebiete (4) Programmiersprachen, Entwicklungsumgebungen Ada 95 CLISP Common Lisp G2 5.0 Rev. 0 by Gensym Corporation, GAWK 3.0.3 Java JavaScript (ECMAScript) Led C++ class library Microsoft VJ++ Visual Studio 7.0 (forthcoming) Visual Basic Perl Python XML Spy 3.0 from Icon Information-Systems GmbH

Technische Sichtweise UTF (Unicode Transformation Format) Spezifiziert zu jedem Zeichen eine eindeutige Byte Sequenz Verschiedene Standards: UTF 8: Hauptsächlich WEB UTF 16: Hauptsächlich Java und Windows UTF 32: Hauptsächlich UNIX UTF 7: E-Mail – ohne MIME (Vollständigkeitshalber) UTF-EBCDIC: Mainframe (Vollständigkeitshalber) Konvertierungen zwischen UTF 8 / 16 / 32: Verlustfrei Schnell Algorithmische Konvertierung

Technische Sichtweise UTF-8 ASCII compatible characters in the range U+0000→U+007F can be encoded as a single byte. Ken Thompson had turned AT&T Bell Lab’s Plan 9 into the world’s first operating system to use UTF-8 Default encoding for xml

Technische Sichtweise UTF 8 / 16 / 32 (1) Größe 8 bit 16 bit 32 bit min. Bytes/Zeichen 1 2 3 max. Bytes/Zeichen 4 Ad min Bytes/Zeichen: die meisten Zeichen sind nur 1Byte groß – selbst in Ost-Asiatischen Sprachen Es gibt Regeln, wie UTF32 -> 16 -> 8 oder UTF 8 -> 16 -> 32 zusammengesetzt werden dürfen Anmerkung stefan: ist utf-32 nicht 32bit (4 byte) fixed width??? (zumindest wikiepdia sagt, es wär so) Außerdem sind die bsp. imho verwirrend, ich kenn mich da selber nicht ganz aus Bsp 1: 1 UTF16 Zeichen kann als 2 UTF8 dargestellt werden Bsp 2: 1 UTF32  2 UTF16  4 UTF8 Zeichen

UTF 8  UTF 16  UTF 32 Beispiel für Zeichen in den jeweiligen Kodierungen: Zeichen UTF 8 UTF 16 UTF 32 „e“ U+65 U+0065 U+0000 0065 „$“ U+24 U+0024 U+0000 0024 Hah (Arabic) U+DA 85 U+0685 U+0000 0685 yi (Xip) U+EA 91 A0 U+A460 U+0000 A460

Technische Sichtweise UTF 8 / 16 / 32 (2) Besonderheiten / Unterschiede UTF 16 und UTF32: UTF16/32 BE: Big Endian: MSB (most significant bit first) UTF16/32 LE: Little Endian: LSB (least significant bit first) UTF16/32: std: MSB, oder BOM (byte order mark) Bytes Encoding FF FE 00 00 UTF32 LE 00 00 FE FF UTF32 BE FF FE UTF16 LE FE FF UTF16 BE Big Endian = Mainframe Little Endian = heutige PCs (x86)

Technische Sichtweise Schriften Unicode definiert nicht Sprachen – sondern Schriften Grund: Viele Sprachen haben gleiche Zeichen – diese können vereinheitlicht werden In der Letzten Version 4.1.0 werden folgende Schriften unterstützt:

Character Sets Schriften

Character Sets Sonderzeichen

Character Sets – Ranges (1) U+0000* – U+007F* Controls and Basic Latin (~ASCII): U+0080* – U+00FF* Controls and Latin-1 * Utf16 Ad 1) „Normale“ Zeichen – analog zu ASCII Ad 2) Wichtig, da hier Umlaute, etc definiert sind

Character Sets – Ranges (2) U+0600* – U+06FF* Arabic U+0685* Hah U+06B4* Gaf U+069C* Seen Ausrichtung: Right to Left * Utf16 Ad 2) Wichtig, da hier Umlaute, etc definiert sind

Character Sets – Ranges (3) U+0F00* – U+0FFF* Tibetan U+0F47* Ja U+0F5C* Dzha U+0F43* Gha Ausrichtung: Left to Right * Utf16

Fonts Grundsätzlich: Font bildet eine Byte Sequence auf ein Bildzeichen ab Unicode Font: Byte Sequenzen des jeweiligen Unicode Typs sind als Abbildungen auf Bildzeichen verfügbar Bsp: Arial Unicode MS: ab MS Office 2002 inkludiert, 38.917 Zeichen, 50377 Bildzeichen

Fonts in Java Unicode Fonts in Java: Kopieren der font-files in das Java-Font Verzeichnis: jre/lib/fonts font.properties Datei anpassen bzw. neu erstellen (wenn ein mapping zwischen logischen und physischem Font oder eine Lokalisierung benötigt wird) zB: font.properties.ko (für koreanisch) zB: serif.0=Arial,ANSI_CHARSET (für Mapping auf Arial) zB: serif.1=WingDings,SYMBOL_CHARSET,NEED_CONVERTED fontcharset.serif.1=sun.awt.windows.CharToByteWingDings Javacode Example: new Font(„serif", Font.PLAIN, 12) Ad 1) unter Windows wird auch as std. Windows Font-Verzeichnis von Java gefunden

Eingabemethoden Eingabe chinesischer Zeichen Grundsätzlich über jede Tastatur möglich Aufgrund der vielen Zeichen: Tastenkombinationen die meistgebrauchten Zeichen = 1 Taste Alle weiteren Zeichen = Tastenkombination (<1%)

Kodierungskriterien Stetigkeit von kodierten Zeichen: Vor Normierung äußerst sorgfältige Prüfungen Einmal kodierte Zeichen dürfen nicht mehr entfernt werden Somit Gewährleistung der Langlebigkeit digitaler Daten BMB (Basic Multilingual Plane) vs. Astral Plane Ad 1) z.b. stellt sich die frage, ob elfisch oder klingonisch aufgenommen werden soll

Kodierungskriterien Unicode kodiert abstrakten Zeichen (Idee eines Buchstaben) – keine Glyphen (konkrete grafische Darstellung) Ermöglichung von Glyphenvarianten: 256 Variation Selectors werden ggf. dem Code nachgestellt

Unicode in HTML Definition von Encoding in HTML durch Meta-Angabe: <meta http-equiv="content-type" content="text/html; charset=UTF-8"> Allerdings: Auto-Detection durch Browser (Byte Order Mark), sollte zumindest bis zur Meta-Angabe möglich sein Ad Auto-Detection: kann schiefgehen, dann gibt’s Fragezeichen oder ähnliches

Unicode in XML XML: <?xml version="1.0" encoding="UTF-8"?> Default-Encoding: Unicode über Byte Order Mark Wenn kein BOM, dann UTF-8 XML-Prozessoren müssen UTF-8 und UTF-16 unterstützen Allerdings: Auto-Detection durch Browser (Byte Order Mark), sollte zumindest bis zur Meta-Angabe möglich sein (gleich wie html) BOM ist weder Markup noch Character Data, sondern „encoding signature“

Unicode in HTML/XML Numerische Character Referenz: Dezimal:   Hexadezimal:   Dokument muss nicht in einem Unicode-Format gespeichert werden, kann aber trotzdem numerische Referenzen auf Codepoints enthalten!

Unicode und XML Text: Serie von Characters (Daten und Markup) Character: Atomare Texteinheit Erlaubte Character Range: #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] (ohne surrogate blocks, FFFE und FFFF) surrogate blocks: umschalten zwischen Basic Multilingual Plane und Astral Plane

Unicode und XML Aber: Namen sind Subsets von Markup und Text NameChar   ::=   Letter | Digit | '.' | '-' | '_' | ':' | CombiningChar | Extender Name   ::=   (Letter | '_' | ':') (Namechar)* Wobei: Letters nicht nur A-Z!

Unicode in XML Manche Characters nicht für XML geeignet Im Unicode Standard veraltet Problematisch ohne zusätzliche Daten Funktionalität durch Markup sinnvoller Kollidieren mit Markup

Unicode in XML Beispiele Problem: Überlagerung von Control Codes und XML-Markup z.B.: Line and paragraph separator Codepoint: U+2028 .. U+2029 Lösung: <xhtml:br />, <xhtml:p></xhtml:p> oder entsprechende Weiters: Widersprüche zwischen Control Codes und Markup möglich. Frage nach Priorität z.B.: Sprachidentifikation Codepoint: U+E0000 .. U+E007F Lösung: xhtml:lang oder xml:lang Ad 1: selbe funktionalität Ad 2: widersprüche + Transportfunktion (vor allem im Bezug auf XML-) Darstellung ???

Links and Ressources Unicode Organisation Homepage: http://www.unicode.org Unicode General Information: http://de.wikipedia.org/wiki/Unicode Unicode Characters: http://www.decodeunicode.org/ Filecodierungsinformationen: http://www.fileformat.info/info/unicode/char/search.htm XML 1.0 (3rd Ed) W3C Recommendation http://www.w3.org/TR/REC-xml/

Fragen zu Unicode bitte jetzt stellen Questions & Answers Fragen zu Unicode bitte jetzt stellen