Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Zum Einstieg, zur Wiederholung und zur Vertiefung: Datengewinnung Datenanreicherung.

Ähnliche Präsentationen


Präsentation zum Thema: "Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Zum Einstieg, zur Wiederholung und zur Vertiefung: Datengewinnung Datenanreicherung."—  Präsentation transkript:

1 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Zum Einstieg, zur Wiederholung und zur Vertiefung: Datengewinnung Datenanreicherung Datenverarbeitung …mit XML und XSLT

2 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 2 Der Plan -Wo das XML herkommt -Wie das XML schöner wird -Regex -XSLT -Was hinten rauskommt -document() -Variablen -xsl:for-each-group -Visualisierung

3 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 3 … wo das XML herkommt -XML aus Word -Word ist schon XML -Übersetzung Typographie in Markup -Übergabe an OpenOffice -XML aus OpenOffice -TEI OpenOffice Package

4 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 4

5 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 5 … wo das XML herkommt -XML aus Word -Word ist schon XML -Übersetzung Typographie in Markup -Übergabe an OpenOffice -XML aus OpenOffice -TEI OpenOffice Package -Pro und Kontra -XML aus XML-Editoren -Author Mode

6 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 6

7 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 7 … wo das XML herkommt -XML aus Word -Word ist schon XML -Übersetzung Typographie in Markup -Übergabe an OpenOffice -XML aus OpenOffice -TEI OpenOffice Package -Pro und Kontra -XML aus XML-Editoren -Author Mode -Die Welt der spitzen Klammern

8 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 8 XML-Daten verbessern -Ziel: Handarbeit vermeiden! -Einfaches Suchen&Ersetzen -Word-(OpenOffice)-Macros -Regular Expressions -regex in XSLT -Datenanreicherung mit XSLT

9 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 9 Regular Expressions (in Oxygen) -Ausgangslage -Verschiedene Dialekte -Maßgeblich: perlre -Umfang der Implementierung? -oXygen vs. XML-Schema vs. XSLT -Syntax

10 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 10 Regular Expressions (in Oxygen) -Syntax (nur das allerwichtigste). Beliebiges Zeichen []Zeichenklasse [0-9], [a-z] beliebige Ziffer bzw. Buchstabe ()Gruppierung … kann später angesprochen werden | oder [r | v] der Buchstabe r oder v \ Maskierung \. tatsächlich ein Punkt und nicht beliebieges Zeichen *Beliebige Häufigkeit.* beliebige Menge beliebiger Zeichen + Ein oder mehrmals [0-9]+ eine Zahl mit mindestens einer Stelle ?Ein oder kein Mal [0-9]? eine Ziffer oder nichts

11 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 11 Regular Expressions (in Oxygen) -Syntax (schon nicht mehr so wichtig) \dZiffer \wBuchstabe oder Ziffer \s Whitespace-Zeichen ^ Anfang einer neuen Zeile $Zeilenende \n Zeilenumbruch ?Greediness ausschalten ([0-9].*\])*? [in Oxygen10 nicht implementiert] -… und weitere, siehe z.B.

12 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 12 Regular Expressions (in Oxygen) -Ausgangslage (perlre) -Syntax -Das wichtigste: Gruppierte Muster bilden Variablen auf die man beim Ersetzen zugreifen kann -Obacht: Zeilenorientierung, greediness -Beispiel 1 (einfache Seitenumbrüche) -Beispiel 2 (Ilg-Apparat)

13 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 13 Regular Expressions (in Oxygen) -Beispiel 1 text [1ra] text [1rb] text [1va] text [1vb] text [2ra] text [2rb] text [2va] -Beispiel 2 Versus C. R., et ed. R. absunt ab omnibus… animaeque, V. vacationem… hylariV,. evangelici C. …

14 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 14 Regular Expressions (in Oxygen) -Ausgangslage (perlre) -Syntax -Das wichtigste: Gruppierte Muster bilden Variablen auf die man beim Ersetzen zugreifen kann -Obacht: Zeilenorientierung, greediness -Beispiel 1 (einfache Seitenumbrüche) -Beispiel 2 (Ilg-Apparat) -Erweiterung: regex plus XPath -Möglichkeiten und Grenzen

15 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 15 regex in XSLT -xsl:analyze-string -xsl:matching-substring, xsl:non-matching-substring -XPath-Funktionen -matches() -replace() -tokenize()

16 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 16 Datenanreicherung per XSLT: copy-all-but … -Ausgangslage -Grundtemplate

17 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 17 Datenanreicherung per XSLT: copy-all-but … -Grundtemplate - Was ist der Trick dahinter?

18 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 18 Datenanreicherung per XSLT: copy-all-but … -Ausgangslage -Grundtemplate -Beispiel 1 (falsche Seitenumbrüche, copy-all-Beispiel1.xml) -… mit copy-all.xsl -Beispiel 2 (mehrfache Apparate) -Lösung: multiple_apps.xl

19 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 19 Datenanreicherung per XSLT: die document()-Funktion -Anwendungsszenarien -Die document()-Funktion ( … und doc-available() ) -Mögliche Fehlerquellen (String vs. Pfad; Namensräume) -Beispiel1 (Images hinzuziehen, regex-Beispiel1, images.xml, copy-all.xsl ) -Beispiel2 (Geokoordinaten, locations.xml) -Zum Verständnis: =false&key=ABQIAAAA6wyLPpbDp03tNqBX6NzZyRT2yXp_ZAY 8_ufC3CFXhHIE1NvwkxRNs-JV0rqHP75bygTkcn_guLR8zg -… was mit einem Google-Service geht, geht mit jeder wohlgeformten XHTML-Seite! (Beispiel geo-coord aus wp; Schriftsteller aus wp)

20 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 20 Auch ein Single Source Prinzip: die result-document()-Funktion -Anwendungsszenarien (siehe z.B. sdoe) - -… viele weitere Schalter … -Die Mächtigkeit von result-document … alle weiteren Anweisungen

21 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 21 Schwach, stark, nützlich: Variablen -Variablen in XML können nichts -keine Veränderung -nur lokal gültig (Übergabe als Parameter) -Variablen in XML können vieles -Ständige Überschreibung in Schleifen -Komplexe Inhalte durch Aufruf weiterer Templates -Variablen in XML sind anders -Variablen können Kontextinformationen speichern -Variablen können temporäre Knotenbäume enthalten … Variablen können beliebige Bäume enthalten

22 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 22 Wie ging es eigentlich jemals ohne? xsl:for-each-group -Einsatzzwecke @group-starting-with) -current-group(), current-grouping-key() -Beispiel1 (Fischer-Frage) -Refs rausziehen; mit copy-all-but + document zurückspielen -Beispiel2 (Schriftsteller (herleiten!), Geburtskohorten) -geb-kohorten.xsl schreiben

23 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 23 Visualisierung? -Visualisierung wozu? -http://benfry.com/traces/http://benfry.com/traces/ -Fake-Grafiken (?) mit HTML -Beispiel (Geburtskohorten) -Eigene Grafiken mit SVG -Torten und anderes Eye Candy -Beispiel (Verteilung der Hss. auf Sprachen) -Google-Maps -Beispiel (Handschriftenlokalisierung)

24 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 24

25 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 25 XSLT- produziert

26 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 26

27 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 27

28 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 28 Visualisierung? -Visualisierung wozu? -Fake-Grafiken (?) mit HTML -Beispiel (Geburtskohorten) -Eigene Grafiken mit SVG -Torten und anderes Eye Candy

29 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 29

30 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 30 Visualisierung? -Visualisierung wozu? -Fake-Grafiken (?) mit HTML -Beispiel (Geburtskohorten) -Eigene Grafiken mit SVG -Torten und anderes Eye Candy -Beispiel (Verteilung der Hss. auf Sprachen)

31 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 31 Simple Pie Chart …

32 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 32 "Google-o-Meter"

33 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 33 Visualisierung? -Visualisierung wozu? -Fake-Grafiken (?) mit HTML -Beispiel (Geburtskohorten) -Eigene Grafiken mit SVG -Torten und anderes Eye Candy -Beispiel (Verteilung der Hss. auf Sprachen) -Google-Maps -Beispiel (Handschriftenlokalisierung)

34 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 34 Google Maps per XSLT

35 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 35 Google Maps per XSLT -Drei Zutaten -HTML-Container -Externe Javascripte -Lokale Einstellungen (Javascript) -Key -Karte: Mittelpunkt, Zoomfaktor, Funktionalitäten -Marker: Position, Info-Fenster (HTML)

36 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 36 Drei Zutaten … 1. 2.

37 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 37 Drei Zutaten … 3. //<![CDATA[ if (GBrowserIsCompatible()) { function createMarker(point,html) { var marker = new GMarker(point); GEvent.addListener(marker, "click", function() { marker.openInfoWindowHtml(html); }); return marker; } // Display the map, with some controls and set the initial location var map = new GMap2(document.getElementById("map")); map.addControl(new GLargeMapControl()); map.addControl(new GMapTypeControl()); map.setCenter(new GLatLng(48,-7),3); …

38 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 38 Drei Zutaten … 3.// Set up markers with info windows var point = new GLatLng(, ); var marker = createMarker(point,' : '); map.addOverlay(marker); } //]]>

39 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 39 … jetzt noch einmal grundsätzlich: zwei Basisstrategien in XSLT -"pull-Ansatz" -ein template erledigt so viel wie möglich, indem es nacheinander Teilaufgaben abarbeitet und sich dazu die benötigten Inhalte selbst holt -zunächst übersichtlich, einfach zu entwickeln, unabhängig von der Reihenfolge der Elemente im xml, nicht modular, wird bei komplexen Dokumenten unübersichtlich -"push-Ansatz" -templates betreffen möglichst immer nur bestimmte Elemente und verweisen für deren Inhalte auf andere templates (xsl:apply-templates) -für Anfänger unübersichtlicher, abhängig von der Reihenfolge der Elemente im xml, modularsierte templates werden in verschiedenen Kontexten verwendet, bei komplexen Dokumenten letztlich leichter wartbar -in der Praxis häufig Mischung beider Strategien

40 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 40 Basisstrategien in XSLT … -Es gibt Situationen, die sich mit einem pull-Ansatz nicht lösen lassen! enthalte …

41 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 41 Basisstrategien in XSLT …

42 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 42 Basisstrategien in XSLT … Inhalte

43 Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Datengewinnung-, anreicherung, -verarbeitungFolie 43 Templates können sich auch wie Funktionen verhalten


Herunterladen ppt "Institut für Dokumentologie und Editorik Spring School 2. März bis 5. März 2010 Zum Einstieg, zur Wiederholung und zur Vertiefung: Datengewinnung Datenanreicherung."

Ähnliche Präsentationen


Google-Anzeigen