3. Juni 2003Moritz Petersen Minimales Markup und Templates zur Erstellung von strukturierten Texten Ein Zwischenbericht zur Diplomarbeit
3. Juni 2003Moritz Petersen Überblick 1.Einleitung: Textarten 2.Minimales Markup 3.Entwicklung eines Prototypen
3. Juni 2003Moritz Petersen Information Extraction Meist semi-strukturierte Texte (Extraktion aus dem Web) Regelbasierend Probabilistisch
3. Juni 2003Moritz Petersen Textarten Plain Text Styled Text Structured Text
3. Juni 2003Moritz Petersen Textarten - Vergleich Plain TextStyled TextStructured Text VorteilGeringe Anforder- ungen Visuelle Darstellun g Weiterver- arbeitung NachteilWeiterver- arbeitung Erstellung
3. Juni 2003Moritz Petersen Textarten - Semi-structured Text Beispiel: MS Word Dokument –Formatvorlagen –Gliederungsfunktion –Keine hierarchische Struktur Beispiel: HTML –Explizite Struktur –Metadaten –CSS Stylesheets –Festgelegter Dokumenttyp
3. Juni 2003Moritz Petersen Minimales Markup Markup ist in einem Dokument alles, das nicht zum Inhalt gehört. Prozedurales Markup Deskriptives Markup
3. Juni 2003Moritz Petersen Minimales Markup XML Vereinfachte Schreibweisen von XML –SOX –SLIP –YAML Wiki
3. Juni 2003Moritz Petersen Minimales Markup - SOX Simple Outline XML Teile von XML können abgebildet werden: Elemente, Attribute und Text. Google test> id=015 bookmark> url> title> Google
3. Juni 2003Moritz Petersen Minimales Markup - SLiP A Sorta Like Python shorthand for XML Ähnlich dem Python Syntax test(id=015) #a comment bookmark: url: title:Google Google
3. Juni 2003Moritz Petersen Minimales Markup - YAML YAML (YAML Aint Markup Language) Schwerpunkte –Lesbarkeit –Geringe Größe PRIVMSG - newUri - ^ - - PRIVMSG - deleteUri - ^delete.*
3. Juni 2003Moritz Petersen Minimales Markup - Wiki Einfache Erstellung Lesbarkeit Prozedurales und deskriptives Markup Meist auf Formatierungsmerkmale bezogen Intuitives Markup, nicht selbsterklärend
3. Juni 2003Moritz Petersen Minimales Markup - Wiki [[Apache Software Foundation]] Wiki - An experiment in emergence of documentation. [ RSS] [HomePageDiscussion Talk Page] * Apache Wiki ** FrequentlyAskedQuestions about Apache at large and OpenSource. ** WhatsA (glossary) ** Index of all pages: [ Index] ** What is a wiki? See ApacheWiki. (including Wiki based FAQs.) ** SandBox - this is where you experiment in the black arts of using the ApacheWiki ** [[WikiAdmin]]s - Those who have the power, but use it rarely. ** ApacheWikiHistory - History of this wiki
3. Juni 2003Moritz Petersen Entwicklung eines Prototypen Überblick: –Templates –Plain-Text –XML-Output –XSLT Transformation TXT Template P XML XSLT PDF WML
3. Juni 2003Moritz Petersen Templates Anforderungen: –Syntax unterstützt einfache Erstellung –Nach Möglichkeit interaktiv veränderbar –Vordefinierte Bausteine zur Mustererkennung (Pattern) –Abbildung der Dokumentstruktur –Unterstützung des Benutzers durch Hilfstexte
3. Juni 2003Moritz Petersen Templates Implementierung –Aufteilen des Dokuments in Regionen –Hierarchie möglich –Separatoren –Identifikatoren (optional) –Positionsangabe (optional)
3. Juni 2003Moritz Petersen Beispiel Template text p ${newline} ${endoftext}
3. Juni 2003Moritz Petersen Beispiel Pattern public class NewlinePattern extends Pattern { public StringSection match(String str, int index) { return index >= 0 && index < str.length() && str.charAt(index) == '\n' ? new StringSection(str, index, 1) : null; }