PG402Boris Shulimovich 1/172.05.2002Textextraktion aus nichttextuellen Datenquellen.

Slides:



Advertisements
Ähnliche Präsentationen
Inhalt Bildparameter Bildquellen Bildgröße/Bildformat Bildauflösung Farbtiefe Farbmodus Scannen Monitor Dateiformat Bildausschnitt Tonwertkorrektur.
Advertisements

Dokumentformate ABC Text Bild Hyperlink Ton.
Einführung in die Bildverarbeitung
PG402 Wissensmanagement Zeitreihen in Datenbanken 1 PG-402 Wissensmanagement: Zeitreihen in Datenbanken Klaus Unterstein.
Internetpräsentation aus PowerPoint erstellen Tipp der Woche 31/2000
Intelligente Anwendungen im Internet
Dateiformate Tobias Rolle IT takes more than systems …
Mit dem Computer kann man ganz toll präsentieren
On the Criteria to Be Used in Decomposing Systems into Modules
christiane, steffen und stephan
PC-Cluster.
A Model of Saliency-Based Visual Attention for Rapid Scene Analysis
HTML - Einführung Richard Göbel.
Java: Grundlagen der Sprache
Internetstruktur Das Internet besteht aus vielen Computern, die weltweit untereinander vernetzt sind.
Word-Workshop.
Eine kurze Einführung Nermin Junuzovic
Projektgruppe KIMAS Einführung in LaTeX
Excel Kurs Teil VII Textfunktionen ( TEXT, LÄNGE, LINKS, RECHTS, TEIL, FINDEN ) Einladen von Textdateien Text in Spalten F. Bäumer.
Memoir von Andreas Heinze Eine Klasse für sich Die Memoir- Klasse -- Andreas Heinze 2 Gliederung 1. Geschichtlicher Abriss 2. Eigenschaften.
Seite Common Gateway Interface. Konzepte. Übersicht 1Einleitung 2Was ist CGI? 3Wozu wird CGI verwendet? 4Geschichtlicher Überblick 5Grundvoraussetzungen.
Vortragender Messung des Erfolgs einer Website Subjektive Attraktivität Besuchsintensität Produktivität Finanzielle Maße
Druckmodus (Print Mode)
Teilprojekt Z2 „Methoden und Werkzeuge zur rechnergestützten medienwissenschaftlichen Analyse“ (Laufzeit: ) Gegenstand: Entwurf des Prototyps.
TWS/Graph HORIZONT Produkt-Präsentation Software für Rechenzentren
JavaScript.
FHP - Fachbereich Bauingenieurwesen
Anlass und Idee Die vielfältigen Einsatzmöglichkeiten von Hochdruckwasser(strahl)- technik mit den ökonomischen und ökologischen Vorteilen sind im Markt.
Grafikformate.
W Verdana M Georgia R Courier Arial k Times New Roman.
Bilder im WWW Bilder im WWW Erwachsenenbildung KMS
Tipps zum Scannen.
BILDBEARBEITUNG.
BILDFORMATE von Margarita Isjurowa.
Tim Gehrke Projektlabor WS 12/13
Your name Bedeutung von Internet- Technologien Gruppe 1 Andreas Feuerstein Philipp Hochratner Christian Weinzinger.
Tutorium zur LV Online Research Ein Computerprogramm tut, was Du schreibst, nicht was Du willst.
RECHTSERZEUGUNGSPROZESS AUF ZEITGEMÄSSER EBENE Graz, 30. Oktober
Theorie Praktische Beispiele
Aufbau der Stylesheet-Angabe Eigenschaft Eigenschaft das was man formatieren möchte Wert Wert Farbangaben, Einheiten oder Schlüsselworte Deklaration Kombination.
Java Server Pages Sergej Keterling
Theorie Praktische Beispiele
Norman Security Suite Anwenderfreundlicher Premium-Schutz.
Automatische Texterkennung
Software Adobe Photoshop Elements (ca. 100 €)
CSS – Cascading Style Sheets
Grafikformate IrfanView
Erstellen von pdf-Dokumenten
Kompressionsprinzipien bei digitalen Bildern
Bildbearbeitung Einführung. Allgemeines Internet-Browser können nur wenige Bildformate: gif, jpg, png Bilder im Internet müssen schnell angezeigt werden.
Wie funktionieren Internetseiten? Html und Co – Teil 2 Heimo Reiter.
Theorie Praktische Beispiele
prof. dr. dieter steinmannfachhochschule trier © prof. dr. dieter steinmann Folie 1 vom Montag, 30. März 2015.
Google (Web-Suchmaschine) Google Books Google Scholar
Multimedia und Virtual Reality Vorlesung am Martin Kurze Bildverarbeitung und Sehen.
Datenbanken im Web 1.
1 Wolfgang Wiese, Regionales RechenZentrum Erlangen WCMS 3. August 2000 Wolfgang Wiese RRZE / Lehrstuhl für Informatik VII
5.1 5 Retrieval auf Bildern (.... in a nutshell)  Bedeutung.... ... im Zusammenhang mit Information Retrieval ... für Anwendungen Medizin: "Finde ähnliche.
Hausaufgabe und Bildformate
Karsten Risseeuw Filemaker Module FileMaker Konferenz 2014 Winterthur Filemaker Module Einführung in die Vorteile modularer.
und Informationen über den Scanner
Bildbearbeitung: Bit Bit Byte Byte RGB RGB Farbe Farbe Auflösung Auflösung Dateiformat Dateiformat Clonpinsel Clonpinsel Kopierstempel Kopierstempel.
Clonpinsel/Kopierstempel
Präsentation mit dem Computer
oder: wie Computer die Welt sehen
Language and Information Engineering Lab
oder: wie Computer die Welt sehen
Perl: pattern matching and regular expressions
Scanner Eingabe von Bildinformation
Digitale Bildbearbeitung
 Präsentation transkript:

PG402Boris Shulimovich 1/ Textextraktion aus nichttextuellen Datenquellen

PG402Boris Shulimovich 2/ Textextraktion aus nichttextuellen Datenquellen Motivation Im WWW sind viele nichttextuelle Datenquellen verfügbar PostScript (PS und PDF) Wordprozessor (z.B. DOC, RTF) Bilder (z.B. GIF, JPG) … Potentiell hoher Informationsgehalt Werden nicht indiziert Sind nicht auffindbar

PG402Boris Shulimovich 3/ Textextraktion aus nichttextuellen Datenquellen Gliederung Textextraktion aus PostScript-Dateien Textextraktion aus WWW-Images Bezug auf die PG

PG402Boris Shulimovich 4/ Textextraktion aus nichttextuellen Datenquellen Das Problem mit PostScript PostScript ist eine Programmiersprache. Es gibt zwei Problemebenen: 1.Es muss nicht der gesamte Textinhalt in der ps-Datei stehen

PG402Boris Shulimovich 5/ Textextraktion aus nichttextuellen Datenquellen Das Problem mit PostScript (2) 2.Der Text ist fragmentiert und gemischt mit Formatierungen

PG402Boris Shulimovich 6/ Textextraktion aus nichttextuellen Datenquellen Einfacher Textextraktor Der Lösungsansatz aus [1] redefiniert den PostScript show-Operator: Die extrahierten ASCII-Zeichen werden in eine Datei umgeleitet Durch Verbesserung werden Wortfragmente getrennt ausgegeben

PG402Boris Shulimovich 7/ Textextraktion aus nichttextuellen Datenquellen Einfacher Textextraktor (2) Die Stellen zwischen Wortfragmenten werden heuristisch ermittelt.

PG402Boris Shulimovich 8/ Textextraktion aus nichttextuellen Datenquellen Verbesserter Textextraktor Die Erweiterung (in Python) basiert auf dem ersten Ansatz und behandelt folgende Fälle: Abstände bei großen und kleinen Schriften Paragraph vs. Zeilenumbruch Nicht-ASCII Zeichen Worttrennung am Zeilenende Seitenumkehrung

PG402Boris Shulimovich 9/ Textextraktion aus nichttextuellen Datenquellen Andere Ansätze ps2ascii.plPerl-Script, extrahiert geklammerten Text ps2txtC-Programm, extrahiert geklammerten Text, spezieller Code für durch dvips generierte PostScript-Dateien ps2a.shkomplexes PostScript-Programm, optimiert für Dateien, generierten aus T E X pstotextPostScript- und C-Programm von DEC, teuer, entspr. (DEC) komplex und sehr langsam, aber konvertiert exzellent ps2asciiaus Ghostscript, nicht besonders zuverlässig ps2htmlVariante des ps2ascii, entwickelt an Johns Hopkins University für spezielle Dateien (PS aus QuarkXPress) pstotextfunktioniert mit GhostScript, konvertiert auch PDF, aber mit weniger zuverlässigem Ergebnis pdf2text Bestandteil des Pakets xpdf pdf2html

PG402Boris Shulimovich 10/ Textextraktion aus nichttextuellen Datenquellen Textextraktion aus WWW-Images Ergebnis einer kleinen Stichprobe (25 Websites) [2]: Im Durchschnitt 15 % der ganzen Textinformation einer Website steht in Images. Im Durchschnitt 34 % davon steht bei vielen Websites nur in Images, und nirgendwo sonst auf der Website.

PG402Boris Shulimovich 11/ Textextraktion aus nichttextuellen Datenquellen Textextraktion aus WWW-Images (2) GIFs und JPEGs sind im Internet am meisten verbreitet. GIF (Graphics Interchange Format): 256 Farben, verlustfrei JPEG: RGB-Farben, verlustbehaftet, besser für Fotos Die Ausnutzung der besonderen Eigenschaften eines Graphikformats kann die Ergebnisse der Texterkennung verbessern. Abb.: JPEGs Kompressionsartefakte

PG402Boris Shulimovich 12/ Textextraktion aus nichttextuellen Datenquellen Allgemeine Probleme Kleine Auflösung (üblich 72 dpi) Anti-Aliasing Räumliche Mustereffekte (spartial sympling effects)

PG402Boris Shulimovich 13/ Textextraktion aus nichttextuellen Datenquellen Allgemeine Probleme (2) Images mit schwer erkennbaren text Dynamische Images (GIF89a Standard) Images mit Multizeichen

PG402Boris Shulimovich 14/ Textextraktion aus nichttextuellen Datenquellen Verfahren Aktuelle OCR-Technologie erkennt Text nur auf einem einheitlichen Hintergrund [3]. Alternative Verfahren benutzen bis zu drei Schritte: Farbclustering (color clustering) Zeichenentdeckung (character detection) Layoutanalyse (layout analysis)

PG402Boris Shulimovich 15/ Textextraktion aus nichttextuellen Datenquellen Beispiel des Farbclusterings a)Buchstabe L b)Clusterung, basiert auf RGB-Distanz c)Clustering, basiert auf Kombination von RGB- /räumliche Distanz

PG402Boris Shulimovich 16/ Textextraktion aus nichttextuellen Datenquellen Bezug auf die Projektgruppe PostScript (PS und PDF): Public Domain Programme verfügbar Zur Verbesserung der Treffer der von uns eingesetzten Suchmaschine Umwandlung in HTML-Format (mit Qualitätsverlusten) WWW-Images: Keine Public Domain Programme verfügbar Ggf. Ressourcen-intensiv

PG402Boris Shulimovich 17/ Textextraktion aus nichttextuellen Datenquellen Literatur [1]G. G. Nevill-Manning, T. Reed, I.H. Witten. Extracting Text from PostScript. In Software-Practice and Experince, vol. 28(5), , [2]D. Lopresti, J. Zhou. Locating and Recognizing Text in WWW Images. In Information Retrieval 2, , [3]V. Wu, R. Manmatha, E. M. Riseman. In IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 21, No. 11, 1999 [4]D. Byers. Full-text Indexing of Non-textual Resorces. In Computer Networks and ISDN Systems 30 (1998),