Huffman – Kodierbaum zur Textkompression

Slides:



Advertisements
Ähnliche Präsentationen
Wesen und „Unwesen“ der binären, dezimalen und hexadezimalen Zahlen
Advertisements

Motivation Bisher: Codes mit möglichst kurzer Codelänge.
Verschachtelte Schleifen
11. Datenkomprimierung Bei den meisten bisher betrachteten Algorithmen wurde vor allem das Ziel verfolgt, möglichst wenig Zeit aufzuwenden, und erst in.
Klicke Dich mit der linken Maustaste durch das Übungsprogramm! Zeichnen im Koordinatensystem Ein Übungsprogramm der IGS - Hamm/Sieg © IGS-Hamm/Sieg 2006.
2.1 Kodierung von Zeichen 2.2 Kodierung von Zahlen
Huffmans Kompressionsverfahren
Excel Kurs Teil VII Textfunktionen ( TEXT, LÄNGE, LINKS, RECHTS, TEIL, FINDEN ) Einladen von Textdateien Text in Spalten F. Bäumer.
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Medien- Technik Datei-Formate: TIFF Tagged Image File Format.tif.tiff.
Huffman Entropie-Codierung Codierung mit variabler Länge
Datenbanken Mehr als Tabellen.
Datenformate: Text und Bild
Die Darstellung von alphanumerischen Zeichen mit dem Computer
Datenbanken Mehr als Tabellen. Datenbank Abfragen mit SQL: Eine Tabelle filtern Tabellen realer Datenbanken können sehr viele Informationen speichern:
Gierige Methoden "kurzsichtig handeln, langfristig gewinnen"
Information und Kommunikation
Vom Bit zum Byte.
Grundlegende Funktionsweise eines Computers
Herzlich Willkommen.
Grundlagen der Kommunikation in Verbindung mit der Codierung von Daten
Zeilen- Spaltenschrift. Von Robert und Julian 1.Schritt: Denke dir ein geheimes Wort mit 5 Buchstaben. Denke dir ein geheimes Wort mit 5 Buchstaben.
Was ist ein Logo? Es ist nicht nur eine Marke. Es symbolisiert das Unternehmen durch den Einsatz von Farben, Symbole, Zeichen, Bilder. Funktion: ein Logo.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Christian Schindelhauer Wintersemester 2006/07 2. Vorlesung
Mensch – Maschine - Kommunikation
1 VeranstaltungThemaTeilnehmerBetreuer AINF-Lehrgang PROGRAMMIEREN Martina GREILER Wolfgang KATOLNIG Peter RENDL Helfried TUISEL Peter ZYCH Heinz STEGBAUER.
BRÜCKENSEMESTER Kursthema: Frontend-Entwicklung für Webapplikationen M.Sc. Anna Prenzel, Sebastian Otto.
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
Lösungen zum Übungsblatt 3 zur Vorlesung Datenstrukturen Prof. R. Bayer, WS 2001/02 Übung 6.1: Konstruieren Sie den B-Baum aus der Klasse  h  der.
Delphi Chars und Strings
Daten und Information in der ITG
Pool Informatik, Sj 11/12 GZG FN W.Seyboldt 1 Pool Informatik 5 GZG FN Sj. 11/12 Kopieren, Daten, Programme.
Algorithmen und Datenstrukturen Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme Stefan Werner (Übungen) sowie viele Tutoren.
Florian Hutter & Nicole Waibel
Beispiel GPS-Parametrierung
ASCII Was ist ein ASCII Code?.
Sükün_Karatas Grundlagen der Codes Sükün_Karatas 3aFD.
Morsezeichen Verfahren zur Übermittlung von Buchstaben und Zeichen
Vertiefungsstoff zum Thema „Darstellung von Zahlen“
Von Bits, Bytes und Raid Eine Schnuppervorlesung Inhalt
Arbeiten mit WordSmith 4. Inhalt 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus) 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus)
Codierung. 16.Februar 20062Codierung Das Team Mario Kapl (Projektleiter) Ortrun Rössler Andreas Plank Christoph Pimminger Markus Stuhlberger Dominik Stelzeneder.
oder: wie Computer die Welt sehen
Einführung in die Objektorientierung
Graphen.
Präsentation Binär.
Verschlüsselung nach dem RSA-Verfahren
oder: wie Computer die Welt sehen
Wörter erkennen - Wörter finden aus … Buchstabensalat
Arbeiten mit dem Terminal
Übungsblatt 3 zur Vorlesung Datenstrukturen Prof. R. Bayer, WS 2001/02
Teilbarkeit und Primzahlen
GESCHWINDIGKEITSTEST
Laufzeitverhalten beim Sortieren
Informationen und ihre Darstellung Informationen und ihre Darstellung
Struktur-Funktions-Modelle von Pflanzen
Unsichere Passwörter oder:
Wörter erkennen - Wörter finden aus … Buchstabensalat
Hexadezimale Darstellung von Zahlen
Symmetrische Verschlüsselung
Medizinische Statistik und Informationsverarbeitung
Schnittdarstellung auf technischen Zeichnungen
Prof. J. Walter Bitte römische Zahlen im Geschichtsunterricht!
Evaluation zum bilingualen Zweig am Gymnasium Aspel 2017/18
Struktur-Funktions-Modelle von Pflanzen
REKURSION + ITERATION.
Geschichten erfinden Folge 1.
Punkte im Raum
Einführung: Statistische Verfahren der automatischen Indexierung
 Präsentation transkript:

Huffman – Kodierbaum zur Textkompression LK Informatik Huffman – Kodierbaum zur Textkompression

Huffman Baum LK Informatik Textkompression ASCII-Darstellung: Jedes Zeichen 1 Byte Unicode-Darstellung: Jedes Zeichen 2 Byte Speicherbedarf proportional zur Textlänge 1 Taschenbuch (300 Seiten à 45 Zeilen à 60 Zeichen): = 300*45*60 = 810 000 Byte ≈ 791 KB Kompaktere Speicherung erwünscht. Idee 1: häufig vorkommende Wörter durch Sondercode ersetzen z.B. BEGIN → £ ; END → ¥ usw. Idee 2: häufig vorkommende Buchstaben durch kürzeren Code, seltene durch längeren Code darstellen z.B. e → 10 ; x → 1001010110 usw.

Huffman Baum LK Informatik Das Morsealphabet Jeder Buchstabe wird durch eine Folge von '·' und '-' dargestellt. Häufig vorkommende Zeichen haben eine kurze Darstellung z.B. : e = · Seltene Zeichen werden durch lange Kombinationen dargestellt: z.B. : y = -·-- Problem: Wie erkennt man das Ende eines Zeichens ? Lösung 1: Spezielles Zeichen für Zeichenende z.B. : Ende = Pause Lösung 2: Verwendung eines Präfix-Codes kein Code ist Anfang eines anderen Codes

Huffman Baum LK Informatik Präfix - Code Jeder Code ist eindeutig aus einem Strom von Codierungen wiederherstellbar. Dies geht dann, wenn kein Code Anfang eines anderen Codes ist. Beispiel: Wie erkennt man das Ende eines Zeichens ? Die Folge 00100110001110011101111001 lässt sich ohne weitere Hilfen aus der Codetabelle zurückübersetzen. 00100110001110011101111001 W A S S E R

Huffman Baum LK Informatik Erzeugung eines Präfix-Codes nach Huffman Als Beispiel sollen die Buchstaben e, b, c, d, f, a kodiert werden. Die Häufigkeit der Buchstaben ist willkürlich angenommen. Die Reihenfolge ist hier zum Zeichnen günstig gewählt E B C D F A 0,4 0,05 0,04 0,15 0,16 0,2

Huffman Baum LK Informatik Erzeugung eines Präfix-Codes nach Huffman Prinzip: Die jeweils kleinsten Einheiten werden zu einem Baum vereinigt. 1,00 0,60 0,24 0,09 0,36 E B C D F A 0,4 0,05 0,04 0,15 0,16 0,2

Huffman Baum LK Informatik Huffman-Baum → Huffman-Code Linke Zweige = 1 Rechte Zweige = 0 1,00 1 E 0,60 0,4 0,24 0,36 0,09 D F A 0,15 0,16 0,2 B C 0,05 0,04