Codierung und Datenkompression

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Powerpoint-Präsentation
Motivation Bisher: Codes mit möglichst kurzer Codelänge.
Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Codierung Haydn: Streichquartett op 54.3 aus Largo, Violine I
Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Information - syntaktisch
Suche in Texten (Stringsuche )
11. Datenkomprimierung Bei den meisten bisher betrachteten Algorithmen wurde vor allem das Ziel verfolgt, möglichst wenig Zeit aufzuwenden, und erst in.
Übung 2.1 Information Wieviele Fragen benötigen Sie beim „Zahlenraten“
Mathematik des Bridge Tanja Schmedes.
Verfahren zur Skalierung der Nutzbarkeit von Freizeit Oder: wie messe ich, dass Mittwoch nicht Samstag ist?
C.M. Presents D.A.R. und Ein Bisschen dies und das!
Numerik partieller Differentialgleichungen
Gliederung Vertrauensintervalle Arten von Hypothesen
Kompressionsverfahren für Texte
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.
Optimale Kombination mehrerer Datenquellen durch Kriging
Fliegengewicht Ein objektbasiertes Strukturmuster.
Huffmans Kompressionsverfahren
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
Was sind Histogramme? (1)
Univariate Statistik M. Kresken.
Huffman Entropie-Codierung Codierung mit variabler Länge
Digital Audio Medientyp digital audio representation
Tutorium
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Externe Bewertung in IB-Biologie
Information und Kommunikation
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation
Information und Kommunikation
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Java, Java, Java R. Morelli
Wahrscheinlichkeitsrechnung
Einführung ins Lösen von Textaufgaben (Textgleichungen)
Wahrscheinlichkeitsrechnung
Referat über das Thema STOCHASTIK.
1 Stichprobenverfahren zur Qualitätssicherung Hilfestellung der Statistik in der Wirtschaftsprüfung.
Die eigene Werbeagentur im Urteil der Werbeauftraggeber
Das Binär-System Alles ist davon abhängig, ob Strom fließt oder nicht!
Informationstheorie Begr. von Claude Shannon
Das ABC der Statistik DIE SÄULENDIAGRAMME 1
Grundlagen der Kommunikation in Verbindung mit der Codierung von Daten
1. 2. Berechnen von Wahrscheinlichkeiten
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Toleranzanalyse und Simulation Beispiel 1, Montage von Einzelteilen
Statistik – Regression - Korrelation
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig
setzt Linearität des Zusammenhangs voraus
K. Desch - Statistik und Datenanalyse SS05
Varianzanalyse und Eta²
Die Binomialverteilung
Information Retrieval Methoden, die dazu dienen, unstrukturierte Daten zu beschreiben, zu speichern und später nach inhaltlichen Kriterien wieder aufzufinden.
Information - syntaktisch
Der Wiener Prozess und seltene Ereignisse
Binärbäume.
Geoinformationssysteme
Vertiefungsstoff zum Thema „Darstellung von Zahlen“
14 Aufgaben zum Rechnen mit physikalischen Größen
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
- Seite 1 TIME INTELLIGENCE ® by Zeichenrand – Löschen! Titel.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
1 Codierung Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg, Haydn: Streichquartett op 54.3 aus Largo,
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
PSK (Phase Shift Keying)
 Präsentation transkript:

Codierung und Datenkompression

Digitalisierung Abb.1.1 Y(t) Y(t) analog zeitdiskrete t t Y(t) wertdiskrete t

Kanalubertragung, Speicherung Qellen- encodierung Kanal- codierung Modulation Qelle Kanalubertragung, Speicherung Qellen- decodierung Empfänger Fehlerkorrektur Demodulation

Datenkompression 2 3 1 Codierung Dekorrelation Datenreduktion

Ein Zeichen, Symbol oder Ereignis sei mit Si bezeichnet Ein Zeichen, Symbol oder Ereignis sei mit Si bezeichnet. Dann umfasst das Alphabet Z = {si} mit i = 1,2,...,K die Menge aller vorkommenden (unterschiedlichen) Symbole. Signale werden mit x[n] beschrieben, wobei die eckigen Klammern symbolisieren, daß das Signal zeitdiskret ist. x[n] ist gleichzeitig als endliche Folge von Symbolen aus Z zu betrachten.

Jedes Ereignis si besitzt eine Auftretenswahrscheinlichkeit pi In Abhängigkeit von pi ermittelt man den Informationsgehalt des Symbols I(si) mit: 2.1 Die Einheit des Informationsgehalts wird in l bit (analog zu l Volt) angegeben.

Aus Gleichung (2.1) kann abgelesen werden, dass der Informationsgehalt eines Ereignisses umso kleiner ist, je häufiger das Ereignis auftritt. Oder anders gesagt: je überraschender das Auftreten eines Symbols, desto größer die damit verbundene Information. Am Beispiel der Wettervorhersage soll die Verwendung des Informationsgehalts demonstriert werden.

Tabelle 2.1: Wetterinformation, links: gleichverteiltes Wetter, rechts: Ergebnis einer Langzeit-Observation I[bit] I[bit] I[bit] I[bit] ? ? Wir befinden uns in einem sehr frühen Stadium der Wetterforschung und unterscheiden lediglich vier Zustände: Sonne, Wolken, Regen und Schnee Beobachtungen über einen längeren Zeitraum ergeben allerdings eine andere Verteilung des Wetters (Tab. 2.1 rechts).

Hier stellt sich die Frage, welche Codewörter den Symbolen Sonne bis Schnee zugewiesen werden müssen, um eine optimale Codierung zu erreichen. An dieser Stelle lässt sich aber bereits vermuten, dass der neue Code variable Längen aufweist, während die alten Codewörter eine feste Länge von 2 Bits haben. Jedes Codewort kann durch einen Codewert und eine Codelänge definiert werden. Die Länge gibt die Anzahl der zusammenhängenden Bits an.

Der Codewert ist derjenige Zahlenwert, der sich bei Interpretation des Codewortes als binäre Zahl ergibt. Das Codewort „00011" zum Beispiel hat eine Codelänge von 5 Bits und einen Codewert von 3. Die Gesamtheit aller Codewörter eines Alphabets wird als Code bezeichnet.

Die Frage ist, wie viel bit erforderlich sind, um die Information einer n- stelligen Zahl eines b- wertigen Zahlensystems zu beschreiben. Die größte, mit n Ziffern darstellbare Zahl jedes Zahlensystems beträgt Löst man die Gleichung nach der Anzahl der binären Stellen k auf, erhält man Daraus ergibt sich zum Beispiel, dass eine Ziffer des dezimalsystems einer Information von log2(10) 3.32 bit entspricht.

Für die Berechnung des mittleren Informationsgehalts einer Folge von statistisch unabhängigen Symbolen verwendet man die Entropie H. Sie berechnet sich aus der Summe der gewichteten Einzelinformationen [bit/Symbol] [2.2] Die Einheit ist 1 bit pro Symbol. Der Wertebereich der Entropie ist durch die Anzahl verschiedener Symbole K definiert

Die Entropie hat ihren höchsten Wert, wenn alle Symbole gleichverteilt sind (pi = 1/K) Je ungleichmäßiger die Symbole verteilt sind, desto geringer ist der Informationsgehalt des Signals. Der Extremfall H = 0 ist erreicht, wenn nur ein einziges Symbol des Alphabets im Signal vorkommt K=1

Entropie eines binären Signals als Funktion der Symbolwahrscheinlichkeit pi

Kommen wir nun noch einmal zur Übermittlung von Wetterdaten zurück. Wie groß ist der mittlere Informationsgehalt der Nachrichten an die Zentrale bei ungleichmäßiger Verteilung des Wetters entsprechend Tabelle 2.1 rechts? Die Entropie beträgt nach Gleichung (2.2) Hsrc =0.5.1 bit + 0.25 • 2 bit + 0.125 • 3 bit + 0.125 • 3 bit = =1.75 bit/Symbol . Für die Datenkompression bedeutet dies, es muss einen Weg geben, die vier Wetterlage im Durchschnitt mit weniger als 2 Bits pro Nachricht zu unterscheiden.

Redundanz Als Codierungsredundanz wird die Differenz zwischen der durchschnittlichen Datenmenge pro Symbol und der Entropie des Signals Hsrc bezeichnet Ein Signal bestehe aus fünf verschiedenen Symbolen mit Die Entropie des Signals beträgt nach Gl. (2.2) somit rund Hsrc 2.246. Der Speicheraufwand beträgt bei Verwendung von festen Codelängen mindestens Ssrc = log2 K = 3 Bits pro Symbol. Die Codierungsredundanz beträgt demzufolge

Kriterien zur Kompressionsbewertung Beurteilung von Kompressionsalgorithmen. Ziel der Bewertung ist der Vergleich zwischen verschiedenen Codierungsstrategien. Kompressionsrate Die Kompressionsrate ergibt sich aus dem Verhältnis von Datenmenge des ursprünglichen Signals und der Datenmenge des codierten Signals

Oft wird die Kompressionsleistung mit Hilfe der Bitrate angegeben Oft wird die Kompressionsleistung mit Hilfe der Bitrate angegeben. Die Bitrate entspricht der Datenmenge NB (in Bits) des codierten Signals bezogen auf die Anzahl NA der Symbole [bit/Symbol] Für Bilddaten wird die Bitrate meist in bit pro Bildpunkt (engl.: bit per pixel [bpp]) angegeben.

Signalqualität Die Bewertung der Signalqualität ist für die Einschätzung von verlustbehafteten Kompressionsverfahren von Interesse. Grundsätzlich wird zwischen objektiver und subjektiver Beurteilung der Qualität unterschieden. Objektiv bedeutet, dass ein Computerprogramm das Original mit dem veränderten, auf der Empfängerseite rekonstruierten Bild vergleicht und die Unterschiede der Helligkeits und Farbwerte in einer Zahl zusammenfasst. Subjektive Qualitätsbewertung setzt im Gegensatz dazu mehrere Testpersonen voraus, die ihr Urteil zur Qualität abgeben.

Verzerrungsmaße • Mittlerer quadratischer Fehler (engl.: mean square error) Große Differenzen zwischen den Signalwerten werden durch das Quadrieren stärker gewichtet als kleinere Differenzen.

Mittlerer absoluter Fehler (engl.: mean absolute difference) Dieses Maß verzichtet auf das Quadrieren und wird eingesetzt, wenn es auf eine schnellere Berechnung ankommt. Summe der absoluten Fehler (engl.: sum of absolute difference/distortions) Der SAD-Wert unterscheidet sich vom MAD lediglich durch die fehlende Division durch N. Für ausschließlich vergleichende Zwecke ist diese Normierung nicht erforderlich und die Berechnung wird dadurch beschleunigt.

Qualitätsmaße Signal-Rausch-Verhältnis (engl.: signal-to-noise ratio) Das Signal-Rausch-Verhältnis ist ein Qualitätsmaß und hat im Gegensatz zu der vorangegangenen Verzerrungsmaßen einen steigenden Wert mit steigender Qualitäl des rekonstruierten Signals. Es wird in Dezibel angegeben

ist die Varianz des Originalsignals und berechnet sich nach ist entsprechend die Varianz des Rekonstruktionsfehlers e[n] = x[n] — x[n]. Falls der Rekonstruktionsfehler mittelwertfrei ist, sind Fehlervarianz und MSE identisch

Codierungstheorie Ziel ist die Zuordnung von Codewörtern (Bitfolgen) derart, dass die mittlere Bitrate minimiert. Es wird versucht, jedem Symbol nur so viele Bits zuzuordnen, wie es aufgrund des Informationsgehalts des Symbols erforderlich ist. Symbolen mit hoher Auftretenswahrscheinlichkeit werden kurze Codewörter zugewiesen, während seltene Symbole längere Codewörter erhalten. Die Theorie der Codierung, wie wir sie heute verwenden, geht auf Claude E. Shannon zurück

k sei die Länge jenes Codewortes ci, das dem Symbol si mit der Auftretenswahrscheinlichkeit pi zugeordnet wird. Die mittlere Codelänge einer Symbolfolge kann dann mit 4.1 angegeben werden, wenn die Signalquelle K verschiedene Zeichen produziert.

Die niedrigste Bitrate wird erreicht, wenn ein Code den kleinsten Wert für li liefert. Die entscheidende Frage ist nun, ob es eine untere Grenze für die mittlere Codelänge gibt und wenn ja, wie groß sie ist. Shannon hat 1948 bewiesen, dass li stets größer oder mindestens gleich der Quellenentropie Hsrc ist. Darüber hinaus hat er gezeigt, dass immer ein Code gefunden werden kann, der eine Übertragung mit weniger als Hsrc + l bit pro Abtastwert ermöglicht.

li= l = log2(4)= 2 Bits zugeordnet. In Tabelle 4.1 ist ein Beispiel für ein Symbolalphabet mit K = 4 Zeichen angegeben. Auf Basis der Wahrscheinlichkeiten ergibt sich für jedes Symbol nach Gleichung (2.1) i 1 2 3 4 si a b c d pi 0.4 0.2 0.1 0.3 Ii[bit] 1.32 2.32 3.32 1.74 Ci 00 01 10 11 k Tabelle 4.1 Die Entropie beträgt somit laut Gleichung (2.2) Hsrc = 0.4 • 1.32 + 0.2 • 2.32 + 0.1 • 3.32 + 0.3 • 1.74 = 1.846 bit/Symbol. Den Symbolen wurden Codewörter mit einer festen Länge von li= l = log2(4)= 2 Bits zugeordnet. Die durchschnittliche Codelänge beträgt entsprechend Gl. (4.1) k = 0.4 • 2 + 0 . 2 • 2 + 0.1 • 2 + 0.3 • 2 = 2 Bits/Symbol.

Eine übliche Darstellungsform für Codes sind sogenannte Codebäume. Es ist zu erkennen, dass dieser Code die durch die Entropie vorgegebene untere Grenze nicht unterschreitet (li > Hsrc). Der Code ist aber auch schon so gut, dass er innerhalb der in Gleichung (4.2) angegebenen Grenzen liegt. Eine übliche Darstellungsform für Codes sind sogenannte Codebäume. Abbildung 4.1 zeigt den Codebaum für das Beispiel aus Tabelle 4.1. Die Symbole bilden die Blätter des Baumes und die Beschriftung der Zweige von der Wurzel bis zum Blatt entspricht dem jeweiligen Codewort. 1 1 1 a b c d Abbildung 4.1: Codewortbaum mit Codewörtern gleicher Länge

i 1 4 2 3 Si a d b c Pi 0.4 0.3 0.2 0.1 Ii[bit] 1.32 1.74 2.32 3.32   - Ci 01 001 000 k

i 1 2 3 4 5 6 7 Pi 0.4 0.1   - Ci 11 10 0111 0110 010 001 000

i 1 2 3 4 Si a b c d Pi 0.4 0.2 0.1 0.3 Ci 011 010 00 k

i Ci li 1 2 011 3 010 4 0011 5 0010 6 0001 7 0000

i Ci li 1 11 2 010 3 100 4 011 5 6 001 7 000