Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Codierung und Datenkompression. analog wertdiskrete zeitdiskrete t Y(t) t Y(t) Y(t) Digitalisierung Abb.1.1 t.

Ähnliche Präsentationen


Präsentation zum Thema: "Codierung und Datenkompression. analog wertdiskrete zeitdiskrete t Y(t) t Y(t) Y(t) Digitalisierung Abb.1.1 t."—  Präsentation transkript:

1 Codierung und Datenkompression

2 analog wertdiskrete zeitdiskrete t Y(t) t Y(t) Y(t) Digitalisierung Abb.1.1 t

3 Qelle Qellen- encodierung Kanal- codierung Modulation Kanalubertragung, Speicherung DemodulationFehlerkorrektur Empfänger Qellen- decodierung

4

5 Datenkompression Codierung Datenreduktion Dekorrelation 1 32

6 Ein Zeichen, Symbol oder Ereignis sei mit S i bezeichnet. Dann umfasst das Alphabet Z = {s i } mit i = 1,2,...,K die Menge aller vorkommenden (unterschiedlichen) Symbole. Signale werden mit x[n] beschrieben, wobei die eckigen Klammern symbolisieren, daß das Signal zeitdiskret ist. x[n] ist gleichzeitig als endliche Folge von Symbolen aus Z zu betrachten.

7 Jedes Ereignis s i besitzt eine Auftretenswahrscheinlichkeit p i In Abhängigkeit von p i ermittelt man den Informationsgehalt des Symbols I(s i ) mit: 2.1 Die Einheit des Informationsgehalts wird in l bit (analog zu l Volt) angegeben.

8 Informationsgehalt eines Ereignisses umso kleiner ist, je häufiger das Ereignis auftritt. Aus Gleichung (2.1) kann abgelesen werden, dass der Informationsgehalt eines Ereignisses umso kleiner ist, je häufiger das Ereignis auftritt. Oder anders gesagt: je überraschender das Auftreten eines Symbols, desto größer die damit verbundene Information. Am Beispiel der Wettervorhersage soll die Verwendung des Informationsgehalts demonstriert werden.

9 I[bit] Tabelle 2.1: Wetterinformation, links: gleichverteiltes Wetter, rechts: Ergebnis einer Langzeit-Observation ? Wir befinden uns in einem sehr frühen Stadium der Wetterforschung und unterscheiden lediglich vier Zustände: Sonne, Wolken, Regen und Schnee I[bit] ? Beobachtungen über einen längeren Zeitraum ergeben allerdings eine andere Verteilung des Wetters (Tab. 2.1 rechts).

10 Hier stellt sich die Frage, welche Codewörter den Symbolen Sonne bis Schnee zugewiesen werden müssen, um eine optimale Codierung zu erreichen. der neue Code variable Längen aufweist, während die alten Codewörter eine feste Länge von 2 Bits habenAn dieser Stelle lässt sich aber bereits vermuten, dass der neue Code variable Längen aufweist, während die alten Codewörter eine feste Länge von 2 Bits haben. Jedes Codewort kann durch einen Codewert und eine Codelänge definiert werden. Die Länge gibt die Anzahl der zusammenhängenden Bits an.

11 Der Codewert ist derjenige Zahlenwert, der sich bei Interpretation des Codewortes als binäre Zahl ergibt. Das Codewort 00011" zum Beispiel hat eine Codelänge von 5 Bits und einen Codewert von 3. Die Gesamtheit aller Codewörter eines Alphabets wird als Code bezeichnet.Die Gesamtheit aller Codewörter eines Alphabets wird als Code bezeichnet.

12 Die Frage ist, wie viel bit erforderlich sind, um die Information einer n- stelligen Zahl eines b- wertigen Zahlensystems zu beschreiben. Die größte, mit n Ziffern darstellbare Zahl jedes Zahlensystems beträgt Löst man die Gleichung nach der Anzahl der binären Stellen k auf, erhält man Daraus ergibt sich zum Beispiel, dass eine Ziffer des dezimalsystems einer Information von log 2 (10) 3.32 bit entspricht.

13 Für die Berechnung des mittleren Informationsgehalts einer Folge von statistisch unabhängigen Symbolen verwendet man die Entropie H. Sie berechnet sich aus der Summe der gewichteten Einzelinformationen [bit/Symbol] [2.2] Die Einheit ist 1 bit pro Symbol. Der Wertebereich der Entropie ist durch die Anzahl verschiedener Symbole K definiert

14 Die Entropie hat ihren höchsten Wert, wenn alle Symbole gleichverteilt sind (p i = 1/K) Je ungleichmäßiger die Symbole verteilt sind, desto geringer ist der Informationsgehalt des Signals. Der Extremfall H = 0 ist erreicht, wenn nur ein einziges Symbol des Alphabets im Signal vorkommt K=1

15 Entropie eines binären Signals als Funktion der Symbolwahrscheinlichkeit p i

16 Kommen wir nun noch einmal zur Übermittlung von Wetterdaten zurück. Wie groß ist der mittlere Informationsgehalt der Nachrichten an die Zentrale bei ungleichmäßiger Verteilung des Wetters entsprechend Tabelle 2.1 rechts? Die Entropie beträgt nach Gleichung (2.2) H src =0.5.1 bit bit bit bit = =1.75 bit/Symbol. Für die Datenkompression bedeutet dies, es muss einen Weg geben, die vier Wetterlage im Durchschnitt mit weniger als 2 Bits pro Nachricht zu unterscheiden.

17 Redundanz Als Codierungsredundanz wird die Differenz zwischen der durchschnittlichen Datenmenge pro Symbol und der Entropie des Signals H src bezeichnet Ein Signal bestehe aus fünf verschiedenen Symbolen mit Die Entropie des Signals beträgt nach Gl. (2.2) somit rund H src Der Speicheraufwand beträgt bei Verwendung von festen Codelängen mindestens S src = log 2 K = 3 Bits pro Symbol. Die Codierungsredundanz beträgt demzufolge

18 Beurteilung von Kompressionsalgorithmen. Ziel der Bewertung ist der Vergleich zwischen verschiedenen Codierungsstrategien. Kompressionsrate Die Kompressionsrate ergibt sich aus dem Verhältnis von Datenmenge des ursprünglichen Signals und der Datenmenge des codierten Signals Kriterien zur Kompressionsbewertung

19 die KompressionsleistungOft wird die Kompressionsleistung mit Hilfe der Bitrate angegeben. Die Bitrate entspricht der Datenmenge N B (in Bits) des codierten Signals bezogen auf die Anzahl N A der Symbole [bit/Symbol] Für Bilddaten wird die Bitrate meist in bit pro Bildpunkt (engl.: bit per pixel [bpp]) angegeben.

20 Signalqualität Die Bewertung der Signalqualität ist für die Einschätzung von verlustbehafteten Kompressionsverfahren von Interesse. Grundsätzlich wird zwischen objektiver und subjektiver Beurteilung der Qualität unterschieden. Objektiv bedeutet, dass ein Computerprogramm das Original mit dem veränderten, auf der Empfängerseite rekonstruierten Bild vergleicht und die Unterschiede der Helligkeits und Farbwerte in einer Zahl zusammenfasst. Subjektive Qualitätsbewertung setzt im Gegensatz dazu mehrere Testpersonen voraus, die ihr Urteil zur Qualität abgeben.

21 Verzerrungsmaße Mittlerer quadratischer Fehler (engl.: mean square error) Große Differenzen zwischen den Signalwerten werden durch das Quadrieren stärker gewichtet als kleinere Differenzen.

22 Mittlerer absoluter Fehler (engl.: mean absolute difference) Dieses Maß verzichtet auf das Quadrieren und wird eingesetzt, wenn es auf eine schnellere Berechnung ankommt. Summe der absoluten Fehler (engl.: sum of absolute difference/distortions) Der SAD-Wert unterscheidet sich vom MAD lediglich durch die fehlende Division durch N. Für ausschließlich vergleichende Zwecke ist diese Normierung nicht erforderlich und die Berechnung wird dadurch beschleunigt.

23 Qualitätsmaße Signal-Rausch-Verhältnis (engl.: signal-to-noise ratio) Das Signal-Rausch-Verhältnis ist ein Qualitätsmaß und hat im Gegensatz zu der vorangegangenen Verzerrungsmaßen einen steigenden Wert mit steigender Qualitäl des rekonstruierten Signals. Es wird in Dezibel angegeben

24 ist die Varianz des Originalsignals und berechnet sich nach ist entsprechend die Varianz des Rekonstruktionsfehlers e[n] = x[n] x[n]. Falls der Rekonstruktionsfehler mittelwertfrei ist, sind Fehlervarianz und MSE identisch

25 Ziel ist die Zuordnung von Codewörtern (Bitfolgen) derart, dass die mittlere Bitrate minimiert. Es wird versucht, jedem Symbol nur so viele Bits zuzuordnen, wie es aufgrund des Informationsgehalts des Symbols erforderlich ist. Symbolen mit hoher Auftretenswahrscheinlichkeit werden kurze Codewörter zugewiesen, während seltene Symbole längere Codewörter erhalten. Die Theorie der Codierung, wie wir sie heute verwenden, geht auf Claude E. Shannon zurück Codierungstheorie

26 k sei die Länge jenes Codewortes c i, das dem Symbol s i mit der Auftretenswahrscheinlichkeit p i zugeordnet wird. Die mittlere Codelänge einer Symbolfolge kann dann mit angegeben werden, wenn die Signalquelle K verschiedene Zeichen produziert. 4.1

27 Die niedrigste Bitrate wird erreicht, wenn ein Code den kleinsten Wert für l i liefert. Die entscheidende Frage ist nun, ob es eine untere Grenze für die mittlere Codelänge gibt und wenn ja, wie groß sie ist. Shannon hat 1948 bewiesen, dass li stets größer oder mindestens gleich der Quellenentropie Hsrc ist. Darüber hinaus hat er gezeigt, dass immer ein Code gefunden werden kann, der eine Übertragung mit weniger als Hsrc + l bit pro Abtastwert ermöglicht.

28 In Tabelle 4.1 ist ein Beispiel für ein Symbolalphabet mit K = 4 Zeichen angegeben. Auf Basis der Wahrscheinlichkeiten ergibt sich für jedes Symbol nach Gleichung (2.1) i1234 siabcd pipi I i [bit] CiCi k2222 Tabelle 4.1 Die Entropie beträgt somit laut Gleichung (2.2) H src = = bit/Symbol. Den Symbolen wurden Codewörter mit einer festen Länge von l i = l = log 2 (4)= 2 Bits zugeordnet. Die durchschnittliche Codelänge beträgt entsprechend Gl. (4.1) k = = 2 Bits/Symbol.

29 Es ist zu erkennen, dass dieser Code die durch die Entropie vorgegebene untere Grenze nicht unterschreitet (li > H src ). Der Code ist aber auch schon so gut, dass er innerhalb der in Gleichung (4.2) angegebenen Grenzen liegt. Eine übliche Darstellungsform für Codes sind sogenannte Codebäume. Abbildung 4.1 zeigt den Codebaum für das Beispiel aus Tabelle 4.1. Die Symbole bilden die Blätter des Baumes und die Beschriftung der Zweige von der Wurzel bis zum Blatt entspricht dem jeweiligen Codewort. Abbildung 4.1: Codewortbaum mit Codewörtern gleicher Länge abcd

30

31 i1423 Siadbc Pi I i [bit] Ci k1233

32

33

34 i Pi Ci

35

36

37 i1234 Siabcd Pi Ci k1332

38 iCili

39 iCili


Herunterladen ppt "Codierung und Datenkompression. analog wertdiskrete zeitdiskrete t Y(t) t Y(t) Y(t) Digitalisierung Abb.1.1 t."

Ähnliche Präsentationen


Google-Anzeigen