Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

Ähnliche Präsentationen


Präsentation zum Thema: "Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre."—  Präsentation transkript:

1 Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre Brückenkonzept der modernen Wissenschaften *. Dieses Kapitel beschreibt, aus welchen Aspekten Information besteht, welche für die Informarik wesentlichen Definitionsansätze es gibt und wie Information in der Informatik tatsächlich dargestellt wird. Inhalt 1.Was ist Information 2.Nachrichtentechnische Definition 3.Algorithmische Definition 4.Darstellung in der Informatik * (einige Teile dieses Kapitels entstammen: H.Lyre: Informationstheorie)

2 2.1Was ist Information Es deutet einiges darauf hin, dass Information ein zumindest ebenso fundamentaler Begriff ist, wie Stoff in der Chemie und Energie in der Physik (die tatsächlich schon zu Materie-Energie vereint wurden). Betrachtet man Information als ursächliche (atomare) Größe so ist die Frage: was ist Information eher irrelevant. Dafür rücken Fragestellungen wie woraus besteht Information, worin ist Information, was kann ich mit Information machen in den Vordergrund. In diesem Unterkapitel soll die erste dieser Fragen: woraus besteht Information? betrachtet werden Inhalt 1.Semiotische Dreidimensionalität 2.Semantik und Pragmatik 3.Semantische Ebenen

3 2.1.1Semiotische Dreidimensionalität Die wohl wichtigste Charakterisierung des Informationsbegriffes entspringt der Semiotik – der Zeichenlehre (Also die Lehre, die sich mit Zeichen bzw. Symbolen befasst) und lässt sich auf den Informationsbegriff übertragen. Demnach haben Informationseinheiten drei Aspekte: die Syntax betrifft das Auftreten einzelnder Informationseinheiten und ihrer Beziehungen untereinander. die Semantik betrifft die Bedeutung der Informationseinheiten und ihre Beziehungen untereinander. die Pragmatik betrifft die Wirkung der Informationseinheiten und ihrer Beziehungen untereinander. Diese drei Aspekte müssen in ihrer Gesamtheit berücksichtigt werden (entweder explizit oder implizit) sind ungewichtet haben keinen Bezug zum informationsverarbeitenden System (z.B. Mensch, Maschine, …)

4 2.1.2Semantik und Pragmatik Carl Friedrich von Weizsäcker: Information ist nur, was verstanden wird Information ist nur, was Information erzeugt (die wiederum syntaktische Aspekte hat, verstanden werden muss und Information erzeugen muss, die wiederum … hermeneutischer Zirkel) Der Aspekt verstanden werden erlaubt keine strenge Formalisierung (denn was bedeutet verstanden werden – wie kann man es messen) sehr wohl lässt sich aber der Aspekt Information erzeugen formalisieren. Beispiel: Person A bittet Person B, das Licht einzuschalten: Sequenz von Zeichen: B I T T E S C H A L T E D A S L I C H T A N Person B interpretiert die Zeichenkette = wertet die Semantik, die Bedeutung der Zeichenkette aus: ???? Person B generiert neue Information: Licht = on oder stellt sich einen erleuchteten Raum vor, was neurologisch zu messen ist. Da Semantik und Pragmatik eng miteinander verzahnt sind spricht man auch vom semantopragmatischen Aspekt der Information

5 2.1.3Semantische Ebenen Der semantopragmatischen Aspekt der Information zeigt die Unmöglichkeit eines absoluten Begriffs von Information, d.h. Information ist relativ zu den semantischen Ebenen der beteiligten Systemen. Beispiel (siehe 2.1.2): Person A spricht deutsch, Person B kann kein deutsch d.h. die semantischen Ebenen sind völlig disjunkt. Daher ist in diesem Bezugssystem zwar der syntaktische Aspekt von Information, aber keine semantischer und damit (wahrscheinlich) auch kein pragmatischer Aspekt und damit auch keine Information vorhanden. In der Realität sind unterschiedliche semantische Ebenen die Regel und verändern sich auch dynamisch: Beispiel: Beim Erlernen der Muttersprache testet ein Kleinkind zunächst Laute. Bei einer positiven Reaktion (z.B. Ma-Ma) erfolgt rudimentäre Wortbildung, die mit dem Semantikverständnis von Worten zu komplexeren syntaktischen Strukturen (Sätzen) mit komplexeren semantischen Strukturen weiterentwickelt werden. In der Informatik strebt man gleichartige semantische Ebenen an.

6 2.2Nachrichtentechnische Definition (nach Shannon) Information hat vielfältige Repräsentationsformen. Noch vor Entstehen der Informatik als Wissenschaft hat Claude Elwood Shannon ( ) wichtige Maßzahlen zur Erfassung von Information definiert. Dabei geht er von der nachrichtentechnischen Repräsentation von Information, der Nachricht aus. Dieses Unterkapitel stellt diese Maßzahlen und deren Grundlagen dar. Inhalt: 1.Nachricht 2.Informationsgehalt einer Nachricht 3.Informationsgehalt eines Zeichens 4.Mittlerer Informationsgehalt 5.Informationsgehalt des Menschen

7 2.2.1Definition: Nachricht sei Alphabet X: Menge von Symbolen/Zeichen X = {x 1, x 2,... x n } Eine Zeichenkette (ein Wort) der Länge n über X ist eine Folge von n Zeichen aus X (ein n-Tupel über X) Beispiel:X={a,b} Worte über X:{a,b,ab,ba,aba,abb,baa,bbb,...} Worte der Länge n mit n=3:{aaa,aab,aba,abb,baa,bab,bba,bbb} Die Menge aller n-Tupel über X ist das n-fache Kreuzprodukt X X... X (n mal), bezeichnet als X n |X n | = | X X... X | = |X| * |X| *... * |X| = |X| n Die Anzahl der Elemente alle Worte mit der maximalen Länge n ist |X| n Wird eine Zeichenkette übermittelt, so spricht man von Nachricht N x SenderKanalEmpfänger Störung Informationsübetragung (nach Shannon, Hartley, Weaver und Wiener)

8 2.2.2Definition: Informationsgehalt einer Nachricht Ein Maß für die Information (der Informationsgehalt) einer Nachricht N n,x der Länge n (über ein Alphabet X) ist die kürzeste Länge der Beschreibung, die notwendig ist, um die Nachricht N n,x aus der Menge aller möglichen Nachrichten der Länge n sicher zu ermitteln Beispiel: Information der Nachricht N 8,{0,1} : Suche in |{0,1}| 8 = 256 Wörtern Der Informationsgehalt einer aus mehreren (voneinander unabhängigen) Zeichen bestehenden Zeichenkette ist gleich der Summe der Informationen der einzelnen Zeichen: 1 * ld(|X|) + 1* ld(|X|) * ld(|X|) = n * ld(|X|) = ld(|X| n ) Optimal mit binärem Suchen Anzahl Fragen: ld(|X n |) = ld(|X| n ) = n ld(|X|) obere Hälfte ? janein obere Hälfte ? janein obere Hälfte ? janein...

9 2.2.3Definition: Informationsgehalt eines Zeichens Idee: Der Informationsgehalt eines Symbols x i hängt von der Wahrscheinlichkeit seines Auftretens ab: Je seltener ein Symbol auftritt, desto höher ist sein Informationsgehalt: h(x i ) = f(1/p(x i )) Definition nach Shannon (ca. 1950): Der Informationsgehalt h (Einheit bit) eines Symbols x i ist definiert als der Logarithmus Dualis des Reziprokwertes der Wahrscheinlichkeit, mit der das Symbol auftritt: h(x i ) = ld(1/p(x i )) = -ld p(x i )

10 2.2.3Beispiel: Informationsgehalt Beispiel: Sei die Wahrscheinlichkeit von E = 0,5 und die von H = 0,25 Informationsgehalt des Zeichens E : h E = ld (1/0.5) = 1bit Informationsgehalt des Zeichens H : h H = ld (1/0,25) = 2 bit Informationsgehalt der Zeichenkette EHE h EHE = ld(2) + ld(4) + ld(2) = ld(2 * 4 * 2) = 4 bit log a b = log c b log c a mit a = 2, c = 10 gilt: ld b = lg b lg 2 3,322 lg b Umrechnungsregel des ld in den 10er-Logarithmus (lg)

11 2.2.4Definition: Mittlerer Informationsgehalt Kennt man die Einzelwahrscheinlichkeiten aller möglichen Symbole einer Symbolsequenz, so ist der mittlere Informationsgehalt H s der Symbole s (Entropie der Quelle) definiert als: H s = (p(x i ) * h(x i )) = (p(x i ) * ld(1/p(x i ))) = - p(x i ) * ld(p(x i ))) Der mittlere Informationsgehalt H s,n einer Symbolkette der Länge n ist: H s,n = H s * n Beispiel H s = 0,5 * 1bit + 0,25 * 2bit + 0,25 * 2bit = 1,5 bit d.h. die Symbole haben einen mittleren Informa- tionsgehalt von 1,5 bit.

12 2.2.5Beispiel: Bitfolge Aus welcher Himmelsrichtung weht der Wind (N, O, S, W) ? Bei anzunehmender Gleichverteilung der Antworten ist der mittlere Informationsgehalt H = p(x i ) * ld(1/p(x i )) = 4*(0,25*2) = 2 bit Die Frage lässt sich in zwei Fragen umsetzen Weht der Wind aus N oder O (ja/nein) ? Weht der Wind aus O oder W (ja/nein) ? Eine mögliche Antwort: 1 Frage=ja, 2 Frage=nein lässt sich durch die Bitfolge 10 darstellen und bezeichnet eindeutig Norden als die Windrichtung 10 = Norden 11 = Osten 01 = Westen 00 = Süden Nimmt man noch die Zwischenrichtungen NO, SO, SW und NW hinzu, so können die 8 Zustände mit 3 Bit codiert werden (wie?)

13 2.2.6Beispiel: Informationsaufnahme des Menschen Beim Lesen (eines deutschen Textes) erreicht der Mensch eine Geschwindigkeit von ca. 25 Zeichen/sec das entspricht 25 * 2 Bit (mittleren Informationsgehalt in der deutschen Sprache) = 50 Bit/sec dieser Wert ist unabhängig vom Alphabet - kann also auch z.B. im chinesischen erreicht werden (weniger Zeichen/sec, größerer mittlerer Informationsgehalt). Nachrichten, die mit anderen Medien dargestellt werden, können ca. genauso schnell verarbeitet werden. Aufnahme des Menschen Bewusst aufgenommen werden ca. 50% von 50 Bit/sec also 25 bit/sec Bei einer Aufnahmedauer von ca. 16 Stunden am Tag ergibt sich eine Lebensinformationsmenge von ca. 3 * Bit die Speicherkapazität des Gehirns ist mit ca Bit auch in der Lage, diese Informationsmenge zu speichern (sogar 100 Mal) Die Lebensinformationsmenge findet auf einer CD-ROM Platz und ist über Glasfaserkabel in wenigen Sekunden zu übertragen.

14 2.3Algorithmische Definition Betrachten wir folgende Nachrichten: nach Shannon ist der Informationsgehalt der ersten Zeichenkette A identisch mit dem der zweiten Zeichenkette B (denn h A (0)=h B (0) und h A (1)= h B (1) ) Aber: Ist das (intuitiv) wirklich so ? Inhalt: 1.Die Turing-Maschine 2.Das Turing-Programm 3.Beispiele H. Ernst:Grundlagen und Konzepte der Informatik,Vieweg-Verlag,2000

15 2.3.1Einige Fragen 1.Wie kann eine Regel (Algorithmus) zur Generierung von Zeichenketten beschieben werden? 2.Gibt es ein Modell, mit dem man solche Regeln formalisieren kann? Wie sieht ein solches abstraktes Model aus ? Gibt es genau ein Model oder mehrere ? Sind diese Modelle äquivalent ? 3.Kann jede Zeichenkette durch einen Algorithmus beschrieben werden.

16 2.3.2Die Turing-Maschine Als abstraktes Modell eines Computers beschrieb Alan Turing ( ) also noch vor der Erfindung des Digitalrechners - eine nach ihm benannte abstrakte Maschine Formal kann eine Turing-Maschine wie folgt beschrieben werden: Alphabet: A = {a 0,..., a n }, der Zeichenvorrat der Turing-Maschine, wobei a 0 das Leerzeichen ("blank") darstellt (Oft: a 1 =0, a 2 =1) Bandinschrift: B: Z A eine Zuordnung, die jeder Stelle des rechtsseitig unendlichen Bandes ein Zeichen zuordnet. Dabei wird festgesetzt, dass B(k) = a 0 für alle bis auf endlich viele. Kopfposition: k Z Zustände: eine endliche Menge von Maschinenzuständen.Q = {q 0,..., q m } Darunter sind q 0, der Anfangszustand und H Q, die Menge der Haltezustände, ausgezeichnet. Statt Haltzustände wird oft auch eine Halteaktion angegeben Turing-Tabelle: eine Übergangsrelation: d : A Q A Q {r, l, n, h}, das jedem (gelesenen) Zeichen in Abhängigkeit eines Zustandes ein neues Zeichen, einen Folgezustand und eine Aktion (r,l,n,h} zuordnet

17 2.3.3Das Turing-Programm Die Aktionen: r (right): das Verschieben des Kopfes nach rechts l (left): das Verschieben des Kopfes nach links optional n (none): keine Bewegung des Kopfes optional h (halt): Impliziter Übergang in einen Endzustand a1a1 a2a2 a3a3 a4a4...a6a6 die Maschine im Zustand das unter dem Kopf gelesene Zeichen die Aktion der neue Zustand q q r oder l akak das neue Zeichen fallsso ist alal

18 2.3.4Beispiel Das Busy beaver-Problem: Wie viele 1-en kann ein terminierendes Turing-Programm auf einem leeren Band mit einer vorgegebenen Anzahl von Zuständen maximal erzeugen. In dieser Notation wird statt eines Übergangs in den Haltezustand (z.B. q5) die Aktion halt ausgeführt. Der Rekord für |Z|=5 liegt bei en (J.Buntrock, H.Marxen, 1989) Es wurde gezeigt, dass es möglich ist, mehr als en zu generieren - allerdings nicht wie. 11 Schritte, 6 Einsen 96 Schritte, 13 Einsen

19 2.3.5Information Die algoritmische Definition definiert Informationgehalt: der algorithmische Informationsgehalt einer Nachricht ergibt sich aus der Länge L des kürzesten Algorithmuses (z.B. Turing-Programms), welches die Nachricht erzeugt. Daraus ergibt sich, dass der algorithmische Informationsgehalt (bis auf eine kleine Konstante) immer kleiner oder gleich dem (nachrichtentechnischen) Informationsgehalt einer Nachricht ist, denn im einfachsten Fall kann die Turing-Maschine die komplette Nachricht auf dem Turingband codieren und besteht aus einem leeren Programm.

20 2.3Darstellung in der Informatik Die Wurzeln der Informatik liegen weniger in der Nachrichtentechnik, als vielmehr in der Mathematik. Darum ist die Repräsentation von Information als Nachricht weniger relevant als die Darstellung von Zahlen (in binärer Repräsentation) und algebraischen (boolschen) Objekten. In diesem Unterkapitel geht es um diese Repräsentationen. Inhalt 1.Das Bit in der Informatik 2.Die Darstellung des Bit 3.Beispiel 4.Das Byte und mehr

21 2.3.1Das Bit in der Informatik Definition aus der Informatik: Ein bit ist die Informationsmenge in einer Antwort, auf eine Frage, die zwei Möglichkeiten zulässt: ja /nein wahr/falsch schwarz/weiß... Der Informationsgehalt eines Zeichens einer zweielementigen Alphabetes mit gleicher Auftretungswahrscheinlichkeit ist (nach Shannon) h = -ld p = -ld 0,5 = 1bit

22 2.3.2Die Darstellung des Bit Diese zwei Möglichkeiten werden meist mit 0 bzw. 1 codiert Die technische Darstellung erfolgt u.a. mit Hilfe von: Ladung 0 = ungeladen 1 = geladen Spannung 0 = 0 Volt 1 = 5 Volt Magnetisierung 0 = nicht magnetisiert 1 = magnetisiert Licht 0 = kein Licht 1 = Licht Reflexionseigenschaften 0 = reflektiert 1 = reflektiert nicht...

23 2.3.4Das Byte und mehr Aus bestimmten Gründen Geschwindigkeit von Lese- und Schreiboperationen Darstellungsmöglichkeit häufiger Zeichen (z.B. Alphabet) Darstellungsmöglichkeiten von Zahlen, etc. werden in der Informatik oft Vielfache von 8Bit-Gruppen verwendet (8Bit, 16Bit,...) Eine 8-Bitsequenz heißt ein Byte. Bestimmte 2er-Potenzen werden in der Informatik häufig als Maßzahlen (z.B. für Speichergrößen) verwendet: 1 KByte = 2 10 = 1024 Byte (1 Kilobyte) 1 MByte = 2 10 * 2 10 Byte (1 Megabyte) 1 GByte = 2 10 * 2 10 * 2 10 Byte (1 Gigabyte) 1 TByte = 2 10 * 2 10 * 2 10 * 2 10 Byte (1 Terrabyte)

24 2.4Zusammenfassung des Kapitels Was ist Information Nachrichtentechnische Definition Informationsgehalt eines Zeichens (x)h(x) = ld (1/p(x)) = - ld (p(x) einer Nachricht (n)h(n) = h(n 1 ) + h(n 2 ) + h(n 3 ) +... Mittlerer Informationsgehalt ein/aller Zeichen(s) (x)H(x) = p(x i ) * h(x i ) einer Nachricht (n)H(n) = n * H(x) Algorithmische Definition Definition in der Informatik Bits und Bytes Achtung: Nicht verwechseln !


Herunterladen ppt "Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre."

Ähnliche Präsentationen


Google-Anzeigen