Informationstheorie Begr. von Claude Shannon

Slides:

Advertisements

Ähnliche Präsentationen

Die folgende Präsentation illustriert die Teilkapitel 5. 2 bis 5. 4

Advertisements

Kapitel 2 Information Information ist der grundlegende Begriff der Informatik. Mehr noch: „Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

Statistische Aspekte der PSG

Codierung und Datenkompression

Medienintensive Lehrmodule in der Computerlinguistik-Ausbildung

BGG Definition Barrierefrei

Information - syntaktisch

Suche in Texten (Stringsuche )

Übung 2.1 Information Wieviele Fragen benötigen Sie beim „Zahlenraten“

Anhang F:Beispielklausur In diesem Kapitel wird ein Beispiel für eine Klausur vorgestellt. Dabei sind jeweils die Aufgaben und die Lösungen gegeben. Beachten.

Beispielklausur In diesem Kapitel wird ein Beispiel für eine Klausur vorgestellt. Dabei sind jeweils die Aufgaben und die Lösungen gegeben. Beachten Sie.

Digitalisierung und Aufbereitung von Sprachdaten

Verbale und Nonverbale Kommunikation

Parser generieren Yet Another Compiler – Compiler YACC.

Autosegmental-Metrische Phonologie und ToBI

Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS

Die Phonetik und Sprachverarbeitung

1. Satzbetonung, Töne, und Grundfrequenz

Grundlagen der Analyse von Sprachdatenbanken

Transkription der Intonation mit GTOBI

1 Endliche Automaten in der Sprachtechnologie Kursthemen Karin Haenelt

VoicePortale Medienpraxis II: EDV Tobias Göbel Bernhard Schröder.

Grundlegende Analysen & Zwischendarstellungen

Ein Vortrag von Stefan Winter & Marc Ruppert

Technische Informatik I

Zeitreihenanalyse WS 2004/2005

6. Zusammengesetzte Daten (Verbund)

Hauptseminar Automaten und Formale Sprachen

Kategoriale Wahrnehmung

Austauschformate für Terminologie

Überblick Software Bestellungsver- waltungsprozess Dialogmanagement Simulation Sprachverarbeitung Verschiedene Arbeitsphasen Routengraphen Sprachverarbeitung:

Schnelles und effizientes Suchen. Was ist MPEG 7? Wie funktioniert MPEG? Was bietet MPEG 7? Wo wird MPEG 7 verwendet?

Information und Kommunikation

Entwicklung des sprachgesteuerten Schachcomputers Speech2Chess

Java, Java, Java R. Morelli

Information und Fitness

Beispiel Geburtstagsproblem: Aufgabe:

So rund wie ein Ball automatisch

Deutsche Sprache: Woche 13.1.

Wahrscheinlichkeitsrechnung

Daten Gruppe 7: Frauwallner Karin, Obermair Andreas Grundlagen wissenschaftlichen Arbeitens SS 2003 Titelseite.

Das Binär-System Alles ist davon abhängig, ob Strom fließt oder nicht!

Sprachproduktion und Sprachwahrnehmung

Übung zu Einführung in die LDV I

Entropieproduktion und Dissipation, Energiebilanzen

teWT301: Von der Statistik zur Wahrscheinlichkeit

Einführung in die Kommunikationswissenschaft

Der Zentralwert.

Kommunikationstechnik B Teil 4 – Informationstheorie

Rechnersysteme Marcel Waldvogel. Marcel Waldvogel, IBM Zurich Research Laboratory, Universität Konstanz, , 2  Wer bin ich?  Die Vorlesung.

Codes und Clowns Claude Shannon – Jongleur der Wissenschaft Ars Electronica Center – Eine Ausstellung des Heinz Nixdorf Forums,

Mensch – Maschine - Kommunikation

Institut für Softwarewissenschaft – Universität WienP.Brezany 1 Beispiele (Frist: ) Beispiel 1: Sei  = {a, b} ein Alphabet und Q = {q 0, q 1 } eine.

Erstellung von Landmarks aus Geobasisdaten

Szenario: Einfacher Weg. Szenario: Wand links mit Durchgang Wand zufällig mit Durchgang mehrere Wände mit Durchgang.

Information Retrieval Methoden, die dazu dienen, unstrukturierte Daten zu beschreiben, zu speichern und später nach inhaltlichen Kriterien wieder aufzufinden.

Anmerkung des Autor Diese Präsentation ist mit Powerpoint für MacOS erstellt. Leider ist sie nicht vollständig mit Powerpoint für Windows kompatibel.

Information - syntaktisch

Künstliche Intelligenz

Geoinformationssysteme

MS Word 2010 Word Texte eingeben und bearbeiten automatische und manuelle Korrekturen Word Texte eingeben und bearbeiten automatische und manuelle Korrekturen.

X. Übungsblatt – Aufgabe X Für die Bevölkerung Deutschlands wird für das Jahr 2050 folgende Altersstruktur vorausgesagt: a)Die Bevölkerung soll in 2 Gruppen.

Einführung in die Phonetik und Phonologie

Vo#1:Semantik als Wissenschaft Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.

Welche möglichen Ergebnisse gibt es beim Würfeln mit einem Würfel?

Einführung in die Phonetik und Phonologie SS 2010 Bistra Andreeva Sitzung 1: Einführender Überblick.

Eine Begriffserklärung

Eine Begriffserklärung

Thema Cooles Bild Thema Jahresarbeit Sicheres Auftreten/ …

Präsentation transkript:

Informationstheorie Begr. von Claude Shannon Information = beseitigte Ungewissheit jede Möglichkeit, welches Zeichen von der Informationsquelle gesendet wird, hat eine bestimmte Wahrscheinlichkeit Berechnung der Information Gleichwahrscheinliche Alternativen Entscheidungsgehalt H [bit] = ld m (m=Anzahl der möglichen Alternativen) Ungleichwahrscheinliche Alternativen H = ld m, p = 1/m, m = 1/p  H = ld 1/p oder: H = - ld p (p = Wahrscheinlichkeit jeder Alternative)  hi = ld 1/pi Der Informationsgehalt ist die Information, die das Auftreten einer bestimmten Alternative betrifft. Meyer-Eppler bezeichnet ihn auch als Überraschungswert der Ereignisses. Claude Shannon – Lebenslauf - .... ===================== Gleichwahrscheinlich z.B. Position auf einem Schachbrett mit 64 Feldern: H = ld 64 = 6 Bit Würfeln (bei 6-seitigem Würfel): H = ld 6 = 2,58 Bit Karte aus Kartenspiel ziehen: H = ld 52 = 5,7 Bit Erstes Bit  2 Alternativen können abgebildet werden Weitere Bits  je eine 2er Potenz mehr (2 Bit  4, 3 Bit  8, 4 Bit  16 ... Zustände abbildbar) Beispiel Suchalgorithmus „Ich denke mir eine Zahl zwischen 1 und 100. Welche?“ Zur Demonstration, dass das Maximum an Information nur dann erreicht wird, wenn die Fragen so gestellt werden, dass sie die Möglichkeiten genau halbiert, also „Ja“ und „Nein“ als Antworten gleichwahrscheinlich sind“. ================= Ungleichwahrscheinlich Beispiel: In 9 von 10 Prüfungen besteht Student X, 1mal fällt er durch h (bestanden) = ld 1/0.9 = ld 1,11 = 0,15 bit h (durchgefallen) = ld 1/0.1 = ld 10 = 3,32 bit Der Informationsgehalt des erwarteten Ereignisses „bestanden“ ist niedrig: es überrascht nicht, wenn er besteht. Der Informationsgehalt ist dann groß, wenn er ausnahmsweise mal nicht besteht. Analogie aus dem Journalismus: „Hund vom Mann beißen lassen und nicht umgekehrt; so bekommt der Leser größtmögliche Information für sein Geld“ Oder Eine Nachricht wird dann zu einer Information, wenn sie unerwartet ist.

Entropie und Redundanz H =  pi hi jede Alternative wird mit der Wahrscheinlichkeit ihres Auftretens gewichtet H =  pi ld 1/pi (nach Shannon) Entropie = mittlerer Informationsgehalt Maß für die „Unordnung“ eines Zustandes H = -  pi ld pi Redundanz = Informationsüberschuss R = Hmax - H Redundanz = maximale – tatsächliche Entropie Hmax = 1 Hmax wird nur erreicht, wenn alle Alternativen gleich wahrscheinlich sind Dann ist H = Hmax (Entropie ist maximal) Redundanz nimmt mit zunehmender Entropie ab Redundante Information ist nicht unbedingt überflüssig! sie schützt Nachrichtenübertragungen vor Störungen (sowohl in der Nachrichtentechnik als auch in der Alltagskommunikation) verlorengegangene Information kann man aus den redundanten Anteilen rekonstruieren kann (wenn nicht, muss man nachfragen = Übertragung wiederholen) =========================== Anmerkung Mathematisierung des Informationsbegriffes bezieht sich nur auf objektive Wahrscheinlichkeiten des Auftretens und der Auswahl von Zeichen aus dem Repertoire Semantik und Pragmatik werden komplett vernachlässigt In der Nachrichtentechnik ist es egal, ob man übermittelt: „Vater gestorben Beerdigung Freitag“ Oder „Morgen Faschingsparty erwarte dich“ gleiche Transportkosten gleiche Übergangswahrscheinlichkeiten ========================== Zitat: „Die Adaption nachrichtentechnischer Begriffe kann für eine noch so anspruchslose Kommunikationswissenschaft (Kommunikation als menschliche Kommunikation verstanden) nicht besonders stimulierend sein. Schlimmer ist, dass sie irreführend ist, weil sie die Spezifika der menschlichen Kommunkation schlicht ignoriert, in dem sie diese einreiht in eine Reihe technischer, bestenfalls naturwissenschaftlicher Objekte. Diese Irreführung als Methode ist verantwortungslos.“ Maas/Wunderlich 1972, S. 54

Sprachsynthese künstliche Erzeugung von Sprache meist Text-To-Speech, neuerdings immer mehr Text-to-Video („Talking Head“ = sprechendes Gesicht)

(Automatische) Spracherkennung Erkennung von gesprochener Sprache durch Automaten (Computer) D.h. sie wandeln ein Audiosignal in eine Zeichenfolge um Siehe Artikel auf Wikipedia: http://de.wikipedia.org/wiki/Spracherkennung

Für die Spracherkennung nutzbare Information akustisch-phonetisch lexikalisch phonologisch prosodisch syntaktisch Quelle: Ainsworth: ASR (Handbook of phonetic sciences) Akustisch-phonetisch: Beziehung zwischen den Eigenschaften des akustischen Signals und der phonetischen Transkription einer gesprochenen Äußerung Erfolgt durch Segmentierung und Labeln (traditioneller Ansatz) Vorgehen in der automatischen Spracherkennung: Jeder Vektor wird klassifiziert als steady-periodic, changing-periodic, noise, silence ... Benachbarte Vektoren desselben Typs werden zusammengefasst in phonemgroße (phonemic-sized) Einheiten Anhand von Regeln werden die Eigenschaften jedes Segments kategorisiert und mit phonem-ähnlichen Labeln markiert Syntaktisch: -