Die Information Bottleneck Methode

Slides:



Advertisements
Ähnliche Präsentationen
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Advertisements

Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Mathematik hat Geschichte
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Einführung in die Informatik: Programmierung und Software-Entwicklung
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Vorteile der Online-Produkte
Streuung Bezeichnung Streuung=Dispersion=Variabilität Fragestellung:
Telefonnummer.
CPCP Institute of Clinical Pharmacology AGAH Annual Meeting, 29. Februar 2004, Berlin, Praktischer Umgang mit den Genehmigungsanträgen gemäß 12. AMG Novelle.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Simulated Annealing Marco Block & Miguel Domingo Seminar : Maschinelles Lernen und Markov KettenSommersemester 2002.
Workshop zur Medienarbeit der katholischen Kirche Aspekte des Religionsmonitors Berlin, 02. April 2008.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
= = = = 47 = 47 = 48 = =
-17 Konjunkturerwartung Europa September 2013 Indikator > +20 Indikator 0 a +20 Indikator 0 a -20 Indikator < -20 Europäische Union gesamt: +6 Indikator.
Scratch Der Einstieg in das Programmieren. Scatch: Entwicklungsumgebung Prof. Dr. Haftendorn, Leuphana Universität Lüneburg,
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
Kapitel 6 Differenzierbarkeit. Kapitel 6: Differenzierbarkeit © Beutelspacher Juni 2005 Seite 2 Inhalt 6.1 Die Definition 6.2 Die Eigenschaften 6.3 Extremwerte.
© 2006 W. Oberschelp, G. Vossen Rechneraufbau & Rechnerstrukturen, Folie 2.1.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.
Bewegte Bezugssysteme
Das freie Randwertproblem von Stokes
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
AC Analyse.
Schieferdeckarten Dach.ppt
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
1. 2 Schreibprojekt Zeitung 3 Überblick 1. Vorstellung ComputerLernWerkstatt 2. Schreibprojekt: Zeitung 2.1 Konzeption des Kurses 2.2 Projektverlauf.
Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.
20:00.
SK / , , in Hochkössen und der Wildschönau flow Ski- und Snowboardschule Intersport Menzel.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Syntaxanalyse Bottom-Up und LR(0)
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation
Information und Kommunikation
Polynome und schnelle Fourier-Transformation
NEU! 1 2. Wo kommt diese Art von Rezeptor im Körper vor?
IK Ökonomische Entscheidungen und Märkte
PROCAM Score Alter (Jahre)
NIN-Arbeitsblätter Paul-Emile Müller
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
Symmetrische Blockchiffren DES – der Data Encryption Standard
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES KULTURELLER ZUSAMMENHALT UND AUSDEHNUNG DER IDEEN AUF EUROPÄISCHEM.
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Analyseprodukte numerischer Modelle Tidekennwertanalysen des Schwebstofftransportes.
Pigmentierte Läsionen der Haut
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Vortrag von Rechtsanwältin Verena Nedden, Fachanwältin für Steuerrecht zur Veranstaltung Wege zum bedingungslosen Grundeinkommen der Piratenpartei Rhein-Hessen.
1 Mathematical Programming Nichtlineare Programmierung.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Technische Frage Technische Frage Bitte löse die folgende Gleichung:
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Bildergalerie PRESEASON CAMP Juni 2014 Romanshorn Get ready for the Season!
Kw MoDiMiDoFrSaSo 14 1 Semester- beginn: SS Vorlesungs- beginn: SS April 2008.
Es war einmal ein Haus
Sportverletzungen Fussgelenk-Tapeverband
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Wie.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Monatsbericht Ausgleichsenergiemarkt Gas – November
Nichtlineare Optimierung
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
 Präsentation transkript:

Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02

Gliederung des Vortrags Wiederholung grundlegenden Begriffe der Informations- und Wahrscheinlichkeitstheorie Teil 1: Berechnung der Rate Distortion Funktion Langrange Verfahren Blahut-Arimoto Algorithmus Rate Distortion Theorie

Gliederung des Vortrags Teil 2: Die Information Bottleneck Methode Idee Berechnung mittels Langrange Verfahren Iterativer Algortihmus Teil 3: Clustering Algorithmen (mit Bezug auf IB) Deterministic Annealing Agglomeratives Clustering

Wiederholung: Wahrscheinlichkeitstheorie Conditional Probability: Produktregel: Summenregel (Randverteilungen)

Wiederholung: Wahrscheinlichkeitstheorie Bayes Theorem: Markov Kettenregel: Falls: also Dann gilt:

Wiederholung: Informationstheorie Informationsgehalt: Entropie: Conditional Entropy

Wiederholung: Informationstheorie Joint-Entropy: Kettenregel Kullback-Leibler Divergenz „Distanz“ zwischen 2 Verteilungen Axiome: i.d.R

Wiederholung: Informationstheorie Mutualinformation: Wichtiger Zusamenhang Andere Axiome

Teil 1: Rate Distortion Theorie Grundaussage: ... Kodeword ... Zuordnungswahrscheinlichkeit D ... Maximal gewünschte Distortion ... Distortionfunktion (Fehler von ) ... Erwartete Distortion: Relevanze der Daten durch Distortion gegeben

Rate Distortion Theorie Berechnung der Rate Distortionfunktion Minimierungsaufgabe über : Unter der Nebenbedingung: => Langrange Verfahren

Wiederholung: Lagrange Verfahren Definition (mit Gleichungsrestriktionen) Optimiere Unter den Nebenbedingungen =>Menge der zulässigen Vektoren Schnittpunkte aller durch die Nebenbedingungen gegebenen Kurven

Geometrische Betrachtung Im 2-dimensionalen Fall mit 1 Nebenbedingung Höhenlinien von f(x,y) Kein Max. Maximum : Kurve h wird von Höhenlinie tangiert h(x,y) = c

Langrange Verfahren Erkenntnisse aus geometrischer Betrachtung: Gradient der Funktion und der Kurve h(x,y) = c müssen in die gleiche (bzw. entgegengesetzte) Richtung zeigen. => Resultierender Langrange Ansatz Optimierbar mittels Nullsetzen des Gradienten

Langrange Verfahren (Gleichungsrestriktionen) Verallgemeinerung für den n-dimensionalen fall mit m Nebenbedingungen Ansatz: Gleichungen: Vorteil: Einfache Optimierung (grad(L)=0) Nachteil: Einführen von m ( ) neuen Unbekannten

Lagrange Verfahren mit Ungleichungen Definition (mit Ungleichungsrestriktionen) Optimiere Unter den Nebenbedingungen Bei Maximierung: Bei Minimierung

Geometrische Betrachtung Im 2-dimensionalen Fall mit 1 Nebenbedingung Höhenlinien von f(x,y) Richtung von Gradient von f wichtig: Bei Maximierung aus der Menge heraus, bei Minimierung in die Menge hinein. =>Langrange Multiplikator immer positiv!! g(x,y) < b Maximierungsbereich g(x,y) > b Minimierungsbereich

Langrange Verfahren (Ungleichungsrestriktionen) Verallgemeinerung für den n-dimensionalen fall mit k Nebenbedingungen Ansatz: Gleichungen: Zusätzliche Einschränkungen bzw.

Minimierung der Rate Distortion Funktion Minimierung bezüglich Nebenbedingung: Vereinfachter Langrangeansatz

Minimierung der Rate Distortion Funktion 2. Nebenbedingung Einsetzen der Definitionen Mutual Information Distortion Normierungsterm

Ableitung bezüglich einer Wahrscheinlichkeitsverteilung Nullsetzen des Gradienten: Ableitung bezüglich Betrachtung von als normale Variable (nur für ein bzw. x) Einsetzen von bekannten Formeln der Wahrscheinlichkeitstheorie um auf die Form zu kommen

Lösung der Langrange Funktion: konsistente Gleichungen Probleme: Lösung nur für ein , optimales nicht bekannt. Langrange Multiplikator für eine bestimmte Distortion D unbekannt.

p*(x) unbekannt: Lösung 1 ^ Mit p(x) Multiplizieren und über alle x aufsummieren. => Für jedes Codewort x eine Gleichung, wenn dann SEHR schwierig lösbar. ^

p*(x) unbekannt, 2. Lösung ^ Algorithmus in der Geometrie Abwechselndes Minimieren eines Abstandes mittels 2 Variablen, die sich in convexen Mengen befinden. A B

Blahut-Arimoto Algorithmus Benötigt werden: 2 Variablen, welche Abstand minimieren: Abstandsmaß: Minimierung bezüglich => Langrangeverfahren =>Minimiert Randverteilung I ?? Convexe Mengen von Wahrscheinlichkeitsverteilungen

Convexe Mengen von Verteilungen Definition von convexen Mengen: Bei Wahrscheinlichkeitsverteilungen: Für jedes Erreignis xi wird ein Intervall von Wahrscheinlichkeiten festgelegt

Minimierung bezüglich p(x) ^ Wird minimiert wenn ... Randverteilung

Blahut Arimoto: Iterative Gleichungen Abwechselnde Optimierung über und Iterative Gleichungen Konvergiert zum globalen Minimum Keine Regel für die Codewords bzw.

Bedeutung des Langrange Multiplikators Nicht (oder nur schwer) berechenbar für eine gewünschte Distortion Bestimmt Steigung der R(D) Kurve: Durch Variieren von kann die R(D) Kurve bei genügend grossen durchlaufen werden Besondere Werte: : Codealphabet kollabiert zu einzigen Codeword : ,Distortion geht gegen 0

Bedeutung des Lagrange Mutliplikators SoftMax Verfahren Bei Erhöhung von Beta werden mit kleiner Distortion bevorzugt. Durchlaufen der R(D) Kurve

Zusammenfassung: Rate Distortion Theorie Liefert Optimale Rate für gegebene Distortion Distortion Funktion FREI wählbar Blahut-Arimoto Algorithmus: Durchlaufen der R(D) Funktion mittels des Lagrange Multiplikators. Relevanz der Information wird nur über die Distortion spezifiziert

Teil 2 :Die Information Bottleneck Methode Idee: Komprimierung mit Bezug auf Relevanz der Daten Relevanz gegeben durch eine andere Variable Zusätzlich gegebene Verteilung: Ziel: Komprimiere X und erhalte dabei die meiste Information von Y minimieren maximieren

Langrange Ansatz der I.B.M. Geometrische Betrachtung: Minimierung von f(x,y) und Maximierung von g(x,y): Beobachtung : => gleicher Langrange Ansatz -grad(f) grad(g) {x*}

Langrange Ansatz der I.B.M. Vereinfachte Langrange Funktion: Bedeutung von beta: Tradeoff zwischen Kompression und Erhaltung der relevanten Daten siehe Rate Distortion Theory

Lösung der Langrange Funktion Formale Lösung

Vergleich zu Rate Distortion Theorie Lösung der Rate Distortion Theory Lösung der Information Bottleneck Method =>

Bedeutung der Distortionfunktion Der begangene Fehler ist der „Abstand“ zwischen den Verteilungen p(y|x) und p(y|x) ^

Der Iterative IB Algorithmus Die Minimierung wird Unabhängig über die Convexen Mengen von Verteilungen durchgeführt ( , und ), ein allgemeiner BA Algorithmus.

Der Iterative IB Algorithmus Minimierung bei Iterationsschritt t

Die Informationsebene Das optimale für ein gegebenes ist eine konkave Funktion impossible Possible phase

Zusammenfassung: Information Bottleneck Methode Relevanz durch eine zusätzliche Variable Distortionfunktion: Iteratver Algorithmus zur Berechnung der optimalen Codeword-zuordnung

Teil 3: Clustering Algorithmen Agglomeratives Clustering Beginne mit Verschmelze bei jedem Schritt 2 Cluster, deren Verschmelzung den grössten Verlust der Rate und den kleinsten Zuwachs der Distortion ergibt Zuordnungwahrscheinlichkeit für Cluster = 1 (hard clustering) =>nächster Vortrag

Clustering Algorithmen Deterministic Annealing Ansatz: Minimierung der Distortion unter gegebener Unsicherheit T...symbolisiert Temperatur Ableiten nach und Liefert ebenfalls Regel für Adaption der z.B. für Lage der Codevectoren bei der Squared Error Distortion

Deterministic Annealing: Ableitungen Ableitung nach Für z.B Squared Error Distortion

Deterministic Annealing: Phasenübergänge Phasenübergange (Clusterteilung) für bestimmte Cluster Keine Minimierung der Distortion für diesen Cluster mehr möglich Teile Cluster: 2 Möglichkeiten zur Berechnung Temperatur für jeden Cluster berechenbar (rechenaufwendig) Für jeden Cluster kann ein zweiter Cluster angelegt werden, falls diese bei abnehmender Temperatur auseinandergehen, dann Phasenübergang

Deterministic Annealing 1) Beginne mit Nur ein Cluster (bzw. Wahrscheinlichkeit für jeden Cluster gleich) 2)Update für Update Update (für alle x) Bis Konvergenz erreicht (BA-Algorithmus) 3)Abkühlung 4)Überprüfe für jeden Cluster Phasenübergang Falls Übergang, Teile Cluster 5) Gehe zu 3. Kann jederzeit abgebrochen werden (soft clustering)

Deterministic Annealing: Beispiel (squared error distortion)

Deterministic Annealing: Weitere Anwendungsmöglichkeiten Noisy Channel Coding Entropy Constrained Coding Structural Constrained Coding Supervised Learning Berechnung der R(D) Funktion