Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Die Information Bottleneck Methode

Ähnliche Präsentationen


Präsentation zum Thema: "Die Information Bottleneck Methode"—  Präsentation transkript:

1 Die Information Bottleneck Methode
Theoretische Informatik Seminar E Neumann Gerhard,

2 Gliederung des Vortrags
Wiederholung grundlegenden Begriffe der Informations- und Wahrscheinlichkeitstheorie Teil 1: Berechnung der Rate Distortion Funktion Langrange Verfahren Blahut-Arimoto Algorithmus Rate Distortion Theorie

3 Gliederung des Vortrags
Teil 2: Die Information Bottleneck Methode Idee Berechnung mittels Langrange Verfahren Iterativer Algortihmus Teil 3: Clustering Algorithmen (mit Bezug auf IB) Deterministic Annealing Agglomeratives Clustering

4 Wiederholung: Wahrscheinlichkeitstheorie
Conditional Probability: Produktregel: Summenregel (Randverteilungen)

5 Wiederholung: Wahrscheinlichkeitstheorie
Bayes Theorem: Markov Kettenregel: Falls: also Dann gilt:

6 Wiederholung: Informationstheorie
Informationsgehalt: Entropie: Conditional Entropy

7 Wiederholung: Informationstheorie
Joint-Entropy: Kettenregel Kullback-Leibler Divergenz „Distanz“ zwischen 2 Verteilungen Axiome: i.d.R

8 Wiederholung: Informationstheorie
Mutualinformation: Wichtiger Zusamenhang Andere Axiome

9 Teil 1: Rate Distortion Theorie
Grundaussage: ... Kodeword ... Zuordnungswahrscheinlichkeit D Maximal gewünschte Distortion ... Distortionfunktion (Fehler von ) ... Erwartete Distortion: Relevanze der Daten durch Distortion gegeben

10 Rate Distortion Theorie
Berechnung der Rate Distortionfunktion Minimierungsaufgabe über : Unter der Nebenbedingung: => Langrange Verfahren

11 Wiederholung: Lagrange Verfahren
Definition (mit Gleichungsrestriktionen) Optimiere Unter den Nebenbedingungen =>Menge der zulässigen Vektoren Schnittpunkte aller durch die Nebenbedingungen gegebenen Kurven

12 Geometrische Betrachtung
Im 2-dimensionalen Fall mit 1 Nebenbedingung Höhenlinien von f(x,y) Kein Max. Maximum : Kurve h wird von Höhenlinie tangiert h(x,y) = c

13 Langrange Verfahren Erkenntnisse aus geometrischer Betrachtung:
Gradient der Funktion und der Kurve h(x,y) = c müssen in die gleiche (bzw. entgegengesetzte) Richtung zeigen. => Resultierender Langrange Ansatz Optimierbar mittels Nullsetzen des Gradienten

14 Langrange Verfahren (Gleichungsrestriktionen)
Verallgemeinerung für den n-dimensionalen fall mit m Nebenbedingungen Ansatz: Gleichungen: Vorteil: Einfache Optimierung (grad(L)=0) Nachteil: Einführen von m ( ) neuen Unbekannten

15 Lagrange Verfahren mit Ungleichungen
Definition (mit Ungleichungsrestriktionen) Optimiere Unter den Nebenbedingungen Bei Maximierung: Bei Minimierung

16 Geometrische Betrachtung
Im 2-dimensionalen Fall mit 1 Nebenbedingung Höhenlinien von f(x,y) Richtung von Gradient von f wichtig: Bei Maximierung aus der Menge heraus, bei Minimierung in die Menge hinein. =>Langrange Multiplikator immer positiv!! g(x,y) < b Maximierungsbereich g(x,y) > b Minimierungsbereich

17 Langrange Verfahren (Ungleichungsrestriktionen)
Verallgemeinerung für den n-dimensionalen fall mit k Nebenbedingungen Ansatz: Gleichungen: Zusätzliche Einschränkungen bzw.

18 Minimierung der Rate Distortion Funktion
Minimierung bezüglich Nebenbedingung: Vereinfachter Langrangeansatz

19 Minimierung der Rate Distortion Funktion
2. Nebenbedingung Einsetzen der Definitionen Mutual Information Distortion Normierungsterm

20 Ableitung bezüglich einer Wahrscheinlichkeitsverteilung
Nullsetzen des Gradienten: Ableitung bezüglich Betrachtung von als normale Variable (nur für ein bzw. x) Einsetzen von bekannten Formeln der Wahrscheinlichkeitstheorie um auf die Form zu kommen

21 Lösung der Langrange Funktion: konsistente Gleichungen
Probleme: Lösung nur für ein , optimales nicht bekannt. Langrange Multiplikator für eine bestimmte Distortion D unbekannt.

22 p*(x) unbekannt: Lösung 1
^ Mit p(x) Multiplizieren und über alle x aufsummieren. => Für jedes Codewort x eine Gleichung, wenn dann SEHR schwierig lösbar. ^

23 p*(x) unbekannt, 2. Lösung
^ Algorithmus in der Geometrie Abwechselndes Minimieren eines Abstandes mittels 2 Variablen, die sich in convexen Mengen befinden. A B

24 Blahut-Arimoto Algorithmus
Benötigt werden: 2 Variablen, welche Abstand minimieren: Abstandsmaß: Minimierung bezüglich => Langrangeverfahren =>Minimiert Randverteilung I ?? Convexe Mengen von Wahrscheinlichkeitsverteilungen

25 Convexe Mengen von Verteilungen
Definition von convexen Mengen: Bei Wahrscheinlichkeitsverteilungen: Für jedes Erreignis xi wird ein Intervall von Wahrscheinlichkeiten festgelegt

26 Minimierung bezüglich p(x)
^ Wird minimiert wenn ... Randverteilung

27 Blahut Arimoto: Iterative Gleichungen
Abwechselnde Optimierung über und Iterative Gleichungen Konvergiert zum globalen Minimum Keine Regel für die Codewords bzw.

28 Bedeutung des Langrange Multiplikators
Nicht (oder nur schwer) berechenbar für eine gewünschte Distortion Bestimmt Steigung der R(D) Kurve: Durch Variieren von kann die R(D) Kurve bei genügend grossen durchlaufen werden Besondere Werte: : Codealphabet kollabiert zu einzigen Codeword : ,Distortion geht gegen 0

29 Bedeutung des Lagrange Mutliplikators
SoftMax Verfahren Bei Erhöhung von Beta werden mit kleiner Distortion bevorzugt. Durchlaufen der R(D) Kurve

30 Zusammenfassung: Rate Distortion Theorie
Liefert Optimale Rate für gegebene Distortion Distortion Funktion FREI wählbar Blahut-Arimoto Algorithmus: Durchlaufen der R(D) Funktion mittels des Lagrange Multiplikators. Relevanz der Information wird nur über die Distortion spezifiziert

31 Teil 2 :Die Information Bottleneck Methode
Idee: Komprimierung mit Bezug auf Relevanz der Daten Relevanz gegeben durch eine andere Variable Zusätzlich gegebene Verteilung: Ziel: Komprimiere X und erhalte dabei die meiste Information von Y minimieren maximieren

32 Langrange Ansatz der I.B.M.
Geometrische Betrachtung: Minimierung von f(x,y) und Maximierung von g(x,y): Beobachtung : => gleicher Langrange Ansatz -grad(f) grad(g) {x*}

33 Langrange Ansatz der I.B.M.
Vereinfachte Langrange Funktion: Bedeutung von beta: Tradeoff zwischen Kompression und Erhaltung der relevanten Daten siehe Rate Distortion Theory

34 Lösung der Langrange Funktion
Formale Lösung

35 Vergleich zu Rate Distortion Theorie
Lösung der Rate Distortion Theory Lösung der Information Bottleneck Method =>

36 Bedeutung der Distortionfunktion
Der begangene Fehler ist der „Abstand“ zwischen den Verteilungen p(y|x) und p(y|x) ^

37 Der Iterative IB Algorithmus
Die Minimierung wird Unabhängig über die Convexen Mengen von Verteilungen durchgeführt ( , und ), ein allgemeiner BA Algorithmus.

38 Der Iterative IB Algorithmus
Minimierung bei Iterationsschritt t

39 Die Informationsebene
Das optimale für ein gegebenes ist eine konkave Funktion impossible Possible phase

40 Zusammenfassung: Information Bottleneck Methode
Relevanz durch eine zusätzliche Variable Distortionfunktion: Iteratver Algorithmus zur Berechnung der optimalen Codeword-zuordnung

41 Teil 3: Clustering Algorithmen
Agglomeratives Clustering Beginne mit Verschmelze bei jedem Schritt 2 Cluster, deren Verschmelzung den grössten Verlust der Rate und den kleinsten Zuwachs der Distortion ergibt Zuordnungwahrscheinlichkeit für Cluster = 1 (hard clustering) =>nächster Vortrag

42 Clustering Algorithmen
Deterministic Annealing Ansatz: Minimierung der Distortion unter gegebener Unsicherheit T...symbolisiert Temperatur Ableiten nach und Liefert ebenfalls Regel für Adaption der z.B. für Lage der Codevectoren bei der Squared Error Distortion

43 Deterministic Annealing: Ableitungen
Ableitung nach Für z.B Squared Error Distortion

44 Deterministic Annealing: Phasenübergänge
Phasenübergange (Clusterteilung) für bestimmte Cluster Keine Minimierung der Distortion für diesen Cluster mehr möglich Teile Cluster: 2 Möglichkeiten zur Berechnung Temperatur für jeden Cluster berechenbar (rechenaufwendig) Für jeden Cluster kann ein zweiter Cluster angelegt werden, falls diese bei abnehmender Temperatur auseinandergehen, dann Phasenübergang

45 Deterministic Annealing
1) Beginne mit Nur ein Cluster (bzw. Wahrscheinlichkeit für jeden Cluster gleich) 2)Update für Update Update (für alle x) Bis Konvergenz erreicht (BA-Algorithmus) 3)Abkühlung 4)Überprüfe für jeden Cluster Phasenübergang Falls Übergang, Teile Cluster 5) Gehe zu 3. Kann jederzeit abgebrochen werden (soft clustering)

46 Deterministic Annealing: Beispiel (squared error distortion)

47 Deterministic Annealing: Weitere Anwendungsmöglichkeiten
Noisy Channel Coding Entropy Constrained Coding Structural Constrained Coding Supervised Learning Berechnung der R(D) Funktion


Herunterladen ppt "Die Information Bottleneck Methode"

Ähnliche Präsentationen


Google-Anzeigen