23.10.2002FB Mathematik, Universität Bielefeld1 Strukturverarbeitende Neuronale Netze Barbara Hammer, AG LNM, Universität Osnabrück.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen für das Erfüllbarkeitsproblem SAT
Advertisements

Bayes Netze Seminar: Transkription in Sprachsynthese und -erkennung
Christian Scheideler SS 2009
Perceptrons and the perceptron learning rule
Knapsack & Bin Packing Sebastian Stober
Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Docking von starren und flexiblen Proteinen
Simulated Annealing Marco Block & Miguel Domingo Seminar : Maschinelles Lernen und Markov KettenSommersemester 2002.
Einige entscheidbare bzw. rekursiv aufzählbare Sprachen
Verifizieren versus Berechnen
Algorithmen und Komplexität
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken IX Christian Schindelhauer
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken X Christian Schindelhauer
Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Approximationsalgorithmen …liefern in polynomieller.
Klaus Volbert 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Sommersemester 2004.
Proteinbiosynthese.
Prof. Dr. S. Albers Prof. Dr. Th. Ottmann
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Tobias Lauer.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Prof. Dr. Th. Ottmann.
Algorithmentheorie 7 – Bin Packing
Symbolisches Model Checking mit Binary Decision Diagrams
High Performance = Innovative Computer Systems + Efficient Algorithms Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen.
1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Algorithmen für Peer-to-Peer-Netzwerke Sommersemester Vorlesung.
zur Vorlesung Neuronale Netzwerke
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Neuronale Netzwerke am Beispiel eines MLP
Generalisierte additive Modelle
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Maschinelles Lernen und automatische Textklassifikation
Maschinelles Lernen und automatische Textklassifikation
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Chromatische Zahl.
Effiziente Algorithmen
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Adaptive Systeme-2 Grundlagen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Fundamente der Computational Intelligence
Neuronale Netze (1) Isabel Schwende

Dallinger Georg, 8.A BRG Schloss Wagrain
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Translation und Transkription
Klassifikation und Regression mittels neuronaler Netze
Algorithmen für das Erfüllbarkeitsproblem SAT
Analyse der Laufzeit von Algorithmen
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken VIII Christian Schindelhauer
Vergleich von RNA Strukturen A General Edit Distance between RNA Structures von Sebastian Juenemann.
Anwendung der Ellipsoidmethode in der Kombinatorischen Optimierung
Lernen 1. Vorlesung Ralf Der Universität Leipzig Institut für Informatik
Joelle, Paul & Philipp RNA- Prozessierung.
TrnA Transfer-DNA.
Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
 Präsentation transkript:

FB Mathematik, Universität Bielefeld1 Strukturverarbeitende Neuronale Netze Barbara Hammer, AG LNM, Universität Osnabrück

FB Mathematik, Universität Bielefeld2 Überblick 1. Einige Probleme aus der Bioinformatik 2. Lösungsansätze mithilfe neuronaler Netze 3. Mathematische Fragen beim Training 4. Lernbarkeit rekursiver Netzarchitekturen 5. Generell …

FB Mathematik, Universität Bielefeld3 Einige Probleme aus der Bioinformatik …

FB Mathematik, Universität Bielefeld4 Mehl Wasser Zucker Backhefe ?

FB Mathematik, Universität Bielefeld5 …TCGACTCCGTATTCGAC… ACGCCUAGU…CUAGUCUU DNA RNA-Polymerase … bindet an Promoter. Transkription: die DNA wird komplementär kopiert, … …Introns werden abgespalten… …und die mRNA verläßt den Zellkern.

FB Mathematik, Universität Bielefeld6 Translation: Ribosomen bilden Codons auf Aminosäuren ab,... …UCACAGAGAGGUUUCCCUCACAGAGGGUUU… Ser Gln Arg Gly Phe Pro His Arg Gly Cys...das Protein faltet sich zu einer 3D Struktur….. und steuert komplexe Prozesse.

FB Mathematik, Universität Bielefeld7 Einige Probleme … S.Cerevisiae ist seit 4/96 sequenziert ( Welche Abschnitte der DNA kodieren? Promoter, Exon/Intron Wie falten sich die Aminosäuren? Sekundärstruktur, 3D-Struktur der Proteine

FB Mathematik, Universität Bielefeld8 Lösungsansätze mithilfe neuronaler Netze …

FB Mathematik, Universität Bielefeld9 Ein Neuron w1w1 w2w2 wnwn … θ x1x1 x2x2 xnxn σ(w t x - θ) σ(t) = sgd(t) = (1+e -t ) -1 σ(t) = H(t) mit H(t) = 0 für t0 H(t) = 1 für t>0

FB Mathematik, Universität Bielefeld10 Vorwärtsgerichtete neuronale Netze (FNN)… f w : n o x y

FB Mathematik, Universität Bielefeld11 … und deren Training … Ziel: unbekanntes f: n o ist zu lernen Beispiele f(x 1 ),…,f(x m ) sind verfügbar Training: 1. Auswahl einer Netzarchitektur { f w | w W } 2. Optimieren der Gewichte w durch Minimieren des Fehlers (f(x i ) - f w (x i )) 2 auf den Trainingsdaten 3. Bewerten des Ergebnis durch den Fehler auf einer nicht zum Training benutzten Validierungsmenge f w f

FB Mathematik, Universität Bielefeld12 … zum Erkennen von Spleißstellen …… Exon Intron… G U …… A G … (0,0,0,1;0,0,1,0;0,1,0,0;0,0,0,1) aus [Pertea,Lin,Salzberg,Nucleid Acid Research 29(5): , 2001] Beispielergebnisse (missed Pos/false Pos in %): NetGene2: 6.4/4.6, 6.0/2.5 [Brunak et al.] 01 (1,0) d.h. f: 4k 2 ist zu lernen

FB Mathematik, Universität Bielefeld13 Partiell rekurrente Netze (RNN)… Eingabe Kontext Ausgabe f: n+c c g: c o mit f rec :( n )* c als f rec ([ ])=0 f rec ([x|a])=f(x,f rec (a)) gf rec :( n )* o Sequenzen über n

FB Mathematik, Universität Bielefeld14 … und deren Training … Ziel: unbekanntes f:( n )* o ist zu lernen Beispiele f(x 1 ),…,f(x m ) sind verfügbar Training: 1. Auswahl einer Netzarchitektur 2. Optimieren der Gewichte durch Minimieren des Fehlers auf den Trainingsdaten 3. Bewerten des Ergebnis durch den Fehler auf einer nicht zum Training benutzten Validierungsmenge

FB Mathematik, Universität Bielefeld15 … zur Prognose der Sekundärstruktur von Proteinen …SerGlnArgGlyPheProHisArgGlyCys… α-helix β-sheet γ-coil …α α β β β β β β β γ… … 010 d.h. f: Aminosäuren* {α,β,γ} ist zu lernen

FB Mathematik, Universität Bielefeld16 … zur Prognose der Sekundärstruktur von Proteinen …SerGlnArgGlyPheProHisArgGlyCys… PDB x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 EVA(3/3/2001)-Daten: 77.67% [Pollastri,Przybylski,Rost,Baldi,PROTEINS 47: ,2002] vgl.: PROF1 76.8%, PHDpsi 74.7%

FB Mathematik, Universität Bielefeld17 Rekursive Netze (RekNN)… Ein. Kont. Ausgabe Kont. f: n+2c c g: c o mit f rec :( n ) 2 * c als f rec (ξ) = 0 f rec (a(l,r)) = f(a,f rec (l),f rec (r)) gf rec :( n ) 2 * o gerichtete azyklische Graphen über n mit einem Startknoten und fan-out 2

FB Mathematik, Universität Bielefeld18 … und deren Training … Ziel: unbekanntes f:( n ) 2 * o ist zu lernen Beispiele f(x 1 ),…,f(x m ) sind verfügbar Training: 1. Auswahl einer Netzarchitektur 2. Optimieren der Gewichte durch Minimieren des Fehlers auf den Trainingsdaten 3. Bewerten des Ergebnis durch den Fehler auf einer nicht zum Training benutzten Validierungsmenge... nebenbei: rekursive Netze unterscheiden nicht zwischen Bäumen und Graphen

FB Mathematik, Universität Bielefeld19 … zur Prognose von Kontakten x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 … (x 2,x 3 ) … … … … … … … … … … x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 … (x 2,x 2 ) (x 1,x 1 ) (x 1,x 2 ) (x 1,x 3 )(x 2,x 1 ) d.h. f: (Aminosäuren 2 ) 2 * {0,1} ist zu lernen

FB Mathematik, Universität Bielefeld20 … zur Prognose von Kontakten x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 … PDB SSPro X1X2X3…X1X2X3… X1X2X3…X1X2X3… … [Pollastri,Baldi,Vullo,Frasconi, NIPS2002] PDBselect :(Ct,nCt,dist.truePos) 6Ǻ: 0.71,0.998, Ǻ: 0.43,0.987,0.55

FB Mathematik, Universität Bielefeld21 Mathematische Fragen beim Training …

FB Mathematik, Universität Bielefeld22 Training - Architekturauswahl f: X o ist zu lernen, gegeben f(x 1 ),…,f(x m ) 1. Architekturauswahl f ε z.z. Approximationsvollständigkeit: Für jede (sinnvolle) Funktion f und jedes ε>0 gibt es ein Netz, daß f bis auf ε (in geeigneter Norm) approximiert

FB Mathematik, Universität Bielefeld23 Approximationsergebnisse FNNs/RNNs [Hornik,Stinchcombe,White; Funahashi,Nakamura] : … können jede stetige Funktion beliebig gut auf Kompakta und endlichem Zeithorizont bzgl. L 1 approximieren (σ:squashing) RekNNs für Baumstrukturen [Hammer] : … können jede stetige Funktion beliebig gut auf Kompakta und begrenzter Höhe bzgl. L 1 approximieren (σ:squashing) … können jede endliche Menge {f(x 1 ),…,f(x m )} mit O(m 2 ) Neuronen exakt interpolieren (σ:squashing, C 2 in Umgebung von x mit σ(x)0)... können nicht jede Funktion f:{1} 2 * {0,1} approximieren (bei realistischer Aktivierungsfunktion)

FB Mathematik, Universität Bielefeld24 Training - Fehlerminimierung f:X o ist zu lernen, gegeben f(x 1 ),…,f(x m ) 1. Architekturauswahl 2. Fehlerminimierung Komplexität des Trainings: gegeben eine Architektur {f w |w} und eine Trainingsmenge, finde Parameter w so daß f w (x i ) möglichst gut mit f(x i ) übereinstimmt E(w) w

FB Mathematik, Universität Bielefeld25 Komplexitätsergebnisse Für feste Architektur mit Aktivierungsfunktion H: … Training ist polynomiell Für variable FNN-Architekturen mit Aktivierungsfunktion H: … optimale Parameter zu finden ist NP-hart [Judd] … sogar für Architekturen {(n,2,1)|n } [Blum,Rivest] … sogar für Architekturen {(n,n 1 >1,n 2,…,1)|n } [Hammer] … sogar für logistische Aktivierungsfunktion statt H [Jones;Vu;Hammer] … sogar, wenn man nur approximative Lösungen sucht [Bartlett,Ben- David;DasGupta,Hammer ]

FB Mathematik, Universität Bielefeld26 Training - Validierung f:X o ist zu lernen, gegeben f(x 1 ),…,f(x m ) 1. Architekturauswahl 2. Fehlerminimierung 3. Validierung TATATATATATATATAT ATATATATATATATA Trainingsfehler= Validierungsfehler TATATATATATATATACTACCACAGATATAT SCCHRIII 12335ff << T ?

FB Mathematik, Universität Bielefeld27 Lernbarkeit rekursiver Netzarchitekturen …

FB Mathematik, Universität Bielefeld28 Lernszenario unbekannte Funktion f sei zu lernen (alles sei meßbar) Funktionenklasse = { g:( n ) 2 * {0,1} | g } sei fest gewählt P unbekannte Verteilung auf ( n ) 2 * für die Daten (x,f) = ((x 1,f(x 1 )),…,(x m,f(x m ))) mit x 1,…,x m i.i.d. gemäß P h: U m (( n ) 2 *x {0,1}) m, (x,f) h m (x,f) h m (x,f) f für genügend große m Lernalgorithmus:

FB Mathematik, Universität Bielefeld29 Lernszenario d P (f,g) = |f(x)-g(x)| d P (x)d m (f,g,x) = i |f(x i )-g(x i )| / m h ist PAC (probably approximately correct): >0 sup f P m (x | d P (f,h m (x,f)) > ) 0 (m ) h generalisiert mit von der zu lernenden Funktion unabhängigen Schranken ist UCED (uniform convergence of empirical distances): >0 P m (x | f,g |d P (f,g)-d m (f,g,x)| > ) 0 (m ) genau die Algorithmen mit kleinem Trainingsfehler sind gut ist PAC lernbar : h: h PAC es gibt einen guten Algorithmus

FB Mathematik, Universität Bielefeld30 Lernszenario h ist verteilungsunabhängig PAC : >0 sup p sup f P m (x|d P (f,h m (x,f))> ) 0 (m ) ist verteilungsunabhängig UCED: >0 sup p P m (x| f,g |d P (f,g)-d m (f,g,x)|> ) 0 (m ) ist verteilungsunabhängig PAC lernbar : h: h verteilungsunabhängig PAC

FB Mathematik, Universität Bielefeld31 PAC vert.unabh. PAC vert.unabh. UCED UCED VC( ) < ~VC( ) Beispiele VC( ) := max m {} x 1,…,x m d:{x 1,…,x m } {0,1} f : f|{x 1,…,x m } = d maximale Anzahl von Punkten, auf denen jede mögliche Abbildung durch realisiert werden kann

FB Mathematik, Universität Bielefeld32 VC( |X t ) = O(W·N+W·ln W+W·t) σ=H O(W 2 N 2 2 2t ) σ=sgd Ω(W·ln W+W·t) σ=H Ω(W·t 2 +W·ln W) σ=sgd VC Dimension rekursiver Architekturen rekursive Netzarchitektur mit W Gewichten, N Neuronen X t ( n ) 2 * Bäume der Maximalhöhe t

FB Mathematik, Universität Bielefeld33 PAC vert.unabh. PAC vert.unabh. UCED UCED für allgemeine rekursive Netzarchitekturen kann es keine von der Verteilung unabhängigen a priori Schranken für den Generalisierungsfehler geben Überdeckungszahl N(,X,d) := minimale Anzahl Punkte, um X bis auf bzgl. d zu überdecken lim m E x (log N(, |x,d m ))/m 0 Fehlerwahrsch. UCED E x (N( /16, |x,d 2m ) 2 ) exp(-m 2 /32)

FB Mathematik, Universität Bielefeld34 UCED für rekursive Architekturen Sei p t :=P(X t ). Seien,δ>0. Gelte p T 1- /8. Dann ist P m (x | f,g |d P (f,g)-d m (f,g,x)| > ) δ für m = O( -2 δ -1 + VC( |X T )· -2 ln( -1 ln -1 ))

FB Mathematik, Universität Bielefeld35 PAC vert.unabh. PAC vert.unabh. UCED UCED ~VC( |X T ) für p T 1- /8 polynomiell, falls für ein β>0, c>0 gilt 1-p t <c·t -β, σ=H bzw.1-p t <c·2 -2βt, σ=sgd jeder Algorithmus mit kleinem Fehler generalisiert, die Schranken hängen von der Verteilung ab Aber: es gibt Beispiele, wo jeder Algorithmus für gute Generalisierung exponentiell viele Trainingsmuster benötigt.

FB Mathematik, Universität Bielefeld36 Lernbarkeit rekursiver Architekturen … die VC Dimension hängt von den Eingaben ab, der Validierungsfehler kann nicht a priori unabhängig von der Verteilung abgeschätzt werden. … jeder Algorithmus mit kleinem Trainingsfehler generalisiert, die Schranken hängen von der Verteilung ab.... a posteriori Schranken für beliebigen Lernalgorithmus h: inf f P m (x| |d m (f,h m (x,f),x)-d P (f,h m (x,f))| 1-δ für 2 (x) = O(m -1 log δ -1 log m + d·m -1 log(m·log m)), d=VC( | X T ), T max.Höhe in x … bzw. (x) = O(β + (β·log β -1 + log m(m -1 log δ -1 ) d·m -1 log(m/β·log m/β)) 0.5 ), d=VC( | X T ), T max.Höhe von Anteil (1-β) von x … analoge Ergebnisse gelten für Funktionenklassen und allgemeinere (z.B. Lipschitz-stetige) Fehlerfunktionen … verteilungsunabhängig UCED kann in speziellen Situationen gelten, z.B. für rekurrente Netze mit Kontraktion … man kann nach dem Training den Fehler abschätzen, wenn man die Maximalhöhe in der Trainingsmenge kennt … sogar mit Schranken, die wirklich gegen Null gehen … auch für die wirklich relevanten Szenarien gehts … [Hammer] bzw. [Hammer,Tino]

FB Mathematik, Universität Bielefeld37 Generell …

FB Mathematik, Universität Bielefeld38 Backpropagation- Netze für Strukturdaten Anwendungen – z.B.Bioinformatik, Simulation biologischer Prozesse Selbst- organisierende Verfahren Theorie – z.B.Lernbarkeit, Komplexität, Approximation TODO: Verbesserte Trainingsalgorithmen mit Gütegarantien TODO: Theoretische Unter- suchung und Qualitäts- kriterien, Verbesserung und Anwendungen Kooperationen: USA, Indien, England Kooperationen: England, Bielefeld GRLVQ für technische Sys- teme, Bildverarbeitung, … SOMs mit Rekurrenz Kooperationen: USA, Leipzig,Prognost,Italien Theorie – uniforme Formulierung, Kostenfunktion, induzierte Metrik, Topologieerhaltung Kooperationen: Leipzig, Italien SVM, Reinforcementlearning, Lernenvon Heuristiken z.B. f ür OR

FB Mathematik, Universität Bielefeld39 ENDE!

FB Mathematik, Universität Bielefeld40

FB Mathematik, Universität Bielefeld41 VC Dimension rekursiver Architekturen VC( |X t ) = Ω(W·ln W+W·t) für σ=H t-1 s i +(2,4,6,…,2 t ) f rek mit f(x,c 1,c 2 )= (c 1 c 2 x [0.5+2j,1.5+2j]) f w (m,x,c 1,c 2 )= (f(x,c 1,c 2 ) (m=w)) w FNN für W·ln W … Bew:

FB Mathematik, Universität Bielefeld42 UCED für rekursive Architekturen Sei p t :=P(X t ). Seien,δ>0. Gelte p T 1- /8. Dann ist P m (x | f,g |d P (f,g)-d m (f,g,x)| > ) δ für m = O( -2 δ -1 + VC( |X T )· -2 ln( -1 ln -1 )) Bew: P m (x | f,g |d P (f,g)-d m (f,g,x)| > ) P m (x | <m Punkte aus x in X T )) m:=m(1- /4) + P m (x | f,g |X T |d P (f,g)-d m (f,g,x)| > /4)) P:=P|X T /4 /2 p t (1-p t )/(m 2 ) + 2E x (2N( /64, |x,d 2m ) 2 )exp(-m 2 /512) p t (1-p t )/(m 2 ) + 4(256 e/ ·ln(256 e/ )) d exp(-m 2 /512) d=VC( |X T )