FB Mathematik, Universität Bielefeld1 Strukturverarbeitende Neuronale Netze Barbara Hammer, AG LNM, Universität Osnabrück
FB Mathematik, Universität Bielefeld2 Überblick 1. Einige Probleme aus der Bioinformatik 2. Lösungsansätze mithilfe neuronaler Netze 3. Mathematische Fragen beim Training 4. Lernbarkeit rekursiver Netzarchitekturen 5. Generell …
FB Mathematik, Universität Bielefeld3 Einige Probleme aus der Bioinformatik …
FB Mathematik, Universität Bielefeld4 Mehl Wasser Zucker Backhefe ?
FB Mathematik, Universität Bielefeld5 …TCGACTCCGTATTCGAC… ACGCCUAGU…CUAGUCUU DNA RNA-Polymerase … bindet an Promoter. Transkription: die DNA wird komplementär kopiert, … …Introns werden abgespalten… …und die mRNA verläßt den Zellkern.
FB Mathematik, Universität Bielefeld6 Translation: Ribosomen bilden Codons auf Aminosäuren ab,... …UCACAGAGAGGUUUCCCUCACAGAGGGUUU… Ser Gln Arg Gly Phe Pro His Arg Gly Cys...das Protein faltet sich zu einer 3D Struktur….. und steuert komplexe Prozesse.
FB Mathematik, Universität Bielefeld7 Einige Probleme … S.Cerevisiae ist seit 4/96 sequenziert ( Welche Abschnitte der DNA kodieren? Promoter, Exon/Intron Wie falten sich die Aminosäuren? Sekundärstruktur, 3D-Struktur der Proteine
FB Mathematik, Universität Bielefeld8 Lösungsansätze mithilfe neuronaler Netze …
FB Mathematik, Universität Bielefeld9 Ein Neuron w1w1 w2w2 wnwn … θ x1x1 x2x2 xnxn σ(w t x - θ) σ(t) = sgd(t) = (1+e -t ) -1 σ(t) = H(t) mit H(t) = 0 für t0 H(t) = 1 für t>0
FB Mathematik, Universität Bielefeld10 Vorwärtsgerichtete neuronale Netze (FNN)… f w : n o x y
FB Mathematik, Universität Bielefeld11 … und deren Training … Ziel: unbekanntes f: n o ist zu lernen Beispiele f(x 1 ),…,f(x m ) sind verfügbar Training: 1. Auswahl einer Netzarchitektur { f w | w W } 2. Optimieren der Gewichte w durch Minimieren des Fehlers (f(x i ) - f w (x i )) 2 auf den Trainingsdaten 3. Bewerten des Ergebnis durch den Fehler auf einer nicht zum Training benutzten Validierungsmenge f w f
FB Mathematik, Universität Bielefeld12 … zum Erkennen von Spleißstellen …… Exon Intron… G U …… A G … (0,0,0,1;0,0,1,0;0,1,0,0;0,0,0,1) aus [Pertea,Lin,Salzberg,Nucleid Acid Research 29(5): , 2001] Beispielergebnisse (missed Pos/false Pos in %): NetGene2: 6.4/4.6, 6.0/2.5 [Brunak et al.] 01 (1,0) d.h. f: 4k 2 ist zu lernen
FB Mathematik, Universität Bielefeld13 Partiell rekurrente Netze (RNN)… Eingabe Kontext Ausgabe f: n+c c g: c o mit f rec :( n )* c als f rec ([ ])=0 f rec ([x|a])=f(x,f rec (a)) gf rec :( n )* o Sequenzen über n
FB Mathematik, Universität Bielefeld14 … und deren Training … Ziel: unbekanntes f:( n )* o ist zu lernen Beispiele f(x 1 ),…,f(x m ) sind verfügbar Training: 1. Auswahl einer Netzarchitektur 2. Optimieren der Gewichte durch Minimieren des Fehlers auf den Trainingsdaten 3. Bewerten des Ergebnis durch den Fehler auf einer nicht zum Training benutzten Validierungsmenge
FB Mathematik, Universität Bielefeld15 … zur Prognose der Sekundärstruktur von Proteinen …SerGlnArgGlyPheProHisArgGlyCys… α-helix β-sheet γ-coil …α α β β β β β β β γ… … 010 d.h. f: Aminosäuren* {α,β,γ} ist zu lernen
FB Mathematik, Universität Bielefeld16 … zur Prognose der Sekundärstruktur von Proteinen …SerGlnArgGlyPheProHisArgGlyCys… PDB x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 EVA(3/3/2001)-Daten: 77.67% [Pollastri,Przybylski,Rost,Baldi,PROTEINS 47: ,2002] vgl.: PROF1 76.8%, PHDpsi 74.7%
FB Mathematik, Universität Bielefeld17 Rekursive Netze (RekNN)… Ein. Kont. Ausgabe Kont. f: n+2c c g: c o mit f rec :( n ) 2 * c als f rec (ξ) = 0 f rec (a(l,r)) = f(a,f rec (l),f rec (r)) gf rec :( n ) 2 * o gerichtete azyklische Graphen über n mit einem Startknoten und fan-out 2
FB Mathematik, Universität Bielefeld18 … und deren Training … Ziel: unbekanntes f:( n ) 2 * o ist zu lernen Beispiele f(x 1 ),…,f(x m ) sind verfügbar Training: 1. Auswahl einer Netzarchitektur 2. Optimieren der Gewichte durch Minimieren des Fehlers auf den Trainingsdaten 3. Bewerten des Ergebnis durch den Fehler auf einer nicht zum Training benutzten Validierungsmenge... nebenbei: rekursive Netze unterscheiden nicht zwischen Bäumen und Graphen
FB Mathematik, Universität Bielefeld19 … zur Prognose von Kontakten x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 … (x 2,x 3 ) … … … … … … … … … … x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 … (x 2,x 2 ) (x 1,x 1 ) (x 1,x 2 ) (x 1,x 3 )(x 2,x 1 ) d.h. f: (Aminosäuren 2 ) 2 * {0,1} ist zu lernen
FB Mathematik, Universität Bielefeld20 … zur Prognose von Kontakten x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 … PDB SSPro X1X2X3…X1X2X3… X1X2X3…X1X2X3… … [Pollastri,Baldi,Vullo,Frasconi, NIPS2002] PDBselect :(Ct,nCt,dist.truePos) 6Ǻ: 0.71,0.998, Ǻ: 0.43,0.987,0.55
FB Mathematik, Universität Bielefeld21 Mathematische Fragen beim Training …
FB Mathematik, Universität Bielefeld22 Training - Architekturauswahl f: X o ist zu lernen, gegeben f(x 1 ),…,f(x m ) 1. Architekturauswahl f ε z.z. Approximationsvollständigkeit: Für jede (sinnvolle) Funktion f und jedes ε>0 gibt es ein Netz, daß f bis auf ε (in geeigneter Norm) approximiert
FB Mathematik, Universität Bielefeld23 Approximationsergebnisse FNNs/RNNs [Hornik,Stinchcombe,White; Funahashi,Nakamura] : … können jede stetige Funktion beliebig gut auf Kompakta und endlichem Zeithorizont bzgl. L 1 approximieren (σ:squashing) RekNNs für Baumstrukturen [Hammer] : … können jede stetige Funktion beliebig gut auf Kompakta und begrenzter Höhe bzgl. L 1 approximieren (σ:squashing) … können jede endliche Menge {f(x 1 ),…,f(x m )} mit O(m 2 ) Neuronen exakt interpolieren (σ:squashing, C 2 in Umgebung von x mit σ(x)0)... können nicht jede Funktion f:{1} 2 * {0,1} approximieren (bei realistischer Aktivierungsfunktion)
FB Mathematik, Universität Bielefeld24 Training - Fehlerminimierung f:X o ist zu lernen, gegeben f(x 1 ),…,f(x m ) 1. Architekturauswahl 2. Fehlerminimierung Komplexität des Trainings: gegeben eine Architektur {f w |w} und eine Trainingsmenge, finde Parameter w so daß f w (x i ) möglichst gut mit f(x i ) übereinstimmt E(w) w
FB Mathematik, Universität Bielefeld25 Komplexitätsergebnisse Für feste Architektur mit Aktivierungsfunktion H: … Training ist polynomiell Für variable FNN-Architekturen mit Aktivierungsfunktion H: … optimale Parameter zu finden ist NP-hart [Judd] … sogar für Architekturen {(n,2,1)|n } [Blum,Rivest] … sogar für Architekturen {(n,n 1 >1,n 2,…,1)|n } [Hammer] … sogar für logistische Aktivierungsfunktion statt H [Jones;Vu;Hammer] … sogar, wenn man nur approximative Lösungen sucht [Bartlett,Ben- David;DasGupta,Hammer ]
FB Mathematik, Universität Bielefeld26 Training - Validierung f:X o ist zu lernen, gegeben f(x 1 ),…,f(x m ) 1. Architekturauswahl 2. Fehlerminimierung 3. Validierung TATATATATATATATAT ATATATATATATATA Trainingsfehler= Validierungsfehler TATATATATATATATACTACCACAGATATAT SCCHRIII 12335ff << T ?
FB Mathematik, Universität Bielefeld27 Lernbarkeit rekursiver Netzarchitekturen …
FB Mathematik, Universität Bielefeld28 Lernszenario unbekannte Funktion f sei zu lernen (alles sei meßbar) Funktionenklasse = { g:( n ) 2 * {0,1} | g } sei fest gewählt P unbekannte Verteilung auf ( n ) 2 * für die Daten (x,f) = ((x 1,f(x 1 )),…,(x m,f(x m ))) mit x 1,…,x m i.i.d. gemäß P h: U m (( n ) 2 *x {0,1}) m, (x,f) h m (x,f) h m (x,f) f für genügend große m Lernalgorithmus:
FB Mathematik, Universität Bielefeld29 Lernszenario d P (f,g) = |f(x)-g(x)| d P (x)d m (f,g,x) = i |f(x i )-g(x i )| / m h ist PAC (probably approximately correct): >0 sup f P m (x | d P (f,h m (x,f)) > ) 0 (m ) h generalisiert mit von der zu lernenden Funktion unabhängigen Schranken ist UCED (uniform convergence of empirical distances): >0 P m (x | f,g |d P (f,g)-d m (f,g,x)| > ) 0 (m ) genau die Algorithmen mit kleinem Trainingsfehler sind gut ist PAC lernbar : h: h PAC es gibt einen guten Algorithmus
FB Mathematik, Universität Bielefeld30 Lernszenario h ist verteilungsunabhängig PAC : >0 sup p sup f P m (x|d P (f,h m (x,f))> ) 0 (m ) ist verteilungsunabhängig UCED: >0 sup p P m (x| f,g |d P (f,g)-d m (f,g,x)|> ) 0 (m ) ist verteilungsunabhängig PAC lernbar : h: h verteilungsunabhängig PAC
FB Mathematik, Universität Bielefeld31 PAC vert.unabh. PAC vert.unabh. UCED UCED VC( ) < ~VC( ) Beispiele VC( ) := max m {} x 1,…,x m d:{x 1,…,x m } {0,1} f : f|{x 1,…,x m } = d maximale Anzahl von Punkten, auf denen jede mögliche Abbildung durch realisiert werden kann
FB Mathematik, Universität Bielefeld32 VC( |X t ) = O(W·N+W·ln W+W·t) σ=H O(W 2 N 2 2 2t ) σ=sgd Ω(W·ln W+W·t) σ=H Ω(W·t 2 +W·ln W) σ=sgd VC Dimension rekursiver Architekturen rekursive Netzarchitektur mit W Gewichten, N Neuronen X t ( n ) 2 * Bäume der Maximalhöhe t
FB Mathematik, Universität Bielefeld33 PAC vert.unabh. PAC vert.unabh. UCED UCED für allgemeine rekursive Netzarchitekturen kann es keine von der Verteilung unabhängigen a priori Schranken für den Generalisierungsfehler geben Überdeckungszahl N(,X,d) := minimale Anzahl Punkte, um X bis auf bzgl. d zu überdecken lim m E x (log N(, |x,d m ))/m 0 Fehlerwahrsch. UCED E x (N( /16, |x,d 2m ) 2 ) exp(-m 2 /32)
FB Mathematik, Universität Bielefeld34 UCED für rekursive Architekturen Sei p t :=P(X t ). Seien,δ>0. Gelte p T 1- /8. Dann ist P m (x | f,g |d P (f,g)-d m (f,g,x)| > ) δ für m = O( -2 δ -1 + VC( |X T )· -2 ln( -1 ln -1 ))
FB Mathematik, Universität Bielefeld35 PAC vert.unabh. PAC vert.unabh. UCED UCED ~VC( |X T ) für p T 1- /8 polynomiell, falls für ein β>0, c>0 gilt 1-p t <c·t -β, σ=H bzw.1-p t <c·2 -2βt, σ=sgd jeder Algorithmus mit kleinem Fehler generalisiert, die Schranken hängen von der Verteilung ab Aber: es gibt Beispiele, wo jeder Algorithmus für gute Generalisierung exponentiell viele Trainingsmuster benötigt.
FB Mathematik, Universität Bielefeld36 Lernbarkeit rekursiver Architekturen … die VC Dimension hängt von den Eingaben ab, der Validierungsfehler kann nicht a priori unabhängig von der Verteilung abgeschätzt werden. … jeder Algorithmus mit kleinem Trainingsfehler generalisiert, die Schranken hängen von der Verteilung ab.... a posteriori Schranken für beliebigen Lernalgorithmus h: inf f P m (x| |d m (f,h m (x,f),x)-d P (f,h m (x,f))| 1-δ für 2 (x) = O(m -1 log δ -1 log m + d·m -1 log(m·log m)), d=VC( | X T ), T max.Höhe in x … bzw. (x) = O(β + (β·log β -1 + log m(m -1 log δ -1 ) d·m -1 log(m/β·log m/β)) 0.5 ), d=VC( | X T ), T max.Höhe von Anteil (1-β) von x … analoge Ergebnisse gelten für Funktionenklassen und allgemeinere (z.B. Lipschitz-stetige) Fehlerfunktionen … verteilungsunabhängig UCED kann in speziellen Situationen gelten, z.B. für rekurrente Netze mit Kontraktion … man kann nach dem Training den Fehler abschätzen, wenn man die Maximalhöhe in der Trainingsmenge kennt … sogar mit Schranken, die wirklich gegen Null gehen … auch für die wirklich relevanten Szenarien gehts … [Hammer] bzw. [Hammer,Tino]
FB Mathematik, Universität Bielefeld37 Generell …
FB Mathematik, Universität Bielefeld38 Backpropagation- Netze für Strukturdaten Anwendungen – z.B.Bioinformatik, Simulation biologischer Prozesse Selbst- organisierende Verfahren Theorie – z.B.Lernbarkeit, Komplexität, Approximation TODO: Verbesserte Trainingsalgorithmen mit Gütegarantien TODO: Theoretische Unter- suchung und Qualitäts- kriterien, Verbesserung und Anwendungen Kooperationen: USA, Indien, England Kooperationen: England, Bielefeld GRLVQ für technische Sys- teme, Bildverarbeitung, … SOMs mit Rekurrenz Kooperationen: USA, Leipzig,Prognost,Italien Theorie – uniforme Formulierung, Kostenfunktion, induzierte Metrik, Topologieerhaltung Kooperationen: Leipzig, Italien SVM, Reinforcementlearning, Lernenvon Heuristiken z.B. f ür OR
FB Mathematik, Universität Bielefeld39 ENDE!
FB Mathematik, Universität Bielefeld40
FB Mathematik, Universität Bielefeld41 VC Dimension rekursiver Architekturen VC( |X t ) = Ω(W·ln W+W·t) für σ=H t-1 s i +(2,4,6,…,2 t ) f rek mit f(x,c 1,c 2 )= (c 1 c 2 x [0.5+2j,1.5+2j]) f w (m,x,c 1,c 2 )= (f(x,c 1,c 2 ) (m=w)) w FNN für W·ln W … Bew:
FB Mathematik, Universität Bielefeld42 UCED für rekursive Architekturen Sei p t :=P(X t ). Seien,δ>0. Gelte p T 1- /8. Dann ist P m (x | f,g |d P (f,g)-d m (f,g,x)| > ) δ für m = O( -2 δ -1 + VC( |X T )· -2 ln( -1 ln -1 )) Bew: P m (x | f,g |d P (f,g)-d m (f,g,x)| > ) P m (x | <m Punkte aus x in X T )) m:=m(1- /4) + P m (x | f,g |X T |d P (f,g)-d m (f,g,x)| > /4)) P:=P|X T /4 /2 p t (1-p t )/(m 2 ) + 2E x (2N( /64, |x,d 2m ) 2 )exp(-m 2 /512) p t (1-p t )/(m 2 ) + 4(256 e/ ·ln(256 e/ )) d exp(-m 2 /512) d=VC( |X T )