Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

23.10.2002FB Mathematik, Universität Bielefeld1 Strukturverarbeitende Neuronale Netze Barbara Hammer, AG LNM, Universität Osnabrück.

Ähnliche Präsentationen


Präsentation zum Thema: "23.10.2002FB Mathematik, Universität Bielefeld1 Strukturverarbeitende Neuronale Netze Barbara Hammer, AG LNM, Universität Osnabrück."—  Präsentation transkript:

1 23.10.2002FB Mathematik, Universität Bielefeld1 Strukturverarbeitende Neuronale Netze Barbara Hammer, AG LNM, Universität Osnabrück

2 23.10.2002FB Mathematik, Universität Bielefeld2 Überblick 1. Einige Probleme aus der Bioinformatik 2. Lösungsansätze mithilfe neuronaler Netze 3. Mathematische Fragen beim Training 4. Lernbarkeit rekursiver Netzarchitekturen 5. Generell …

3 23.10.2002FB Mathematik, Universität Bielefeld3 Einige Probleme aus der Bioinformatik …

4 23.10.2002FB Mathematik, Universität Bielefeld4 Mehl Wasser Zucker Backhefe ?

5 23.10.2002FB Mathematik, Universität Bielefeld5 …TCGACTCCGTATTCGAC… ACGCCUAGU…CUAGUCUU DNA RNA-Polymerase … bindet an Promoter. Transkription: die DNA wird komplementär kopiert, … …Introns werden abgespalten… …und die mRNA verläßt den Zellkern.

6 23.10.2002FB Mathematik, Universität Bielefeld6 Translation: Ribosomen bilden Codons auf Aminosäuren ab,... …UCACAGAGAGGUUUCCCUCACAGAGGGUUU… Ser Gln Arg Gly Phe Pro His Arg Gly Cys...das Protein faltet sich zu einer 3D Struktur….. und steuert komplexe Prozesse.

7 23.10.2002FB Mathematik, Universität Bielefeld7 Einige Probleme … S.Cerevisiae ist seit 4/96 sequenziert (http://genome-www.stanford.edu/Saccharomyces)http://genome-www.stanford.edu/Saccharomyces Welche Abschnitte der DNA kodieren? Promoter, Exon/Intron Wie falten sich die Aminosäuren? Sekundärstruktur, 3D-Struktur der Proteine

8 23.10.2002FB Mathematik, Universität Bielefeld8 Lösungsansätze mithilfe neuronaler Netze …

9 23.10.2002FB Mathematik, Universität Bielefeld9 Ein Neuron w1w1 w2w2 wnwn … θ x1x1 x2x2 xnxn σ(w t x - θ) σ(t) = sgd(t) = (1+e -t ) -1 σ(t) = H(t) mit H(t) = 0 für t0 H(t) = 1 für t>0

10 23.10.2002FB Mathematik, Universität Bielefeld10 Vorwärtsgerichtete neuronale Netze (FNN)… f w : n o x y

11 23.10.2002FB Mathematik, Universität Bielefeld11 … und deren Training … Ziel: unbekanntes f: n o ist zu lernen Beispiele f(x 1 ),…,f(x m ) sind verfügbar Training: 1. Auswahl einer Netzarchitektur { f w | w W } 2. Optimieren der Gewichte w durch Minimieren des Fehlers (f(x i ) - f w (x i )) 2 auf den Trainingsdaten 3. Bewerten des Ergebnis durch den Fehler auf einer nicht zum Training benutzten Validierungsmenge f w f

12 23.10.2002FB Mathematik, Universität Bielefeld12 … zum Erkennen von Spleißstellen …… Exon Intron… G U …… A G … (0,0,0,1;0,0,1,0;0,1,0,0;0,0,0,1) 10 00 aus [Pertea,Lin,Salzberg,Nucleid Acid Research 29(5):1185-1190, 2001] Beispielergebnisse (missed Pos/false Pos in %): NetGene2: 6.4/4.6, 6.0/2.5 [Brunak et al.] 01 (1,0) d.h. f: 4k 2 ist zu lernen

13 23.10.2002FB Mathematik, Universität Bielefeld13 Partiell rekurrente Netze (RNN)… Eingabe Kontext Ausgabe f: n+c c g: c o mit f rec :( n )* c als f rec ([ ])=0 f rec ([x|a])=f(x,f rec (a)) gf rec :( n )* o Sequenzen über n

14 23.10.2002FB Mathematik, Universität Bielefeld14 … und deren Training … Ziel: unbekanntes f:( n )* o ist zu lernen Beispiele f(x 1 ),…,f(x m ) sind verfügbar Training: 1. Auswahl einer Netzarchitektur 2. Optimieren der Gewichte durch Minimieren des Fehlers auf den Trainingsdaten 3. Bewerten des Ergebnis durch den Fehler auf einer nicht zum Training benutzten Validierungsmenge

15 23.10.2002FB Mathematik, Universität Bielefeld15 … zur Prognose der Sekundärstruktur von Proteinen …SerGlnArgGlyPheProHisArgGlyCys… α-helix β-sheet γ-coil …α α β β β β β β β γ… 00000010..01000000..00010000.. … 010 d.h. f: Aminosäuren* {α,β,γ} ist zu lernen

16 23.10.2002FB Mathematik, Universität Bielefeld16 … zur Prognose der Sekundärstruktur von Proteinen …SerGlnArgGlyPheProHisArgGlyCys… PDB x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 EVA(3/3/2001)-Daten: 77.67% [Pollastri,Przybylski,Rost,Baldi,PROTEINS 47:228-235,2002] vgl.: PROF1 76.8%, PHDpsi 74.7%

17 23.10.2002FB Mathematik, Universität Bielefeld17 Rekursive Netze (RekNN)… Ein. Kont. Ausgabe Kont. f: n+2c c g: c o mit f rec :( n ) 2 * c als f rec (ξ) = 0 f rec (a(l,r)) = f(a,f rec (l),f rec (r)) gf rec :( n ) 2 * o gerichtete azyklische Graphen über n mit einem Startknoten und fan-out 2

18 23.10.2002FB Mathematik, Universität Bielefeld18 … und deren Training … Ziel: unbekanntes f:( n ) 2 * o ist zu lernen Beispiele f(x 1 ),…,f(x m ) sind verfügbar Training: 1. Auswahl einer Netzarchitektur 2. Optimieren der Gewichte durch Minimieren des Fehlers auf den Trainingsdaten 3. Bewerten des Ergebnis durch den Fehler auf einer nicht zum Training benutzten Validierungsmenge... nebenbei: rekursive Netze unterscheiden nicht zwischen Bäumen und Graphen

19 23.10.2002FB Mathematik, Universität Bielefeld19 … zur Prognose von Kontakten x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 … (x 2,x 3 ) 0 1 0 0 0 0 0 0 0 0 0 … 0 1 0 0 0 0 0 0 1 1 … 0 0 1 0 0 0 0 0 1 0 … 0 0 0 1 0 0 0 0 0 0 … 0 0 0 0 1 1 0 0 0 0 … 0 0 0 0 1 1 1 0 0 0 … 0 0 0 0 0 1 1 1 0 0 … 0 0 0 0 0 0 1 1 1 0 … 0 1 1 0 0 0 0 1 1 1 … 0 1 0 0 0 0 0 0 1 1 … x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 … (x 2,x 2 ) (x 1,x 1 ) (x 1,x 2 ) (x 1,x 3 )(x 2,x 1 ) d.h. f: (Aminosäuren 2 ) 2 * {0,1} ist zu lernen

20 23.10.2002FB Mathematik, Universität Bielefeld20 … zur Prognose von Kontakten x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 … PDB SSPro X1X2X3…X1X2X3… X1X2X3…X1X2X3… … [Pollastri,Baldi,Vullo,Frasconi, NIPS2002] PDBselect :(Ct,nCt,dist.truePos) 6Ǻ: 0.71,0.998,0.59 12Ǻ: 0.43,0.987,0.55

21 23.10.2002FB Mathematik, Universität Bielefeld21 Mathematische Fragen beim Training …

22 23.10.2002FB Mathematik, Universität Bielefeld22 Training - Architekturauswahl f: X o ist zu lernen, gegeben f(x 1 ),…,f(x m ) 1. Architekturauswahl f ε z.z. Approximationsvollständigkeit: Für jede (sinnvolle) Funktion f und jedes ε>0 gibt es ein Netz, daß f bis auf ε (in geeigneter Norm) approximiert

23 23.10.2002FB Mathematik, Universität Bielefeld23 Approximationsergebnisse FNNs/RNNs [Hornik,Stinchcombe,White; Funahashi,Nakamura] : … können jede stetige Funktion beliebig gut auf Kompakta und endlichem Zeithorizont bzgl. L 1 approximieren (σ:squashing) RekNNs für Baumstrukturen [Hammer] : … können jede stetige Funktion beliebig gut auf Kompakta und begrenzter Höhe bzgl. L 1 approximieren (σ:squashing) … können jede endliche Menge {f(x 1 ),…,f(x m )} mit O(m 2 ) Neuronen exakt interpolieren (σ:squashing, C 2 in Umgebung von x mit σ(x)0)... können nicht jede Funktion f:{1} 2 * {0,1} approximieren (bei realistischer Aktivierungsfunktion)

24 23.10.2002FB Mathematik, Universität Bielefeld24 Training - Fehlerminimierung f:X o ist zu lernen, gegeben f(x 1 ),…,f(x m ) 1. Architekturauswahl 2. Fehlerminimierung Komplexität des Trainings: gegeben eine Architektur {f w |w} und eine Trainingsmenge, finde Parameter w so daß f w (x i ) möglichst gut mit f(x i ) übereinstimmt E(w) w

25 23.10.2002FB Mathematik, Universität Bielefeld25 Komplexitätsergebnisse Für feste Architektur mit Aktivierungsfunktion H: … Training ist polynomiell Für variable FNN-Architekturen mit Aktivierungsfunktion H: … optimale Parameter zu finden ist NP-hart [Judd] … sogar für Architekturen {(n,2,1)|n } [Blum,Rivest] … sogar für Architekturen {(n,n 1 >1,n 2,…,1)|n } [Hammer] … sogar für logistische Aktivierungsfunktion statt H [Jones;Vu;Hammer] … sogar, wenn man nur approximative Lösungen sucht [Bartlett,Ben- David;DasGupta,Hammer ]

26 23.10.2002FB Mathematik, Universität Bielefeld26 Training - Validierung f:X o ist zu lernen, gegeben f(x 1 ),…,f(x m ) 1. Architekturauswahl 2. Fehlerminimierung 3. Validierung TATATATATATATATAT ATATATATATATATA Trainingsfehler= Validierungsfehler TATATATATATATATACTACCACAGATATAT SCCHRIII 12335ff << T ?

27 23.10.2002FB Mathematik, Universität Bielefeld27 Lernbarkeit rekursiver Netzarchitekturen …

28 23.10.2002FB Mathematik, Universität Bielefeld28 Lernszenario unbekannte Funktion f sei zu lernen (alles sei meßbar) Funktionenklasse = { g:( n ) 2 * {0,1} | g } sei fest gewählt P unbekannte Verteilung auf ( n ) 2 * für die Daten (x,f) = ((x 1,f(x 1 )),…,(x m,f(x m ))) mit x 1,…,x m i.i.d. gemäß P h: U m (( n ) 2 *x {0,1}) m, (x,f) h m (x,f) h m (x,f) f für genügend große m Lernalgorithmus:

29 23.10.2002FB Mathematik, Universität Bielefeld29 Lernszenario d P (f,g) = |f(x)-g(x)| d P (x)d m (f,g,x) = i |f(x i )-g(x i )| / m h ist PAC (probably approximately correct): >0 sup f P m (x | d P (f,h m (x,f)) > ) 0 (m ) h generalisiert mit von der zu lernenden Funktion unabhängigen Schranken ist UCED (uniform convergence of empirical distances): >0 P m (x | f,g |d P (f,g)-d m (f,g,x)| > ) 0 (m ) genau die Algorithmen mit kleinem Trainingsfehler sind gut ist PAC lernbar : h: h PAC es gibt einen guten Algorithmus

30 23.10.2002FB Mathematik, Universität Bielefeld30 Lernszenario h ist verteilungsunabhängig PAC : >0 sup p sup f P m (x|d P (f,h m (x,f))> ) 0 (m ) ist verteilungsunabhängig UCED: >0 sup p P m (x| f,g |d P (f,g)-d m (f,g,x)|> ) 0 (m ) ist verteilungsunabhängig PAC lernbar : h: h verteilungsunabhängig PAC

31 23.10.2002FB Mathematik, Universität Bielefeld31 PAC vert.unabh. PAC vert.unabh. UCED UCED VC( ) < ~VC( ) Beispiele VC( ) := max m {} x 1,…,x m d:{x 1,…,x m } {0,1} f : f|{x 1,…,x m } = d maximale Anzahl von Punkten, auf denen jede mögliche Abbildung durch realisiert werden kann

32 23.10.2002FB Mathematik, Universität Bielefeld32 VC( |X t ) = O(W·N+W·ln W+W·t) σ=H O(W 2 N 2 2 2t ) σ=sgd Ω(W·ln W+W·t) σ=H Ω(W·t 2 +W·ln W) σ=sgd VC Dimension rekursiver Architekturen rekursive Netzarchitektur mit W Gewichten, N Neuronen X t ( n ) 2 * Bäume der Maximalhöhe t

33 23.10.2002FB Mathematik, Universität Bielefeld33 PAC vert.unabh. PAC vert.unabh. UCED UCED für allgemeine rekursive Netzarchitekturen kann es keine von der Verteilung unabhängigen a priori Schranken für den Generalisierungsfehler geben Überdeckungszahl N(,X,d) := minimale Anzahl Punkte, um X bis auf bzgl. d zu überdecken lim m E x (log N(, |x,d m ))/m 0 Fehlerwahrsch. UCED E x (N( /16, |x,d 2m ) 2 ) exp(-m 2 /32)

34 23.10.2002FB Mathematik, Universität Bielefeld34 UCED für rekursive Architekturen Sei p t :=P(X t ). Seien,δ>0. Gelte p T 1- /8. Dann ist P m (x | f,g |d P (f,g)-d m (f,g,x)| > ) δ für m = O( -2 δ -1 + VC( |X T )· -2 ln( -1 ln -1 ))

35 23.10.2002FB Mathematik, Universität Bielefeld35 PAC vert.unabh. PAC vert.unabh. UCED UCED ~VC( |X T ) für p T 1- /8 polynomiell, falls für ein β>0, c>0 gilt 1-p t <c·t -β, σ=H bzw.1-p t <c·2 -2βt, σ=sgd jeder Algorithmus mit kleinem Fehler generalisiert, die Schranken hängen von der Verteilung ab Aber: es gibt Beispiele, wo jeder Algorithmus für gute Generalisierung exponentiell viele Trainingsmuster benötigt.

36 23.10.2002FB Mathematik, Universität Bielefeld36 Lernbarkeit rekursiver Architekturen … die VC Dimension hängt von den Eingaben ab, der Validierungsfehler kann nicht a priori unabhängig von der Verteilung abgeschätzt werden. … jeder Algorithmus mit kleinem Trainingsfehler generalisiert, die Schranken hängen von der Verteilung ab.... a posteriori Schranken für beliebigen Lernalgorithmus h: inf f P m (x| |d m (f,h m (x,f),x)-d P (f,h m (x,f))| 1-δ für 2 (x) = O(m -1 log δ -1 log m + d·m -1 log(m·log m)), d=VC( | X T ), T max.Höhe in x … bzw. (x) = O(β + (β·log β -1 + log m(m -1 log δ -1 ) 0.5 + d·m -1 log(m/β·log m/β)) 0.5 ), d=VC( | X T ), T max.Höhe von Anteil (1-β) von x … analoge Ergebnisse gelten für Funktionenklassen und allgemeinere (z.B. Lipschitz-stetige) Fehlerfunktionen … verteilungsunabhängig UCED kann in speziellen Situationen gelten, z.B. für rekurrente Netze mit Kontraktion … man kann nach dem Training den Fehler abschätzen, wenn man die Maximalhöhe in der Trainingsmenge kennt … sogar mit Schranken, die wirklich gegen Null gehen … auch für die wirklich relevanten Szenarien gehts … [Hammer] bzw. [Hammer,Tino]

37 23.10.2002FB Mathematik, Universität Bielefeld37 Generell …

38 23.10.2002FB Mathematik, Universität Bielefeld38 Backpropagation- Netze für Strukturdaten Anwendungen – z.B.Bioinformatik, Simulation biologischer Prozesse Selbst- organisierende Verfahren Theorie – z.B.Lernbarkeit, Komplexität, Approximation TODO: Verbesserte Trainingsalgorithmen mit Gütegarantien TODO: Theoretische Unter- suchung und Qualitäts- kriterien, Verbesserung und Anwendungen Kooperationen: USA, Indien, England Kooperationen: England, Bielefeld GRLVQ für technische Sys- teme, Bildverarbeitung, … SOMs mit Rekurrenz Kooperationen: USA, Leipzig,Prognost,Italien Theorie – uniforme Formulierung, Kostenfunktion, induzierte Metrik, Topologieerhaltung Kooperationen: Leipzig, Italien SVM, Reinforcementlearning, Lernenvon Heuristiken z.B. f ür OR

39 23.10.2002FB Mathematik, Universität Bielefeld39 ENDE!

40 23.10.2002FB Mathematik, Universität Bielefeld40

41 23.10.2002FB Mathematik, Universität Bielefeld41 VC Dimension rekursiver Architekturen VC( |X t ) = Ω(W·ln W+W·t) für σ=H 00001111 00110011 01010101 t-1 s i +(2,4,6,…,2 t ) f rek mit f(x,c 1,c 2 )= (c 1 c 2 x [0.5+2j,1.5+2j]) f w (m,x,c 1,c 2 )= (f(x,c 1,c 2 ) (m=w)) w FNN für W·ln W … Bew:

42 23.10.2002FB Mathematik, Universität Bielefeld42 UCED für rekursive Architekturen Sei p t :=P(X t ). Seien,δ>0. Gelte p T 1- /8. Dann ist P m (x | f,g |d P (f,g)-d m (f,g,x)| > ) δ für m = O( -2 δ -1 + VC( |X T )· -2 ln( -1 ln -1 )) Bew: P m (x | f,g |d P (f,g)-d m (f,g,x)| > ) P m (x | <m Punkte aus x in X T )) m:=m(1- /4) + P m (x | f,g |X T |d P (f,g)-d m (f,g,x)| > /4)) P:=P|X T /4 /2 p t (1-p t )/(m 2 ) + 2E x (2N( /64, |x,d 2m ) 2 )exp(-m 2 /512) p t (1-p t )/(m 2 ) + 4(256 e/ ·ln(256 e/ )) d exp(-m 2 /512) d=VC( |X T )


Herunterladen ppt "23.10.2002FB Mathematik, Universität Bielefeld1 Strukturverarbeitende Neuronale Netze Barbara Hammer, AG LNM, Universität Osnabrück."

Ähnliche Präsentationen


Google-Anzeigen