Einführung in die KI - Maschinelles Lernen

Einführung in die KI - Maschinelles Lernen
Michael Schenke | Einführung in die KI - Maschinelles Lernen 17/09/18 | Seite 1

7.1 Maschinelles Lernen (Vorbemer-kungen)

Was ist Maschinelles Lernen?
Beim ML geht es zunächst darum, in großen Datenmengen Muster (im weitesten Sinne) zu erkennen, zu deuten, zu verallgemeinern. Dabei sollen Computer so programmiert werden, daß ein bestimmtes Leistungskriterium an Hand von Erfahrungswerten oder Daten aus der Vergangenheit optimiert wird.

Thomas Mitchell (1998) Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.

Die zu Grunde liegenden Modelle sind parametrisiert. Die Verfahren sollen bezüglich dieser Parameter durch „Trainingswerte“ optimiert werden. deskriptives Modell, prädiktives Modell.

Anwendungen Bearbeitung großer Datenmengen:
Internet, medizinische Daten, Industrie 4.0 nicht programmierbare Anwendungen: autonomes Auto Handschriftenerkennung natural language processing Computer Vision

Quellen Statistik, Mustererkennung, Signalverarbeitung, Steuerung,
Data Mining, Neuronale Netze, ….

Methoden Mathematische Methoden: Assoziationsregeln,
Bayes-Theorie, Clusteranalyse, Hidden-Markov-Modelle, … Assoziationsregeln, Entscheidungsbäume, Klassifikationsalgorithmen, Dimensionalitätsreduktion, Data Mining …

Beispiele Assoziationsregeln
70% aller Kunden, die Bier kaufen, kaufen auch Chips. Klassifikation IF Einkommen > x1 AND Vermögen > x2 THEN kreditwürdig Mustererkennung (physisch) Erkenne ein geschriebenes „a“ automatisch! Ausreißer / Meßfehler erkennen

7.2 Lernstrategien

Lernstrategien Lernen durch direkte Eingabe,
Lernen durch Anweisung (Instruktion), Lernen durch Deduktion (analytisches Lernen), Lernen durch Analogie, Lernen aus Beispielen (induktives Lernen), Lernen durch Beobachtung und Entdeckung.

Lernstrategien Lernen durch direkte Eingabe (direkte Implantation neuen Wissens): Bei dieser Methode werden vom Lernenden weder Schlußfolgerungen noch Transformation des Wissens verlangt. Das Wissen muß lediglich abgespeichert werden.

Lernstrategien Mensch:
Pures Auswendiglernen, ohne daß Schlußfolgerungen gezogen werden. Maschine: Das System wird ohne eine Schlußfolgerungskomponente programmiert, konstruiert oder modifiziert.

Lernstrategien Lernen durch Anweisung (Instruktion):
Das Wissen wird mit Hilfe einer Quelle erworben. Der Lernende wandelt das Wissen aus der Eingabedarstellung in eine interne, verwendbare Darstellung um. Die neuen Informationen werden für einen späteren, effektiveren Einsatz in bereits vorhandenes Wissen integriert. Fehlende Detailinformationen werden entweder durch Hypothesenbildung oder von einer externen Wissensquelle angefordert.

Lernstrategien Beispiel (Mensch und Karte):
Der Mensch erhält aus der Karte (Quelle) grobe, strukturierte Information über die Umgebung. Der Mensch orientiert sich an der Karte (Eingabedarstellung wird in eine interne, verwendbare Darstellung umgewandelt). Der Mensch entscheidet sich nun für einen Weg zum Ziel (Detailinformationen durch Hypothesenbildung). Oder er fragt einen Einheimischen nach den Weg (Detailinformationen von externer Wissensquelle).

Lernstrategien Beispiel (Kasse und Kassierer):
Durch den Scanner wird der Barcode(Quelle) gelesen. Diesen wandelt die Maschine in eine interne Darstellung um. Die Maschine gleicht diese Darstellung mit der Datenbank ab und erhält einen Preis (Detailinformationen durch Hypothesenbildung). Oder der Barcode kann nicht gelesen werden bzw. es gibt keinen Eintrag in der Datenbank. Dann fordert die Maschine die Eingabe des Preises von einem Mitarbeiter. (Detailinformationen von externer Wissensquelle).

Lernstrategien Lernen durch Deduktion (analytisches Lernen):
Der Lernende führt deduktive (wahrheitserhaltende) Schlüsse auf bereits vorhandenem oder speziell zur Verfügung gestelltem Wissen aus. Dies geschieht mit dem Ziel der Restrukturierung des gegebenen Wissens in nützlichere, effektivere Formen oder zur Ableitung wichtiger Konsequenzen.

Lernstrategien Lernen durch Deduktion (analytisches Lernen):
Gegeben sind die Definition eines Konzeptes und möglichst vollständiges Hintergrundwissen. Gesucht ist eine Spezialisierung dieses Konzeptes, die sowohl im vorliegenden Einzelfall effektiver als auch operationalisierbar ist.

Lernstrategien Beispiel:
Der Übergang von der abstrakten Beschreibung eines Stuhls zu einer Definition, die ein wirkliches (effektives) Erkennen eines Stuhls mit Hilfe der dem System zur Verfügung stehenden Sensorik ermöglicht(Operationalität).

Lernstrategien Lernen durch Analogie:
Beim Lernen durch Analogie werden neue Fakten oder Fähigkeiten durch Transfer und Erweiterung bestehenden Wissens abgeleitet.

Lernstrategien Beispiel:
Stift liegt auf meiner Hand. Nehme ich die Hand weg, fällt der Stift auf den Boden. Analogie: Eine Münze liegt auf meiner Hand. Nehme ich die Hand weg, fällt die Münze auf den Boden. Ich schlußfolgere induktiv daraus, daß alles, was auf meiner Hand liegt, zu Boden fallen wird, wenn ich die Hand wegnehme. Durch induktives Lernen erkennt ich also, daß alles nach unten fällt, oder zum Massenzentrum.

Lernstrategien Lernen aus Beispielen (induktives Lernen):
Bei dieser Methode betrachtet man eine Menge von vorklassifizierten Beispielen („Trainingsbeispiele“) eines Konzeptes. Dabei ist die Bewertung der einzelnen Beispiele vorgegeben (positiv oder negativ). Aus den Beispielen soll ein mögliches Konzept entwickelt werden.

Lernstrategien Durch positive Beispiele wird das Konzept genereller / allgemeiner. Durch Gegenbeispiele wird das Konzept spezieller. Lernen aus Beispielen besteht entweder aus einem Versuch oder ist inkrementell. Bei einem Versuch müssen alle Beispiele auf einmal präsent sein.

Lernstrategien Der inkrementelle Ansatz entspricht eher dem menschlichen Lernen. Er erlaubt den Lernenden, teilweise gelernte Konzepte einzusetzen. Beim Lernen aus Beispielen kann der Lernende durch schlecht gewählte Trainingsbeispiele in die Irre geführt werden. (Problem des „overfitting“)

Lernstrategien Lernen durch Beobachtung und Entdeckung:
Bei dieser Methode gibt es keinen externen Lehrer und keine vorgegebenen Bewertungen. Es ist die anspruchsvollste und am schwersten zu realisierende Lernstrategie.

Lernstrategien Lernen durch Beobachtung und Entdeckung:
Die Aufgabe besteht darin, allgemeine Beschreibungen (Gesetzte oder Theorien) zu bestimmen, die eine Ansammlung von Beobachtungen charakterisieren. Durch die Auswertung der Beobachtungen werden Beschreibungen erzeugt, die Eigenschaften von Objekten spezifizieren, die eine bestimmte Klasse (ein Konzept) repräsentieren.

Lernstrategien Beim Lernen durch Beobachtung und Entdeckung gibt es zwei extreme Situationen: Passives Beobachten: Der Lernende klassifiziert und ordnet die Beobachtungen. Aktives Experimentieren: Hierbei stört der Lernende seine Umwelt und beobachtet die Ergebnisse dieser Störungen.

Überwachtes/Unüberwachtes Lernen
Beim überwachten Lernen sind Definitions- und Wertebereich bekannt. Es gilt nur, eine Funktion zwischen ihnen zu lernen. „Richtige Werte“ sind bekannt. Beim unüberwachten Lernen stehen nur die Eingabedaten zur Verfügung. Es sollen dort Regelmäßigkeiten / Strukturen gefunden werden. („Dichteschätzung“)

Überwachtes Lernen Regression: Vorhersage kontinuierlicher Werte
Klassifikation: Vorhersage diskreter Werte

Überwachtes Lernen Regression oder Klassifikation?
Lagerhaltung mit Tausenden von Artikeln. Vorhersage: Wieviel davon wird in 3 Monaten verkauft? Automatische Feststellung, ob Kundenkonten gehackt worden sind.

Unüberwachtes Lernen (Beispiele)
Finde im Netz alles zu einem Thema Klassifiziere Individuen nach Genen Computercluster soziale Netzwerkanalyse Marktsegmentierung astronomische Daten

Genes Individuals

Organize computing clusters Social network analysis
Image credit: NASA/JPL-Caltech/E. Churchwell (Univ. of Wisconsin, Madison) Astronomical data analysis image obtained from NASA website. RCW 79 is seen in the southern Milky Way, 17,200 light-years from Earth in the constellation Centaurus. The bubble is 70-light years in diameter, and probably took about one million years to form from the radiation and winds of hot young stars. The balloon of gas and dust is an example of stimulated star formation. Such stars are born when the hot bubble expands into the interstellar gas and dust around it. RCW 79 has spawned at least two groups of new stars along the edge of the large bubble. Some are visible inside the small bubble in the lower left corner. Another group of baby stars appears near the opening at the top. NASA's Spitzer Space Telescope easily detects infrared light from the dust particles in RCW 79. The young stars within RCW79 radiate ultraviolet light that excites molecules of dust within the bubble. This causes the dust grains to emit infrared light that is detected by Spitzer and seen here as the extended red features. Image credit: NASA/JPL-Caltech/E. Churchwell (Univ. of Wisconsin, Madison) From NASA use guidelines: Using NASA Imagery and Linking to NASA Web Sites Still Images, Audio Files and Video NASA still images, audio files and video generally are not copyrighted. You may use NASA imagery, video and audio material for educational or informational purposes, including photo collections, textbooks, public exhibits and Internet Web pages. This general permission extends to personal Web pages. This general permission does not extend to use of the NASA insignia logo (the blue "meatball" insignia), the retired NASA logotype (the red "worm" logo) and the NASA seal. These images may not be used by persons who are not NASA employees or on products (including Web pages) that are not NASA sponsored. If the NASA material is to be used for commercial purposes, especially including advertisements, it must not explicitly or implicitly convey NASA's endorsement of commercial goods or services. If a NASA image includes an identifiable person, using the image for commercial purposes may infringe that person's right of privacy or publicity, and permission should be obtained from the person. Any questions regarding application of any NASA image or emblem should be directed to: Photo Department NASA Headquarters 300 E St. SW Washington, DC Tel: (202) Fax: (202) Linking to NASA Web Sites NASA Web sites are not copyrighted, and may be linked to from other Web sites, including individuals' personal Web sites, without explicit permission from NASA. However, such links may not explicitly or implicitly convey NASA's endorsement of commercial goods or services. NASA images may be used as graphic "hot links" to NASA Web sites, provided they are used within the guidelines above. This permission does not extend to use of the NASA insignia, the retired NASA logotype or the NASA seal. Restrictions Please be advised that: 1) NASA does not endorse or sponsor any commercial product, service, or activity. 2) The use of the NASA name, initials, any NASA emblems (including the NASA insignia, the NASA logo and the NASA seal) which would express or imply such endorsement or sponsorship is strictly prohibited. 3) Use of the NASA name or initials as an identifying symbol by organizations other than NASA (such as on foods, packaging, containers, signs, or any promotional material) is prohibited. 4) NASA does permit the use of the NASA logo and insignia on novelty and souvenir-type items. However, such items may be sold and manufactured only after a proposal has been submitted to and approved by a Visual Identity representative from the Public Outreach Division (Phone: 202/ ) in accordance with 14 CFR (Code of Federal Regulations) Part Permission is granted on a nonexclusive basis as it is not NASA's policy to grant exclusive rights to use any of the agency identities. 5) No approval for use is authorized by NASA when the use can be construed as an endorsement by NASA of a product, service or activity. 6) NASA emblems should be reproduced only from original reproduction proofs, transparencies, or computer files available from NASA Headquarters. Please be advised that approval must be granted by a Visual Identity representative from the Public Outreach Division ( Tel: 202/ ) before any reproduction materials can be obtained. Market segmentation Astronomical data analysis

Lernstrategien Welche der folgenden Methoden sind überwacht/unüberwacht? Regressionsanalyse Clusteranalyse Klassifikation

überwacht/unüberwacht Übung
Aufbau eines Spam-Filters Gegeben: Menge von Internet-Artikeln. gruppieren in Mengen von Artikeln über die gleiche Geschichte Gegeben: Kundendaten. typisieren von Kundenklassen Gegeben: Patientendaten. klassifizieren nach Diabetes/keine Diabetes

Problem des overfitting
Price Price Price Size Size Size under fitting “paßt” overfitting

7.3 Entscheidungs bäume

Entscheidungsbäume Gegeben:
eine Menge von Attributen eine Menge von Beispielen aus Werten für die Attribute und dem Verhalten in diesem Fall („Trainingsbeispielen“) Gesucht: ein allgemeines Verhalten, aus dem die Trainingsbeispiele resultieren könnten. Dieses allgemeine Verhalten sollte möglichst einfach beschreibbar sein.

Entscheidungsbäume Größe Nationalität Familienstand Entscheidung/
Klassifikation klein deutsch ledig + groß französisch italienisch - verheiratet

Entscheidungsbäume

Entscheidungsbäume Funktion DT wird aufgerufen und als Parameter werden Beispielmenge, Attributmenge und Default-Wert übergeben. Als erstes wird geprüft, ob überhaupt Beispiele übergeben wurden. Ist die Beispielmenge leer, soll der Default-Wert zurückgegeben werden. Sind Beispiele vorhanden, wird geprüft, ob alle Beispiele die gleiche Klassifikation haben. Wenn alle Beispiele die gleiche Klassifikation haben, ist eine weitere Unterteilung nicht notwendig. In diesem Falle wird hier ein Blatt mit dieser gemeinsamen Klassifikation angehängt.

Entscheidungsbäume Wir haben jetzt Beispiele mit unterschiedlichen Klassifikationen. Nun müssen wir sie nach Attributen unterteilen. Dies setzt voraus, daß überhaupt noch Attribute vorhanden sind. Sind zu einem Zeitpunkt keine Attribute mehr vorhanden, liegen widersprüchliche Daten vor. Jetzt muß ein Attribut ausgewählt werden (Hier liegt die Intelligenz des Verfahrens). Schließlich wird induktiv für jeden Wert des gewählten Attributs ein Entscheidungsbaum generiert und dieser an den gerade bearbeiteten Knoten angehängt.

Klassifikation klein deutsch ledig + groß französisch italienisch - verheiratet

Klassifikation groß französisch ledig + deutsch verheiratet - italienisch

Entscheidungsbäume Nationalität Familienstand Entscheidung/
Klassifikation französisch ledig + deutsch verheiratet - italienisch

Entscheidungsbäume Nationalität Familienstand Entscheidung/
Klassifikation deutsch ledig + italienisch - verheiratet

Entscheidungsbäume Wie sieht der ganze Entscheidungsbaum aus?
Welches Attribut hätten Sie für die Entscheidung genommen? Wie sähe der Entscheidungsbaum dann aus?

7.4 Bayessches Lernen

Bayessches Lernen Gegeben: Klassen c1,…,cn, Objekt obj
In welcher Klasse ist obj? Aufgabe: Maxmiere P(ci|obj) über alle Klassen.

Dok Wörter Klasse Training 1 China Peking China c 2 China China Schanghai 3 China Hongkong 4 Tokio Japan China j Test 5 China China China Tokio Japan ?

7.5 Clusteranalyse

Clusteranalyse Verfahren aus der deskriptiven Statistik, welches genutzt wird, wenn sehr wenig über die Daten bekannt ist. Ziel: Bildung von Klassen von Elementen mit ähnlichen Eigenschaften. Ähnlichkeit der Elemente wird über einen zu definierenden Abstand oder eine Ähnlichkeitsmatrix festgelegt.

Clusteranalyse Anwendungsbeispiele der Clusteranalyse:
Bilderkennung, Gesichtserkennung, Barcode scannen, Kreditwürdigkeit eines Kunden einer Bank einschätzen, Textklassifikation (z.B. Herausfiltern von Spam-Mails), Erkennen von Krankheiten, …

Clusteranalyse Grundlegendes Modell
Gegeben Beobachtungen Y 1 ,Y 2 ,…,Y n . Eine Gruppierung G, bestehend aus r Clustern, ist eine Partition der Beobachtungsmenge aus r Äquivalenzklassen. Die Anzahl der Dimensionen soll in allen Y 𝑖 gleich sein. (Eigenschaften, Features)

Clusteranalyse Gewicht . . . . . . . . . . . . . . . . . .
Geschwindigkeit Dipl.-Inform.

Clusteranalyse Für vorgegebenes r suchen wir eine Gruppierung G*={G1*,G2*,…,Gr*}, so daß die Summe der Distanzen Σ 𝑘 Σ 𝑖,𝑗𝐺𝑘 𝑑 𝑖,𝑗 in den Clustern minimal wird. Bei großen Datenmengen ist die Suche nach einem globalen Minimum nicht realisierbar. Man begnügt sich mit einem lokalen Minimum.

Clusteranalyse Die Anzahl der Dimensionen soll in allen Y 𝑖 gleich sein. (Eigenschaften, Features) Das sind hier 𝑡 und 𝑘𝑚/ℎ.

Clusteranalyse Definition: Sei M eine Menge. Eine Abbildung d: MxM  R 0 + heißt Metrik (Abstand) auf M wenn gilt: d m 1 ,m 2 =0,genau dann, wenn m 1 = m 2 , d m 1 ,m 2 = d m 2 ,m 1 , Dreiecksungleichung: d m 1 ,m 2 ≤ d m 1 ,m 3 +d m 3 ,m 2 . Auf einer endlichen Menge können die Distanzen in einer Distanzmatrix D angegeben werden.

Clusteranalyse Beispiele für Metriken: Euklidisch, Manhattan,
Tschebytschew, chaotisch.

Clusteranalyse Klassen von Algorithmen der Clusteranalyse:
agglomerativ, partitionierend, k-means dbscan.

Clusteranalyse Im folgenden Algorithmus zur Clustrung einer Menge M wird ein Cluster {𝑚 1 ,…, 𝑚 𝑛 } repräsentiert durch Centroide Σ 𝑚 𝑖 /n, falls auf M eine Summe, Division definiert sind.

Clusteranalyse Beispiel: Hierarchische Clusteranalyse Gegeben sei D.
Initialisiere I = 1,2,…n , G 1 = 1 , …, G n = n und u i =1 für alle i∈I. Suche nach dem minimalen Wert der Distanzmatrix D∈R n,n , also: Suche nach einem Paar l,m , so daß d lm =min {d ij |i,j∈I,i<j}.

Clusteranalyse Fusion der Cluster l und m zum Cluster l, Löschen des Clusters m: G l =G l  G m , I = I\{m} Neuberechnung der Abstände d lj für alle j∈I. Formel für d 𝑙j in Abhängigkeit von d lj , d mj ,d lm ,u l ,u 𝑚 entsprechend dem konkreten Verfahren Neuberechnung des Gewichtes des Clusters l: u l =u l + u m

Clusteranalyse Falls I =r, dann beende das Verfahren, andernfalls gehe wieder zur Suche nach der minimalen Distanz. Der gesamte Verlauf der Clusterkonstruktion kann in einem Dendrogramm abgebildet werden.

Clusteranalyse Formeln zur Neuberechnung der Abstände
Nächster-Nachbar-Methode (Simple Linkage) d lj ∗ =min d lj ,d mj neigt zur Kontraktion von Clustern Entferntester-Nachbar-Methode (Complete Linkage) d lj ∗ =max d lj ,d mj neigt zur Dilatation (zum Auseinanderziehen) von Clustern

Clusteranalyse Mittelwertmethode (Average Linkage)
d lj ∗ = d lj +d mj Methode des gewichteten Mittelwerts (Weighted Average Linkage) d lj ∗ = u l ∗d lj + u m ∗ d mj u l +u m Median-Verfahren, Centroid-Verfahren, Minimalvarianzmethode, …

7.6 Regressions-analyse

Hauspreise Preise (in TEuro) Größe (qm) überwachtes Lernen
Gegeben ist der “richtige” für jedes Beispiel. Regressionsproblem Vorhersage eines reellen Wertes

Hypothese: Parameter: Kostenunktion: Ziel: Minimiere J

Gegeben: Ziel: Idee: Starte mit beliebigem Verändere solange, bis ein Wert möglichst nahe am Minimum erreicht ist.

J(0,1) 1 0

Algorithmus: Gradienten Abstieg

Logistische Regression
Um Klassifikationsprobleme anzugehen, kann man ebenfalls die Regressionsanalyse benutzen. Die folgende Sigmoid-Funktion hat die Eigenschaften einer statistischen Verteilungsfunktion. Sie definiert die Entscheidungsgrenze zwischen den einzelnen Klassen.

Logistische Regression:
Die Sigmoide

Logistische Regression
“Sigmoide” für für

Entscheidungsgrenze x2 3 2 1 1 2 3 x1 Vorhersage: falls

Nicht-lineare Entscheidungsgrenze
x2 1 x1 -1 1 -1 Vorhersage: falls

Trainings- menge (m Wertepaare):
neues Beispiel

Logistische Regression und Kostenfunktion
Idee: Sind y=1 und h(x)=1, sind die Kosten 0. Aber für h(x) -> 0 gehen die Kosten gegen unendlich, entsprechend in der zweiten Zeile. Cost(h(x) = -y log(h(x)) – (1-y) log(1-h(x))

Logistische Regression und Kostenfunktion
Die Funktion J soll minimiert werden. Die Ausgabe ist dann

Gradienten Abstieg Repeat

7.7 Neuronale Netze

Neuronale Netze Es gibt sehr viele Funktionen, die zur nicht-linearen Regressionsanalyse benutzt werden können. Eine Kombination könnte sein: Aber welche Attributkombinationen sollten verwendet werden? Alle auszuprobieren geht nicht (exponentielles Wachstum).

Neuronale Netze Man kam auf die auf die Idee, die Maschine selber lernen zu lassen, welche Kombinationen sinnvoll sind. Das Ergebnis war ein mehrstufiger Lernprozeß, bei dem die letzte Stufe die eigentliche Regressionsanalyse ist. In den vorausgehenden Stufen werden die sinnvollen Attributkombinationen bestimmt.

Neuronale Netze Es entstand ein Modell, das schon etwas früher als Abstraktion des Gehirns konzipiert worden war. Es war groß in Mode in den 80ern und frühen 90ern, verlor seine Popularität in den späten 90ern und erlebte einen Wiederaufstieg in vielen Anwendungen. Dabei geht es nicht um prinzipielle Fähigkeiten des Hirns sondern um praktische Anwendung.

Neuronale Netze In Biologie und Medizin war es zu ganz erstaunlichen Umprogrammierungen von Hirnteilen gekommen. Beispielsweise konnte sowohl dem auditorischen wie dem somatosensorischen Cortex die Fähigkeit zum (sehr begrenzten) Sehen antrainiert werden. Man schloß daraus, daß im Hirn einen Allzwecklernalgorithmus gibt. Der sollte nachempfunden werden.

Die “one learning algorithm” Hypothese
Auditorischer Cortex Der auditorische Cortex lernt zu sehen. [Roe et al., 1992] [Roe et al., 1992]

Die “one learning algorithm” Hypothese
Somatosensorischer Cortex Der somatosensorische Cortex lernt zu sehen. [Metin & Frost, 1989]

Sensorische Programmierungen im Hirn
Sehen mit der Zunge Menschliches Sonar Haptischer Gürtel: Richtungssinn Drittes Auge [BrainPort; Welsh & Blasch, 1997; Nagel et al., 2005; Constantine-Paton & Law, 2009]

Neuronen im Gehirn

Neuronen im Gehirn [Credit: US National Institutes of Health, National Institute on Aging]

Das Neuron als grundlegende Einheit
Die Sigmoide dient als Aktivierungsfunktion.

Neuronales Netzwerk Layer 1 Layer 2 Layer 3

Neuronales Network “Aktivierung” von Einheit i in layer j
Gewichtsmatrix für die Funktion von layer j nach layer j+1 In einem Netzwerk mit Einheiten in layer j und Einheiten in layer j+1 hat die Dimension .

Werte vorwärts propagieren (Vektorisiert)

Andere Netzwerk Architekturen
Layer 1 Layer 2 Layer 3 Layer 4

Nichtlineares Klassifikationsbeispiel: XOR/XNOR
seien binär (0 or 1). x2 x2 x1 x1

Erinnerung: Die Sigmoide
Einige Werte der Sigmoiden: g(0) = 0,5 g(10) = 0,999955 g(-10) = 0,000045

1 Modellierung von AND Wie sind die Kantengewichte
θ0 θ1 θ2 zu wählen, damit die AND-Funktion entsteht? hθ(x) = g(θ0x0 + θ1x1 + θ2x2 ) 1

Wir wählen die Kantengewichte θ0 = -30 θ1 = 20 θ2 = 20 also:
Modellierung von AND Wir wählen die Kantengewichte θ0 = -30 θ1 = 20 θ2 = 20 also: hθ(x) = g( x1 + 20x2 ) 9,35762×10-14 1

Modellierung von OR 1 1,000000 -10 20 20 hθ(x) = g( x1 + 20x2 )

Modellierung der Negation:
1

-30 10 -10 20 -20 20 20 -20 20 Das Endergebnis ist ein Netz, das x1, x2 als Eingabe hat. Der innere (verborgene) layer wird durch das rote und das blaue Oval gebildet. Diese sind dann die Eingabe für das grüne Oval. Sie spielen dort, also im Ausgabe-layer, die Rolle von x1, x2.

Training Neuronaler Netze
Das Training der Netzwerke kann im Prinzip mit Hilfe der bekannten Kostenfunktion und dem Gradientenabstiegsverfahren durchgeführt werden. Allerdings müssen die Werte für jeden layer (rekursiv) durchgereicht werden. Dabei wird sowohl forward als auch backward propagation eingesetzt.

Training Neuronaler Netze
Dadurch, daß die Übergabefunktionen im Kern linear sind, bestimmt durch die Matrizen , kann die Anfangsmatrix nicht die Nullmatrix sein. Dadurch würden sich im Verlauf der forward propagation lineare Abhängigkeiten ergeben (unerwünschte Gleichheiten von Werten), die man nie wieder los wird. Deshalb empfiehlt es sich, Zufallsinitialisierungen vorzunehmen oder ausgefeiltere Verfahren.

Debuggen Neuronaler Netze
Angenommen, ein Netz sei mit Hilfe einer Beispielmenge trainiert, es macht aber unakzeptabel große Fehler in der Praxis. Was ist zu tun?

mehr Trainingsbeispiele kleinere Attributmengen größere Attributmengen zusätzliche polynomielle Attribute Datennormalisierung verbessern Es ist üblich, nicht alle vorhandenen Daten zum Training zu verwenden. Aufteilen (Verhältnis 70:30) in Trainings- und Testmenge

Crossvalidierung Angenommen, wir haben 10 Hypothesen getestet Angenommen, wir wählen

Wie gut verallgemeinert sich das Modell in der Praxis?
Crossvalidierung Wie gut verallgemeinert sich das Modell in der Praxis? Das Problem ist, daß ein zu guter Schätzer für den allgemeinen Fehler ist. Z.B. ist der zusätzliche Parameter “Grad des Polynoms” auf die Testmenge zugeschnitten. Als Lösung hat es sich bewährt, daß die Datenmenge in drei Teilmengen (60:20:20) zerlegt wird: Trainingsmenge, Crossvalidierungsmenge Testmenge

Crossvalidierung Mit Hilfe der Trainingsmenge werden für vorgegebene Hypothesen die besten Parameter bestimmt. Die Crossvalidierungsmenge sucht die beste Hypothese aus und die Testmenge bestimmt, wie gut die “Siegerhypothese” wirklich ist. Die Formeln für Trainings-, Validierungs- und Testfehler sind praktisch gleich.

Es gibt in der Praxis folgende Beobachtung bei der Crossvalidierung:
Bei niedrigem Grad des Polynoms ist der CV-Fehler hoch, wird zunächst mit wachsendem Grad niedriger, steigt dann mit weiter wachsendem Grad aber wieder an. Der Grund dafür ist das overfitting. Das führt zu einer Möglichkeit, zu erkennen, ob ein underfitting- oder ein overfitting-Problem vorliegt.

underfit vs. overfit underfit: ~ overfit: >>
Polynomgrad Fehler (Cross validation Fehler) overfit: >> (Trainingsfehler) Merksatz: Im Falle des underfitting helfen zusätzliche Daten normalerweise nicht weiter.

mehr Trainingsbeispiele gegen overfitting kleinere Attributmengen gegen overfitting größere Attributmengen gegen underfitting zusätzliche polynomielle Attribute gegen underfitting Datennormalisierung verbessern hilft gegen beides (sehr komplexes Thema) Merksatz: Je größer das Netzwerk ist, desto anfälliger ist es für overfitting.

(genetische Algorithmen)
7.8 Evolutionäres Lernen (genetische Algorithmen)

Evolutionäres Lernen „Man muß mit dem Unterrichten einer Maschine herumexperimentieren und schauen, wie gut sie lernt. […] Es gibt einen offensichtlichen Zusammenhang zwischen diesem Prozeß und der Evolution […] Man darf allerdings hoffen, daß dieser Prozess schneller abläuft.“ Alan Turing (1950): Computing Machinery and Intelligence

Evolutionäres Lernen Evolutionäre Algorithmen (EA) sind eine Klasse von stochastischen Optimierungsverfahren, deren Funktionsweise von der Evolution natürlicher Lebewesen inspiriert ist. In Anlehnung an die Natur werden Lösungskandidaten für ein bestimmtes Problem künstlich evolviert, EA sind also naturanaloge Optimierungsverfahren.

Evolutionäres Lernen Da es sich um stochastische Algorithmen handelt, finden EA meist nicht die beste Lösung für ein Problem, aber bei Erfolg eine hinreichend gute Näherung, was in der Praxis vor allem bei NP-vollständigen Problemen bereits wünschenswert ist. Die Verfahren verschiedener EA unterscheiden sich untereinander in erster Linie durch die genutzten Selektions-, Rekombinations- und Mutationsoperatoren, das Genotyp-Phänotyp-Mapping, sowie die Problemrepräsentation.

Evolutionäres Lernen Durch die Problemstellung als Optimierungsproblem sind eine Zielfunktion sowie der Problemraum mit den potentiellen Lösungen gegeben. Der Unterschied zwischen dem Problemraum der Anwendung und dem Suchraum des Algorithmus besteht darin, daß ein EA eine Lösung anders darstellen kann, um sie besser zu verarbeiten und später wieder in ursprünglicher Form auszugeben (Genotyp-Phänotyp-Mapping).

Strukturen beim Evolutionären Lernen
Suchraum (z. B. Binärzahlen, reelle Zahlen, Baumstrukturen) Suchoperatoren (z. B. Mutation und Rekombination) Fitnesszuweisung und Selektion auf Basis der Zielfunktion Art und Weise, in der vorherige Generationen in die Selektion mit einbezogen werden Beziehung zwischen dem Suchraum und dem Problemraum (Genotyp-Phänotyp-Mapping)

Evolutionäre Algorithmen zur Optimierung oder Suche
Evolutionäres Lernen Evolutionäre Algorithmen zur Optimierung oder Suche Evolution als ein Suchproblem betrachten: Tiere konkurrieren miteinander (z.B. Konkurrenz um Resourcen oder Räuber-Beute-Modelle) Lösungswege finden zum optimalen Überleben Reproduktion: Vater Mutter

Gene sind natürlichen Mutationen ausgesetzt
Evolutionäres Lernen Gene sind natürlichen Mutationen ausgesetzt Mutationen können positiv, negativ oder sich gar nicht auf Erben auswirken Durch Rekombination können sich Arten an den Selektionsdruck anpassen z.B. Klimaveränderungen, Erschließung neuer Lebensräume

Evolutionärer Algorithmus
Evolutionäres Lernen Diese vereinfachte Vorstellung wird in der Informatik idealisiert (abstrahiert). Die Güte eines Lösungskandidaten wird über eine Fitnessfunktion berechnet. Verschiedene Kandidaten sind vergleichbar miteinander z.B. Form einer Autotür optimieren Natürliches Vorbild Evolutionärer Algorithmus Beispiel Organismus Lösungskandidat Autotür Fortpflanzungs-erfolg Wert der Fitnessfunktion Strömungs-widerstand Natürliche Mutation Mutation Änderung der Form

Genetischer Algorithmus
Implementierung im Programm: Probleme werden als Chromosomen dargestellt. Fitnessberechnung Selektion innerhalb der Population Funktion zur Erzeugung der Nachkommen Bsp.: Rucksackproblem Rucksack packen mit Dingen verschiedener Größe Entscheidung was verpackt wird (optimal)

Darstellung der Chromosomen: Repräsentation der Eigenschaften Definition eines Alphabets zur Kennzeichnung der Eigenschaften Beispiel: Jedes Element zum Einpacken ist 1 Bit (1 = mitnehmen, 0 = nicht mitnehmen). Chromosom ist eine Kette von Bits (Länge = Anzahl Elemente). (0,1,1,0)  Element 2 und 3 werden eingepackt.

Implementierung der Fitnessfunktion: beste Verkettung  höchster Fitnesswert Fitnessreduzierung bei schlechten Ergebnissen Positive Funktion (Minimum 0) In der Natur ist die Fitness dynamisch. Im Programm ist sie statisch. Bewertung durch Fitnessfunktion am Beispiel: Rucksack soll so voll wie möglich sei. Reduzierung der Fitness von jedem Element, wenn die Verkettung nicht paßt Einfache Lösung „Greedy Algorithmus“

Erzeugung der Population erste Generation zufällig erzeugt Algorithmus erzeugt Nachkommen mit höherer Fitness Reproduktion durch „Eltern“ mit relativ hohem Fitnessgrad neue Generation mit neuer Fitnessbewertung auch Ausnahmen bei der Reproduktion zulassen (schwacher Fitnessgrad)

Gentische Operatoren Crossover Mutation
Welche Elemente werden von den Eltern weiter gegeben? Single point, Multi point, Uniform Mutation zufällige Manipulation eines Bits (Individuen als Bitkette) Invertierung Verdopplung Löschung Bei reellen Eigenschaften wird ein Wert 1/Länge addiert/subtrahiert.

Tournament: Eltern und Kinder treten gegeneinander an.
Gentische Operatoren Crossover Welche Elemente werden von den Eltern weiter gegeben? Single point, Multi point, Uniform Mutation zufällige Drehung eines Bits (binäre Eigenschaften) Bei reellen Eigenschaften wird ein Wert 1/Länge addiert/subtrahiert. Elitism: Die besten Verkettungen gehen direkt in die nächste Population Tournament: Eltern und Kinder treten gegeneinander an.

Zusammenfassung Initialisierung Lernen Zufallsverkettungen generieren
Erzeuge neue Population Wähle 2 Verkettungen nach Fitness Rekombination der beiden Auswahl über elitism/ tournament beste Verkettung auswählen Wiederholung bis zur Erfüllung der Endebedingung (Genauigkeit oder Abstand zur Lösung)

Schemasatz Der Schemasatz nach John H. Holland ( ) behandelt das Konvergenzverhalten genetischer Algorithmen. Der Satz beweist, daß sich Individuen mit überdurchschnittlicher Fitness mit höherer Wahrscheinlichkeit durchsetzen. Individuen = Bitketten Schemata = Individuen mit wildcards

Einführung in die KI - Maschinelles Lernen

Ähnliche Präsentationen

Präsentation zum Thema: "Einführung in die KI - Maschinelles Lernen"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Einführung in die KI - Maschinelles Lernen

Ähnliche Präsentationen

Präsentation zum Thema: "Einführung in die KI - Maschinelles Lernen"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback