Maschinelles Lernen und automatische Textklassifikation

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen für das Erfüllbarkeitsproblem SAT
Advertisements

Christian Scheideler SS 2009
Zufallsfelder Def. Zufallsfeld: Sei V eine endliche Menge (von Orten). Für jedes v V existiere eine (endliche) Menge X(v) von Zuständen x(v). Der Raum.
Kapitel 1 Der Boolesche Kalkül
Steigung m berechnen Man kann die Steigung auch berechnen,
Schnelle Matrizenoperationen von Christian Büttner
Übungsbetrieb Di neuer Raum HZO 60
Analyse kryptographischer Protokolle mittels Algebren
Bounded Model Checking II
Teil 5 Maschinelles Lernen.
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Aspekte des Maschinellen Lernens
Genetische Algorithmen für die Variogrammanpassung
Übung 6.6Schranken 1.Angenommen, Ihr Algorithmus habe einen Aufwand von g(n) = 5n 3 + n für alle n a)Geben sie eine obere Schranke O(g(n)) an. b)Beweisen.
Philosophische Fakultät 3: Empirische Humanwissenschaften Fachrichtung Erziehungswissenschaft Statistik I Anja Fey, M.A.
Übung 6.1Turing-Maschine 1.Machen Sie sich mit der Funktionsweise des Busy Beaver-Programms vertraut Vollziehen sie die 11 Schritte der ersten Turing-Tabelle.
Algorithmentheorie 04 –Hashing
WS Algorithmentheorie 01 – Divide and Conquer (Segmentschnitt) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (06 – Reduktion endlicher Automaten) Prof. Dr. Th. Ottmann.
Geometrisches Divide and Conquer
Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.
Algorithmische Geometrie
Algorithmen des Internets 2005 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität 1 Materialien zu Übung 9 Bälle in Körbe Ranged.
RDF-Schema Seminar: „Semantic Web“ André Rosin,
Relationentheorie AIFB SS Algorithmen zur Bildung von 3NF-Relationsschemata Algorithmen zur Bildung von 3NF-Relationsschemata (2|8) (2)Synthese.
Grundsätzliche Resultate Theorem: Für jeden Relationstyp R(A 1,...,A n ) und jede Menge von FDs über {A 1,...,A n } gibt es: –eine verlustlose (aber nicht.
1.4.3 Die abgeschlossene Hülle F+ (1|5)
Zerlegung und Konstruktion Frage 2: Welche Zerlegungen sind korrekt? Zerlegung ersetzt Relationstyp R(A 1,...,A n ) und Menge von assoziierten Abhängigkeiten.

Neuronale Netze (Mitchell Kap. 4)
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Machine Learning KNN und andere (Kap. 8).
Machine Learning Decision Trees (2).
Maschinelles Lernen und automatische Textklassifikation
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Effiziente Algorithmen
Computational Thinking Suchen und Sortieren [Ordnung muss sein…]
Effiziente Algorithmen
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Polynome und schnelle Fourier-Transformation
Mehrkriterielle Optimierung mit Metaheuristiken
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 3: Potenzreihen und kontextfreie Sprachen (Vgl. Buch von A. Salomaa)
Integritätserhaltung und -Überprüfung in deduktiven Datenbanken
Algorithmen für das Erfüllbarkeitsproblem SAT
Analyse der Laufzeit von Algorithmen
Nichtlineare Optimierung
Informationserhaltende Zerlegungen (1) T R sei Relationstyp mit Attributmenge A R und Ausprägung R Zerlegung in Relationstypen T R 1,...,T R k mit Attributmengen.
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Wann ist eine Funktion (über den natürlichen Zahlen) berechenbar?
Version vom Max-Flow in Orientierten Matroiden Winfried Hochstättler & Robert Nickel Fernuniversität in Hagen Lehrstuhl für Diskrete Mathematik.
Gliederung der Vorlesung
Dr. Wolfram Amme, Semantik funktionaler Programme, Informatik II, FSU Jena, SS Semantik funktionaler Programme.
 Präsentation transkript:

Maschinelles Lernen und automatische Textklassifikation Lernen von Konzepten

Konzepte Was ist ein Konzept? Binäre Klassifikation Eigenschaft, Tatsache, ... die auf ein bestimmtes Objekt zutrifft oder nicht C(x) = {0,1} Binäre Klassifikation

Beispiel: SportTreiben Himmel Tempe-ratur Luft-feuchte Wind Wasser Vorher- sage SportTreiben Sonnig Warm normal Stark Stabil Ja Hoch Regnerisch Kalt Veränderlich Nein warm kalt ja

SportTreiben Repräsentation: betrachte Vektor der Wettereigenschaften, SportTreiben wird durch +/- angezeigt: <himmel,temperatur,feuchtigk,wind,wasser,vorhersage>,{+,-}

SportTreiben: Repräsentation Hypothese h: Konjunktion von Constraints Ci auf Attributen Ci kann sein: Spezieller Wert: Wasser = warm Egal: Wasser = ? Kein Wert erlaubt: Wasser = Ø Beispiel: <sonnig,?,?,stark,?,stabil>

Typisches Lernen von Konzepten Gegeben: Instanzen X = mögliche Tage, die durch die Wetterattribute beschrieben sind Zielfunktion c: SportTreiben : X -> {0,1} Hypothesen H: Konjunktionen von Literalen, z.B. <?,kalt,hoch,?,?,?> Trainingsbeispiele T: positive und negative Beispiele für die Zielfunktion: <x1,c(x1)>, ..., <xn,c(xn)> Gesucht: Hypothese h in H, so dass h(x) = c(x) für alle x in T

Grundannahme Hypothese des induktiven Lernens „Jede Hypothese, die die Zielfunktion auf einer hinreichenden Menge von Trainingsbeispielen approximiert, wird die Zielfunktion auch für neue Instanzen approximieren.“

Vergleich von Hypothesen Betrachte Instanzen: X1 = <sonnig,warm,hoch,stark,kalt,stabil> X2 = <sonnig,warm,hoch,leicht,warm,stabil> Und Hypothesen h1= <sonnig,?,?,stark,?,?> h2 = <sonnig,?,?,?,?,?> h3 = <sonnig,?,?,?,kalt,?>

Allgemein - spezifisch Def.: Seien hi und hk Hypothesen aus H, hj ist allgemeiner-oder-gleich zu hk (hj ≥g hk) gdw für jedes x aus X gilt: hk(x) = 1 => hj(x) = 1

Simpler Lern-Algorithmus: Find-S Grundidee: Gehe von sehr spezifischer Hypothese aus, und „verallgemeinere“ diese sukzessive für jedes Trainingsbeispiel.

Simpler Lern-Algorithmus: Find-S Wähle die spezifischste Hypothese h aus H Für jede positive Trainingsinstanz x Für jeden Attribut-Constraint ai in h: wenn ai wird in h von x erfüllt, Dann weiter, sonst ersetze ai in h durch den nächst allgemeineren Constraint, der von x erfüllt wird Ergebnis: Hypothese h

Beispielanwendung von Find-S h0 = <Ø, Ø, Ø, Ø, Ø, Ø, Ø,>,

Beispielanwendung von Find-S h0 = <Ø, Ø, Ø, Ø, Ø, Ø, Ø,>, x1 = <sonnig,warm,normal,stark,warm,stabil>,+

Beispielanwendung von Find-S h0 = <Ø, Ø, Ø, Ø, Ø, Ø, Ø,>, x1 = <sonnig,warm,normal,stark,warm,stabil>,+ h1 = <sonnig,warm,normal,stark,warm,stabil>

Beispielanwendung von Find-S h0 = <Ø, Ø, Ø, Ø, Ø, Ø, Ø,>, x1 = <sonnig,warm,normal,stark,warm,stabil>,+ h1 = <sonnig,warm,normal,stark,warm,stabil> x2 = <sonnig,warm,hoch,stark,warm,stabil>,+

Beispielanwendung von Find-S h0 = <Ø, Ø, Ø, Ø, Ø, Ø, Ø,>, x1 = <sonnig,warm,normal,stark,warm,stabil>,+ h1 = <sonnig,warm,normal,stark,warm,stabil> x2 = <sonnig,warm,hoch,stark,warm,stabil>,+ h2 = <sonnig,warm,?,stark,warm,stabil>

Beispielanwendung von Find-S h0 = <Ø, Ø, Ø, Ø, Ø, Ø, Ø,>, x1 = <sonnig,warm,normal,stark,warm,stabil>,+ h1 = <sonnig,warm,normal,stark,warm,stabil> x2 = <sonnig,warm,hoch,stark,warm,stabil>,+ h2 = <sonnig,warm,?,stark,warm,stabil> x3 = <regen,kalt,hoch,stark,warm,wechselhaft>,-

Beispielanwendung von Find-S h0 = <Ø, Ø, Ø, Ø, Ø, Ø, Ø,>, x1 = <sonnig,warm,normal,stark,warm,stabil>,+ h1 = <sonnig,warm,normal,stark,warm,stabil> x2 = <sonnig,warm,hoch,stark,warm,stabil>,+ h2 = <sonnig,warm,?,stark,warm,stabil> x3 = <regen,kalt,hoch,stark,warm,wechselhaft>,- h3 = <sonnig,warm,?,stark,warm,stabil>

Beispielanwendung von Find-S h0 = <Ø, Ø, Ø, Ø, Ø, Ø, Ø,>, x1 = <sonnig,warm,normal,stark,warm,stabil>,+ h1 = <sonnig,warm,normal,stark,warm,stabil> x2 = <sonnig,warm,hoch,stark,warm,stabil>,+ h2 = <sonnig,warm,?,stark,warm,stabil> x3 = <regen,kalt,hoch,stark,warm,wechselhaft>,- h3 = <sonnig,warm,?,stark,warm,stabil> x4 = <sonnig,warm,hoch,stark,kühl,wechselhaft>,+

Beispielanwendung von Find-S h0 = <Ø, Ø, Ø, Ø, Ø, Ø, Ø,>, x1 = <sonnig,warm,normal,stark,warm,stabil>,+ h1 = <sonnig,warm,normal,stark,warm,stabil> x2 = <sonnig,warm,hoch,stark,warm,stabil>,+ h2 = <sonnig,warm,?,stark,warm,stabil> x3 = <regen,kalt,hoch,stark,warm,wechselhaft>,- h3 = <sonnig,warm,?,stark,warm,stabil> x4 = <sonnig,warm,hoch,stark,kühl,wechselhaft>,+ h4 = <sonnig,warm,?,stark,?,?>

Bewertung Find-S Kein Feedback, wann das Konzept tatsächlich gelernt wurde Kein Feedback bei inkonsistentem Input (konvergiert nicht notwendig!) Keine Toleranz gegenüber fehlerhaftem Input Ergebnis ist immer die/eine maximal spezifische Hypothese, keine Beschreibung aller korrekten Hypothesen Starke Abhängigkeit von H

Versions-Räume Def.: Eine Hypothese h ist konsistent mit einer Trainingsmenge T für ein Zielkonzept c, gdw. für jede Instanz <x,c(x)> in T: h(x) = c(x) Def.: der Versions-Raum VSH,T in Bezug auf eine Hypothesen-Menge H und eine Trainingsmenge T ist die maximale Teilmenge von H, die mit allen Instanzen in T konsistent ist.

„List-then-eliminate“-Algorithmus Ziel: schränke den Versionsraum sukzessive ein Vorgehen: 1. Versions-Raum VSH,T = Menge aller Hypothesen 2. für jede Instanz <x,c(x)> der Trainigsmenge T, eliminiere aus VSH,T diejenigen h aus H für die h(x) ≠ c(x) 3. Ergebnis ist die Liste VSH,T

Repräsentation des Versions-Raums Idee: repräsentiere den VS durch obere und untere Schranken bzgl. Der allgemeiner-oder-gleich Relation

Repräsentation des Versions-Raums Def.: Die allgemeine Schranke G des Versions-Raums VSH,T ist die Menge seiner maximal allgemeinen Elemente (bzgl ≤g). Def.: Die spezifische Schranke S des Versions-Raums VSH,T ist die Menge seiner maximal spezifischen Elemente (bzgl ≤g). Jedes Element des Versions-Raums liegt zwischen diesen Schranken: VSH,T = {hH| s  S und g  G: g ≥ h ≥ s}

„Candidate Elimination“ Algorithmus Idee: statt VSH,T komplett zu durchlaufen, modifiziere in jedem Schrit S und G Setze: G = Menge der maximal allgemeinen Hypothesen in H S = Menge der maximal spezifischen Hypothesen in H Für jedes positive Trainingsbeispiel t: Entferne alle mit t inkonsistenten Hypothesen aus G Für jede Hypothese s in S, die nicht konsistent mit t ist: Entferne s aus S Füge alle minimalen Generalisierungen h von s hinzu, so dass h ist konsistent mit t Es gibt in G ein allgemeineres Element als h Entferne alle Hypothesen aus S, die allgemeiner als andere Hypothesen in S sind

„Candidate Elimination“ Algorithmus Für jedes negative Trainingsbeispiel t: Entferne alle mit t inkonsistenten Hypothesen aus S Für jede Hypothese g in G, die nicht konsistent mit t ist: Entferne g aus G Füge alle minimalen Spezialisierungen h von g hinzu, so dass h ist konsistent mit t Es gibt in S ein spezifischeres Element als h Entferne alle Hypothesen aus G, die spezifischer als andere Hypothesen in G sind

Was heißt Lernen? Gegeben: Frage: <sonnig,warm,normal,stark,kalt,wechselhaft>,+ <sonnig,warm,normal,leicht,warm,stabil>,+ Frage: <sonnig,warm,normal,stark, warm,stabil>,?

Was heißt Lernen? Gegeben: Vorschlag: Warum? <sonnig,warm,normal,stark,kalt,wechselhaft>,+ <sonnig,warm,normal,leicht,warm,stabil>,+ Vorschlag: <sonnig,warm,normal,stark, warm,stabil>,+ Warum?

Was heißt Lernen? Gegeben: Vorschlag: Wegen: <sonnig,warm,normal,stark,kalt,wechselhaft>,+ <sonnig,warm,normal,leicht,warm,stabil>,+ Vorschlag: <sonnig,warm,normal,stark, warm,stabil>,+ Wegen: <sonnig,warm,normal,?,?,?>

Grundannahmen Hypothesen sind Konjunktionen von Constraints Ohne Einschränkung: Hypothesen sind Disjunktionen, Konjunktionen oder Negationen über der Potenzmenge von X: <sonnig,warm,normal,?,?,?>  <?,?,?,?,?,wecheselhaft> Alternative Grundannahme: klassifiziere x gdw. wenn x in T

Zusammenfassung Lernen von Konzepten = Durchsuchen von Hypothesen Hypothesen lassen sich nach Spezifizität bzw. Allgemeinheit anordnen Versions-Raum = Menge der mit T konsistenten Hypothesen Versions-Raum lässt sich charakterisieren durch obere und untere Schranken Induktionsschritte nur möglich durch Zusatzannahmen bzgl H

Aufgaben Wie groß ist der Hypothesenraum für das Lernbeispiel? Prinzipiell gibt es mehr mögliche Funktionen, die die Zielfunktion approximieren können als H! Welche? Was besagt die Annahme einer Konjunktion von Constraints? Was ist die Konsequenz für die beschriebenen Verfahren ? Was passiert, wenn man diese Annahme nicht macht? Wie groß ist dann der Hypothesen-Raum? Wie sehen S und G in diesem Fall aus?