24.10.2001PG402 R DT/DB Boris Shulimovich1/20 R DT / DB Rule Discovery Tool Wissensentdeckung in SQL-Datenbanken.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen für das Erfüllbarkeitsproblem SAT
Advertisements

Temporale Logiken: LTL und CTL
LS 8 Künstliche Intelligenz Prof. Dr
Pop Jazz C B A Jazz C A Lehrstuhl für Künstliche Intelligenz
Intelligente Anwendungen im Internet
6. Regelbasierte Systeme
Polynomial Root Isolation
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
Interesting Subgroups
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Datenbanken Einführung.
Frame-Logik Eine Einführung Andreas Glausch.
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
2. Programmstruktur – Teil 2
Default Logiken Zhao Li
Organisatorisches Klausur für Übungsschein (Anfang Januar)
Es sei SPEC = (, E) eine Spezifikation mit einer
Syntax der Aussagenlogik
Einführung in Berechenbarkeit und Formale Sprachen
Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Grammatiken beschreiben Sprachen L µ *, indem.
Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Reduktionen Def: L · L (L ist reduzierbar auf.
Christian Schindelhauer
Prolog und Prädikatenlogik I
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Datenbanken werden als Anhäufung von Werten eines Wertebereiches aufgefasst und Datenbankabfragen.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Kapitel 1 Die natürlichen und die ganze Zahlen. Kapitel 1: Die natürlichen und die ganzen Zahlen © Beutelspacher/Zschiegner April 2005 Seite 2 Inhalt.
Semantik von Prolog & Unifikation
Fakten, Regeln und Anfragen
Beispiele für Ausdrucksalgebren
Maschinelles Lernen und Data Mining
Algorithmen und Komplexität
Christian Schindelhauer
Access 2000 Datenbanken.
Maschinelles Lernen und automatische Textklassifikation
Machine Learning Decision Trees (2).
Machine Learning Was wir alles nicht behandelt haben.
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
... und alles was dazugehört
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Proseminar: „Webtechnologien für Ecommerce“
Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation
1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,
Einführung in die Informatik für Naturwissenschaftler und Ingenieure
Mehrkriterielle Optimierung mit Metaheuristiken
Einführung in die Programmierung Wintersemester 2013/14 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.
Dr. Rolf Haenni, University of KonstanzNovember 28, 2002 Page 1/15 Aspekte eine echten Informationstheorie 1.Einführung 2.Informationsalgebren 3.Unsicherheit.
Freiwillige Feuerwehr der Stadt Perg
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 1: Wiederholung (Vor allem Folien von Priv.-Doz. Dr. Kindler vom WS 2001/02.
SQL - Structured Query Language AIFB SS (1/9) Join-Operationen in SQL-92(1/9) Syntax einer Join-Operation: join-op := CROSS JOIN | [NATURAL]
LS 8 – Künstliche Intelligenz
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Arne Vater Wintersemester 2006/ Vorlesung
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Integritätserhaltung und -Überprüfung in deduktiven Datenbanken
Algorithmen für das Erfüllbarkeitsproblem SAT
7. Formale Sprachen und Grammatiken
Prolog: Datenbanken Inhalt - Überblick - Erstellen einer Datenbank
Syntax, Semantik, Spezifikation - Grundlagen der Informatik R. Hartwig Kapitel 3 / 1 Algebraische Hülle und Homomorphie A = [A, F ] sei  -Algebra. Eine.
- Studienarbeit - Entwurf und Umsetzung von kombinierten Anfragen für die Ähnlichkeitssuche auf digitalen Bilder auf der Basis von Regionen und Features.
? definierende Gleichungen  gültige Gleichungen ?
Anbindung eines Ontologie- basiertes Risikomanagement- systems an eine XML-Datenbank Datenbankseminar am Lehrstuhl für Praktische Informatik III Vortrag.
Dr. Wolfram Amme, Semantik funktionaler Programme, Informatik II, FSU Jena, SS Semantik funktionaler Programme.
Focusing Search in Multiobjective Evolutionary Optimization through Preference Learning from User Feedback Thomas FoberWeiwei ChengEyke Hüllermeier AG.
Dr. Wolfram Amme, Grundsätze der Logikprogrammierung, Informatik II, FSU Jena, SS Grundsätze der Logikprogrammierung.
Integrating Knowledge Discovery into Knowledge Management
 Präsentation transkript:

PG402 R DT/DB Boris Shulimovich1/20 R DT / DB Rule Discovery Tool Wissensentdeckung in SQL-Datenbanken

PG402 R DT/DB Boris Shulimovich2/20 Übersicht 1. KDD-Motivation 2. ILP-Crashkurs 3. ILP-Werkzeug R DT 4. R DT/DB

PG402 R DT/DB Boris Shulimovich3/20 Wissensentdeckung in Datenbanken Knowledge Discovery in Databases (KDD) Untersuchen von unübersichtlichen Datensammlungen nach Regularitäten bzw. finden von allen gültigen und interessanten Regeln Ausgabe von verständlichen Regeln (nicht nur einfache Statistiken) Hypothesen für gültige Regeln vom System selbst ausgestellt Datenbank Dict Bereichswissen AB Anwendung Human User Entdeckungsmethode Entdecktes Wissen Tendenzen Suche / Auswertung Abb.:Architektur eines prototypischen Entdeckungslernsystems für Datenbanken [Frawley et al 92] [Morik 98]

PG402 R DT/DB Boris Shulimovich4/20 KDD Anwendungsbeispiele Medizin: Nebenwirkungen von Medikamenten Finanzwirtschaft: Vorhersagen für den Aktienmarkt Sozialwissenschaft: Trendanalyse bei Wahlen Marketing: Identifikation von Personengruppen mit ungewöhnlichem Kaufverhalten Versicherungen: Entdeckung von exzessiven und betrügerischen Ansprüchen Physik: Erforschung von Supraleitern Militär: (geheim) Verbrecherbekämpfung: Abgleich von Fingerabdrücken Raumfahrt: Suche nach außerirdischen Intelligenz

PG402 R DT/DB Boris Shulimovich5/20 Logikorientiertes induktives Lernen (ILP) Crashkurs, Teil 1 ILP (inductive logik programming) ist gemeinsames Forschungsgebiet des maschinellen Lernens und logischen Programmierens [Muggleton 92]. Begriffslernen bzw. Regellernen (Wissensentdeckung) erfolgt durch Induktion von prädikatenlogischen Formeln aus Beispielen unter Einbeziehung von Hintergrundwissen. Lernen aus Beispielen kann als Suche im Hypothesenraum, geordnetem nach Generalisierungsrelation (Allgemeinheit), betrachtet werden [Mitchell 82]. Aussagenlogischer (attribut-orientierter) Repräsentationsformalismus: endlicher Hypothesenraum + effiziente Lernprogramme wenige Generalisierungen jeder Hypothese - keine Objektrelationen Es können keine relationalen Begriffe gelernt werden. Prädikatenlogischer Repräsentationsformalismus erster Ordnung: unendlicher Hypothesenraum + Objektrelationen möglich schlechte Generalisierungseigenschaften - ineffizient Einschränkungen notwendig, um rel. Begriffe effizient lernen zu können.

PG402 R DT/DB Boris Shulimovich6/20 Logikorientiertes induktives Lernen (ILP) Crashkurs, Teil 2 Generalisierung (bzw. Spezialisierung) ist eine partielle Ordnungsrelation auf Literalen bzw. Klauseln. Form PolygonSonstige Form Konvexes PolygonNicht-Konvexes Polygon DreieckKonvexes ViereckKonvexes Fünfeck ParallelogrammNicht-Paralleles Konvexes Viereck Abb.: Beispiel eines Generalisierungsbaumes [Herrmann 94] Def. : Eine Klausel C1 ist genereller als eine andere Klausel C2 bzgl. einer Theorie B, gdw. gilt: B, C1 C2.

PG402 R DT/DB Boris Shulimovich7/20 Logikorientiertes induktives Lernen (ILP) Crashkurs, Teil 3 Logische Folgerung zwischen Klauseln ist im allgemeinen nicht entscheidbar. Ein schwächeres Generalisierungsmodell ist erforderlich. Logische Folgerung gilt immer, wenn -Subsumtion gilt, umgekehrt aber nicht. Def. : Eine Klausel C1 ist genereller als eine andere Klausel C2, gdw. gilt: C1 subsumiert C2 ( C1 C2 ). Def. : -Subsumtion: C1 C2 gdw. C1 C2, ist eine geeignete Substitution. Bsp.: weiblich (X) mutter (X,Z) weiblich (X) mutter (X,Y), tochter (X,Z) mit = {Z/Y}. Def. : Äquivalenz unter -Subsumtion: C1 C2 gdw. C1 C2 und C2 C1.

PG402 R DT/DB Boris Shulimovich8/20 Logikorientiertes induktives Lernen (ILP) Crashkurs, Teil 4 Def. : Eine Klausel C1 ist echt genereller als eine andere Klausel C2, gdw. gilt: C1 C2 und ( C1 C2 ). Def. : Ein Literal L einer Klausel C ist redundant unter -Subsumtion gdw. gilt: C C \ { L }. Def. : Eine Klausel C ist reduziert gdw. sie keine redundanten Literale enthält. Bsp.: {weiblich (X), mutter (X,Z), mutter (X,Y)} {weiblich (X), mutter (X,Y), tochter (X,Z)} mit = {Z/Y}. mutter(X,Y) tochter(X,Y) Abb.: Objektmengen

PG402 R DT/DB Boris Shulimovich9/20 Logikorientiertes induktives Lernen (ILP) Crashkurs, Teil 5 Die generalisierte -Subsumtion generalisiert zwei funktionsfreie Hornklausel bzgl. gegebenem Hintergrundwissen (Theorie) B : C1 B C2 gdw., so dass C1 Kopf C2 Kopf und B, C2 Körper ( C1 Körper ), eine Skolemsubstitution, eine (Term-)Substitution. Schrittweises Spezialisieren (Definition durch ein Bild): Top-down Lernverfahren: Beginne mit einer generellsten erzeugbaren Hypothese; solange noch negative Beispiele abgedeckt werden, wende auf die Hypothese das schrittweise Spezialisieren so an, dass die positiven Beispiele weiterhin abgedeckt werden; wenn die Hypothese kein negatives Beispiel abdeckt, gib die Hypothese aus und halte an negatives Beispiel e

PG402 R DT/DB Boris Shulimovich10/20 Logikorientiertes induktives Lernen (ILP) Crashkurs, Teil 6 ILP Semantik (Begriffslernen): Geg.: pos. und neg. Beispiele E = E + E, Hintergrundwissen B, wobei B E und B E. Ziel: Finden einer Hypothese H, für die gilt: B H E (Konsistenz) B H E + (Vollständigkeit) e E : B H e (Korrektheit) ILP Semantik (Wissensentdeckung): Geg.: Hintergrundwissen B, Beobachtungen E. Ziel: Finden einer Menge von Hypothesen H, für die gilt: M + ( B E ) M ( H ) (Gültigkeit) h H e E : B, E - {e} e und B, E - {e}, {h} e (Notwendigkeit) h, die gültig und notwendig sind, gilt: H h (Vollständigkeit) H ist minimal (Minimalität) Begriffslernen findet nur den gesuchen Begriff, Wissensendeckung findet dagegen alle wahren und nicht redundanten Regeln.

PG402 R DT/DB Boris Shulimovich11/20 R DT/DB R DT/DB ist das erste ILP- Wissensentdeckungswerkzeug, dass direkt mit einem Datenbank-Managementsystem interagiert [Brockhausen und Morik 96]. R DT/DB ist eine Weiterentwicklung des R DT -Werkzeugs aus dem Modellierungssystem MOBAL. R DT aus der Sicht des maschinellen Lernens: funktionsfreie Hornklauseln als Repräsentationformalismus Hintergrundwissen in Form von Fakten (ground unit clause) Top-down-Breitensuche-Lernverfahren Hypothesenraum durch Regelschemata syntaktisch eingeschränkt weitere Einschränkung des Hypothesenraumes durch Prädikatentopologie Sortentaxonomie (sortenbehaftete Prädikatsattribute) Bsp.:FaktenBeispiele alter (mary,27)ehemann (john,vivian) verheiratet (peter,janice)verheiratet (X,Y) ehemann (X,Y)

PG402 R DT/DB Boris Shulimovich12/20 R DT/DB, Teil 2 Geg.: Hintergrundwissen und eine Menge positiver und negativer Beispiele für einen zu lernenden Begriff C in funktionsfreier Klausellogik. Ziel: Finde eine Hypothese H in funktionsfreier Klausellogik, die einem vom Benutzer definierten Akzeptanzkriterium genügt. Mögliche Faktoren des Akzeptanzkriteriums: pos(H) Bsp.:pos(H) >5, neg(H) < 2, neg(H)pos(H)/total(H) > 0.7, pred(H)pred(H)/pos(H) > 0.3, total(H) := pos(H) neg(H) pred(H)uncover(H)/concl(H) < 0.5 concl(H) uncover(H) := concl(H)\pos(H) Pruningkriterium erlaubt eine weitere Einschränkung des Hypothesenraums. Es werden keine Spezialisierungen eines Regelschematas mehr getestet, falls das Regelschema: akzeptiert wurde oder nicht dem Akzeptanzkriterium genügt.

PG402 R DT/DB Boris Shulimovich13/20 RDT Modell- wissen Beispiele + Hintergrund- wissen Entdecktes Wissen Inferenz- maschine R DT/DB, Teil 3 Bereits gelernte oder vorgegebene Regeln werden bei der Regelgenerierung berücksichtigt. Sie werden von der Inferenzmaschine angewandt und saturieren damit die Wissensbasis. Gelernte Regeln können also zukünftige Lernschritte unterstützen, indem sie die Beispielbeschreibungen um weitere grundinstanziierte Fakten erweitern (closed-loop learning). [Herrmann 94]

PG402 R DT/DB Boris Shulimovich14/20 Abb.: Generalisierungsrelation zwischen Regelmodellen [Kietz und Wrobel 92]. R DT/DB, Teil 4 Da bei R DT die Hypothesensprache eingeschränkte Prädikatenlogik ist (funktionsfreie Hornklauseln ergänzt um negative Literale), wird somit ein sehr großer Hypothesenraum beschrieben. Dieser wird durch Vorgabe der syntaktischen Form der möglichen Regeln, durch so genannte Regelschemata (Regelmodelle) eingeschränkt: anstatt der Sachbereichsprädikate Prädikatsvariablen nach Allgemeinheit partiell geordnet Bsp.: Durch Vorgabe des Regelschemas großmutter(X,Y) P1(U,Y), mutter (X,U) sind aus großmutter(X,Y) elternteil(U,Y), mutter(X,U) großmutter(X,Y) vater(U,Y), mutter(X,U) großmutter(X,Y) vater(Z,Y), mutter(X,Z), vater(Z,V) nur die ersten zwei Klauseln Instanzen dieses Regelschemas.

PG402 R DT/DB Boris Shulimovich15/20 R DT/DB, Teil 5 Eine Substitution substituiert Prädikatsvariablen durch Bereichsprädikate der gleichen Stelligkeit, ohne verschiedene Prädikatssymbole zu unifizieren. Def. : Ein Regelschema RS ist genereller als ein anderes RS, wenn es ein gibt, so dass RS RS. Regelschemata können auch teilweise instanziiert werden. Ein vollständig instanziiertes Regelschema ist eine Regel. Basiert auf der Menge der im R DT eingegebenen Regelschemata und der Menge der Bereichsprädikate P im Hintergrundwissen, wird der Hypothesenraum für das Regellernen als die Menge: = { R | R range( ) P R ist Regel}. definiert, d.h. als die Menge aller möglichen Instanzen für alle Regelschemata.

PG402 R DT/DB Boris Shulimovich16/20 R DT/DB, Teil 6 Die Prädikatentopologie beschreibt semantische Beziehungen zwischen den Prädikaten der Sachbereichstheorie (Hintergrundwissen). Gruppierung T = { T 1,..., T m }, mit T i Topologieknoten (Mengen von Prädikaten, evtl. zusammenhängend), die Topologieknoten können eine Hierarchie zusammenbilden, die weitere Einschränkung des Hypothesenraumes T darstellt: T = { H | H = p concl P prems : T i T : p concl T i P prems T i children(T i )}, children(T i ) bezeichnet die Vereinigung der direkten Nachkommen von T i [Kietz und Wrobel 92]. Den Argumenten eines Prädikats kann eine bestimmte Sorte zugewiesen werden: p/n:,..., Bsp.: mutter/2:, Urteil Übertretung FahrzeugOrteVerhaltenGebote/Verbote Umstände Abb.: Topologie-Graph [Herrmann 94]

PG402 R DT/DB Boris Shulimovich17/20 R DT/DB, Teil 7 Erweiterung des R DT zum R DT/DB : Ersetzung der Sortenkompatibilität durch Datentypkompatibilität. Abbildung der tabellarischen Darstellung der zu untersuchenden Datenbank in Prädikatenform unter Verwendung der Metainformation der DB). Redundanztest (Erkennung der redundanten Prädikate) durch Ausnutzung der Primärschlüsseleigenschaft. Für Hypothesentest werden SQL-Anfragen generiert und an die Datenbank geschickt, z.B. für pos(H) in der Form: select count( primkey ( q )) from tabelle ( q ), tabelle ( P ) where v ( P (c 1,...,c m )); Negative Beispiele können im MOBAL eingegeben werden. (detaillierte Beschreibung ist in [Lindner 94] zu finden).

PG402 R DT/DB Boris Shulimovich18/20 R DT/DB, Teil 8 Vorgehensweise von R DT/DB: Beginne mit den generellsten Regelschematas. Gehe TOP-DOWN durch die Ordnung der Regelschematas - Instanziiere ein weiteres Prädikat P in P, das folgendem genügt: 1. Stelligkeitskompatibel 2. Prädikatentopologiekompatibel 3. Datentypkompatibel 4. Test auf redundant instanziierte Prädikate - Redundanztest -Subsumtion mit bisher akzeptierten oder zu speziellen Hypothesen. - Berechnung der Faktoren für das Akzeptanzkriterium. - Auswertung des Akzeptanzkriteriums. [Lindner 94].

PG402 R DT/DB Boris Shulimovich19/20 Literatur: [Brockhausen und Morik 96] Peter Brockhausen und Katharina Morik. Direct Access of an ILP Algorithm to a Database Management System. LS VIII, FB Informatik, Univ. Dortmund, [Frawley et al 92] W.Frawley, G.Piatetsky-Shapiro, C.J.Matheus. Knowledge Discovery in Databases: An Overview. AI Magazine, Vol. 13, No 3, Fall [Herrmann 94] Jürgen Herrmann. Maschinelles Lernen. Skript zur Spezialvorlesung. LS VIII, FB Informatik, Univ. Dortmund, WS 93/94. [Kietz und Wrobel 92] Jörg-Uwe Kietz and Stefan Wrobel. Controlling the complexity of learning in logic through syntactic and task-oriented models. In Stephen Muggleton, editor, Inductive Logic Programming, chapter 16, pages Academic Press, London, [Lindner 94] Guido Lindner. Logikbasiertes Lernen in relationalen Datenbanken. Report 12, LS VIII, FB Informatik, Univ. Dortmund, [Lübbe 95] Marcus Lübbe. Datengesteuertes Lernen von syntaktischen Einschränkungen des Hypothesenraumes für modellbasiertes Lernen. Report 15, LS VIII, FB Informatik, Univ. Dortmund, [Mitchell 82] T.M.Mitchell. Generalization as search. Artificial Intelligence, 18(2): , [Morik 98] Katharina Morik. Maschinelles Lernen. Skript zur Spezialvorlesung. LS VIII, FB Informatik, Univ. Dortmund, WS 97/98. [Muggleton 92] Stephen Muggleton. Inductive Logic Programming. In Stephen Muggleton, editor, Inductive Logic Programming, Kap. 1, S Academic Press, London, 1992.