- ppt herunterladen

7. Besondere Datentypen und Anwendungen
Inhalt dieses Kapitels 7.1 Temporal Data Mining Problemstellung, Sequential Patterns, Modifikation des Apriori-Algorithmus 7.2 Spatial Data Mining Aufgaben und Probleme, typische Methoden, räumliche Charakterisierung und Trenderkennung 7.3 Text- und Web-Mining Aufgaben und Probleme, Clustering von Web-Dokumenten, Suchmaschine mit Berücksichtigung der Linkstruktur, intelligenter Crawler Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
7.1 Temporal Data Mining Problemstellung Analyse von zeitbezogenen Daten Anwendungen Finanzen: Aktienkurse, Inflationsraten, . . . Medizin: Blutdruck, . . . Meteorologie: Niederschläge, Temperaturen, . . . ausgezeichnetes Attribut: Punkte oder Abschnitte in einem zeitlichen Bezugssystem impliziert zeitliche Ordnung der Datensätze Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.1 Temporal Data Mining Problemstellung zwei Arten von Methoden Analyse zeitlicher Zusammenhänge innerhalb einzelner Abläufe Analyse zeitlicher Zusammenhänge zwischen verschiedenen Abläufen Besonderheit des Temporal Data Mining komplexe zeitliche Relationen zwischen Zeitpunkten und Zeitintervallen: „während“, „überschneidend“, „direkt aufeinanderfolgend“ . . . neue Typen interessanter Regeln zusätzliche Komplexität der Algorithmen Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.1 Zeitreihen -Analyse Beispiel Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.1 Zeitreihen-Analyse Komponenten von Zeitreihen [Fahrmeier et al.1999] Trendkomponente langfristige systematische Veränderung Konjunkturkomponente Verlauf von Konjunkturzyklen Saisonalkomponente jahreszeitlich bedingte Schwankungen Restkomponente Irreguläre Veränderungen, zufällig, relativ gering Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.1 Zeitreihen-Analyse Methoden [Fahrmeier et al.1999]
Globale Regression Auswahl eines Funktionstyps Schätzung der unbekannten Parameter mit Hilfe der Methode der kleinsten Fehlerquadrate globaler Trend häufig zu grob Lokale Methoden gleitender Durchschnitt (Moving Window) Glättung lokale Regression Regressionsfunktion für Umgebung des jeweiligen Punkts Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.1 Sequential Patterns Motivation nicht einzelne Transaktionen, sondern Mengen von zusammengehörigen und zeitlich geordneten Sequenzen von Transaktionen häufige Sequenz: viele Kunden, die zu einem Zeitpunkt Produkte A, B, C eingekauft haben, haben zu einem späteren Zeitpunkt auch die Produkte D, E und F gekauft „5% aller Kunden haben zuerst das Buch Solaris, danach das Buch Transfer und dann Der Futurologische Kongreß gekauft.“ Anwendung Kunde hat schon Solaris gekauft, bestellt jetzt Transfer: empfehle Der Futurologische Kongreß Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.1 Sequential Patterns Grundbegriffe [Srikant & Agrawal 1996]
I = {i1, ..., im}: Menge von Literalen, genannt „Items“ Sequenz s = <s1, ..., sn>: geordnete Liste von Itemsets, si = (x1, ..., xm) lexikographisch geordnet für i = 1, ..., n <a1, ..., an> ist Untersequenz einer Sequenz <b1, ..., bm>: jedes Element aus <a1, ..., an> Teilmenge eines Elementes aus <b1, ..., bm> unter Beibehaltung der Reihenfolge A = <a1, ..., an> zusammenhängende Untersequenz von B = <b1, ..., bm>: A Untersequenz von B die Elemente von A sind in aufeinanderfolgenden Elementen von B enthalten Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.1 Sequential Patterns Grundbegriffe Beispiel: B = <(1 2), (3 4), (5), (6)> zusammenhängende Untersequenzen von B: <(2), (3 4), (5)>, <(1 2), (3), (5), (6)>, <(3), (5)> Untersequenzen von B, die nicht zusammenhängen: <(1 2), (3 4), (6)>, <(1), (5), (6)> Datenbank: Menge von Datensequenzen, d.h. zeitlich geordnete Liste von Transaktionen Transaktion T: Menge von Items, Sequenz-Id(T), Transaktions-Zeit(T) Support einer Sequenz S in D: Anteil der Datensequenzen in D, die S unterstützen Datensequenz DS unterstützt eine Sequenz S: S ist Untersequenz von DS Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.1 Sequential Patterns Support unter Berücksichtigung der exakten Zeitpunkte Bisher: ein Element si = (x1, ..., xm) einer Sequenz muß von einer einzigen Transaktion der Datensequenz unterstützt werden Jetzt: mehrere aufeinanderfolgende Transaktionen zählen wie eine einzige, wenn sie zeitlich nahe genug zusammen liegen Parameter window-size: „Breite“ des Zeitfensters Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.1 Sequential Patterns Support unter Berücksichtigung der exakten Zeitpunkte Zeit-Constraints für den zeitlichen Abstand zwischen den Gruppen von Transaktionen, die ein Element einer Sequenz unterstützen z.B. beim Support der Sequenz <(Solaris), (Transfer)> Datensequenzen nicht berücksichtigen, wo zwischen Kauf von Solaris und Transfer drei Jahre liegen Parameter min-gap und max-gap Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Algorithmus GSP („Generalized Sequential Patterns“)
gleiche Struktur wie der Apriori-Algorithmus zum Finden von Frequent Itemsets erster Durchlauf: Bestimmung des Supports für jedes einzelne Item Bildung der häufigen 1-Sequenzen aus einem Element mit einem einzigen Item folgende Durchläufe: Bildung von Kandidatensequenzen mit k+1 Items aus den im vorhergehenden Durchlauf bestimmten häufigen Sequenzen mit k Items Zählen des Supports der Kandidaten und Selektion nach gefundenem Support Modifikationen des Apriori-Algorithmus: Kandidatengenerierung, Zählen des Supports von Kandidaten und Berücksichtigung von Item-Taxonomien Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.2 Spatial Data Mining Problemstellung Analyse von raumbezogenen Daten ausgezeichnetes Attribut: Lage und Ausdehnung in einem oder 3-dimensionalen Raum Punkte, Linien, Polygone, Polyeder Anwendungen Geographie: Topologische Karten, Thematische Karten, . . . Biologie: Proteine, . . Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.2 Spatial Data Mining Problemstellung Aufgaben Analyse von einzelnen räumlichen Verteilungen bestimmter Attribute Analyse von Abhängigkeiten zwischen räumlichen Verteilungen von Attributen Anwendungen Geo-Marketing Verkehrssteuerung Umweltschutz . . . Besonderheit des Spatial Data Mining Attribute von Nachbarn beeinflussen ein gegebenes Objekt Einfluß hängt ab von räumlichen Nachbarschaftsbeziehungen Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.2 Spatial Data Mining Basisoperationen zum Spatial Data Mining
[Ester, Frommelt, Kriegel & Sander 2000] Räumliche Nachbarschaftsbeziehungen topologische Beziehungen Distanzbeziehungen Richtungsbeziehungen Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.2 Spatial Data Mining Basisoperationen zum Spatial Data Mining
neighbor: Nachbarschaftsbeziehung DB Í Objects: Datenbank Nachbarschaftsgraph GDBneighbor: Graph (N,E) mit DB und (n1,n2) Î E Û n1 neighbor n2 Nachbarschaftspfad: Pfad in einem Nachbarschaftsgraphen Operationen auf Nachbarschaftsgraphen und -pfaden: neighbors: Ngraphs x Objects ® 2Objects extensions: Ngraphs x 2NPaths x Int ® 2NPaths Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.2 Clustering und Erklärung der Cluster
Überblick [Knorr & Ng 1996] 1. Clustering der Objekte beliebiger Clustering-Algorithmus 2. „Erklärung“ der Cluster durch die Nachbarschaft Klassifikationsproblem Cluster1 Cluster2 Cluster3 High School Primary School College x X teures Haus Cluster teurer Häuser Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Bestimmung der Nachbarschaft jedes Clusters Input: ein Cluster von Punkten Output: Liste der k nächstgelegenen Objekte Bestimmung gemeinsamer Objekttypen in den Nachbarschaften Input: n Listen von je k nächstgelegenen Objekten (je eine pro Cluster) Output: Objekttypen, die in allen oder in den meisten Nachbarschaften der n Cluster auftreten Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Bestimmung der Nachbarschaft eines Clusters Distanzfunktionen Distanz zwischen den Zentren berücksichtigt nicht die Form und die Größe Distanz zwischen den Rändern berücksichtigt nicht die Verteilung der Punkte im Cluster gewichtete Summe der Distanzen der Punkte des Clusters zum Rand des Objekts hoher Aufwand zur Berechnung dieser Distanzfunktion Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Bestimmung gemeinsamer Objekttypen Maße der Gemeinsamkeit Objekttyp tritt in der Nachbarschaft von mindestens m (m  n) Clustern auf Summe der invertierten Ränge der Objekttypen in den Nachbarschaftslisten Kombiniertes Maß Problem wenn m  n: Menge der gemeinsamen Objekttypen evtl. leer deshalb: Generalisierung der gemeinsamen Objekttypen Beispiel einer Erklärung: „teure Häuser haben meist eine Schule in ihrer Nachbarschaft“ Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.2 Räumliche Charakterisierung und Trenderkennung
Überblick [Ester, Frommelt, Kriegel & Sander 1998] Räumliche Charakterisierung verwandt mit „Proximity Analysis“ (Erklärung der Cluster) bisher: nur für Cluster jetzt: für beliebige räumliche Objekte Charaktersierung nicht nur durch Objekttypen sondern auch (nichträumliche) Attribute von Nachbarn Räumliche Trenderkennung Bezug zur Zeitreihen-Analyse hier: Analyse „räumlicher Reihen“ Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.2 Räumliche Charakterisierung
Grundbegriffe targets Í DB: Menge ausgezeichneter Objekte aus der Datenbank Eigenschaft: (Attribut, Wert) oder (“Typ”, konkreter Objekttyp) Häufigkeitsfaktor von prop in Bezug auf targets und DB: frequencyprop(DB) / card(DB) frequencyprop(targets) / card(targets) f(prop) Wert Attribut significance Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Grundbegriffe prop charakterisiert targets: f(prop)  significance oder f(prop)  1/significance Bisher nicht-räumliche Charaktersisierung Räumliche Charakterisierung Berücksichtigung der Nachbarn der targets, die durch £ max-step Kanten eines Nachbarschaftsgraphen GDBneighbor erreichbar sind Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Grundbegriffe Aufgabe finde alle Eigenschaften prop und ganze Zahlen s £ max-step mit 1) prop charakterisiert targets mit s Erweiterungen in GDBneighbor 2) prop charakterisiert mindestens proportion viele t Î targets mit s Erweiterungen in GDBneighbor Target Berg t1 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Beispiel Gemeinde mit „Rentneranteil = hoch“  Wohnungen pro Gebäude = sehr niedrig (i = 0, f(prop) = 9.1) Auslnderanteil = sehr niedrig (i = 0, f(prop) = 8.9)  Akademikeranteil = mittel (i = 0, f(prop) = 6.3)  . . .  Objekttyp = Berg (i = 3, f(prop) = 4.1) GIS Bayern Target Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.2 Räumliche Trenderkennung
Grundbegriffe räumlicher Trend regelmäßige Änderung von nicht-räumlichen Attributen in der Nachbarschafts eines bestimmten Startobjekts Regressionsanalyse zum Bestimmen solcher Trends unabhängiges Attribut: räumliche Distanz zum Startobjekt abhängige Attribute: Differenzen der nicht-räumlichen Attributwerte . Distanz (a) positiver Trend Differenz (b) negativer Trend (c) kein Trend Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Grundbegriffe Input Nachbarschaftsgraph G, Objekt O, Menge von Attributen a, ganze Zahlen min-length und max-length, relle Zahl min-conf Output Menge aller Nachbarschaftspfade in G der spezifizierten Länge mit Startobjekt O, die einen Trend in a besitzen mit einer Korrelation von mindestens min-conf Methoden Finden globaler räumlicher Trends Finden lokaler räumlicher Trends Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Methoden Finden globaler Trends Finden lokaler Trends erzeuge alle Pfade derselben Länge erzeuge einen Pfad mit Länge max-length Regressionsanalyse auf dieser Menge Regressionsanalyse auf diesem Pfad Erweiterung aller Pfade Erzeugung des nächsten Pfades um eine Kante mit Länge max-length eine Menge von Pfaden zwei Mengen von Pfaden mit einem signifikanten Trend (positive und negative Trends) Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Beispiel globaler Trend lokale Trends GIS Bayern fallende Attributwerte a: Durchschnittsmiete, O: Regensburg Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.3 Text- und Web-Mining Problemstellung Analyse von Text- und Hypertext-Daten sowie ihrer Benutzung Anwendungen elektronische Mails einer Firma Newsgroup-Artikel Webseiten aus dem Internet oder dem Intranet einer Firma Text- und Hypertext-Daten Text Präsentation Inhalt Hyper-Links Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.3 Text- und Web-Mining Problemstellung Text Transformation eines Dokuments D in Vektor r(D) = (h1, ..., hd) hi  0: die Häufigkeit des Terms ti in D Reduktion der Anzahl der Terme Stop-Listen, Stemming, Entfernen besonders häufiger bzw. seltener Terme Präsentation (HTML) <h1> Bibliography </h1> <p> <i>Knowledge Discovery in Databases</i>, Ester, Sander <br> Springer-Verlag, </p> . . . Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.3 Text- und Web-Mining Problemstellung Inhalt (XML) <bibliography> <book> <title> Knowledge Discovery in Databases </title> <author> Ester </author> <author> Sander </author> <publisher> Springer-Verlag </publisher> <year> 2000 </year> </book> . . . </bibliography> Hyper-Links Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.3 Text- und Web-Mining Problemstellung Aufgaben Analyse von Inhalt und Struktur von Hypertext-Dokumenten Analyse der Link-Struktur einer Menge von Hypertext-Dokumenten Analyse der Benutzung einer Menge von Hypertext-Dokumenten Besonderheit des Text- und Web-Mining Diversität des Vokabulars, z.B. verschiedene Sprachen Vagheit der Texte Unterschiedliche Qualität der Texte Link-Struktur Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.3 Clustering der Antwortmengen von Suchmaschinen
Motivation Ergebnisse von Web-Suchmaschinen im allgemeinen in Form einer Liste Probleme Antwortlisten typischerweise sehr lang viele Terme treten in ganz verschiedenen Kontexten auf sehr unübersichtliche Darstellung z.B. „Cluster“: Datenanalyse, Rechnernetze, Astronomie, . . . Ziel Clustering der Antwortmengen nach Kontexten Browsen des Clustering statt der Antwortliste Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Suffix-Tree-Clustering [Zamir & Etzioni 1998] Ähnlichkeit von Texten nicht Ähnlichkeitsmaß für Featurevektoren sondern gemeinsames Vorkommen von Termen Stärken des Suffix-Tree-Clustering (STC) Effizienz: Laufzeit O(n) für n Dokumente Inkrementalität: Dokumente müssen nicht alle anfangs vorhanden sein Überlappung der Cluster Clusterbeschreibung: einfach und leicht verständlich Ablauf des STC 1. Datenvorbereitung 2. Identifikation von Basisclustern 3. Kombination von Basisclustern Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Suffix-Tree-Clustering Datenvorbereitung Entfernen von HTML-Tags, Zahlen und Satzzeichen Stemming Identifikation von Basisclustern Basiscluster: Menge von Dokumenten, die eine Phrase gemeinsam haben Phrase: Mehrwort-Term Wichtigkeit eines Basisclusters: Produkt aus Anzahl der Dokumente im Cluster und Anzahl der Wörter in der beschreibenden Phrase Identifikation der Basiscluster durch Aufbau eines Suffix-Baums Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Suffix-Baum Suffix-Baum für eine Menge von Strings S: Baum mit den Eigenschaften Jeder innere Knoten hat mindestens 2 Söhne. Beschriftung der Kanten: nicht-leerer Teilstring eines Strings aus S Beschriftung eines Knotens: Konkatenation aller Kanten auf dem Pfad von der Wurzel zu diesem Knoten Die Beschriftungen aller von einem Knoten ausgehenden Kanten beginnen mit verschiedenen Wörtern. Für jedes Suffix s eines jeden Strings aus S existiert auch ein Knoten im Baum mit der Beschriftung s. Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Beispiel cat ate cheese cheese ate cheese 1, 1 1, 2 1, 3 Einfügen von (1) „cat ate cheese“ cat ate cheese cheese ate cheese too mouse ate cheese too 1, 1 1, 2 2, 2 1, 3 2, 3 2, 1 2, 4 Einfügen von (2) „mouse ate cheese too“ Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Kombination von Basisclustern viele überlappende Basiscluster Basiscluster mit hoher Überlappung werden verschmolzen Ähnlichkeitsmaß zwischen zwei Basisclustern A und B: gleich 1, wenn sowohl |A  B| / |A| > 0,5 als auch |A  B| / |B| > 0,5 sonst gleich 0 Basiscluster-Graph: Knoten: Basiscluster Kante genau dann, wenn die Knoten eine Ähnlichkeit von 1 besitzen zusammengesetzter Cluster: Zusammenhangskomponente im Basiscluster-Graphen enthält die Vereinigung all seiner Basiscluster Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Beispiel Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

7.3 Intelligenter Web-Crawler
Motivation Probleme der Web-Suchmaschinen indizieren höchstens 30% aller Webseiten Antworten sind oft veraltet liefern oft zu viele (uninteressante) Antworten schlechter Recall und schlechte Precision Ansatz eines intelligenten (fokussierten) Crawlers miteinander verlinkte Webdokumente besitzen häufig ähnliche Themen arbeitet nicht mit einem relativ statischen Index startet von vorgegebenen interessanten Webdokumenten, untersucht die jeweils durch Links erreichbaren Nachbardokumente Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Ablauf [Chakrabarti, Berg & Dom 1999] Manuelle Spezifikation der interessanten Themen Angabe einer Menge von interessanten Webseiten (Trainingsseiten) Interaktives Lernen eines Klassifikators aus den Trainingsseiten um weitere Webseiten als „interessant“ / „uninteressant“ zu klassifizieren Klassifikator kann vom Benutzer korrigiert werden Automatischer Crawl Start bei den Trainingsdokumenten verfolgt die Links zu den Nachbardokumenten gefundene Webseiten werden klassifiziert: „interessant“: Antwort und Ausgangspunkt für weitere Suche „uninteressant“: Ende der Suche Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Klassifikator Gegeben: Taxonomie und Menge von Trainingsseiten Gesucht: die Klassen der Taxonomie, in die die Trainingsseiten am besten passen. Merkierung einer Teilmenge dieser Klassen als „interessant“ durch den Benutzer Vorschlag von weiteren Webseiten aus der Nachbarschaft der Trainingsseiten durch das System Lernen des endgültigen Klassifikators von der endgültigen Menge von Trainingsseiten Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Klassifikator Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Distiller Gegeben: die von einer „interessanten“ Webseite ausgehenden Links Gesucht: Reihenfolge, in der diese Links verfolgt werden sollen Beispiele Seite mit viel Text ist sehr relevant, enthält aber keine Links „Sackgasse“ Seite enthält evtl. wenig Text, aber viele gute Links „Hub“ Methode wähle erst Webseiten mit hohem Page Rank bzw. hohem Authorative Rank und Hub Rank Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Distiller Page Acquisition Rate (Precision) Zeit Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Ähnliche Präsentationen

Präsentation zum Thema: ""— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Ähnliche Präsentationen

Präsentation zum Thema: ""— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback