Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data.

Ähnliche Präsentationen


Präsentation zum Thema: "Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data."—  Präsentation transkript:

1 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data Mining Problemstellung, Sequential Patterns, Modifikation des Apriori-Algorithmus 7.2 Spatial Data Mining Aufgaben und Probleme, typische Methoden, räumliche Charakterisierung und Trenderkennung 7.3 Text- und Web-Mining Aufgaben und Probleme, Clustering von Web-Dokumenten, Suchmaschine mit Berücksichtigung der Linkstruktur, intelligenter Crawler

2 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Temporal Data Mining Problemstellung Analyse von zeitbezogenen Daten Anwendungen Finanzen: Aktienkurse, Inflationsraten,... Medizin: Blutdruck,... Meteorologie: Niederschläge, Temperaturen,... ausgezeichnetes Attribut: Punkte oder Abschnitte in einem zeitlichen Bezugssystem impliziert zeitliche Ordnung der Datensätze

3 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Temporal Data Mining Problemstellung zwei Arten von Methoden Analyse zeitlicher Zusammenhänge innerhalb einzelner Abläufe Analyse zeitlicher Zusammenhänge zwischen verschiedenen Abläufen Besonderheit des Temporal Data Mining komplexe zeitliche Relationen zwischen Zeitpunkten und Zeitintervallen: „während“, „überschneidend“, „direkt aufeinanderfolgend“... neue Typen interessanter Regeln zusätzliche Komplexität der Algorithmen

4 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Zeitreihen -Analyse Beispiel

5 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Zeitreihen-Analyse Komponenten von Zeitreihen [Fahrmeier et al.1999] Trendkomponente langfristige systematische Veränderung Konjunkturkomponente Verlauf von Konjunkturzyklen Saisonalkomponente jahreszeitlich bedingte Schwankungen Restkomponente Irreguläre Veränderungen, zufällig, relativ gering

6 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Zeitreihen-Analyse Methoden [Fahrmeier et al.1999] Globale Regression Auswahl eines Funktionstyps Schätzung der unbekannten Parameter mit Hilfe der Methode der kleinsten Fehlerquadrate globaler Trend häufig zu grob Lokale Methoden gleitender Durchschnitt (Moving Window) Glättung lokale Regression Regressionsfunktion für Umgebung des jeweiligen Punkts

7 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Sequential Patterns Motivation nicht einzelne Transaktionen, sondern Mengen von zusammengehörigen und zeitlich geordneten Sequenzen von Transaktionen häufige Sequenz: viele Kunden, die zu einem Zeitpunkt Produkte A, B, C eingekauft haben, haben zu einem späteren Zeitpunkt auch die Produkte D, E und F gekauft „5% aller Kunden haben zuerst das Buch Solaris, danach das Buch Transfer und dann Der Futurologische Kongreß gekauft.“ Anwendung Kunde hat schon Solaris gekauft, bestellt jetzt Transfer: empfehle Der Futurologische Kongreß

8 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Sequential Patterns Grundbegriffe [Srikant & Agrawal 1996] I = {i 1,..., i m }: Menge von Literalen, genannt „Items“ Sequenz s = : geordnete Liste von Itemsets, s i = (x 1,..., x m ) lexikographisch geordnet für i = 1,..., n ist Untersequenz einer Sequenz : jedes Element aus Teilmenge eines Elementes aus unter Beibehaltung der Reihenfolge A = zusammenhängende Untersequenz von B = : A Untersequenz von B die Elemente von A sind in aufeinanderfolgenden Elementen von B enthalten

9 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Sequential Patterns Grundbegriffe Beispiel: B = zusammenhängende Untersequenzen von B:,, Untersequenzen von B, die nicht zusammenhängen:, Datenbank: Menge von Datensequenzen, d.h. zeitlich geordnete Liste von Transaktionen Transaktion T: Menge von Items, Sequenz-Id(T), Transaktions-Zeit(T) Support einer Sequenz S in D: Anteil der Datensequenzen in D, die S unterstützen Datensequenz DS unterstützt eine Sequenz S: S ist Untersequenz von DS

10 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Sequential Patterns Support unter Berücksichtigung der exakten Zeitpunkte Bisher: ein Element s i = (x 1,..., x m ) einer Sequenz muß von einer einzigen Transaktion der Datensequenz unterstützt werden Jetzt: mehrere aufeinanderfolgende Transaktionen zählen wie eine einzige, wenn sie zeitlich nahe genug zusammen liegen Parameter window-size: „Breite“ des Zeitfensters

11 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Sequential Patterns Support unter Berücksichtigung der exakten Zeitpunkte Zeit-Constraints für den zeitlichen Abstand zwischen den Gruppen von Transaktionen, die ein Element einer Sequenz unterstützen z.B. beim Support der Sequenz Datensequenzen nicht berücksichtigen, wo zwischen Kauf von Solaris und Transfer drei Jahre liegen Parameter min-gap und max-gap

12 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Sequential Patterns Algorithmus GSP („Generalized Sequential Patterns“) gleiche Struktur wie der Apriori-Algorithmus zum Finden von Frequent Itemsets erster Durchlauf: Bestimmung des Supports für jedes einzelne Item Bildung der häufigen 1-Sequenzen aus einem Element mit einem einzigen Item folgende Durchläufe: Bildung von Kandidatensequenzen mit k+1 Items aus den im vorhergehenden Durchlauf bestimmten häufigen Sequenzen mit k Items Zählen des Supports der Kandidaten und Selektion nach gefundenem Support Modifikationen des Apriori-Algorithmus: Kandidatengenerierung, Zählen des Supports von Kandidaten und Berücksichtigung von Item-Taxonomien

13 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Spatial Data Mining Problemstellung Analyse von raumbezogenen Daten ausgezeichnetes Attribut: Lage und Ausdehnung in einem 2- oder 3-dimensionalen Raum Punkte, Linien, Polygone, Polyeder Anwendungen Geographie: Topologische Karten, Thematische Karten,... Biologie: Proteine,..

14 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Spatial Data Mining Problemstellung Aufgaben Analyse von einzelnen räumlichen Verteilungen bestimmter Attribute Analyse von Abhängigkeiten zwischen räumlichen Verteilungen von Attributen Anwendungen Geo-Marketing Verkehrssteuerung Umweltschutz... Besonderheit des Spatial Data Mining Attribute von Nachbarn beeinflussen ein gegebenes Objekt Einfluß hängt ab von räumlichen Nachbarschaftsbeziehungen

15 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Spatial Data Mining Basisoperationen zum Spatial Data Mining [Ester, Frommelt, Kriegel & Sander 2000] Räumliche Nachbarschaftsbeziehungen topologische Beziehungen Distanzbeziehungen Richtungsbeziehungen

16 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Spatial Data Mining Basisoperationen zum Spatial Data Mining neighbor: Nachbarschaftsbeziehung DB  Objects: Datenbank Nachbarschaftsgraph G DB neighbor : Graph (N,E) mit N  DB und (n 1,n 2 )  E  n 1 neighbor n 2 Nachbarschaftspfad: Pfad in einem Nachbarschaftsgraphen Operationen auf Nachbarschaftsgraphen und -pfaden: neighbors: Ngraphs x Objects  2 Objects extensions: Ngraphs x 2 NPaths x Int  2 NPaths

17 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Clustering und Erklärung der Cluster Überblick [Knorr & Ng 1996] 1. Clustering der Objekte beliebiger Clustering-Algorithmus 2. „Erklärung“ der Cluster durch die Nachbarschaft Klassifikationsproblem Cluster1 Cluster2 Cluster3 High School Primary School College x x x xx x x x x x x x x x x x x x X teures Haus Cluster teurer Häuser

18 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Clustering und Erklärung der Cluster Erklärung der Cluster Bestimmung der Nachbarschaft jedes Clusters Input: ein Cluster von Punkten Output: Liste der k nächstgelegenen Objekte Bestimmung gemeinsamer Objekttypen in den Nachbarschaften Input: n Listen von je k nächstgelegenen Objekten (je eine pro Cluster) Output: Objekttypen, die in allen oder in den meisten Nachbarschaften der n Cluster auftreten

19 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Clustering und Erklärung der Cluster Bestimmung der Nachbarschaft eines Clusters Distanzfunktionen Distanz zwischen den Zentren berücksichtigt nicht die Form und die Größe Distanz zwischen den Rändern berücksichtigt nicht die Verteilung der Punkte im Cluster gewichtete Summe der Distanzen der Punkte des Clusters zum Rand des Objekts hoher Aufwand zur Berechnung dieser Distanzfunktion

20 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Clustering und Erklärung der Cluster Bestimmung gemeinsamer Objekttypen Maße der Gemeinsamkeit Objekttyp tritt in der Nachbarschaft von mindestens m (m  n) Clustern auf Summe der invertierten Ränge der Objekttypen in den Nachbarschaftslisten Kombiniertes Maß Problem wenn m  n: Menge der gemeinsamen Objekttypen evtl. leer deshalb: Generalisierung der gemeinsamen Objekttypen Beispiel einer Erklärung: „teure Häuser haben meist eine Schule in ihrer Nachbarschaft“

21 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Räumliche Charakterisierung und Trenderkennung Überblick [Ester, Frommelt, Kriegel & Sander 1998] Räumliche Charakterisierung verwandt mit „Proximity Analysis“ (Erklärung der Cluster) bisher: nur für Cluster jetzt: für beliebige räumliche Objekte Charaktersierung nicht nur durch Objekttypen sondern auch (nichträumliche) Attribute von Nachbarn Räumliche Trenderkennung Bezug zur Zeitreihen-Analyse hier: Analyse „räumlicher Reihen“

22 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Räumliche Charakterisierung Grundbegriffe targets  DB: Menge ausgezeichneter Objekte aus der Datenbank Eigenschaft: (Attribut, Wert) oder (“Typ”, konkreter Objekttyp) Häufigkeitsfaktor von prop in Bezug auf targets  und DB: frequency prop (DB) / card(DB) frequency prop (targets) / card(targets) f(prop) Wert Attribut Wert Attribut Wert Attribut signi- ficance

23 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Räumliche Charakterisierung Grundbegriffe prop charakterisiert targets: f(prop)  significance oder f(prop)  1/significance Bisher nicht-räumliche Charaktersisierung Räumliche Charakterisierung Berücksichtigung der Nachbarn der targets, die durch  max-step Kanten eines Nachbarschaftsgraphen G DB neighbor erreichbar sind

24 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Räumliche Charakterisierung Grundbegriffe Aufgabe finde alle Eigenschaften prop und ganze Zahlen s  max-step mit 1) prop charakterisiert targets mit s Erweiterungen in G DB neighbor 2) prop charakterisiert mindestens proportion viele t  targets mit s Erweiterungen in G DB neighbor Target Berg t1t1

25 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Räumliche Charakterisierung     Beispiel Gemeinde mit „Rentneranteil = hoch“  Wohnungen pro Gebäude = sehr niedrig (i = 0, f(prop) = 9.1)  Ausl  nderanteil = sehr niedrig  i = 0, f(prop) = 8.9  Akademikeranteil = mittel (i = 0, f(prop) = 6.3)   Objekttyp = Berg (i = 3, f(prop) = 4.1) GIS Bayern Target

26 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Räumliche Trenderkennung Grundbegriffe räumlicher Trend regelmäßige Änderung von nicht-räumlichen Attributen in der Nachbarschafts eines bestimmten Startobjekts Regressionsanalyse zum Bestimmen solcher Trends unabhängiges Attribut: räumliche Distanz zum Startobjekt abhängige Attribute: Differenzen der nicht-räumlichen Attributwerte Distanz. (a) positiver Trend Distanz Differenz (b) negativer Trend (c) kein Trend.....

27 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Räumliche Trenderkennung Grundbegriffe Input Nachbarschaftsgraph G, Objekt O, Menge von Attributen a, ganze Zahlen min-length und max-length, relle Zahl min-conf Output Menge aller Nachbarschaftspfade in G der spezifizierten Länge mit Startobjekt O, die einen Trend in a besitzen mit einer Korrelation von mindestens min-conf Methoden –Finden globaler räumlicher Trends –Finden lokaler räumlicher Trends

28 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Räumliche Trenderkennung Methoden Finden globaler TrendsFinden lokaler Trends erzeuge alle Pfade derselben Länge erzeuge einen Pfad mit Länge max-length Regressionsanalyse auf dieser Menge Regressionsanalyse auf diesem Pfad Erweiterung aller PfadeErzeugung des nächsten Pfades um eine Kante mit Länge max-length eine Menge von Pfadenzwei Mengen von Pfaden mit einem signifikanten Trend (positive und negative Trends)

29 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Räumliche Trenderkennung Beispiel globaler Trend lokale Trends fallende Attributwerte GIS Bayern a: Durchschnittsmiete, O: Regensburg

30 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Text- und Web-Mining Problemstellung Analyse von Text- und Hypertext-Daten sowie ihrer Benutzung Anwendungen elektronische Mails einer Firma Newsgroup-Artikel Webseiten aus dem Internet oder dem Intranet einer Firma Text- und Hypertext-Daten Text Präsentation Inhalt Hyper-Links

31 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Text- und Web-Mining Problemstellung Text Transformation eines Dokuments D in Vektor r(D) = (h 1,..., h d ) h i  0: die Häufigkeit des Terms t i in D Reduktion der Anzahl der Terme Stop-Listen, Stemming, Entfernen besonders häufiger bzw. seltener Terme Präsentation (HTML) Bibliography Knowledge Discovery in Databases, Ester, Sander Springer-Verlag,

32 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Text- und Web-Mining Problemstellung Inhalt (XML) Knowledge Discovery in Databases Ester Sander Springer-Verlag Hyper-Links

33 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Text- und Web-Mining Problemstellung Aufgaben Analyse von Inhalt und Struktur von Hypertext-Dokumenten Analyse der Link-Struktur einer Menge von Hypertext-Dokumenten Analyse der Benutzung einer Menge von Hypertext-Dokumenten Besonderheit des Text- und Web-Mining Diversität des Vokabulars, z.B. verschiedene Sprachen Vagheit der Texte Unterschiedliche Qualität der Texte Link-Struktur

34 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Clustering der Antwortmengen von Suchmaschinen Motivation Ergebnisse von Web-Suchmaschinen im allgemeinen in Form einer Liste Probleme Antwortlisten typischerweise sehr lang viele Terme treten in ganz verschiedenen Kontexten auf sehr unübersichtliche Darstellung z.B. „Cluster“: Datenanalyse, Rechnernetze, Astronomie,... Ziel Clustering der Antwortmengen nach Kontexten Browsen des Clustering statt der Antwortliste

35 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Clustering der Antwortmengen von Suchmaschinen Suffix-Tree-Clustering [Zamir & Etzioni 1998] Ähnlichkeit von Texten nicht Ähnlichkeitsmaß für Featurevektoren sondern gemeinsames Vorkommen von Termen Stärken des Suffix-Tree-Clustering (STC) Effizienz: Laufzeit O(n) für n Dokumente Inkrementalität: Dokumente müssen nicht alle anfangs vorhanden sein Überlappung der Cluster Clusterbeschreibung: einfach und leicht verständlich Ablauf des STC 1. Datenvorbereitung 2. Identifikation von Basisclustern 3. Kombination von Basisclustern

36 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Clustering der Antwortmengen von Suchmaschinen Suffix-Tree-Clustering Datenvorbereitung Entfernen von HTML-Tags, Zahlen und Satzzeichen Stemming Identifikation von Basisclustern Basiscluster: Menge von Dokumenten, die eine Phrase gemeinsam haben Phrase: Mehrwort-Term Wichtigkeit eines Basisclusters: Produkt aus Anzahl der Dokumente im Cluster und Anzahl der Wörter in der beschreibenden Phrase Identifikation der Basiscluster durch Aufbau eines Suffix-Baums

37 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Clustering der Antwortmengen von Suchmaschinen Suffix-Baum Suffix-Baum für eine Menge von Strings S: Baum mit den Eigenschaften Jeder innere Knoten hat mindestens 2 Söhne. Beschriftung der Kanten: nicht-leerer Teilstring eines Strings aus S Beschriftung eines Knotens: Konkatenation aller Kanten auf dem Pfad von der Wurzel zu diesem Knoten Die Beschriftungen aller von einem Knoten ausgehenden Kanten beginnen mit verschiedenen Wörtern. Für jedes Suffix s eines jeden Strings aus S existiert auch ein Knoten im Baum mit der Beschriftung s.

38 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Clustering der Antwortmengen von Suchmaschinen Beispiel Einfügen von (1) „cat ate cheese“ Einfügen von (2) „mouse ate cheese too“ cat ate cheese cheese ate cheese 1, 11, 2 1, 3

39 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Clustering der Antwortmengen von Suchmaschinen Kombination von Basisclustern viele überlappende Basiscluster Basiscluster mit hoher Überlappung werden verschmolzen Ähnlichkeitsmaß zwischen zwei Basisclustern A und B: gleich 1, wenn sowohl |A  B| / |A| > 0,5 als auch |A  B| / |B| > 0,5 sonst gleich 0 Basiscluster-Graph: Knoten: Basiscluster Kante genau dann, wenn die Knoten eine Ähnlichkeit von 1 besitzen zusammengesetzter Cluster: Zusammenhangskomponente im Basiscluster-Graphen enthält die Vereinigung all seiner Basiscluster

40 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Clustering der Antwortmengen von Suchmaschinen Beispiel

41 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Intelligenter Web-Crawler Motivation Probleme der Web-Suchmaschinen indizieren höchstens 30% aller Webseiten Antworten sind oft veraltet liefern oft zu viele (uninteressante) Antworten schlechter Recall und schlechte Precision Ansatz eines intelligenten (fokussierten) Crawlers miteinander verlinkte Webdokumente besitzen häufig ähnliche Themen arbeitet nicht mit einem relativ statischen Index startet von vorgegebenen interessanten Webdokumenten, untersucht die jeweils durch Links erreichbaren Nachbardokumente

42 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Intelligenter Web-Crawler Ablauf [Chakrabarti, Berg & Dom 1999] Manuelle Spezifikation der interessanten Themen Angabe einer Menge von interessanten Webseiten (Trainingsseiten) Interaktives Lernen eines Klassifikators aus den Trainingsseiten um weitere Webseiten als „interessant“ / „uninteressant“ zu klassifizieren Klassifikator kann vom Benutzer korrigiert werden Automatischer Crawl Start bei den Trainingsdokumenten verfolgt die Links zu den Nachbardokumenten gefundene Webseiten werden klassifiziert: „interessant“: Antwort und Ausgangspunkt für weitere Suche „uninteressant“: Ende der Suche

43 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Intelligenter Web-Crawler Klassifikator Gegeben: Taxonomie und Menge von Trainingsseiten Gesucht: die Klassen der Taxonomie, in die die Trainingsseiten am besten passen. Merkierung einer Teilmenge dieser Klassen als „interessant“ durch den Benutzer Vorschlag von weiteren Webseiten aus der Nachbarschaft der Trainingsseiten durch das System Lernen des endgültigen Klassifikators von der endgültigen Menge von Trainingsseiten

44 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Intelligenter Web-Crawler Klassifikator

45 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Intelligenter Web-Crawler Distiller Gegeben: die von einer „interessanten“ Webseite ausgehenden Links Gesucht: Reihenfolge, in der diese Links verfolgt werden sollen Beispiele Seite mit viel Text ist sehr relevant, enthält aber keine Links „Sackgasse“ Seite enthält evtl. wenig Text, aber viele gute Links „Hub“ Methode wähle erst Webseiten mit hohem Page Rank bzw. hohem Authorative Rank und Hub Rank

46 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Intelligenter Web-Crawler Distiller Zeit Page Acquisition Rate (Precision)


Herunterladen ppt "Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data."

Ähnliche Präsentationen


Google-Anzeigen