Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Knowledge Discovery Erzeugung künstlicher Telekommunikationsdaten

Ähnliche Präsentationen


Präsentation zum Thema: "Knowledge Discovery Erzeugung künstlicher Telekommunikationsdaten"—  Präsentation transkript:

1 Knowledge Discovery Erzeugung künstlicher Telekommunikationsdaten
Markus Höchstötter Michael Wenzelburger

2 Agenda Künstliche Telko-Daten Generierung von Daten
Agenda Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze

3 Künstliche Telko-Daten
Warum künstlich? Wissenschaftliche Zwecke Datenschutz von „echten“ Daten Wie erzeugt man Telko-Daten? Aggregierte Daten erhältlich Kundenklassen, Cluster Wahrscheinlichkeitsverteilungen

4 Künstliche Telko-Daten
Kundencluster mit ähnlichen Eigenschaften Aggregierte Info über Kundencluster Wahrscheinlichkeitsmodell und ZZ-Generator Telko-Mikrodaten (Gesprächsspezifisch)

5 Agenda Künstliche Telko-Daten Generierung von Daten
Agenda Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze

6 Generierung von Daten Monte-Carlo-Methode Milligan Algorithmus
Promatis

7 Monte-Carlo-Methode Definition: „Ein Verfahren, die Lösung eines Problems als Parameter einer hypothetischen Grundgesamtheit darzustellen und eine Folge von Zufallszahlen zu benutzen, um eine Stichprobe der Gesamtheit zu konstruieren, aus der dann statistische Schätzungen des Parameters gewonnen werden.“ Norbert Schmitz et al 1974

8 Monte-Carlo-Methode Festlegung von Wahrscheinlichkeiten auf bestimmten Dimensionen Erzeugung von Zufallszahlen Ablesen der Ausprägung der Dimensionen

9 Monte-Carlo-Methode Beispiel: Zufallszahlen: 0,44 => mittel
0,76 => lang 0,54 => mittel 0,01 => kurz

10 Milligan Algorythmus Definition: „An algorythem for generating artificial data sets which contain distinct nonoverlapping clusters“ Glenn W. Milligan 1985

11 Milligan Algorithmus Algorithmus:
Festlegung der Cluster in den Verschiedenen Dimensionen Erzeugung von Datensätzen innerhalb der Clustergrenzen (3fache Standart Abweichung) Erzeugung von „Ausreisern“ außerhalb der Clustergrenzen (15% - 30% der gesamten Daten)

12 Promatis Software zur Erzeugung von mehrdimensionalen Datensätzen
Promatis Software zur Erzeugung von mehrdimensionalen Datensätzen Jede Dimension hat eigene Verteilung Werden einzeln erzeugt und überlagert

13 Promatis

14 Promatis

15 Agenda Künstliche Telko-Daten Generierung von Daten
Agenda Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze

16 Telko-Datenstruktur Gesprächsdauer/ Belegungsdauer Zahl der Gespräche
Einfallsabstand Verkehrswert

17 Gesprächs-/Belegungsdauer
Gespräch vs Belegung ln-normalverteilt mit xm als Lage und Qx als Steigung

18 Gesprächs-/Belegungsdauer

19 Zahl der Gespräche Diskrete Wahrscheinlichkeitsverteilung
Kann durch ln-normalverteilte Verteilung dargestellt werden mit x=0,1,2,...,n

20 Zahl der Gespräche

21 Einfallabstand Kann indirekt aus Zahl der Gespräche bestimmt werden
Somit auch ln-normalverteilt Problem: Bei Transformation geht Info verloren Lediglich „mittlere“ Einfallabstände

22 Verkehrswert Definition: „Summe der Belegungsdauern eines Kollektivs von Belegungen innerhalb eins Zeitraums bezogen auf diesen Zeitraum“ Robert Jäger 1990 Zwischen 0 und 1 Gemessen in Erlang ln-normalverteilt Kann aus anderen Daten ermittelt werden

23 Telko-Datenstruktur Alle annähernd ln-normalverteilt
Somit alle durch zwei Parameter darstellbar Bei manchen Größen systematische Einflussgrößen zu bereinigen

24 Agenda Künstliche Telko-Daten Generierung von Daten
Agenda Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze

25 Spezielle Lösungsansätze
Erzeugung von einzelnen Kunden Erzeugung von einzelnen Gesprächsdaten mit Zeitstrahlmodell

26 Erzeugung von Kunden Kundengruppen unterteilt nach Telefonierverhalten
Ziehung der kundenspezifischen Parameter mit ZV aus Kundengruppen

27 Erzeugung von Gesprächsdaten
Generierung für einzelnen Kunden Beginn bei Null Fortlaufende Ziehung von Gesprächsdauer und Zwischengesprächsabstand Ermittlung der Tarifstruktur vor jeder Ziehung

28 } } ... } Zeitenstrahl Ziehung: Tarifzone (Ort, Nah, Fern)
Gesprächsdauer } Abhängig vom Startzeitpunkt } Zwischenzeit 1 t1 t3 } Zwischenzeit 2 ... Gespräch 1 t2 t=0

29 Fragen


Herunterladen ppt "Knowledge Discovery Erzeugung künstlicher Telekommunikationsdaten"

Ähnliche Präsentationen


Google-Anzeigen