Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Knowledge Discovery Erzeugung künstlicher Telekommunikationsdaten Markus Höchstötter Michael Wenzelburger.

Ähnliche Präsentationen


Präsentation zum Thema: "Knowledge Discovery Erzeugung künstlicher Telekommunikationsdaten Markus Höchstötter Michael Wenzelburger."—  Präsentation transkript:

1 Knowledge Discovery Erzeugung künstlicher Telekommunikationsdaten Markus Höchstötter Michael Wenzelburger

2 Agenda n Künstliche Telko-Daten n Generierung von Daten n Telko-Datenstruktur n Spezielle Lösungsansätze

3 Künstliche Telko-Daten n Warum künstlich? u Wissenschaftliche Zwecke u Datenschutz von echten Daten n Wie erzeugt man Telko- Daten? u Aggregierte Daten erhältlich u Kundenklassen, Cluster u Wahrscheinlichkeitsverteilungen

4 Künstliche Telko-Daten Kundencluster mit ähnlichen Eigenschaften Aggregierte Info über Kundencluster Wahrscheinlichkeitsmo dell und ZZ-Generator Telko-Mikrodaten (Gesprächsspezifisch)

5 Agenda n Künstliche Telko-Daten n Generierung von Daten n Telko-Datenstruktur n Spezielle Lösungsansätze

6 Generierung von Daten n Monte-Carlo-Methode n Milligan Algorithmus n Promatis

7 Monte-Carlo-Methode n Definition: Ein Verfahren, die Lösung eines Problems als Parameter einer hypothetischen Grundgesamtheit darzustellen und eine Folge von Zufallszahlen zu benutzen, um eine Stichprobe der Gesamtheit zu konstruieren, aus der dann statistische Schätzungen des Parameters gewonnen werden. Norbert Schmitz et al 1974

8 Monte-Carlo-Methode n Festlegung von Wahrscheinlichkeiten auf bestimmten Dimensionen n Erzeugung von Zufallszahlen n Ablesen der Ausprägung der Dimensionen

9 Monte-Carlo-Methode n Beispiel: n Zufallszahlen: 0,44=>mittel 0,76=>lang 0,54=>mittel 0,01=>kurz

10 Milligan Algorythmus n Definition: An algorythem for generating artificial data sets which contain distinct nonoverlapping clusters Glenn W. Milligan 1985

11 Milligan Algorithmus n Algorithmus: u Festlegung der Cluster in den Verschiedenen Dimensionen u Erzeugung von Datensätzen innerhalb der Clustergrenzen (3fache Standart Abweichung) u Erzeugung von Ausreisern außerhalb der Clustergrenzen (15% - 30% der gesamten Daten)

12 Promatis n Software zur Erzeugung von mehrdimensionalen Datensätzen n Jede Dimension hat eigene Verteilung n Werden einzeln erzeugt und überlagert

13 Promatis

14

15 Agenda n Künstliche Telko-Daten n Generierung von Daten n Telko-Datenstruktur n Spezielle Lösungsansätze

16 Telko-Datenstruktur n Gesprächsdauer/ Belegungsdauer n Zahl der Gespräche n Einfallsabstand n Verkehrswert

17 Gesprächs- /Belegungsdauer n Gespräch vs Belegung n ln-normalverteilt mit x m als Lage und Q x als Steigung

18 Gesprächs- /Belegungsdauer

19 Zahl der Gespräche n Diskrete Wahrscheinlichkeitsverteilung n Kann durch ln-normalverteilte Verteilung dargestellt werden mit x=0,1,2,...,n

20 Zahl der Gespräche

21 Einfallabstand n Kann indirekt aus Zahl der Gespräche bestimmt werden n Somit auch ln-normalverteilt n Problem: Bei Transformation geht Info verloren n Lediglich mittlere Einfallabstände

22 Verkehrswert n Definition: Summe der Belegungsdauern eines Kollektivs von Belegungen innerhalb eins Zeitraums bezogen auf diesen Zeitraum Robert Jäger 1990 n Zwischen 0 und 1 n Gemessen in Erlang n ln-normalverteilt n Kann aus anderen Daten ermittelt werden

23 Telko-Datenstruktur n Alle annähernd ln- normalverteilt n Somit alle durch zwei Parameter darstellbar n Bei manchen Größen systematische Einflussgrößen zu bereinigen

24 Agenda n Künstliche Telko-Daten n Generierung von Daten n Telko-Datenstruktur n Spezielle Lösungsansätze

25 Spezielle Lösungsansätze n Erzeugung von einzelnen Kunden n Erzeugung von einzelnen Gesprächsdaten mit Zeitstrahlmodell

26 Erzeugung von Kunden n Kundengruppen unterteilt nach Telefonierverhalten n Ziehung der kundenspezifischen Parameter mit ZV aus Kundengruppen

27 Erzeugung von Gesprächsdaten n Generierung für einzelnen Kunden n Beginn bei Null n Fortlaufende Ziehung von Gesprächsdauer und Zwischengesprächsabstand n Ermittlung der Tarifstruktur vor jeder Ziehung

28 Zeitenstrahl t=0 } Zwischenzeit 1 t1t1 Gespräch 1 t2t2 Ziehung: Tarifzone (Ort, Nah, Fern) Gesprächsdauer } Abhängig vom Startzeitpunkt t3t3 } Zwischenzeit 2...

29 Fragen


Herunterladen ppt "Knowledge Discovery Erzeugung künstlicher Telekommunikationsdaten Markus Höchstötter Michael Wenzelburger."

Ähnliche Präsentationen


Google-Anzeigen