Knowledge Discovery Erzeugung künstlicher Telekommunikationsdaten Markus Höchstötter Michael Wenzelburger
Agenda Künstliche Telko-Daten Generierung von Daten 28.03.2017 Agenda Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze
Künstliche Telko-Daten Warum künstlich? Wissenschaftliche Zwecke Datenschutz von „echten“ Daten Wie erzeugt man Telko-Daten? Aggregierte Daten erhältlich Kundenklassen, Cluster Wahrscheinlichkeitsverteilungen
Künstliche Telko-Daten Kundencluster mit ähnlichen Eigenschaften Aggregierte Info über Kundencluster Wahrscheinlichkeitsmodell und ZZ-Generator Telko-Mikrodaten (Gesprächsspezifisch)
Agenda Künstliche Telko-Daten Generierung von Daten 28.03.2017 Agenda Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze
Generierung von Daten Monte-Carlo-Methode Milligan Algorithmus Promatis
Monte-Carlo-Methode Definition: „Ein Verfahren, die Lösung eines Problems als Parameter einer hypothetischen Grundgesamtheit darzustellen und eine Folge von Zufallszahlen zu benutzen, um eine Stichprobe der Gesamtheit zu konstruieren, aus der dann statistische Schätzungen des Parameters gewonnen werden.“ Norbert Schmitz et al 1974
Monte-Carlo-Methode Festlegung von Wahrscheinlichkeiten auf bestimmten Dimensionen Erzeugung von Zufallszahlen Ablesen der Ausprägung der Dimensionen
Monte-Carlo-Methode Beispiel: Zufallszahlen: 0,44 => mittel 0,76 => lang 0,54 => mittel 0,01 => kurz
Milligan Algorythmus Definition: „An algorythem for generating artificial data sets which contain distinct nonoverlapping clusters“ Glenn W. Milligan 1985
Milligan Algorithmus Algorithmus: Festlegung der Cluster in den Verschiedenen Dimensionen Erzeugung von Datensätzen innerhalb der Clustergrenzen (3fache Standart Abweichung) Erzeugung von „Ausreisern“ außerhalb der Clustergrenzen (15% - 30% der gesamten Daten)
Promatis Software zur Erzeugung von mehrdimensionalen Datensätzen 28.03.2017 Promatis Software zur Erzeugung von mehrdimensionalen Datensätzen Jede Dimension hat eigene Verteilung Werden einzeln erzeugt und überlagert
Promatis
Promatis
Agenda Künstliche Telko-Daten Generierung von Daten 28.03.2017 Agenda Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze
Telko-Datenstruktur Gesprächsdauer/ Belegungsdauer Zahl der Gespräche Einfallsabstand Verkehrswert
Gesprächs-/Belegungsdauer Gespräch vs Belegung ln-normalverteilt mit xm als Lage und Qx als Steigung
Gesprächs-/Belegungsdauer
Zahl der Gespräche Diskrete Wahrscheinlichkeitsverteilung Kann durch ln-normalverteilte Verteilung dargestellt werden mit x=0,1,2,...,n
Zahl der Gespräche
Einfallabstand Kann indirekt aus Zahl der Gespräche bestimmt werden Somit auch ln-normalverteilt Problem: Bei Transformation geht Info verloren Lediglich „mittlere“ Einfallabstände
Verkehrswert Definition: „Summe der Belegungsdauern eines Kollektivs von Belegungen innerhalb eins Zeitraums bezogen auf diesen Zeitraum“ Robert Jäger 1990 Zwischen 0 und 1 Gemessen in Erlang ln-normalverteilt Kann aus anderen Daten ermittelt werden
Telko-Datenstruktur Alle annähernd ln-normalverteilt Somit alle durch zwei Parameter darstellbar Bei manchen Größen systematische Einflussgrößen zu bereinigen
Agenda Künstliche Telko-Daten Generierung von Daten 28.03.2017 Agenda Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze
Spezielle Lösungsansätze Erzeugung von einzelnen Kunden Erzeugung von einzelnen Gesprächsdaten mit Zeitstrahlmodell
Erzeugung von Kunden Kundengruppen unterteilt nach Telefonierverhalten Ziehung der kundenspezifischen Parameter mit ZV aus Kundengruppen
Erzeugung von Gesprächsdaten Generierung für einzelnen Kunden Beginn bei Null Fortlaufende Ziehung von Gesprächsdauer und Zwischengesprächsabstand Ermittlung der Tarifstruktur vor jeder Ziehung
} } ... } Zeitenstrahl Ziehung: Tarifzone (Ort, Nah, Fern) Gesprächsdauer } Abhängig vom Startzeitpunkt } Zwischenzeit 1 t1 t3 } Zwischenzeit 2 ... Gespräch 1 t2 t=0
Fragen