Knowledge Discovery Erzeugung künstlicher Telekommunikationsdaten

Slides:



Advertisements
Ähnliche Präsentationen
Neue Berechnungen zur jährlichen Zahl influenzabedingter Todesfälle
Advertisements

Constraint Satisfaction Problems
Apriori-Algorithmus zur Entdeckung von Assoziationsregeln
im Rahmen der Vorlesung
Masterstudiengang IE (Industrial Engineering)
3. Kapitel: Komplexität und Komplexitätsklassen
Grundlagen der Simulation: Übungsaufgabe
Multivariate Datenanalyse Datum: Betreuer: Dr. Bellmann Quellen: Multivariate Statistik, Hartung/Elpelt 1989 Stochastik für Ingenieure und Naturwissenschaftler,
Stochastik in der Sek. II Sabrina Schultze.
Umgang mit Messunsicherheiten
Forschungsstrategien Johannes Gutenberg Universität Mainz
Gliederung Tabellarische und grafische Darstellung von Rohwerten mittels Histogramme und Polygone Statistische Kennwertbeschreibung mittels Tendenz- und.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg 1/10
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Konfidenzintervalle für Parameter
Monte-Carlo Lokalisation im RoboCup: Ein Ansatz ohne Farbklassifikation Zwischenvortrag Diplomarbeit Informatik IX TU München 23. Mai 2002 Dirk Neumann.
Ein frohes und erfolgreiches Jahr
Klausur „Diskrete Mathematik II“
Mixture Regression Modelle
K. Desch - Statistik und Datenanalyse SS05
K. Desch - Statistik und Datenanalyse SS05
Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung
Zählen, ohne zu zählen.
Statistische Methoden II SS 2007 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Konfidenzintervalle Intervallschätzung
Statistische Methoden II SS 2007 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden I SS 2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur nächste Woche - statt Vorlesungen -
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
III. Induktive Statistik
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird verlegt. Der Nachholtermin wird noch bekannt gegeben.
Extra-SPSS-Kurse Durchführung: Birte Holtfreter Termine Di Mi Mi Ort PC-Pool Loefflerstarße.
Grundbegriffe der (deskriptiven) Statistikder Wahrscheinlichkeitstheorie.
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Lohnentwicklung im Lebenszyklus
Diagnostische Statistik
Wiederholung und Beispiele
Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:
Binomialverteilung: Beispiel
(Un-)sicherheiten in der Ökosystemmodellierung
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Ausgleichungsrechnung I
Computerorientierte Physik VORLESUNG Zeit: jeweils Mo Uhr Ort: Hörsaal 5.01, Institut für Experimentalphysik, Universitätsplatz 5, A-8010.
Chi Quadrat Test Tamara Katschnig.
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
STATISIK LV Nr.: 0028 SS Mai 2005.
Theorie der Stichprobe
Theoriereferat Indexes, Scales and Typologies The Logic of Sampling
STATISIK LV Nr.: 0021 WS 2005/ Oktober 2005.
Knowledge Discovery Erzeugung künstlicher Telekommunikationsdaten (Teil II) Markus Höchstötter Michael Wenzelburger.
Institut für Wirtschaftsinformatik – Software Engineering, JKU Linz 1 Algorithmen und Datenstrukturen SS 2005 Mag.Th. Hilpold u. Dr. A.Stritzinger Institut.
Regression und Kollokation
Mathematik 1. Studienjahr Modul M1: Elemente der Mathematik
Künstliche Intelligenz
Statistik Statistik I Seminar + Blockveranstaltung Statistik I
Erzeugung und Verwendung von Zufallszahlen
Mehrbenutzerzugriff auf GIS-Daten
2. Sitzung Forschungsprozess als Abfolge von Entscheidungen
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig
2.5.2 Multivariate Monte Carlo-Simulation
K. Desch - Statistik und Datenanalyse SS05
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
Testtheorie (Vorlesung 14: ) Testtheorie allgemein:  Ziele und Inhalte der Testtheorie:  Beurteilung der Eigenschaften von Tests  Speziell: Güte.
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
 Präsentation transkript:

Knowledge Discovery Erzeugung künstlicher Telekommunikationsdaten Markus Höchstötter Michael Wenzelburger

Agenda Künstliche Telko-Daten Generierung von Daten 28.03.2017 Agenda Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze

Künstliche Telko-Daten Warum künstlich? Wissenschaftliche Zwecke Datenschutz von „echten“ Daten Wie erzeugt man Telko-Daten? Aggregierte Daten erhältlich Kundenklassen, Cluster Wahrscheinlichkeitsverteilungen

Künstliche Telko-Daten Kundencluster mit ähnlichen Eigenschaften Aggregierte Info über Kundencluster Wahrscheinlichkeitsmodell und ZZ-Generator Telko-Mikrodaten (Gesprächsspezifisch)

Agenda Künstliche Telko-Daten Generierung von Daten 28.03.2017 Agenda Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze

Generierung von Daten Monte-Carlo-Methode Milligan Algorithmus Promatis

Monte-Carlo-Methode Definition: „Ein Verfahren, die Lösung eines Problems als Parameter einer hypothetischen Grundgesamtheit darzustellen und eine Folge von Zufallszahlen zu benutzen, um eine Stichprobe der Gesamtheit zu konstruieren, aus der dann statistische Schätzungen des Parameters gewonnen werden.“ Norbert Schmitz et al 1974

Monte-Carlo-Methode Festlegung von Wahrscheinlichkeiten auf bestimmten Dimensionen Erzeugung von Zufallszahlen Ablesen der Ausprägung der Dimensionen

Monte-Carlo-Methode Beispiel: Zufallszahlen: 0,44 => mittel 0,76 => lang 0,54 => mittel 0,01 => kurz

Milligan Algorythmus Definition: „An algorythem for generating artificial data sets which contain distinct nonoverlapping clusters“ Glenn W. Milligan 1985

Milligan Algorithmus Algorithmus: Festlegung der Cluster in den Verschiedenen Dimensionen Erzeugung von Datensätzen innerhalb der Clustergrenzen (3fache Standart Abweichung) Erzeugung von „Ausreisern“ außerhalb der Clustergrenzen (15% - 30% der gesamten Daten)

Promatis Software zur Erzeugung von mehrdimensionalen Datensätzen 28.03.2017 Promatis Software zur Erzeugung von mehrdimensionalen Datensätzen Jede Dimension hat eigene Verteilung Werden einzeln erzeugt und überlagert

Promatis

Promatis

Agenda Künstliche Telko-Daten Generierung von Daten 28.03.2017 Agenda Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze

Telko-Datenstruktur Gesprächsdauer/ Belegungsdauer Zahl der Gespräche Einfallsabstand Verkehrswert

Gesprächs-/Belegungsdauer Gespräch vs Belegung ln-normalverteilt mit xm als Lage und Qx als Steigung

Gesprächs-/Belegungsdauer

Zahl der Gespräche Diskrete Wahrscheinlichkeitsverteilung Kann durch ln-normalverteilte Verteilung dargestellt werden mit x=0,1,2,...,n

Zahl der Gespräche

Einfallabstand Kann indirekt aus Zahl der Gespräche bestimmt werden Somit auch ln-normalverteilt Problem: Bei Transformation geht Info verloren Lediglich „mittlere“ Einfallabstände

Verkehrswert Definition: „Summe der Belegungsdauern eines Kollektivs von Belegungen innerhalb eins Zeitraums bezogen auf diesen Zeitraum“ Robert Jäger 1990 Zwischen 0 und 1 Gemessen in Erlang ln-normalverteilt Kann aus anderen Daten ermittelt werden

Telko-Datenstruktur Alle annähernd ln-normalverteilt Somit alle durch zwei Parameter darstellbar Bei manchen Größen systematische Einflussgrößen zu bereinigen

Agenda Künstliche Telko-Daten Generierung von Daten 28.03.2017 Agenda Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze

Spezielle Lösungsansätze Erzeugung von einzelnen Kunden Erzeugung von einzelnen Gesprächsdaten mit Zeitstrahlmodell

Erzeugung von Kunden Kundengruppen unterteilt nach Telefonierverhalten Ziehung der kundenspezifischen Parameter mit ZV aus Kundengruppen

Erzeugung von Gesprächsdaten Generierung für einzelnen Kunden Beginn bei Null Fortlaufende Ziehung von Gesprächsdauer und Zwischengesprächsabstand Ermittlung der Tarifstruktur vor jeder Ziehung

} } ... } Zeitenstrahl Ziehung: Tarifzone (Ort, Nah, Fern) Gesprächsdauer } Abhängig vom Startzeitpunkt } Zwischenzeit 1 t1 t3 } Zwischenzeit 2 ... Gespräch 1 t2 t=0

Fragen