Ökonometrie und Statistik Datamining und Big Data anhand von Fallbeispielen Dr. Bertram Wassermann.

Slides:



Advertisements
Ähnliche Präsentationen
Was ist die Reihenfolge der Monate?
Advertisements

Tutorium
Dummy-Variablen Gleicher Lohn bei gleicher Qualifikation: Frauen verdienen im Durchschnitt zwar weniger als Männer, aber ist die Ursache dafür in der Diskriminierung.
Multikollinearität Wann spricht man von Multikollinearität?
Externe Bewertung in IB-Biologie
Was ist heute für ein Tag?
Zeit.
Lesen Read D1 textbook. Complete 20 #1-2.
2014 Januar 2014 So Mo Di Mi Do Fr Sa So
Januar, Februar, März, April - die Jahresuhr steht niemals still!
...ich seh´es kommen !.
...ich seh´es kommen !.
Die Tage der Woche Was ist heute für ein Tag?. Wochentage Der Montag Der Dienstag Der Mittwoch Der Donnerstag Der Freitag.
Die Tage der Woche Montag Dienstag Mittwoch Donnerstag Freitag
Bewerbungs- eingang Bewerbungs- bearbeitung Stellenangebote VermittlungKommunikationZusatzleistungen.
Aachen, | WISS Seminarvortrag von Christian Wißmach Analyse von Zeitreihen.
Temporale Präpositionen
Außenhandelsbeziehungen zwischen China, USA, EU Makroökonometrie Vorlesung Dr. Oliver Bode.
Ein Dozent hat mittels eines Fragebogens die Körpergröße seiner Studenten festgestellt. Anhand der erfassten Daten weiß er, dass der kleinste Student 158.
PLAYBOY-KALENDER 2020 Januar
Konjunkturbulletin Juli 2017 Konjunkturbulletin
Österreichisches Wildeinflussmonitoring
Inklusionsbarometer 2016 Zahlen & Fakten (beruhend auf dem vierten Inklusionsbarometer der Aktion Mensch (Komplette Studie:
Silben mit Umlauten üben
Tarifunterlagen 2014.
Wochentage, Monate, Kalender
∑ Abschluss der Bewertungen: Was wissen wir? Reklassierung zu…
Hans-Jürgen Brummer Leiter DSiE
Kalender 2004 String-Version
Monatsmittel einer Station: Beispiel Lindenberg
POINT POWER Um ohne lange Umschweife zu erklären, was eine POWERPOINT-Präsentation ist, werde ich die folgende Einführung in das Thema Präsentationen bereits.
Januar 2018 MONTAG DIENSTAG MITTWOCH DONNERSTAG FREITAG SAMSTAG
Abiturprüfung Mathematik 2017 Baden-Württemberg Allgemeinbildende Gymnasien Wahlteil Analysis A 1 Lösungen der Aufgaben A 1.1 und A 1.2
Was die Schoolgames® leisten können
Gemeinsames Lernen von Kindern mit und ohne Beeinträchtigung
Bei dieser Präsentation wird sicher eine Diskussion mit dem Publikum entstehen, die zu Aktionsschritten führt. Verwenden Sie PowerPoint, um diese Aktionsschritte.
Kyncl M., Pollert J., Micin J.,Raclavsky J.,Malanik S.
Konjunkturbulletin März 2018
Ökonometrie und Statistik Yield Management
Ökonometrie und Statistik Mehrfachregression
Galaxien und ihre Entfernungsbestimmung
Erstellt und bebildert von Nemo
Beurteilung und Benotung: arbeit mit der Entscheidungsgrundlage
Talking about when your birthday is
Ökonometrie und Statistik Wiederholung
JANUAR MONTAG DIENSTAG MITTWOCH
Ökonometrie und Statistik Datamining und Big Data anhand von Fallbeispielen Dr. Bertram Wassermann.
Hans-Jürgen Brummer Leiter DSiE
Tage, Monate, Uhrzeit.
Ökonometrie und Statistik Prüfungsthemen
(wird seit 1950 auch Deming-Kreis genannt!)
JANUAR MONTAG DIENSTAG MITTWOCH DONNERSTAG FREITAG SAMSTAG
Schätzmethoden: CoCoMo und FPA
Das Vektorprodukt Wir definieren erneut eine Multiplikation zwischen zwei Vektoren, das Vektorprodukt, nicht zu verwechseln mit dem Skalarprodukt. Schreibe.
Ökonometrie und Statistik Yield Management, Fallbeispiel 6
Kernindikatoren der chemisch-pharmazeutischen Industrie in Deutschland
Frühling Sommer Los geht’s! Klicke auf die Wolke  Herbst Winter.
Januar 2016 Montag Dienstag Mittwoch Donnerstag Freitag Samstag
forni a legna made in italy
WIFO Werbeklimaindex Erhebungszeitraum Oktober 2018
Abiturprüfung Mathematik 2015 Baden-Württemberg Allgemeinbildende Gymnasien Wahlteil Analytische Geometrie / Stochastik Aufgabe B 2.1 und B Lösungen.
Übersicht Etwas Mathematik (ganz ohne geht es nicht).
Konfidenzintervalle und Tests auf Normalverteilung
Abiturprüfung Mathematik 2015 Baden-Württemberg Allgemeinbildende Gymnasien Wahlteil Analysis A 2 Lösungen der Aufgaben A 2.1 und A 2.2
Ökonometrie und Statistik Yield Management
Ökonometrie und Statistik Yield Management Fallbeispiel 5
Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.
WIFO Werbeklimaindex Erhebungszeitraum April 2019
 Präsentation transkript:

Ökonometrie und Statistik Datamining und Big Data anhand von Fallbeispielen Dr. Bertram Wassermann

Fallbeispiel 2b: Überbuchungssteuerung Schätzung der ÜberlebensWS: Überlebensrate mittels Zeitreihenanalyse Simulierte Daten Szenario: Täglicher Flieger von Wien nach Frankfurt am Main Abflug: 06:40 Kapazität: 400 Sitzplätze in Economy Wir betrachten nur eine Klasse Wir unterscheiden auch nicht zwischen den gebuchten Tarifen Keine Informationen über Stornobedingungen … … oder Kunden Daten für ein Jahr vorhanden Bruttobuchungen, also Anzahl aller je eingelangten und akzeptierten Buchungen pro Flug. Show Ups, also Anzahl aller transportierten Personen pro Flug.

Fallbeispiel 2b: Überbuchungssteuerung Folie 1: Univariate Voranalyse Der Median der Buchungen liegt knapp unter der Kapazitätsgrenze Die Streuung ist breit, sowohl bei den Netto und insbesondere bei den Bruttobuchungen. Das selbe gilt für die Überlebensraten. Median der Nettobuchungen liegt bei 300. Einige Flüge waren überbucht. Nettobuchungen und Überlebensraten weisen Ausreißer auf.

Fallbeispiel 2b: Überbuchungssteuerung Folie 2 + 3: Zeitreihen Welche Muster sieht man? Bruttobuchungen: Eine deutliche Jahressaisonalität Und eine Wochensaisonalität. Im Frühjahr und im Herbst übersteigt die Nachfrage die Kapazität. Montag, Freitag und Sonntag stark, Samstag schwach. Nettobuchungen: Auch hier sind die beiden Saisonalitäten zu erkennen. Die Jahressaisonalität ist etwas schwächer ausgeprägt. Man sieht ganz klar an welchen Tagen es zu Denied Boardings kommt. Knapp vor Tag 100 gibt es bei den Nettobuchungen einen starken Einbruch. Dieser muss auf verstärkte Stornos oder No – Shows zurückgeführt werden, da man bei den Buchungen keinen entsprechenden Rückgang sieht.

Fallbeispiel 2b: Überbuchungssteuerung Folie 4: Nicht - parametrische Zerlegung der Zeitreihe Bruttobuchungen Da wir nur ein Jahr an Daten zur Verfügung haben, modellieren wir die Jahressaisonalität als Trend. Die Wochensaisonalität als Saison. Das Ergebnis entspricht den Analysen der Grafik. Die Jahressaisonalität (der Trend) ist nicht linear. Es gibt zwei Wellenberge. Die Wochensaisonalität ist schlecht zu sehen, aber sicher auch nicht linear.

Fallbeispiel 2b: Überbuchungssteuerung Folie 5: Autokorrelation Bruttobuchungen Das ACF Diagramm zeigt starke Autokorrelationen. Insbesondere die Vielfachen des Lag 7 stechen heraus. Das entspricht der Wochensaisonalität.

Fallbeispiel 2b: Überbuchungssteuerung Folie 6 + 7: Parametrische Zerlegung Bruttobuchungen Auf Grund der festgestellten Nicht-Linearität der Jahres und Wochensaisonalität wird eine Varianzanalyse verwendet, also für jedes Monat und jeden Wochentag wird ein eigener Parameter geschätzt. Man sieht die monatlichen Stufen dieser Schätzung sehr (un-)schön in der Grafik. R² ist mit 83% recht gut. F Statistik ist signifikant. Die Koeffizienten sind fast alle signifikant. Die Residuen zeigen ein Muster. Sie werden mit der Zeit größer. Nun kann man endlich das Wochentagsmuster betrachten: Freitag und Montag stark. Samstag besonders schwach. Verbesserungspotential?

Fallbeispiel 2b: Überbuchungssteuerung Folie 8 bis 11: Parametrische Zerlegung Bruttobuchungen Die Residuen weisen eine starke Autokorrelation auf. Bis zum Lag 7 abnehmend positiv korreliert. Ein paar Versuche ergeben: Lag 1, 2, 3 und 5 verbleiben im Modell R² ist mit 89% deutlich gestiegen. Selbst die F-Statistik ist gewachsen, d.h. trotz der zusätzlichen Parameter konnte die Restvarianz deutlich reduziert werden. F Statistik ist signifikant. Die Koeffizienten sind fast alle signifikant. Lag 5 ist ganz knapp. Das Muster in den Residuen ist verschwunden. Der ACF für die Residuen dieses Modells zeigt die erfolgreiche Eliminierung der Autokorrelation.

Fallbeispiel 2b: Überbuchungssteuerung Folie 8 bis 11: Parametrische Zerlegung Bruttobuchungen Interpretation: Dez, Jan und Feb sind schwach gebuchte Monate. Der Intercept (die Konstante) liefert den wert für Jänner. Die Koeffizienten von Februar und Dezember sind nicht signifikant von 0 verschieden, d.h. sie unterscheiden sich nicht signifikant vom Wert des Jänners. Untertroffen werden sie nur noch vom September. Das aber deutlich. Der Koeffizient ist negativ und signifikant von 0 verschieden. Die stärksten Monate sind Mai und Juni, gefolgt von November und April Die buchungsschwachen Wochentage sind Mi, Do und Sa. Buchungsstark Mo und Fr. Montag spricht eher für Business Kunden, Freitag eher für Privatkunden. So und Di liegen im Mittelfeld.

Fallbeispiel 2b: Überbuchungssteuerung Folie 12 + 13: Nicht - parametrische Zerlegung der Zeitreihe Überlebensrate Auch hier wieder, da nur ein Jahr an Daten zur Verfügung steht, modellieren wir die Jahressaisonalität als Trend. Die Wochensaisonalität als Saison. Das Ergebnis entspricht den Analysen der Grafik. Die Jahressaisonalität (der Trend) ist nicht linear. Es gibt zwei Wellenberge. Man sieht deutlich den Einbruch in der Überlebensrate vor Tag 100. Hintergrund: Ein Vulkanausbruch hat zur Einstellung aller Fernflüge u.a. von Frankfurt weg geführt. Der Kurzstreckenflug – Wien Farnkfurt – war davon nicht betroffen. Trotzdem kam es zu vielen Stornierungen bei Kunden, die keinen Anschluss Flug mehr hatten. Multiplikative und Additive Zerlegung: kaum Unterschiede

Fallbeispiel 2b: Überbuchungssteuerung Folie 14: Autokorrelation Überlebensrate Das ACF Diagramm zeigt starke Autokorrelationen. Insbesondere die Vielfachen des Lag 7 stechen heraus. Was wieder der Wochensaisonalität entspricht.

Fallbeispiel 2b: Überbuchungssteuerung Folie 15 + 16: Parametrische Zerlegung Überlebensrate ohne Effekt Auf Grund der festgestellten Nicht-Linearität der Jahres und Wochensaisonalität wird wie im Modell für die Bruttobuchungen eine Varianzanalyse verwendet, also für jedes Monat und jeden Wochentag wird ein eigener Parameter geschätzt. R² ist mit 69% nicht besonders gut. Die erhöhte Stornorate vor Tag 100 ist aber im Modell noch nicht berücksichtig. F Statistik ist signifikant aber niedrig. Die Koeffizienten sind fast alle signifikant. Die Residuen zeigen vor allem, dass ein Effekt nicht berücksichtig ist: das außergewöhnliche Ereignis mit dem Vulkanausbruch. Verbesserungspotential ist offensichtlich.

Fallbeispiel 2b: Überbuchungssteuerung Folie 17: Außergewöhnliches Ereignis Überlebensrate In Summe ist eine Woche betroffen. Die ersten vier Tage sehr stark. Die letzten drei Tage schwächer. Es wird eine Variable angelegt, mit der die ersten vier Tage mit dem Wert 1 markiert werden und die dritten Tage mit dem Wert 2. Alle anderen bekommen den Wert 0.

Fallbeispiel 2b: Überbuchungssteuerung Folie 18 bis 19: Parametrische Zerlegung Überlebensrate mit Effekt Optisch gesehen bildet das Modell den Ausreißer gut nach. R² ist mit 90% nun deutlich besser. Selbst die F-Statistik ist auch gewachsen, d.h. trotz der zusätzlichen Parameter konnte die Restvarianz deutlich reduziert werden. F Statistik ist signifikant. Die Koeffizienten sind fast alle signifikant. Insbesondere die beiden Koeffizienten des Vulkaneffekts Die Residuen sind besser. Eventuell ist noch ein Ausreißer vorhanden. Noch Verbesserungspotential?

Fallbeispiel 2b: Überbuchungssteuerung Einschub: Logit Transformation Überlebensraten und Wahrscheinlichkeiten sind nach unten und oben beschränkt. Es können nicht weniger als 0% Stornieren und nicht mehr als 100%. Lineare Regression kennt solche Beschränkungen in der Zielvariable nicht. Im Gegenteil werden unbeschränkte Zielvariablen erwartet. Das kann zu Problemen führen Logit Transformation 𝑌 𝑡 =log⁡ 𝑝 𝑡 1− 𝑝 𝑡 Rücktransformation exp⁡(𝑌 𝑡 )∗ 1 − 𝑝 𝑡 = 𝑝 𝑡 exp⁡(𝑌 𝑡 ) − exp⁡(𝑌 𝑡 )∗ 𝑝 𝑡 = 𝑝 𝑡 exp⁡(𝑌 𝑡 ) = 𝑝 𝑡 + exp⁡(𝑌 𝑡 )∗ 𝑝 𝑡 exp⁡(𝑌 𝑡 ) =(1+ exp⁡(𝑌 𝑡 ))∗ 𝑝 𝑡 𝑝 𝑡 = exp( 𝑌 𝑡 ) 1+𝑒𝑥𝑝( 𝑌 𝑡 )

Fallbeispiel 2b: Überbuchungssteuerung Folie 20 bis 21: Parametrische Zerlegung Überlebensrate mit Logit Optisch sind keine offensichtlichen Verbesserungen zu erkennen. R² ist mit 90% ist ganz leicht gesunken. Die F-Statistik ist deutlich geringer geworden. Aber F Statistik ist signifikant. Die Koeffizienten sind fast alle signifikant. Die Koeffizienten haben nun andere Werte, da das Modell grundsätzlich anders ist. Die Residuen sind in Ordnung. In Summe keine Verbesserung, eher leicht verschlechtert. Trotzdem, sachlich ist es das richtigere Modell, da es sicherstellt, dass die Überlebensraten (geschätzte und prognostizierte) zwischen 0% und 100% liegen.

Fallbeispiel 2b: Überbuchungssteuerung Folie 22 bis 25: Parametrische Zerlegung Überlebensrate mit Logit und Autokorrelation Das ACF Diagramm für die Residuen zeigt wieder eine Autokorrelation bei diesen. Lag 1 und Lag 3 der Residuen werden im Modell mitaufgenommen. R² ist mit 91% um einen Prozentpunkt gewachsen. Die F-Statistik ist leicht gewachsen und ... … signifikant. Die Koeffizienten sind fast alle signifikant. Die Residuen wurden gedämpft. Interpretation: Monate Dez, Jan und Feb sind die Nebensaison der Stornos und No-Shows. Von Mai bis Juli herrscht hingegen ein Storno – Hoch, sowie nicht so stark aber doch im Oktober und November Von Mo bis Mi wird eher storniert. Am Wochenende hingegen steigen die Show-Up Raten. Das alles legt die Vermutung nahe, dass Geschäftsreisende einen starken Einfluss auf die Show-Up Raten haben.

Fallbeispiel 2b: Überbuchungssteuerung Folie 26 bis 28: Forecast und Buchungslimits Mit diesem Modell lassen sich nun die Überlebensraten für Flüge in diesem Markt für ein Jahr prognostizieren. Auf Grund der Varianzanalytischen Schätzung der Jahressaisonalität entstehen Stufen, die sehr „unnatürlich“ und abrupt wirken. Mit dem beschriebenen Verfahren zur Berechnung von Buchungslimits bei der Überbuchungssteuerung lassen sich nun entsprechende Limits bestimmen. Der Vergleich mit den beobachteten Brutto und Nettobuchungen zeigt, Die Bruttobuchungen liegen meist weit unter den Buchungslimits. Übersteigen die Show-Ups (Nettobuchungen) die Kapazitätsgrenze, so liegen die Bruttobuchungen über dem Buchungslimit. Die Überbuchungssteuerung ist in diesem Beispiel noch verbesserungswürdig.

Fallbeispiel 2b: Überbuchungssteuerung Verbesserung und Verfeinerung Das Modell zur Vorhersage der Überlebensraten lässt sich verbessern: Längere Zeitraum der Basisdaten „glatter“ Verlauf der Schätzung der Saisonalität Weitere Ausreißer berücksichtigen. Berücksichtigung zusätzlicher Informationen über Kunden und Tickets (Stornobedingungen) Für die Überbuchungssteuerung ist diese Vorgangsweise der erste Schritt: Initialisierung der Überbuchungslimits Die Buchungskurve und die Stornokurve liefern pro Zugfahrt während des Buchungszeitraums weitere, wichtige und hilfreiche Informationen. Aus der Entwicklung dieser Kurven lassen sich Rückschlüsse und Anpassungen auf den endgültigen Buchungsstand und Anzahl Stornos ableiten.