Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Ökonometrie und Statistik Datamining und Big Data anhand von Fallbeispielen Dr. Bertram Wassermann.

Ähnliche Präsentationen


Präsentation zum Thema: "Ökonometrie und Statistik Datamining und Big Data anhand von Fallbeispielen Dr. Bertram Wassermann."—  Präsentation transkript:

1 Ökonometrie und Statistik Datamining und Big Data anhand von Fallbeispielen
Dr. Bertram Wassermann

2 Fallbeispiel 6: Überbuchungssteuerung
Schätzung der ÜberlebensWS: Überlebensrate mittels Zeitreihenanalyse Simulierte Daten Szenario: Täglicher Flieger von Wien nach Frankfurt am Main Abflug: 06:40 Kapazität: 400 Sitzplätze in Economy Wir betrachten nur eine Klasse Wir unterscheiden auch nicht zwischen den gebuchten Tarifen Keine Informationen über Stornobedingungen … … oder Kunden Daten für ein Jahr vorhanden Bruttobuchungen, also Anzahl aller je eingelangten und akzeptierten Buchungen pro Flug. Show Ups, also Anzahl aller transportierten Personen pro Flug.

3 Fallbeispiel 6: Überbuchungssteuerung
Folie 1: Univariate Voranalyse Der Median der Buchungen liegt knapp unter der Kapazitätsgrenze Die Streuung ist breit, sowohl bei den Netto und insbesondere bei den Bruttobuchungen. Das selbe gilt für die Überlebensraten. Median der Nettobuchungen liegt bei 300. Einige Flüge waren überbucht. Nettobuchungen und Überlebensraten weisen Ausreißer auf.

4 Fallbeispiel 6: Überbuchungssteuerung
Folie 2 + 3: Zeitreihen Welche Muster sieht man? Bruttobuchungen: Eine deutliche Jahressaisonalität Und eine Wochensaisonalität. Im Frühjahr und im Herbst übersteigt die Nachfrage die Kapazität. Montag, Freitag und Sonntag stark, Samstag schwach. Nettobuchungen: Auch hier sind die beiden Saisonalitäten zu erkennen. Die Jahressaisonalität ist etwas schwächer ausgeprägt. Man sieht ganz klar an welchen Tagen es zu Denied Boardings kommt. Knapp vor Tag 100 gibt es bei den Nettobuchungen einen starken Einbruch. Dieser muss auf verstärkte Stornos oder No – Shows zurückgeführt werden, da man bei den Buchungen keinen entsprechenden Rückgang sieht.

5 Fallbeispiel 6: Überbuchungssteuerung
Folie 4: Nicht - parametrische Zerlegung der Zeitreihe Bruttobuchungen Da wir nur ein Jahr an Daten zur Verfügung haben, modellieren wir die Jahressaisonalität als Trend. Die Wochensaisonalität als Saison. Das Ergebnis entspricht den Analysen der Grafik. Die Jahressaisonalität (der Trend) ist nicht linear. Es gibt zwei Wellenberge. Die Wochensaisonalität ist schlecht zu sehen, aber sicher auch nicht linear.

6 Fallbeispiel 6: Überbuchungssteuerung
Folie 5: Autokorrelation Bruttobuchungen Das ACF Diagramm zeigt starke Autokorrelationen. Insbesondere die Vielfachen des Lag 7 stechen heraus. Das entspricht der Wochensaisonalität.

7 Fallbeispiel 6: Überbuchungssteuerung
Folie 6 + 7: Parametrische Zerlegung Bruttobuchungen Auf Grund der festgestellten Nicht-Linearität der Jahres und Wochensaisonalität wird eine Varianzanalyse verwendet, also für jedes Monat und jeden Wochentag wird ein eigener Parameter geschätzt. Man sieht die monatlichen Stufen dieser Schätzung sehr (un-)schön in der Grafik. R² ist mit 83% recht gut. F Statistik ist signifikant. Die Koeffizienten sind fast alle signifikant. Die Residuen zeigen ein Muster. Sie werden mit der Zeit größer. Nun kann man endlich das Wochentagsmuster betrachten: Freitag und Montag stark. Samstag besonders schwach. Verbesserungspotential?

8 Fallbeispiel 6: Überbuchungssteuerung
Folie 8 bis 11: Parametrische Zerlegung Bruttobuchungen Die Residuen weisen eine starke Autokorrelation auf. Bis zum Lag 7 abnehmend positiv korreliert. Ein paar Versuche ergeben: Lag 1, 2, 3 und 5 verbleiben im Modell R² ist mit 89% deutlich gestiegen. Selbst die F-Statistik ist gewachsen, d.h. trotz der zusätzlichen Parameter konnte die Restvarianz deutlich reduziert werden. F Statistik ist signifikant. Die Koeffizienten sind fast alle signifikant. Lag 5 ist ganz knapp. Das Muster in den Residuen ist verschwunden. Der ACF für die Residuen dieses Modells zeigt die erfolgreiche Eliminierung der Autokorrelation.

9 Fallbeispiel 6: Überbuchungssteuerung
Folie 8 bis 11: Parametrische Zerlegung Bruttobuchungen Interpretation: Dez, Jan und Feb sind schwach gebuchte Monate. Der Intercept (die Konstante) liefert den wert für Jänner. Die Koeffizienten von Februar und Dezember sind nicht signifikant von 0 verschieden, d.h. sie unterscheiden sich nicht signifikant vom Wert des Jänners. Untertroffen werden sie nur noch vom September. Das aber deutlich. Der Koeffizient ist negativ und signifikant von 0 verschieden. Die stärksten Monate sind Mai und Juni, gefolgt von November und April Die buchungsschwachen Wochentage sind Mi, Do und Sa. Buchungsstark Mo und Fr. Montag spricht eher für Business Kunden, Freitag eher für Privatkunden. So und Di liegen im Mittelfeld.

10 Fallbeispiel 6: Überbuchungssteuerung
Folie : Nicht - parametrische Zerlegung der Zeitreihe Überlebensrate Auch hier wieder, da nur ein Jahr an Daten zur Verfügung steht, modellieren wir die Jahressaisonalität als Trend. Die Wochensaisonalität als Saison. Das Ergebnis entspricht den Analysen der Grafik. Die Jahressaisonalität (der Trend) ist nicht linear. Es gibt zwei Wellenberge. Man sieht deutlich den Einbruch in der Überlebensrate vor Tag 100. Hintergrund: Ein Vulkanausbruch hat zur Einstellung aller Fernflüge u.a. von Frankfurt weg geführt. Der Kurzstreckenflug – Wien Farnkfurt – war davon nicht betroffen. Trotzdem kam es zu vielen Stornierungen bei Kunden, die keinen Anschluss Flug mehr hatten. Multiplikative und Additive Zerlegung: kaum Unterschiede

11 Fallbeispiel 6: Überbuchungssteuerung
Folie 14: Autokorrelation Überlebensrate Das ACF Diagramm zeigt starke Autokorrelationen. Insbesondere die Vielfachen des Lag 7 stechen heraus. Was wieder der Wochensaisonalität entspricht.

12 Fallbeispiel 6: Überbuchungssteuerung
Folie : Parametrische Zerlegung Überlebensrate ohne Effekt Auf Grund der festgestellten Nicht-Linearität der Jahres und Wochensaisonalität wird wie im Modell für die Bruttobuchungen eine Varianzanalyse verwendet, also für jedes Monat und jeden Wochentag wird ein eigener Parameter geschätzt. R² ist mit 69% nicht besonders gut. Die erhöhte Stornorate vor Tag 100 ist aber im Modell noch nicht berücksichtig. F Statistik ist signifikant aber niedrig. Die Koeffizienten sind fast alle signifikant. Die Residuen zeigen vor allem, dass ein Effekt nicht berücksichtig ist: das außergewöhnliche Ereignis mit dem Vulkanausbruch. Verbesserungspotential ist offensichtlich.

13 Fallbeispiel 6: Überbuchungssteuerung
Folie 17: Außergewöhnliches Ereignis Überlebensrate In Summe ist eine Woche betroffen. Die ersten vier Tage sehr stark. Die letzten drei Tage schwächer. Es wird eine Variable angelegt, mit der die ersten vier Tage mit dem Wert 1 markiert werden und die dritten Tage mit dem Wert 2. Alle anderen bekommen den Wert 0.

14 Fallbeispiel 6: Überbuchungssteuerung
Folie 18 bis 19: Parametrische Zerlegung Überlebensrate mit Effekt Optisch gesehen bildet das Modell den Ausreißer gut nach. R² ist mit 90% nun deutlich besser. Selbst die F-Statistik ist auch gewachsen, d.h. trotz der zusätzlichen Parameter konnte die Restvarianz deutlich reduziert werden. F Statistik ist signifikant. Die Koeffizienten sind fast alle signifikant. Insbesondere die beiden Koeffizienten des Vulkaneffekts Die Residuen sind besser. Eventuell ist noch ein Ausreißer vorhanden. Noch Verbesserungspotential?

15 Fallbeispiel 6: Überbuchungssteuerung
Einschub: Logit Transformation Überlebensraten und Wahrscheinlichkeiten sind nach unten und oben beschränkt. Es können nicht weniger als 0% Stornieren und nicht mehr als 100%. Lineare Regression kennt solche Beschränkungen in der Zielvariable nicht. Im Gegenteil werden unbeschränkte Zielvariablen erwartet. Das kann zu Problemen führen Logit Transformation 𝑌 𝑡 =log⁡ 𝑝 𝑡 1− 𝑝 𝑡 Rücktransformation exp⁡(𝑌 𝑡 )∗ 1 − 𝑝 𝑡 = 𝑝 𝑡 exp⁡(𝑌 𝑡 ) − exp⁡(𝑌 𝑡 )∗ 𝑝 𝑡 = 𝑝 𝑡 exp⁡(𝑌 𝑡 ) = 𝑝 𝑡 + exp⁡(𝑌 𝑡 )∗ 𝑝 𝑡 exp⁡(𝑌 𝑡 ) =(1+ exp⁡(𝑌 𝑡 ))∗ 𝑝 𝑡 𝑝 𝑡 = exp( 𝑌 𝑡 ) 1+𝑒𝑥𝑝( 𝑌 𝑡 )

16 Fallbeispiel 6: Überbuchungssteuerung
Folie 20 bis 21: Parametrische Zerlegung Überlebensrate mit Logit Optisch sind keine offensichtlichen Verbesserungen zu erkennen. R² ist mit 90% ist ganz leicht gesunken. Die F-Statistik ist deutlich geringer geworden. Aber F Statistik ist signifikant. Die Koeffizienten sind fast alle signifikant. Die Koeffizienten haben nun andere Werte, da das Modell grundsätzlich anders ist. Die Residuen sind in Ordnung. In Summe keine Verbesserung, eher leicht verschlechtert. Trotzdem, sachlich ist es das richtigere Modell, da es sicherstellt, dass die Überlebensraten (geschätzte und prognostizierte) zwischen 0% und 100% liegen.

17 Fallbeispiel 6: Überbuchungssteuerung
Folie 22 bis 25: Parametrische Zerlegung Überlebensrate mit Logit und Autokorrelation Das ACF Diagramm für die Residuen zeigt wieder eine Autokorrelation bei diesen. Lag 1 und Lag 3 der Residuen werden im Modell mitaufgenommen. R² ist mit 91% um einen Prozentpunkt gewachsen. Die F-Statistik ist leicht gewachsen und ... … signifikant. Die Koeffizienten sind fast alle signifikant. Die Residuen wurden gedämpft. Interpretation: Monate Dez, Jan und Feb sind die Nebensaison der Stornos und No-Shows. Von Mai bis Juli herrscht hingegen ein Storno – Hoch, sowie nicht so stark aber doch im Oktober und November Von Mo bis Mi wird eher storniert. Am Wochenende hingegen steigen die Show-Up Raten. Das alles legt die Vermutung nahe, dass Geschäftsreisende einen starken Einfluss auf die Show-Up Raten haben.

18 Fallbeispiel 6: Überbuchungssteuerung
Folie 26 bis 28: Forecast und Buchungslimits Mit diesem Modell lassen sich nun die Überlebensraten für Flüge in diesem Markt für ein Jahr prognostizieren. Auf Grund der Varianzanalytischen Schätzung der Jahressaisonalität entstehen Stufen, die sehr „unnatürlich“ und abrupt wirken. Mit dem beschriebenen Verfahren zur Berechnung von Buchungslimits bei der Überbuchungssteuerung lassen sich nun entsprechende Limits bestimmen. Der Vergleich mit den beobachteten Brutto und Nettobuchungen zeigt, Die Bruttobuchungen liegen meist weit unter den Buchungslimits. Übersteigen die Show-Ups (Nettobuchungen) die Kapazitätsgrenze, so liegen die Bruttobuchungen über dem Buchungslimit. Die Überbuchungssteuerung ist in diesem Beispiel noch verbesserungswürdig.

19 Fallbeispiel 6: Überbuchungssteuerung
Verbesserung und Verfeinerung Das Modell zur Vorhersage der Überlebensraten lässt sich verbessern: Längere Zeitraum der Basisdaten „glatter“ Verlauf der Schätzung der Saisonalität Weitere Ausreißer berücksichtigen. Berücksichtigung zusätzlicher Informationen über Kunden und Tickets (Stornobedingungen) Für die Überbuchungssteuerung ist diese Vorgangsweise der erste Schritt: Initialisierung der Überbuchungslimits Die Buchungskurve und die Stornokurve liefern pro Zugfahrt während des Buchungszeitraums weitere, wichtige und hilfreiche Informationen. Aus der Entwicklung dieser Kurven lassen sich Rückschlüsse und Anpassungen auf den endgültigen Buchungsstand und Anzahl Stornos ableiten.


Herunterladen ppt "Ökonometrie und Statistik Datamining und Big Data anhand von Fallbeispielen Dr. Bertram Wassermann."

Ähnliche Präsentationen


Google-Anzeigen