Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

© Prof. Dr.-Ing. Wolfgang Lehner | Systemübergreifende Kostennormalisierung für Integrationsprozesse Matthias Böhm 1,2, Dirk Habich 2, Wolfgang Lehner.

Ähnliche Präsentationen


Präsentation zum Thema: "© Prof. Dr.-Ing. Wolfgang Lehner | Systemübergreifende Kostennormalisierung für Integrationsprozesse Matthias Böhm 1,2, Dirk Habich 2, Wolfgang Lehner."—  Präsentation transkript:

1 © Prof. Dr.-Ing. Wolfgang Lehner | Systemübergreifende Kostennormalisierung für Integrationsprozesse Matthias Böhm 1,2, Dirk Habich 2, Wolfgang Lehner 2, Uwe Wloka 1 1 Hochschule für Technik und Wirtschaft Dresden (FH), Database Group 2 Technische Universität Dresden, Database Technology Group BTW 2009

2 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 2 > Problemstellung Einführung Integrationsprozesse Invoke o 3 Fork o 1 Assign o 5 Assign o 2 Selection o 4 Join o 8 Assign o 9 Invoke o 10 Invoke o 6 Selection o 7 Receive o 1 Switch o 2 Translation o 5 Assign o 6 Assign o 8 Invoke o 7 Invoke o 9 Translation o 3 Assign o 4 a) Datengetriebener Integrationsprozess b) Zeitbasierter Integrationsprozess SAP R/3 JDBC Web Service JDBC Web Service

3 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 3 > Problemstellung Kontext Modellgetriebene Generierung von Integrationsprozessen GCIP (Generation of Complex Integration Processes) Problem Vergleichbarkeit von Integrationssystemen Voraussetzung für systemübergreifende Optimierung Überblick Problemstellungen der Kostenmodellierung und -normalisierung Plattforminvariantes Kostenmodell für Integrationsprozesse Algorithmen zur Kostennormalisierung

4 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 4 > Problemstellung Annahme 1: Generierbarkeit Plattformunabhängige Modellierung möglich Generierung von Plattformspezifischen Integrationsaufgaben möglich (GCIP, Orchid, ETL Prozesse) Voraussetzung für Wahlmöglichkeit Annahme 2: Auswahlmöglichkeit Typische IT Infrastruktur umfasst mehrere Integrationssysteme mit überlappenden Funktionalitäten [Sto02] Spezielle Operatoren Unterstützte externe Systeme Möglichkeiten auf externe Ereignisse zu reagieren Transaktionale Eigenschaften Auswahl IS ohne externes Verhalten zu beeinflussen (Korrektheit) [Sto02] Michael Stonebraker. Too Much Middleware. SIGMOD Record, 31(1), 2002.

5 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 5 > Problemstellung Vision des Invisible Deployments Kernidee Ebene der Integrationssysteme und -technologien systematisch zu abstrahieren Virtualisierung im Sinne der transparenten Auswahl 1) Auswahl Kandidatenmenge (funktionale Eigenschaften) 2) Auswahl Optimales IS (Performance, Skalierbarkeit, …)

6 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 6 > Herausforderungen Parallelität Einbeziehung Parallelität von Prozess- und Operatorinstanzen Ressourcenverwendung Effektive (R e (o i )) und maximale Ressourcenverwendung (R o (o i )) Unterschiedliche Hardware Heterogene Hardware erfordert Einbeziehung des Zeitaspekts Unterschiedliche Verarbeitungsmodelle Berücksichtigung von Spezifika wie Sync/Async und Instanz/P&F Semantik erhobener Statistiken Bezug der Statistiken zu gleichen Aufgaben (Operator, Kardinalität) Fehlende Statistiken Inkonsistente Statistiken Statistischer Fehler Hauptproblem der Kostennormalisierung: Die Kostennormalisierung ist per Definition unidirektional, da eine denormalisierte in exakt eine normalisierte Form abgebildet werden kann (jedoch nicht vice versa).

7 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 7 > Gliederung Problemstellung und Herausforderungen Plattforminvariante Kostenmodellierung Kostenmodell Erhebung von Verarbeitungsstatistiken Kostennormalisierung Grundnormalisierung Transformation der Semantik Statistische Korrektur Anwendungsszenario Plan- und Kostendiagramme Experimentelle Evaluierung Zusammenfassung

8 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 8 > Kostenmodellierung Hauptproblem Systemübergreifender Charakter des Anwendungsgebietes Beispiel Plan/ System Statistiko1o1 o2o2 o3o3 Summe P s1 |ds in | |ds out | P s2 |ds in | |ds out | Abstrakter Kostenvergleich (z.B. auf Ebene der Kardinalitäten) schlägt fehl, da unterschiedliche Arbeitslast Receive o 1 Translation o 2 Invoke o 3 |ds out ||ds in |+|ds out | P s2 ??? Plan/ System Statistiko1o1 o2o2 o3o3 Summe P s1 |ds in | |ds out | C(o l ) P s2 |ds in | |ds out | C(o l )

9 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 9 > Kostenmodellierung (2) Hauptproblem Systemübergreifender Charakter des Anwendungsgebietes Beispiel Receive o 1 Translation o 2 Invoke o 3 t e (o l ) Plan/ System Statistiko1o1 o2o2 o3o3 Summe P s1 t e (o l )10 ms150 ms70 ms P s2 t e (o l )10 ms140 ms61 ms Vergleich normalisierter Verarbeitungsstatistiken (Ausführungszeit) schlägt ebenfalls fehlt, da keine Aussage über Arbeitslast P s2 ??? Plan/ System Statistiko1o1 o2o2 o3o3 Summe P s1 t e (o l )10 ms150 ms70 ms230 ms P s2 t e (o l )10 ms140 ms61 ms211 ms

10 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 10 > Kostenmodellierung (3) Lösungsansatz Zweistufiges Verfahren der Kostenmodellierung Stufe 1: Bestimmung absoluter Kosten auf abstraktem Niveau Stufe 2: Gewichtung mit normalisierten Statistiken Plan/ System Statistiko1o1 o2o2 o3o3 Summe P s1 C(o l ) P s2 C(o l ) Receive o 1 Translation o 2 Invoke o 3 t e (o l ) |ds out | t e (o l ) |ds in |+|ds out | t e (o l ) |ds in |+|ds out | P s1 Plan/ System Statistiko1o1 o2o2 o3o3 Summe P s1 t e (o l )10 ms150 ms70 ms230 ms C(o l ) P s2 t e (o l )10 ms140 ms61 ms211 ms C(o l ) Plan/ System Statistiko1o1 o2o2 o3o3 Summe P s1 t e (o l )10 ms150 ms70 ms230 ms C(o l ) NC(o l ) P s2 t e (o l )10 ms140 ms61 ms211 ms C(o l ) NC(o l )

11 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 11 > Kostenmodellierung (4) Plattforminvariantes Kostenmodell Ausgelegt für Message Transformation Model (MTM) Interaktionsorientierte Operatoren Datenflussorientierte Operatoren (angelehnt an [Mak07]) Kontrollflussorientierte Operatoren Problembehebung Herstellung der Vergleichbarkeit bei disjunkten Prozessinstanzen Unterschiedliche Hardware wird modellinhärent berücksichtigt Im Papier: Vollständiges plattforminvariantes Kostenmodell Erhebung von Statistiken (Anforderungen, Vorgehensweise) [Mak07] Mazeyar E. Makoui. Anfrageoptimierung in objektrelationalen Datenbanken durch kostenbedingte Termersetzungen. Dissertation, Universität Hannover, 2007.

12 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 12 > Gliederung Problemstellung und Herausforderungen Plattforminvariante Kostenmodellierung Kostenmodell Erhebung von Verarbeitungsstatistiken Kostennormalisierung Grundnormalisierung Transformation der Semantik Statistische Korrektur Anwendungsszenario Plan- und Kostendiagramme Experimentelle Evaluierung Zusammenfassung

13 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 13 > Kostennormalisierung Überblick zur Kostennormalisierung Detaillierte Verarbeitungsstatistiken Grundnormalisierung Algorithmus BaseNormalization - Parallelität von Instanzen - Ressourcenverwendung - Unterschiedliche Verarbeitungsmodelle Plattforminvariantes Kostenmodell Aggregate Semantik Transformation Aggregate Algorithmus SemanticTransformation - Semantik erhobener Statistiken Statistische Korrektur Aggregate Algorithmus StatisticalCorrection - Fehlende Statistiken - Inkonsistente Statistiken - Statistischer Fehler Kostenmodell - Systemübergreifende Vergleichbarkeit - Unterschiedliche Hardware

14 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 14 > Grundnormalisierung Intuition zum Algorithmus BaseNormalization Problem: Parallelität von Instanzen verfälscht erhobene Statistiken p2p2 Zeit t p1p1 p3p3 Prozess 1 Prozess 2 Prozess 3 tt / 2t / 3t / 2t Idee Vertikale Unterteilung der Zeitachse in Abschnitte (Grenzen durch Beginn und Ende von Instanzen determiniert) Berechnung der normalisierten Abschnittszeiten Berechnung der normalisierten Statistiken (a.G. Abschnittszeiten)

15 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 15 > NC NC NC Time PTIDPIDNIDStartEnd Grundnormalisierung (2) Am Beispiel t e (P) o1o1 Prozess 1 Prozess 2 Prozess 3 Zeit t o2o2 o1o1 o2o2 o2o2 o1o1 Time = End - Start t e (P 1 )= 0.1/0.1 * 1.00ms R e (o)=min( 1/num, R o (P i ) ) + t e (o 1 ) + 0.1/0.1 * 0.50ms + t e (o 2 ) + 0.1/0.1 * 0.50ms mit t e (o 1 )= 0.6/0.6 * 6.00ms t e (o 2 )= 0.85/0.85 * 0.50ms + 0.5/0.85 * 0.50ms + 0.5/0.85 * 7.50ms + 0.5/0.85 * 0.50ms + 0.5/0.85 * 1.00ms AVG P14.42 o1o o2o Wiederverwendung von Abschnittsmengen möglich NC(o)= t * R e (o)/ R o (o) R o (P i )=0.10 R o (o 1 )=0.60 R o (o 2 )=0.85

16 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 16 > Grundnormalisierung (3) Problembehebung Parallelität von Instanzen Ressourcenverwendung Unterschiedliche Verarbeitungsmodelle (mit Einschränkungen) Im Papier: Algorithmus 1 BaseNormalization Formale Komplexitätsanalyse des Algorithmus: O(n 2 m 2 ) n … Anzahl Prozessinstanzen m … Anzahl Operatoren Problem Statistiken beziehen sich semantisch auf Integrationsaufgabe/Operationen des konkreten Integrationssystems

17 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 17 > Semantik Transformation Intuition zum Algorithmus SemanticTransformation Problem: Erhobene Statistiken beziehen sich semantisch auf Operatoren des Zielsystems (und nicht die zentrale Repräsentation) P ETL P MTM o1o1 o2o2 o3o3 o4o4 o6o6 o5o5 o 1 o 2 o 3 o 4 o 6 o 5 o 7 1:1N:11:NN:M(1:1)(N:1) Problem: Fehlende Statistiken Idee Bestimmung des semantischen Bezugs (invers zur Generierung) Verwendung bidirektionaler Transformationsregel (falls vorhanden) Übernahme von Statistiken Direkte Übernahme falls verlustfrei möglich Andernfalls Gruppierung der Statistiken als Teilprozesse

18 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 18 > Semantik Transformation (2) Problembehebung Semantik erhobener Statistiken Im Papier: Algorithmus 2 SemanticTransformation Formale Komplexitätsanalyse des Algorithmus: O(m 2 + m´) m … Anzahl Operatoren (Quellsystem) m´… Anzahl Operatoren (Zielsystem) Problem Inkonsistente und fehlende Statistiken

19 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 19 > Statistische Korrektur Intuition zum Algorithmus StatisticalCorrection Problem: Inkonsistente und unvollständige Statistiken P MTM o1o1 o2o2 o3o3 o4o4 o6o6 o5o5 o7o7 t e (o p1 ) |ds in | |ds out | t e (o p2 ) |ds in | |ds out | t e (o 2 ) |ds in | |ds out | t e (o 1 ) |ds out | 1) Prüfung |ds out |(o i ) == |ds in |(o i+1 ) t e (o 3 ) |ds in | |ds out | t e (o 4 ) |ds in | |ds out | t e (o 5 ) |ds in | |ds out | t e (o 7 ) |ds in | |ds out | t e (o 6 ) |ds in | |ds out | 2) Interpolation Idee Bestimmung von Inkonsistenzen zwischen Statistiken Löschung von inkonsistenten Statistiken Berechnung (Interpolation) fehlender Statistiken Statistiken welche nicht erhobenen werden konnten Statistiken welche aus 1:N / N:M Abbildungen hervorgegangen sind Statistiken welche im Zuge der Konsistenzanalyse gelöscht wurden

20 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 20 > Statistische Korrektur (2) Problembehebung Fehlende Statistiken Inkonsistente Statistiken Statistischer Fehler Im Papier: Algorithmus 3 StatisticalCorrection Formale Komplexitätsanalyse des Algorithmus: O(m) m … Anzahl Operatoren

21 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 21 > Gliederung Problemstellung und Herausforderungen Plattforminvariante Kostenmodellierung Kostenmodell Erhebung von Verarbeitungsstatistiken Kostennormalisierung Grundnormalisierung Transformation der Semantik Statistische Korrektur Anwendungsszenario Plan- und Kostendiagramme Experimentelle Evaluierung Zusammenfassung

22 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 22 > Anwendungsszenario Plandiagramm Zwei-Dimensionale Darstellung optimaler Pläne hinsichtlich zwei Variabilitätsparameter Kostendiagramm Drei-Dimensionale Darstellung der Plandiagramme, gewichtet mit normalisierten Kosten Hierarchie von Plan- und Kosten- diagrammen Systemtypdiagramme Systemdiagramme Plandiagramme

23 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 23 > Anwendungsszenario (2) Beispielprozess Variabilitäts parameter: Invoke o 3 Fork o 1 Assign o 5 Assign o 2 Selection o 4 Join o 8 Assign o 9 Invoke o 10 Invoke o 6 Selection o 7 VP1: ds out (o 3 ) [0; ] --cardinality VP3: ds out (o 4 )/ ds in (o 4 ) [0; 1.0] --selectivity VP2: ds out (o 6 ) [0; ] --cardinality VP4: ds out (o 7 )/ ds in (o 7 ) [0; 1.0] --selectivity VP5: ds out (o 8 )/ max(ds in1 (o 8 ), ds in2 (o 8 )) [0; 1.0] --selectivity

24 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 24 > Invoke o 3 Selection o 4 Anwendungsszenario (3) Beispiel Systemtypdiagramme (FDBMS, ETL) Plan- diagramm x= VP1 y= VP3 Kosten- diagramm x= VP1 y= VP3 z=t e (P) Invoke o 3 Fork o 1 Assign o 5 Assign o 2 Selection o 4 Join o 8 Assign o 9 Invoke o 10 Invoke o 6 Selection o 7 VP1: ds out (o 3 ) VP3: ds out (o 4 )/ ds in (o 4 )

25 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 25 > Invoke o 3 Join o 8 Anwendungsszenario (4) Beispiel Systemdiagramme (FDBMS x, FDBMS y) Plan- diagramm x= VP1 y= VP5 Kosten- diagramm x= VP1 y= VP5 z=t e (P) Invoke o 3 Fork o 1 Assign o 5 Assign o 2 Selection o 4 Join o 8 Assign o 9 Invoke o 10 Invoke o 6 Selection o 7 VP1: ds out (o 3 ) VP5: ds out (o 8 )/ max(ds in1 (o 8 ), ds in2 (o 8 ))

26 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 26 > Gliederung Problemstellung und Herausforderungen Plattforminvariante Kostenmodellierung Kostenmodell Erhebung von Verarbeitungsstatistiken Kostennormalisierung Grundnormalisierung Transformation der Semantik Statistische Korrektur Anwendungsszenario Plan- und Kostendiagramme Experimentelle Evaluierung Zusammenfassung

27 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 27 > Experimentelle Evaluierung Qualität der Kostennormalisierung Grad der Parallelität (variiert von p=1 bis p=4) Datenmenge i.S.v. Kardinalitäten* (variiert von d=0.001 bis d=0.004) *Skalierungsfaktor des DIPBench (Data-Intensive Integration Process Benchmark)

28 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 28 > Experimentelle Evaluierung (2) Problem Unterschiedliche Verarbeitungsmodelle WFPE: Instanz-basierte Prozessverarbeitung VWFPE: Prozessverarbeitung entsprechend des Pipes&Filter-Modells Normalisierung für Extremfälle (hier n=250) ungenügend Ursache: Lange Wartezeiten in Warteschlangen einbezogen Einbeziehung des Durchsatzes bringt geringfügige Verbesserung Ausweg: Wartezeiten müssten einbezogen werden (aber: systemübergreifend schwierig)

29 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 29 > Experimentelle Evaluierung (3) Effizienz der Kostennormalisierung Quadratische Zeitkomplexität experimentell nachgewiesen Effiziente Verarbeitung durch Partitionierung der Detailstatistiken möglich

30 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 30 > Gliederung Problemstellung und Herausforderungen Plattforminvariante Kostenmodellierung Kostenmodell Erhebung von Verarbeitungsstatistiken Kostennormalisierung Grundnormalisierung Transformation der Semantik Statistische Korrektur Anwendungsszenario Plan- und Kostendiagramme Experimentelle Evaluierung Zusammenfassung

31 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 31 > Zusammenfassung Problem Vergleichbarkeit von Integrationssystemen Voraussetzung für systemübergreifende Optimierung Überblick/Zusammenfassung Problemstellungen der Kostenmodellierung und -normalisierung Plattforminvariantes Kostenmodell für Integrationsprozesse Zweistufiges Kostenmodell Anforderungen an Statistikerhebung Algorithmen zur Kostennormalisierung Algorithmus BaseNormalization Algorithmus SemanticTransformation Algorithmus StatisticalCorrection Unterschiedliche Anwendungsgebiete...

32 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 32 > Schlussfolgerungen Wesentliche Beobachtungen Effizienz hängt sehr stark von der dynamischen Workload- Charakteristik ab Break-even-points bei sich verändernder Charakteristik Mögliche Anwendungsgebiete What-If Schnittstelle für Integrationssysteme Plandiagramme Kostendiagramme Einsatz im Rahmen der modellgetriebenen Generierung Auswahl von Generierungszielen (Systemen) - z.B.: Orchid (Prof. Dessloch), GCIP (HTW, TUD), Verwaltung von ETL-Prozessen (Prof. Naumann) - Robustheitsentscheidungen (im Hinblick auf Statistiken) Lastbalancierung mit heterogenen Integrationssystemen

33 © Prof. Dr.-Ing. Wolfgang Lehner | Systemübergreifende Kostennormalisierung für Integrationsprozesse Matthias Böhm 1,2, Dirk Habich 2, Wolfgang Lehner 2, Uwe Wloka 1 1 Hochschule für Technik und Wirtschaft Dresden (FH), Database Group 2 Technische Universität Dresden, Database Technology Group BTW 2009

34 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 34 > Backup Plattform- invariantes Kostenmodell

35 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 35 > Backup (2) Beispiel SemantischeTransformation* P ETL P MTM o1o1 o3o3 o4o4 o6o6 o5o5 o 1 o 2 o 3 o 4 o 6 o 5 o 7 t e (o 1 ) t e (o 2 ) t e (o 3 ) t e (o 4 ) t e (o 5 ) t e (o 6 ) 1:1 t e (o 1 )= t e (o 1 ) t e (o 1 ) N:1 t e (o 2 )= t e (o 2 )+ t e (o 3 ) t e (o 2 ) 1:N t e (o p1 ) = t e (o 4 ) t e (o p1 ) N:M t e (o p2 ) = t e (o 5 )+ t e (o 6 ) t e (o p2 ) *Am Beispiel der Verarbeitungszeit von Operatoren t e (o i ) Problem: Fehlende Statistiken o2o2

36 Matthias Böhm | Systemübergreifende Kostennormalisierung für Integrationsprozesse | 36 > Backup (3) Beispiel Statistische Korrektur P MTM o1o1 o2o2 o3o3 o4o4 o6o6 o5o5 o7o7 t e (o p1 ) |ds in | |ds out | t e (o p2 ) |ds in | |ds out | t e (o 2 ) |ds in | |ds out | t e (o 1 ) |ds out | P MTM o 1 o 2 o 3 o 4 o 6 o 5 o 7 t e (o 2 ) |ds in | |ds out | t e (o 1 ) |ds out | |ds in | 1) Übernahme ds in (o 3 )= ds in (o p1 ) ds out (o 4 )= ds out (o p1 ) |ds out | Allgemeine Interpolation ds in (o i )= ds in (o)-(i-1)*(ds in (o)- ds out (o))/|o| ds out (o i )= ds in (o)-(i)*(ds in (o)- ds out (o))/|o| t e (o i )= t e (o) * C(o i )/ C(o i ) 2) Interpolation ds out (o 3 )= ds in (o 4 )= ds in (o p1 ) - (ds in (o)- ds out (o))/2 t e (o i )= t e (o p1 ) * C(o i )/ C(o i ) t e (o 3 ) |ds in | |ds out | t e (o 4 ) |ds in | |ds out | |ds in | |ds out | 1) Übernahme2) Interpolation t e (o 6 ) |ds in | |ds out | t e (o 5 ) |ds in | |ds out | t e (o 7 ) |ds in | |ds out |


Herunterladen ppt "© Prof. Dr.-Ing. Wolfgang Lehner | Systemübergreifende Kostennormalisierung für Integrationsprozesse Matthias Böhm 1,2, Dirk Habich 2, Wolfgang Lehner."

Ähnliche Präsentationen


Google-Anzeigen