Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS Web Warehousing Teil 2 der Präsentation „Web Warehousing und Knowledge Management“ Gerda Jelleschitz
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Überblick 1.web-based query and reporting 2.web-OLAP 3.web-based statistical analysis and data mining 4.web-based graphical information systems 5.text information management systems 6.search engines and facilities 7.text mining systems 8.multimedia information management systems
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Web-Based Query und Reporting zwas sind /wofür sind yquery tools yreporting tools zwelche Technologien wofür zVorteile einer Web-Warehousing- Applikation
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Query Tools z eine Anfrage unmittelbar an die Datenbank z Modus „pro-active“ z Einsatz: y die gewünschte Information ändert sich oft y Benutzer zu unterschiedlichen Zeiten unterschiedliche Informationen benötigen y wichtig, dass Information zeitgerecht und sofort verfügbar ist
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Reporting Tools z ein Report wird generiert und danach abgespeichert z Modus „reactive“ z Einsatz: y wenn die Information für eine bestimmte Zeit gültig ist y wenn User die selbe Info in dem selben Format öfter und jederzeit benötigen
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Welche Technologien wofür ReportingQuery PPPideal! CGImöglichideal Java mit JDBCmöglichgut Client- Applikation möglichandere Nachteile!
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Vorteile einer Web- Warehousing-Anwendung z Einsparungen beim yNetzwerk yEnd-User-Workstations yEnd-User-Software ySoftware-Wartung und End-User- Support z Möglichkeit von jedem Ort der Welt aus zu arbeiten, weltweite Konsistenz
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Web-OLAP zWas ist OLAP zCharakteristika einer erfolgreichen OLAP- Implementation zDesign-Ansätze zData-Management-Ansätze
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Was ist OLAP z OnLine Analytical Processing Daten werden aus einer Datenbank ermittelt und übersichtlich dargestellt z Base Reports vordefiniertes Layout haben yStyles (zB straight, sparse/nested, stacked/nested). z Navigierbarkeit zOLAP für Online-Aktivitäten und nicht als Report-Writer einzusetzen!
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Charakteristika einer erfolgreichen OLAP- Implementation Vvolatile content Aactionable Iimportant Nnavigatable Sstable format & dimensions
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Design-Ansätze zPrecalculate and Store zCalculate on the Fly zHybride Ansätze
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Data-Management-Ansätze zbig cube – little cube
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Web-Based Statistical Analysis and Data Mining zAnalytische Tools zWas ist Data-Mining zKategorien ermittelter Information zstatistische Produkte zdata discovery tools zVergleich zArchitektonische Ansätze
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Analytical Toolkits zstatistische Analyse zData Discovery
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Kategorien ermittelbarer Information z Desciptive Information z Predictive Information z Exploratory/Explanatory Discovery z Specialized Insights
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Was ist Data Mining? z große Mengen an Daten analysieren um versteckte Muster oder Charakteristika zu entdecken, zu beschreiben
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Überblick Statistische Produkte z Korrelationsanalyse z Faktoranalyse zRegressionsanalyse
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Überblick Data Discovery Tools z auch data mining, information discovery oder knowledge discovery zNeuronale Netze zCHAID y(chi-square automatic interaction detection)
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Vergleich zAnforderungen an den Benutzer zAufbereitung der Daten zMathematische Grundlagen zZuverlässigkeit der Ergebnisse
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Vergleich Anforderungen an den Benutzer zallgemein: y Statistical Tools verlangen größeres Verständnis von statistischen Grundlagen z Bedienung y Statistical Tools: benötigt meist einen Statistiker y Data Discovery Tools: sehr einfach z Interpretation der Ergebnisse y Statistical Tools:ohne Statistik-Kenntnisse sehr schwer y Data Discovery Tools: üblicherweise leicht zu verstehen und schwer zu misinterpretieren
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Vergleich Aufbereitung der Daten Statistical Tools zsehr hohen Standards im Sinne von yMenge yGenauigkeit Data Discovery Tools z mit weniger und qualitativ schlechteren Daten können bereits Ergebnisse erzielt werden
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Vergleich Mathematical Foundations zStatistical Tools ytraditionelle Statistik x extrem hohen Standards für Tests und Messungen z Data Discovery Tools y neuere, weniger traditionell definierte oder bewiesene Formen statistischer Analyse Modelle meist viel einfacher zu erstellen Abhängigkeiten weit schwerer zu beweisenden
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Vergleich Zuverlässigkeit der Ergebnisse z statistischen Ergebnisse i.a. genauer und verlässlicher als Data Discovery z ungleich höhere Kosten der statistischen Tools bzw deren Anwendung! z Bevorzugung der Data-Discovery-Tools, v.a. wenn kleine Ungenauigkeiten keine Auswirkungen haben
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Architektonische Ansätze z100% server-based z100% client-based zHybride Ansätze
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Web-Based Graphical and Geo- graphical Information Systems zArten graphischer Informationsysteme ytraditional charting and drawing-sw yVirtual Reality (2D/3D/4D) – Reality Representations yMehrdimensionale abstrakte Repräsentationen yGeographische Informationssysteme
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Traditional Charting and Drawing-Software zFunktionalität weit verbreitet! yzB Excel, Lotus 1-2-3, zWert ygroße Mengen Daten in klare Muster yklar Trends und Richtungen zu zeigen yden Kommunikationsprozess vereinfachen
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Virtual Reality (2D/3D/4D) – Reality Representations jene Anwendungen, die die Realität darstellen (zB Darstellung von Vorgängen innerhalb eines Kernkraftwerks) zLayering Applications
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Mehrdimensionale abstrakte Repräsentationen stellt extrem komplexe, mehrdimensionale Daten stark vereinfacht graphisch dar zVisual Data Mining
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Geographische Informationssysteme zlayers und overlays...
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Text Information Management Systems zIdee: System sucht Texte, liest sie, und bewertet sie z Text Information Management System(TIMS) ist ein System, bestehend aus y Menschen y Prozessen, y Hard- und Software y „Rohstoffen“, in diesem Fall Texte in jeder erdenklichen Form.
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Text Information Management Systems z TIMS werden unterschieden nach 1.den wichtigsten Kategorien von TIMS 2.ihren funktionellen Komponenten 3.ihr Zustell- und Ausführmodell 4.ihren Informationsquellen 5.der Menge/Art an Texten
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Die wichtigsten Kategorien von TIMS zsearch engines und search enabler yweb-based public domain ysubscription search services ycorporate digital libraries zsubscription/conscription services zcollaborative work environments
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Search Engines und Search Enabler zkeyword search zeinengen des Suchfelds ygeographisch yzeitlich ysprachlich yInhalt (Graphiken, Videos etc) y..... zSearch Enabler: neue Generation „super- Suchmaschinen“
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Subscription/Conscription Services znews services zstock quotes/monitoring zon-line clipping services zspecial interests groups zmarketing conscription services zcorporate conscription services
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Collaboratorive Work Environments zShared Reference Libraries zWork Flow Management Systems zCollaborative Problem Solving and Think Tank Applications
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Textanalyse z Ansätze zur Textanalyse enthalten: yKeyword oder „Abstract“ Analyse yWord Count yPhrase and Word Combination Count yContext Evaluation yAdvanced Analytical Techniques z2 Arten yin Suchmaschinen integriert yfreistehend
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Funktionelle Komponenten eines TIMS zTIMS üblicherweise Kombination aus yTexterstellung yTextkonvertierung ySpeicherung der Texte yWartung der Verzeichnisse yTexte indexieren und katalogisieren yTextanalyse yTextsuche und –retrieval yTextformatierung und -anzeige
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS TIMS Delivery and Execution Models z Pull Model vs. Push Model z Targeted Model vs. Broadcast Model z User-based-Model vs. Agent-based-Model
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS TIMS Informationsquellen zPublic Domain zMarketing Materials zBrokered Information zCorporate Property
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Search Engines und Facilities zArchitektur zVariationen in der Arbeitsweise
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Search Engines und Facilities - Architektur z jede Suchmaschine hat zumindest folgende Komponenten: yUser Request Facility ySearch Template y Search Universe y Index y Index Builder y Query Builder und Execution Mechanism y User Response Facility
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Variationen in der Arbeitsweise z Verschiedene Index-Schemen y einfacher Suchmaschinen-Index y mehrwertige Index-Spalten y multipler Index z Art der Indexerstellung y von Menschen y job-based y Spider
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Text Mining Systeme zumfasst yInformation und/oder Wissen aus Dokumenten extrahieren yTrends in Dokumenten entdecken yInformationen über Menschen, Orte und Dinge aus Dokumenten herauslesen yDokumente zusammenfassen
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Text Mining Systeme zTechniken: yContent Summarization yContent Search yTrend Analysis yDocument Categorization y Lexical Analysis y Grammatical Analysis y Semantic Analysis yLinguistic Analysis yCluster Analysis
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Multimedia Information Systems zKategorien yHybride Suchsysteme yreine Multimedia Such- und Retrieval- Systeme yMultimedia Analyse Systeme ySicherheits- und Identifikationssysteme
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Unterschiede zu TIMS
Dezember, 02KFK Verteilte Systeme/Informationssysteme WS Ansätze zur Indexerstellung zSimple Name Search zKeyword Search zDescriptive Document Search zReferenceable Document Search zDescriptive Database Search zMultimedia Mining Tools zReal-time matching