Email Archival and Discovery cims Email Archival and Discovery Michael Prib Seminar StuPro cims 14.07.2009
Agenda Einleitung Email Archival and Discovery EAD-Prototyp 14.07.2009 Agenda Einleitung Email Archival and Discovery EAD-Prototyp Zusammenfassung Demonstration Email Archiv and Discovery
Einleitung
Einleitung Softwaregestützte Datenverwaltung Gründe: 14.07.2009 Einleitung Softwaregestützte Datenverwaltung Gründe: riesige Datenmengen enormer Aufwand Lösung: Enterprise-Content-Management (ECM) Anpassungsfähigkeit Durchsatz Sicherheit Email Archiv and Discovery
Email Archival and Discovery (EAD)
Warum braucht man EAD-Systeme? Mailbox-Kapazität Beschränkungen Information in der E-Mail Rechtliche Voraussetzungen Gerichtsbeschlüsse
Eingliederung ein E-Mail System Abbildung 1: E-Mail-System [2]
Funktionale Anforderungen an ein EAD-System Einfügen der E-Mail Compliance und Discovery Suche und Retrieval Löschen der E-Mails
Nicht-funktionale Anforderungen an ein EAD-System Zuverläsigkeit, Rechstgültigkeit, Sicherheit Hohe Leistung und besonders hoher Durchsatz (sehr große Datenmengen) Finanzielle Tragbarkeit und Rentabilität (kleine und mittlere Unternehmen)
Das EAD-Prototyp
Das EAD-Prototyp Entwickelt im Rahmen des CMaaS-Projekts (Content Management as a Service) in Zusammenarbeit von Uni-Stuttgart, Uni-Hamburg und IBM Deutschland Research and Development GmbH Serviceorientierter Ansatz
Schichtenbasierte Architektur Abbildug 2: Prototyp-Architektur [2]
Infrastructure Software Hier weden die E-Mails abgespeichert Unveräderliche Metadaten veränderliche Daten Abbildung 2: Infrastructure-Software-Schicht [2]
Im Katalog abgelegte Daten Indexiertes Inhalt der E-Mail (unveränderlich) Voll-Text-Index Status der E-Mail (veränderlich) Metadaten DB Benutzer- und Zugriffskontrolle für eine E-Mail (veränderlich)
Abbildung 4: Applikationsschicht [2] Eifüge-Prozess Suche und Retrieval SOAP SOAP Abbildung 4: Applikationsschicht [2]
Skalierarkeit Vertikal Horizontal Vorteil: geringer Administrations-aufwand Nachteil: begrenzte Skalierbarkeit (CPU Anzahl) Horizontal Vorteil: praktisch unbegrenzte Skalierbarkeit Nachteil: großer Administrations-aufwand
Horizontale Skalierung im Prototyp Abbildung 6: DHT als Koordinationsschicht
Abbildung 7: Einfüge-Prozess [6]
Abbildung 8: Einfüge-Prozess-Messung [6]
Abbildung 9: Verteilte Suche
Zusammenfassung Enterprise-Content-Management Email Archiv and Discovery Sicherheit Skalierbarkeit Hoher Durchsatz Prototyp DHT(horizontale Skalierung) Hybrides Katalog
Demo
Quellen (1) [1] Cataldo Mega, Kathleen Krebs, Frank Wagner, Norbert Ritter und Bernhard Mitschang: Content-Management-Systeme der nächsten Generation, IBM Deutschland Research & Development Universität Hamburg und Universität Stuttgart. [2] Frank Wagner, Kathleen Krebs, Cataldo Mega, Bernhard Mitschang, und Norbert Ritter: Email Archiving and Discovery as a Service, IBM Deutschland Research & Development Universität Hamburg und Universität Stuttgart. [3] Martin Russold: Erweiterung des Datenmodells für ein System zur Email Archivierung und Discovery, Abteilung Anwendersoftware, Universität Stuttgart [4] Alexander Moosbrugger: Evaluation of Scale-Out Characteristics of an ECM System using Overlay-Techniques to Support Dynamic Topologies , Abteilung Anwendersoftware Universität Stuttgart
Quellen (2) [5] IBM Deutschland Research and Development GmbH: Monitoring the EADM prototype [6] David Lebutsch, Alexander Moosbrugger, Frank Wagner: Enhancing Enterprise Content Management Systems for Dynamic Provisioning and Scale-out, Universität Stuttgart [7] Ian Sommerville: Software Engineering, Pearson Studium
Fragen? ?