1 … René Grimm SMB-Crawler Datenbank gestützte Dateiindizierung Seminararbeit im Studiengang Scientific Programming von René Grimm.

Slides:



Advertisements
Ähnliche Präsentationen
Ext2. Geschichte Minixerhebliche Beschränkungen extfs ext2erstmals aufhebung aller drängenden Beschränkungen ext3erweiterung um Journaling.
Advertisements

Optimieren Sie Ihre Microsoft PowerPoint-Präsentationen
Software Von Webmaster Mario.
PC-Cluster.
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Literaturverwaltung und Wissensorganisation
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Indirekte Adressierung
Colibi Bibliothekssystem der Computerlinguistik. Einführung Motivation Was braucht Colibi? Software Datenbankdesign.
Datenbanken vs. Markup Manfred Thaller WS 2009/2010 Humanities Computing Linda Scholz.
Client-Server-Architekturen
Informationen ü ber den Umbau des Schulnetzes Aufgrund der Umstellung unseres Schulnetzes auf ein neues Serversystem wird Ende Juni 2010 der Zugriff auf.
Medizinische Statistik und Informationsverarbeitung Quade Institut für Medizinische Statistik, Dokumentation und Datenverarbeitung.
Praxis der Metadatenerfassung Markus Enders Goettingen State and University Library
Access 2000 Datenbanken.
Hashverfahren und digitale Signaturen
Einführung in Visual C++
Diplomverteidigung Konzeption und Realisierung der Server-Komponente für ein P2P-File-Sharing-System, bei dem die User am Umsatz beteiligt sind Vortragender: Holger.
Citavi im Prozess der wissenschaftlichen Arbeit
Lommy® SAFE Individuelles Überwachen von Fahrzeugen und Gütern.
SOFTWARE.
W w w. s a f e r i n t e r n e t. a t Die Welt zu Hause Informationen suchen und finden.
Entwicklung verteilter Anwendungen I, WS 13/14 Prof. Dr. Herrad Schmidt WS 13/14 Kapitel 12 Folie 2 Web Services (1)
Java Garbage Collection Angelika Kusel, Überblick Was ist Garbage Collection? Vor- und Nachteile von GC GC-Algorithmen/Verfahren Java Garbage.
UND NOCH EIN PAAR BEGRIFFE…
Datenbanken Dantenbanksystem Data Base System Datenbasis (Daten)
Einrichtung eines Data-Warehouse Servers
Agenda Rückblick 2. Aufbau der Software Benutzeroberfläche 4. Ausblick
Suchmaschinen.
Plugin Design Patterns in
Unsere Computeria. Wo befindet sie sich Im Vorraum zum Raum der Stille.
Computeria Zürich Treff vom 7. Juli 2004 Acronis True Image ein Vortrag von René Brückner.
->Prinzip ->Systeme ->Peer – to – Peer
Datenbanken im Web 1.
Sebastian Eder Axel Habermaier Cristina Kadar München,
Dateisystem Eine Präsentation von Kay Rubner, Maximilian Magendanz und Toni Materne.
Windows Server 2012R2 / Windows Server 2012 Filesystem.
SHA-1 Collision Search Graz. Wo wurde das Projekt durchgeführt? An der Universität Graz Wann wurde das Projekt gestartet? Am Wann wurde das.
Technische Universität München Praktikum Mobile Web Teil Kollaboratives Bewerten und Filtern am Touchscreen Robert Eigner
Anleitung für das Herunterladen von Filmen (Medien-Download) Starten.
Seminararbeit im Studiengang „Scientific Programming“ Kontextgebundene Bausteine einer Webseite mit AJAX dynamisch aktualisieren Lukas Rüttgers Matr.-Nr.:
» Mobile Gateway Enterprise Edition Einzigartige Freiheit und innovative Arbeitserleichterung für den Mittelstand… Bewerbung für den Innovationspreis.
Auftragserfassungssystem für Drehmomentaufnehmer Datenbank und Software Dennis Rollesbroich 1.
Informationsverarbeitung 2 Daniela Wolschlager „Mein neuer Buchhandel“
Wohnungssuche Mobiles georeferenziertes Informationssystem am Beispiel der aktiven und passiven Wohnungssuche Michael Raber.
IS: Datenbanken, © Till Hänisch 2000 Windows Netzwerke TCP/IP oder was ?
Statistische Auswertung und Darstellungsmöglichkeiten von Messdaten Seminarvortrag von Christian Gorgels im Studiengang Scientific Programming.
Webdeployment auf Cluster Seminarvortrag von Lukas Bonzelett.
Funktionsweise eines Funambolservers Natascha Graf Aachen, 01. Februar 2010.
Kommunikation verbindet. Und wer verbindet die Kommunikation? COSYNUSconnect: Universeller Zugriff auf Unternehmensdatenbanken Ivan Dondras, IT-Consultant.
Key-Value Paare (KVP) - Metadaten für Kanäle speichern und nach MDF4 exportieren PM (V1.0)
Bereit, wenn Sie es sind Gute Neuigkeiten. Noch während die Installation im Hintergrund fortgesetzt wird, können Sie Office 2010 bereits verwenden. Sehen.
E-Government AG - Umweltinformation Geodatenverbund der österreichischen Bundesländer Thomas Ebert Amt der OÖ Landesregierung Abteilung.
Wir haben ein modernes neues Whitboard  Wie kann das Whitebord effektiv genutzt werden? bei der didaktische Vorgehensweise im Unterricht bei Schülertätigkeit.
Technische Universität München, Informatik XI Angewandte Informatik / Kooperative Systeme Verteilte Anwendungen: Web Services Dr. Wolfgang Wörndl
SAP und Oracle: Was das Internet über Anwender verrät Jochen Hein Senior Architekt SAP R/3 Basis SerCon GmbH, Mainz
Digitale Langzeitarchivierung Internet Universität zu Köln WS 2011/12 Dozent: Prof. Dr. Manfred Thaller AM 2: Digitale Langzeitarchivierung Referentin:
Mit dem Computer kann man ganz toll präsentieren
Das Internet – Was ist das? Das Internet - ein Datenfresser?
Modul 124, Woche 17 R. Zuber, 2015.
Verwendung des Datenloggers Dostmann LOG 32 TH
Secure Hash Algorithm Cetin Cigdem,
Die Bibliothek und Ihre Vorwissenschaftliche Arbeit
AURIS-MM Spezifikation
Citavi im Prozess der wissenschaftlichen Arbeit
“<Titel>” Prozessbeschreibung
So richtig nett - ist´s nur im
1. Die rekursive Datenstruktur Liste 1
Von Wietlisbach, Lenzin und Winter
Wie die ZHB Sie dabei unterstützen kann
 Präsentation transkript:

1 … René Grimm SMB-Crawler Datenbank gestützte Dateiindizierung Seminararbeit im Studiengang Scientific Programming von René Grimm

2 … René Grimm Inhalt  Einleitung  Begriffe und Definitionen  Analyse  Umsetzung  Optimierung  Abschluss

3 … René Grimm Motivation & Ziel Schriftgutverwaltung  optimiert durch Digitalisierung Bestandsdaten vieler Jahre Dokumentenmanagementsysteme (DMS)  Speichern von Metainformationen

4 … René Grimm Begriffe & Definitionen Metainformationen  Definition: Größe Erstellungsdatum / letzte Änderung Generierte Daten (z.B. OCR)  Wohin damit? „Metadaten oder Metainformationen sind Daten, die Informationen über Merkmale anderer Daten enthalten, aber nicht diese Daten selbst.“

5 … René Grimm Analyse Dateisystem  Zwischenschicht zur Ablageorganisation auf dem Medium HDD (Sektor) CD (Sektor/Spur) SSD (Block) Bänder (Spur)  Physisches Speichern

6 … René Grimm Begriffe & Definitionen NTFS (Microsoft 1993)  Angelehnt an FAT-Dateisystem  Speichert festgelegte Metainformationen Dateigröße Datum Letzte Änderung Zugriffsrechte Dateityp Alternativer Datenstrom (ADS)  Analyse

7 … René Grimm Begriffe & Definitionen NTFS (Forts.)  Kontingente  Dateiverschlüsselung  „Harte Links“ (Referenzen)  Analysepunkte Bereitstellungspunkte Junction Points Symbolische Verknüpfungen (Vista)

8 … René Grimm Analyse Dokumentenmanagement  Speichern von Metadaten „Alternate Data Streams“ (ADS)  Bereits genutzt Zone Identifier Filehandle … (

9 … René Grimm Analyse Kopieren von Dateien  NTFS → NTFS Alle ADS bleiben erhalten  NTFT → FAT32 → NTFS  Verlust aller ADS Metainformationen müssen sicher gespeichert werden !!!

10 … René Grimm Analyse Anderer Ansatz gefragt ! Separates Speichern der Metainformation Eindeutigkeit einer Datei  Einzigartig, wenn UNC verschieden Erzeugt mögliche Redundanz der Metainformation  Hashwerte ermöglichen genaueren Vergleich Minimiert Redundanz

11 … René Grimm Begriffe & Definitionen SMB - „Server Message Block“ (IBM 1983) CIFS - „Common Internet File System“ (Microsoft 1996)  Kommunikationsprotokoll und Quasistandard für Datei-, Druck- u.a. Serverdienste  NetBIOS → TCP/IP  Adressierung mit UNC //Server/Datei

12 … René Grimm Begriffe & Definitionen SHA - „Secure Hash Algorithm“  Kryptographischer Hintergrund wird vernachlässigt  Bildet eine Zeichenkette beliebiger Länge (möglichst) kollisionssicher auf eine Zeichenkette fester Länge ab

13 … René Grimm Begriffe & Definitionen Kollisionssicherheit  Mit gegebener Hashfunktion h ist es praktisch undurchführbar zwei beliebige, verschiedene x 1, x 2 mit h(x 1 ) = h(x 2 ) zu finden

14 … René Grimm SMB-Crawler Prototyp

15 … René Grimm Begriffe & Definitionen „Webcrawler“ (Info Space Inc. 1994)  Suche bzw. Indexierung von Webseiten  Beschreibt heute Klasse von Programmen „selbstständig das World Wide Web durchsuchendes Programm, das HTML-Seiten nach Suchkriterien klassifiziert und die Links auf diese Seiten gemäß der gefundenen Klassifizierung in eine Datenbank einsortiert, die die Grundlage einer Suchmaschine bildet.“

16 … René Grimm Umsetzung Plattformunabhängigkeit !  JAVA jCIFS Bibliothek für SMB  MySQL (Ablage von Metadaten) Hohe Verbreitung, kostengünstig Spätere Anwendungen (Webclients)

17 … René Grimm Umsetzung Implementierung als Dienst  Indexieren und Hashen  Periodisch, Nachts Rekursives durchsuchen der Freigaben Dateien zur Hashwertgenerierung DateiserverServer mit angebundener Datenbank

18 … René Grimm Optimierung Traffic minimieren  Neue identifizierte Datei, zwingt zum neuen Hashen und vollständigen Übertragen Folgeaufträge Backup  Zusätzliche Dienste auf Fileserver ? Plattformgebunden „Software ist lebendig“

19 … René Grimm Optimierung Wartezeiten verringern  Dienst läuft nur Nachts ? Änderungen durch permanente Überwachung schneller erfassen (WatchService Klasse) Auslastung verbessern  Multithreading ? Ein Datenstrom besser als viele Filehandels

20 … René Grimm Abschluss Erweiterbarkeit  Optimierungen durch zus. Module Datenbank  Auswertung durch div. Clients Suche (Grundlage für gutes DMS) Dupletten identifizieren (Speicherbedarf minimieren)

21 … René Grimm Vielen Dank