Methoden zur Erkennung von Datenredundanz und zur Deduplikation Guido Skoda 23.01.2012.

Slides:



Advertisements
Ähnliche Präsentationen
ONTABLES ONTABLES Einführung.
Advertisements

Algorithmen und Datenstrukturen
Ext2. Geschichte Minixerhebliche Beschränkungen extfs ext2erstmals aufhebung aller drängenden Beschränkungen ext3erweiterung um Journaling.
Datenbankdesign mit ACCESS.
Daten - Sicherung Begriffsdefinition Arten der Datensicherung
Eine dynamische Menge, die diese Operationen unterstützt,
Vorlesung Programmieren II
Indizierung von Graphen durch häufige Subgraphen (2)
Übersicht RAID-Verfahren Labor für Betriebsdatenverarbeitung
1 Spezielle Packages des Java SDK (1.4) java.nio.
Information - syntaktisch
Kapitel 6. Suchverfahren
MS Office-Paket: Access
Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.
Universität Stuttgart Institut für Kernenergetik und Energiesysteme Was ist Refactoring? Bevor man die Integration angeht, mag es angebracht sein, den.
Sortierverfahren Richard Göbel.
Effizienz: Indexstrukturen
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Bäume: Grundlagen und natürliche Suchbäume) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (15 Hashverfahren: Verkettung der Überläufer) Prof. Th. Ottmann.
Daten bank St. Wiedemann.
Deklaratives Debugging (Seminar Software Engineering) Tim Sender Deklaratives Debugging Seminar Software Engineering.
Dateisysteme.
Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.
Support.ebsco.com Lernprogramm zur einfachen Suche in wissenschaftlichen Bibliotheken.
Access 2000 Datenbanken.
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
Hashverfahren und digitale Signaturen
Einführung in Visual C++
Vortrag: Ingo Gensch, Mathias Reich am:
DVG Klassen und Objekte
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Smartphones im Kanzleinetz Vergleich der technischen Umsetzung COLLEGA - TAG Freitag, 27. November 2009.
Datensicherheit.
Wizards & Builders GmbH Schulung Visual SourceSafe für Visual FoxPro Norbert Abb W&B.
- Schnittmengenbildung -
Elektronische Signatur
Kryptographische Hashalgorithmen
Komplettlösung für Domino Mailarchivierung mit Hilfe eines Server Tasks für eine unbegrenzte Anzahl von Notes Usern Dipl. Ing. Alexander Kogan
Warum brauche ich ein CMS – Content Management System?
Einführung in die Programmierung
Hashfunktionen SHA-1 (Secure Hash Algorithm)
Einführung in die Programmierung Wintersemester 2009/10 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.
Einführung in die Informatik für Naturwissenschaftler und Ingenieure (alias Einführung in die Programmierung) (Vorlesung) Prof. Dr. Günter Rudolph Fachbereich.
Vom Kontext zum Projekt V Carina Berning Sabrina Gursch Pierre Streicher Intelligente Dateisysteme.
Hs-soft.com H&S EUROPE Wien – Schwabach hs-soft.com | Datenmanagement hs-soft.com H&S EUROPE Wien – Schwabach hs-soft.com |
Sie kennen bereits das von uns entwickelte Programm- Fachwissen-Datenbank für Bausachverständige (Aachener Bausachverständigentage ). Damit nutzen.
Normalisierungsprozess
Algorithmen und Datenstrukturen Übungsmodul 11
MS Office Access 2007 UM für INI. Sie haben viele Daten? Entscheiden Sie sich für Access. Access verarbeitet Daten, und zwar alle Arten von Daten: Kundenkontakte,
VPN – Virtual Private Network
Webspace Stephan Herbst Christian Köhler. Themen des Vortrages Kurze Einführung ins Thema Kurze Einführung ins Thema Webspace - Was? Wozu? Wo? Wie? Webspace.
Cloud-Computing.
LVM - Logical Volume Management unter Linux
Asymmetrische Kryptographie
SHA-1 Collision Search Graz. Wo wurde das Projekt durchgeführt? An der Universität Graz Wann wurde das Projekt gestartet? Am Wann wurde das.
Carsten Haberland Otto-von-Guericke-Universität Magdeburg Seminar: Security-based Web Engineering Steganography and Watermarking Techniques Steganalysis.
Best of Consulting Project Excellence 2012 Kunden über das Projekt.
Aspekte der Zugriffsicherheit am Beispiel der Entwicklung eines Authentifizierungsserversystems Thomas Fieder Lehrstuhl und Institut für Allgemeine Konstruktionstechnik.
RAID-Systeme - Standards - Leistungsmerkmal - Redundanz - Datensicherheit eine Präsentation von Jochen Throm an der Berufsakademie Mosbach.
Entwurf, Implementierung und Test eines Java – Web Services als Kommunikationsschnittstelle für Webapplikationen mit Funktionen.
1 … René Grimm SMB-Crawler Datenbank gestützte Dateiindizierung Seminararbeit im Studiengang Scientific Programming von René Grimm.
Christoph Wirtz | Seminarvortrag EBC | Lehrstuhl für Gebäude- und Raumklimatechnik Ein Tool zum automatisierten Erstellen von Conversion Scripts.
Rechen- und Kommunikationszentrum (RZ) TSM vs. inSync Seminarvortrag am von Nicole Temminghoff Betreut von: Prof. Dr. Andreas Terstegge Dr.
Webdeployment auf Cluster Seminarvortrag von Lukas Bonzelett.
Seminarvortrag Mobile Darstellung der Backup-Reporte Analyse und Konzept Anita Ludermann Rechen- und Kommunikationszentrum Aachen Stand:
Oracle Text bei sehr großen Datenmengen Referent Martin Augst Senior Project / Account Manager Semantec GmbH Benzstr.
1. Betreuer: Prof. Dr. Jörg Striegnitz 2. Betreuer: Dr. Martin Schindler Kontextsensitive Autocompletion für Klassendiagramme in der UML/P Florian Leppers.
Rechen- und Kommunikationszentrum (RZ) Selektionsstrategien auf Graphstrukturen Sven Porsche Seminarvorträge Aachen.
Secure Hash Algorithm Cetin Cigdem,
 Präsentation transkript:

Methoden zur Erkennung von Datenredundanz und zur Deduplikation Guido Skoda

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen 1.Methoden zur Ermittlung der Duplizität 2.Existierende Tools zum Abbau von Redundanzen 3.Fazit und Ausblick Inhalt 2

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Auffinden und Reduzierung des Vorkommens redundanter Daten (in Form mehrfach vorkommender Dateien) dient mehreren Zwecken: Kostenersparnis Sucheffizienz Datenkonsistenz  Beseitigung von Redundanzen: Deduplizierung Motivation 3

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Indizierung Verifizierung Entscheidung Modularisierung 4

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Indizierung 5

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Hashing: Vorgehen, mit Hilfe einer mathematischen Funktion aus einem beliebig langen Datum („Nachricht“) einen kurzen Extrakt zu generieren (Pieprzyk) Methode zur Indizierung 6

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Hashkollisionen 7

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen kryptographisches Hashing dient ursprünglich der Verifizierung von Nachrichteninhalten erfordert Findung kollisionsresistenter anstatt „kollisionsverteilender“ Funktionen Exkurs: kryptographische Hashfunktion 8

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Kollisionsresistenz 9 Quelle: Pieprzyk

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Kollisionsresistente bzw. noch als verwendbar geltende Hashalgorithmen bieten sich zur Indizierung der Dateien an Kollisionen nicht problematisch, da lediglich Kandidaten gesucht werden – solange Kollisionen nicht zu häufig auftreten Indizierung durch Hashing 10

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Zwei bedeutende „Familien“: MD (Message Digest) MD2 MD4 MD5 SHA (Secure Hash Algorithm) SHA-1 SHA-2-Familie (SHA-224/-256/-384/-512) Hashalgorithmen aus der Kryptographie 11

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Hash- funktion Länge Hashwert (Bit) max. Länge Nachricht (Bit) kollisions- resistent gilt noch als benutzbar Geschwindig- keit (MiB/s)* MD2128–nein keine Angabe MD41282⁶⁴-1nein keine Angabe MD51282⁶⁴-1neinja335 SHA-11602⁶⁴-1neinja192 SHA ⁶⁴-1ja 139 SHA ⁶⁴-1ja 139 SHA ¹²⁸-1ja 154 SHA ¹²⁸-1ja 154 Vergleich Hashfunktionen 12 * Quelle: Geschwindigkeitswerte auf AMD Opteron ,2 GHz unter Linux

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Kandidaten müssen auf Gleichheit überprüft werden paarweiser Dateivergleich Inhalte bitweise vergleichen gleichzeitiger Vergleich mehrerer Bits (Byte-Ebene) blockweiser Vergleich: nur garantiert bei gleicher Blockgröße Verifizierung 13

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Sollen Redundanzen überhaupt beseitigt werden? bei gewissen Dateien Redundanz nötig/gewollt Bei Beseitigung zwei grundsätzliche Vorgehensweisen ersatzlose Löschung der Dateiduplikate Ersetzung durch Zeiger oder Dateilinks Bei Deduplizierung auf Sub-Datei-Ebene nur Ersetzung durch Zeiger möglich (Löschung von Blocks oder Bytes macht Dateien unbrauchbar) Entscheidung 14

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen 1.Methoden zur Ermittlung der Duplizität 2.Existierende Tools zum Abbau von Redundanzen 3.Fazit und Ausblick Inhalt 15

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen HashingBitweiser VergleichAusschluss von Links Löschung von Duplikaten fdupesMD5ja duffSHA-1Nur einige Bytes (dateiweise optional) nein dupeditneinparallel bei gleich großen Dateien nein dupseekneinVergleich immer größer werdender Abschnitte neinja fdfSHA-1Nur kleiner Ausschnittnein rdfindMD5Dateianfang, Dateiende neinoptional (Ersetzung durch Links möglich) litenMD5nein optional liten2SHA-1Nur erste 8 MBneinoptional Freeware 16

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Eintrag von Dublettenkandidaten in SQLite-Datenbank vier Laufmodi Indizierungsmodus Entscheidungs-/Löschmodus Dry-run-Modus Statistik-Modus Modularisierung gegeben Nachteil: Keine Verifizierung der Dublettenkandidaten  bietet sich als Grundlage eines neuen Tools an Besonderheiten von liten2 17

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Deduplizierung auf 4-Byte-Blockebene arbeitet auf proprietärem Betriebssystem Bestandteil des proprietären Dateisystems WAFL Hashes der Blöcke werden in Datenbank abgelegt Veränderungen an Daten werden in Logdatei gespeichert NetApp A-SIS 18

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Bei Start der Deduplizierung: Logdatei nach Hashes der geänderten Daten sortieren und mit Datenbank vergleichen bei Gleichheit von Hashes in beiden Listen: byteweiser Blockvergleich bei Gleichheit der Blöcke: einen Block durch Verweis auf den anderen ersetzen und Speicherplatz freigeben NetApp A-SIS 19 Quelle: Lewis (NetApp)

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Inline-Deduplizierung von Backup-Datenströmen für VTLs erfolgt über Index auf vorgelagerter Gateway-Maschine Maschine enthält HyperFactor Deduplication Engine Index des Datenstroms wird gescannt und indiziert Bei Ähnlichkeit von Daten der beiden Indizes werden die entsprechenden Datensätze byteweise verglichen Bei Datengleichheit wird Referenz auf dem Backupmedium abgelegt IBM ProtecTier 20

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen 1.Methoden zur Ermittlung der Duplizität 2.Existierende Tools zum Abbau von Redundanzen 3.Fazit und Ausblick Inhalt 21

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Erkennung und Beseitigung/Vermeidung von Redundanzen aktuelles Feld in Datenverarbeitung Kostenersparnis Sucheffizienz Datenkonsistenz Duplikate können mittels geeigneter Verfahren und Techniken beseitigt bzw. verringert werden Fazit 22

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen existierende Freeware-Werkzeuge weisen gute Lösungsansätze auf für große Datenmengen keine zufriedenstellende Lösung kommerzielle Werkzeuge an bestimmte Hardware/Betriebssysteme gebunden teilweise nur Deduplizierung von Backups Fazit 23 IndizierungVerifizierungEntscheidung

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Redundanzvermeidung und Deduplizierung werden an Bedeutung gewinnen Entwicklung kostengünstiger, einfach zu bedienender und effektiver Deduplizierungswerkzeuge Zuverlässigkeit Vermeidung von Datenverlusten Arbeit auf Primärspeicher Modularisierung Vorgehensregeln professionelle und private Nutzung Ausblick 24

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Ende der Bildschirmpräsentation 25

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Sparsamer Umgang mit Speicherressourcen besitzt hohe Relevanz hohe Kosten für Beschaffung und Pflege von Datenspeicher (Backup 20 € je TB und Monat; Archivierung 40 € je TB und Monat) Überflüssiger Verbrauch von Speicherplatz durch mehrfaches Dateivorkommen auf Mehrbenutzersystemen Speicherverbrauch 26

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Suche nach Dateien erfolgt über Filetabelle zusätzliche Einträge in Filetabelle erhöhen Suchaufwand Unnötige Erhöhung bei vermeidbaren Dateidubletten bei Dubletten mit gleichem Namen und gleichen Metadaten zur Weiterverwendung gedachtes Exemplar nicht ersichtlich Suche nach Inhalten erfolgt durch Indizierung Mehrfaches Vorhandensein von Dateien führt zu Mehrfachindizierung gleicher Inhalte Sucheffizienz 27

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen  Sucheffizienz bei größerer Anzahl von Dateidubletten beeinträchtigt Sucheffizienz 28

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen mangelhafte Ablagestrukturen Datenablage nicht logisch, sondern intuitiv andere Nutzer finden Daten nicht sofort Gefahr: Arbeit mit falschen oder veralteten Dateiversionen Erstellung von Ablagerichtlinien (Herausforderung: Kompaktheit ↔ Detailliertheit ) Einhaltung durch Benutzer schwer kontrollierbar Faktor Mensch 29

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Datenredundanz in Mehrbenutzersystemen häufig problematisch bei Datenänderung (Aktualisierung an mehreren Stellen) manuelle konsistente Datenaktualisierung durch Benutzer/Administratoren kaum durchführbar Faktor Mensch 30

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen 1.Motivation 2.Bedarfsermittlung 3.Methoden zur Ermittlung der Duplizität 4.Existierende Tools zum Abbau von Redundanzen 5.Fazit und Ausblick Methoden zur Erkennung von Datenredundanz und zur Deduplikation 31

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Produktentwicklung im Maschinenbau rechnerunterstützte Konstruktion und Entwicklung Einsatz von Produktdatenmanagementsystemen (PDMS) Server für Projekt ProVerStand (PVS) in Zusammenarbeit mit dem RZ der RWTH Windchill für alle Hochschulen in NRW Anwender (2000 gleichzeitig) zwei zentrale Dateiserver Benutzerprofile, Vorlagen, Verwaltungsdaten, Forschungs- und Lehrunterlagen Beispielszenario: ikt 32

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Datenspeicher gesamt Datenspeicher belegt Datenspeicher verfügbar Nutzung 1. Zentraler Dateiserver 14,8 TB10,4 TB3,5 TB70 % 2. Zentraler Dateiserver 8,3 TB6,6 TB1,3 TB80 % je Windchill- Server (insgesamt 4) 4,0 TB2,9 TB1,1 TB73 % Beispielszenario: ikt (2) 33

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen DateitypVorkommen 1. zentraler Dateiserver Vorkommen 2. zentraler Dateiserver alle txt doc/.docx prt xls/.xlsx pdf ppt/.pptx jpg/.gif bmp tar/.zip iso accdb/.mdb Beispielszenario: ikt (3) 34

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen 31,5 % Speicherersparnis durch Deduplizierung des Windchill-Backups (auf einzelnen Laufwerken bis zu 72 %) Bedarf zur Redundanzvermeidung und –beseitigung besteht Beispielszenario: ikt (4) 35

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen 1.Motivation 2.Bedarfsermittlung 3.Methoden zur Ermittlung der Duplizität 4.Existierende Tools zum Abbau von Redundanzen 5.Fazit und Ausblick Methoden zur Erkennung von Datenredundanz und zur Deduplikation 36

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen erzeugt aus einer Nachricht beliebiger Länge einen Hashwert mit 128 Bits Länge Nachricht auf ein Vielfaches von 16 Bytes verlängern Prüfsumme berechnen und anhängen 48 Byte großen Buffer erstellen Nachricht 16-Byte-blockweise mit Buffer verarbeiten die ersten 16 Bytes des Buffers nach Verarbeitung sind der Hashwert nicht kollisionsresistent gilt als nicht mehr verwendbar MD2 37

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen MD4/MD5 38

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen SHA-1 39

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen SHA-2 40

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen Hash- funktion Blocklänge (Wörter)/ Wortlänge (Bit) Länge Hashwert (Bit) max. Länge Nachricht (Bit) Verarbei- tungs- runden kollisions- resistent MD216/812818nein MD416/321282⁶⁴-148nein MD516/321282⁶⁴-164nein SHA-116/321602⁶⁴-180nein SHA-22416/322242⁶⁴-164ja SHA-25616/322562⁶⁴-164ja SHA-38416/643842¹²⁸-180ja SHA-51216/645122¹²⁸-180ja Vergleich Hashfunktionen 41

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen fdupes verbreitetstes Werkzeug in C geschrieben Dateigröße → MD5-Hashes → bitweiser Vergleich Ausschluss von Hardlinks aus dem Löschvorgang duff erstellt lediglich Kandidatenlisten in C geschrieben Dateigröße → einige Bytes → SHA-1-Hashes bitweiser Vergleich nur per Eingabeparameter Freeware (1) 42

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen dupedit erstellt lediglich Kandidatenlisten in C entwickelt False Copies (Links und Mehrfachmounts) ausschließen Dateigröße → paralleler byteweiser Vergleich bei einzigartigem Bytemuster sofortiger Ausschluss aus Kandidatenliste dupseek in Perl entwickelt Gruppierung nach Dateigröße Verfeinerung durch Vergleichen immer größerer Abschnitte Freeware (2) 43

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen fdf erstellt lediglich Kandidatenlisten in Perl geschrieben Dateigröße → bitweiser Vergleich eines kleinen Ausschnitts → SHA1-Hash kein dateiweise-bitweiser Vergleich rdfind in C++ geschrieben Dateigröße → Dateianfang → Dateiende → MD5-Hash per Eingabeparameter: Kandidatenliste, Löschung/Entlinkung oder Ersetzung durch Soft-/Hardlink Freeware (3) 44

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen liten in Python geschrieben Mindestgröße angebbar (1 MB) Dateigröße → MD5-Hash Suche auch per Pattern nach bestimmten Dateinamen möglich per Eingabeparameter: Löschung oder Erstellung einer csv-Datei liten2 in Python aus liten entwickelt Dateigröße → SHA-1-Hash der ersten 8 kB Eintrag in SQLite-Datenbank Alternativ: Löschsitzung, dry-run, Statistik Freeware (4) 45

Lehrstuhl und Institut für Allgemeine Konstruktionstechnik des Maschinenbaus RWTH Aachen – Univ.-Prof. Dr.-Ing. Jörg Feldhusen diente zur Deduplizierung von Backup-Datenströmen auf Virtual Tape Libraries Vier Schritte Anchor Generation (Inline oder post-processing) Grow-by-Compare Überspringfilter Hardware-Komprimierung NetApp VTL Deduplizierung 46 Quelle: Brown (NetApp)