Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

– Vorlage bearbeiten – E FFIZIENTE M AP R EDUCE -P ARALLELISIERUNG VON E NTITY R ESOLUTION W ORKFLOWS Lars Kolb Abteilung Datenbanken Universität Leipzig.

Ähnliche Präsentationen


Präsentation zum Thema: "– Vorlage bearbeiten – E FFIZIENTE M AP R EDUCE -P ARALLELISIERUNG VON E NTITY R ESOLUTION W ORKFLOWS Lars Kolb Abteilung Datenbanken Universität Leipzig."—  Präsentation transkript:

1 – Vorlage bearbeiten – E FFIZIENTE M AP R EDUCE -P ARALLELISIERUNG VON E NTITY R ESOLUTION W ORKFLOWS Lars Kolb Abteilung Datenbanken Universität Leipzig Leipzig, – Verteidigung der Dissertation –

2 2 / 21 E NTITY R ESOLUTION Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows Identifikation semantisch äquivalenter Datensätze BezeichnungProduktkategorieHersteller IXUS 115 HS - Digitalkamera - unterstützter Speicher: SD, SDXC, SDHC Foto & VideoCanon IXUS 115 HS RosaKompaktkameras EinsteigerCanon Canon IXUS 115 HS, 12 Megapixel, PinkDigitalkamera > Canon HP Officejet 4500 Multifunktionsgerät mit FaxMultifunktionsgerätHewlett Packard Officejet 4500 HP Fehlende Werte Heterogene Repräsentationen Keine eindeutigen Identifier Falsche Werte

3 3 / 21 E NTITY R ESOLUTION -W ORKFLOW Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows Partitionierung der Datenquelle zur Eingrenzung potentieller Duplikate Standard Blocking Gruppierung der Datensätze nach Blockschlüssel Duplikatsuche nur innerhalb eines Blocks Paarweise Ähnlichkeitsberechnung Editierdistanzbasiert Tokenbasiert Berücksichtigung v. Kontextinformationen Aufwändigster Teilschritt >95% der Gesamtlaufzeit Kombination der berechneten Ähnlichkeitswerte Klassifikation eines jeden Kandidatenpaares in Match oder Non-Match Schwellwertbasiert Regelbasiert Maschinelle Lernverfahren Console Phone „Group by product type“

4 4 / 21 M OTIVATION Vielzahl existierender ER-Systeme Vergleichende Evaluation * aus 2010 „Bestehende Systeme skalieren nicht für große Datenmengen“ Beschleunigung durch Parallelisierung Einsatz des MapReduce-Programmiermodells für verteilte Berechnungen in Clusterumgebungen Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows *Köpcke, H., Thor, A., Rahm, E. Evaluation of entity resolution approaches on real-world match problems. PVLDB 3, 1 (2010).

5 5 / 21 B EITRÄGE MapReduce-basiertes ER-Framework Dedoop [VLDB 2012] High-Level-Spezifikation von ER-Workflows Automatische Parallelisierung in MapReduce-Clustern Umsetzung von Blocking-Verfahren Standard Blocking & Sorted Neighborhood [BTW 2011 /CSRD 2012] Lastbalancierung [ICDE 2012] Vermeidung redundanter Ähnlichkeitsberechnungen [DanaC 2013] Iterative Berechnung der transitiven Hülle [DB-Spektrum 2014] Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows

6 6 / 21 D AS D EDOOP -F RAMEWORK Dedoop = Deduplication with Hadoop Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows

7 7 / 21 M AP R EDUCE & U MSETZUNG DES S TANDARD B LOCKINGS Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows Reduce-Task 1: 0+6 Paarvergleiche Reduce-Task 2: 3+10 Paarvergleiche Datenungleichver- teilung begrenzt Skalierbarkeit!!! (m=2 Map Tasks) (r=2 Reduce Tasks)

8 8 / 21 L ASTBALANCIERUNG – P ROBLEMATIK & L ÖSUNGSANSATZ Datenungleichverteilung verursacht ungleichmäßige Auslastung der Ressourcen Alle Werte mit Schlüssel k werden vom selben Reduce-Task bearbeitet Große Blöcke  wenige Ressourcen sinnvoll genutzt Verringert Skalierbarkeit und Effizienz Grundideen der Lastbalancierung für Entity Resolution Ähnlichkeitsberechnung (und Klassifikation) zweier Datensätze unabhängig von anderen Datensätzen Zusätzlicher Vorverarbeitungsschritt zur Analyse der vorliegenden Datenverteilung (z.B. Anzahl und Größe der Blöcke) Gleichmäßige Aufteilung der Paarvergleiche (großer Blöcke) auf mehrere Reduce-Tasks Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows

9 9 / 21 L ASTBALANCIERUNG – Ü BERBLICK Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows

10 10 / 21 Generierung von Match-Tasks TaskMatch tasksPairs L ASTBALANCIERUNG – B LOCK S PLIT -A LGORITHMUS Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows BlockMap 1 Map 2 SizePairs Mp31010 Phone2246 Console1233 Tablet BDM (m=2, r=2) “Großer” Block da #P Block > #P Overall / r (10 > 19/2) Teilung großer Blöcke in m Subblöcke map 2 map 1 Match taskPairs Phone6 Console3 Tablet 1 - Tablet 2 6 Tablet 1 3 Tablet Match taskPairs Phone6 Tablet 1 - Tablet 2 6 Console3 Tablet 1 3 Tablet ORDER BY Pairs DESC TaskMatch tasksPairs 1Phone6 20 Aufteilung von Match-Tasks auf r =2 Reduce-Tasks nach Greedy-Prinzip TaskMatch tasksPairs 1Phone6 2Tablet 1 - Tablet 2 6 TaskMatch tasksPairs 1Phone, Console9 2Tablet 1 - Tablet 2 6 TaskMatch tasksPairs 1Phone, Console9 2Tablet 1 - Tablet 2, Tablet 1 9 TaskMatch tasksPairs 1Phone, Console, Tablet Tablet 1 - Tablet 2, Tablet 1 9 Analyse Job 1 Job 2 (Map-Phase)

11 11 / 21 L ASTBALANCIERUNG – D ATENFLUSS B LOCK S PLIT -A LGORITHMUS Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows 1 Vgl. 3 Vgl. 6 Vgl. 3 Vgl. 6 Vgl. (m=2, r=2)

12 12 / 21 Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows L ASTBALANCIERUNG – E VALUATION (D ATA S KEW ) 63% aller Datensätze im ersten Block Perfekte Gleichverteilung Durchschnittliche Zeit pro Paar- Vergleich konstant (unabhängig von der Datenverteilung)

13 13 / 21 BlockSplit skaliert Produktdatensätze Blockschlüssel: productTitle.substr(0, 3) L ASTBALANCIERUNG – E VALUATION (S KALIERBARKEIT ) Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows

14 14 / 21 L ASTBALANCIERUNG – Z USAMMENFASSUNG Techniken zur Lastbalancierung notwendig für effiziente und skalierbare MapReduce-Parallelisierung BlockSplit-Algorithmus Datenanalyse durch zusätzlichen MapReduce-Job Identifikation großer Blöcke und Aufteilung von Paarvergleichen auf mehrere Match-Tasks (Datenreplikation) Zuweisung von Match-Tasks zu Reduce-Tasks nach Greedy-Heuristik (PairRange-Algorithmus) Virtuelle Nummerierung aller Paare und Aufteilung gleichgroßer Paar- Bereiche auf Reduce-Tasks Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows

15 15 / 21 IDEntity Blocking Keys IDEntity Blocking Keys 1 Console IDEntity Blocking Keys 1 Console Phone 6 7 REDUNDANTE Ä HNLICHKEITSBERECHNUNGEN – P ROBLEMATIK Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows IDEntity Blocking Keys 1 Console, Sony 2 3 Console 4 5 Phone, Sony 6 7 Phone IDEntity Blocking Keys 1 Console, Sony 2 3 Console, Nintendo 4 5 Phone, Sony 6 7 Phone IDEntity Blocking Keys 1 Console, Sony 2 3 Console, Nintendo 4 5 Phone, Sony 6 7 Phone, Samsung = Sony Ericsson Xperia Play “A smartphone designed for gamers” “Partition by product type” & “Partition by manufacturer” Duplikat nicht gefunden aufgrund „s chmutziger”, fehlender oder fehler- hafter Attributwerte Strategie: Verwendung mehrere Blockschlüssel pro Datensatz Duplikat kann ge- funden werden (Cluster Sony) Überlappende Cluster verursachen redundante Paarvergleiche!!! 3 von 16 Vrgl. wer- den unnötigerweise mehrfach ausgeführt Console Phone Sony Nintendo Samsung

16 16 / 21 V ERMEIDUNG REDUNDANTER Ä HNLICHKEITSBERECHNUNGEN Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows

17 17 / 21 V ERMEIDUNG RED. Ä HNLICHKEITSBERECHNUNGEN – Ü BERBLICK Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows + Überprüfung d. LCS-Bedingung + Hinzufügen v. Metadaten

18 18 / 21 V ERMEIDUNG RED. Ä HNLICHKEITSBERECHNUNGEN – D ATENFLUSS Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows ObjectSignatures A{1, 3} B C{1, 4} D E{2, 3} F G{2, 5} KeyValue 1 A,  3A, {1} 1 B,  3B, {1} 1 C,  4C, {1} 1 D,  4D, {1} KeyValue 2 E,  3E, {1} 2 F,  3F, {2} 2 G,  Obj A B C D E F G Map: Signatures Partitioning by hash(Key) modulo r Reduce: Pair Comparisons KeyValue 1 A,  1 B,  1 C,  1 D, D,  4C, {1} 4D, {1} KeyValue 2 E,  2 F,  2 G,  3A, {1} 3B, {1} 3E, {2} 3F, {2} Pairs A-B, A-C, A-D, B-C, B-D, C-D C-D Pairs E-F, E-G, F-G A-B, A-E, A-F, B-E, B-F, E-F ObjectSignatures A{1, 3} B C{1, 4} D E{2, 3} F G{2} Annotiere A mit all seinen Signaturen < 1 Annotiere A mit all seinen Signaturen < 3

19 19 / 21 E VALUATION – M ATCH -Q UALITÄT VS. L AUFZEIT Produktdatensätze Fixe Cloud-Umgebung mit 20 VMs Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows Laufzeiteinsparungen proportional zum Anteil redundanter Paarvrgl. Verwendung mehrerer Signaturen entscheidend für Match-Qualität Signifikanter Anteil redundanter Paarvergleiche

20 20 / 21 RED. Ä HNLICHKEITSBERECHNUNGEN – Z USAMMENFASSUNG Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows

21 21 / 21 Z USAMMENFASSUNG UND A USBLICK MapReduce-basiertes Entity Resolution-Framework Dedoop Effiziente Parallelisierung von Entity Resolution-Workflows Umsetzung von Blocking-Verfahren Lastbalancierung Vermeidung redundanter Ähnlichkeitsberechnungen Aktuelle/zukünftige Themen: Kombination verschiedener paralleler Programmierparadigma Einsatz von GPUs Privacy Preserving Entity Resolution Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows Danke!

22 22 / 21 P UBLIKATIONEN Toralf Kirsten, Lars Kolb, Michael Hartung, Anika Groß, Hanna Köpcke, Erhard Rahm. Data Partitioning for Parallel Entity Matching. Intl. Workshop on Quality in Databases (QDB), Lars Kolb, Andreas Thor, Erhard Rahm. Parallel Sorted Neighborhood Blocking with MapReduce. GI-Fachtagung für Datenbanksysteme in Business, Technologie und Web (BTW), Lars Kolb, Andreas Thor, Erhard Rahm. Block-based Load Balancing for Entity Resolution with MapReduce (Poster Paper). Intl. Conference on Information and Knowledge Management (CIKM), Lars Kolb, Hanna Köpcke, Andreas Thor, Erhard Rahm. Learning-based Entity Resolution with MapReduce. Intl. Workshop on Cloud Data Management, Lars Kolb, Andreas Thor, Erhard Rahm. Multi-pass Sorted Neighborhood Blocking with MapReduce. Computer Science – Research and Development 27(1), Lars Kolb, Andreas Thor, Erhard Rahm. Load Balancing for MapReduce-based Entity Resolution. Intl. Conference on Data Engineering (ICDE), Lars Kolb, Andreas Thor, Erhard Rahm. Dedoop: Efficient Deduplication with Hadoop (Demo Paper). Intl. Conference on Very Large Databases (VLDB), Lars Kolb, Erhard Rahm. Parallel Entity Resolution with Dedoop. Datenbank-Spektrum 13(1), Axel-Cyrille Ngonga Ngomo, Lars Kolb, Norman Heino, Michael Hartung, Sören Auer, Erhard Rahm. When to Reach for the Cloud: Using Parallel Hardware for Link Discovery. Intl. Extended Semantic Web Conference (ESWC), Lars Kolb, Andreas Thor, Erhard Rahm. Don’t Match Twice: Redundancy-free Similarity Computation with MapReduce. Intl. Workshop on Data Analytics in the Cloud (DanaC), Michael Hartung, Lars Kolb, Anika Groß, Erhard Rahm. Optimizing Similarity Computations for Ontology Matching – Experiences from GOMMA. Intl. Conference on Data Integration in the Life Sciences (DILS), Lars Kolb, Ziad Sehili, Erhard Rahm. Iterative Computation of Connected Graph Components with MapReduce. Datenbank-Spektrum 14(2), Ziad Sehili, Lars Kolb, Christian Borgs, Rainer Schnell, Erhard Rahm. Privacy Preserving Record Linkage with PPJoin. GI-Fachtagung für Datenbanksysteme in Business, Technologie und Web (BTW), Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows

23 23 / 21 M AP R EDUCE Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows Programmiermodell für verteilte Berechnungen in Clusterumgebungen Anwendung der UDF map auf jeden Datensatz UDF part weist jedes Schlüssel-Wert-Paar einem Reduce-Task zu Sortierung & Gruppierung der eingehenden Paare anhand Schlüssel Aufruf der UDF reduce pro Gruppe m=3 Map-Tasks map 2 map 1 map 0 Input data part(key)  [0, r-1] reduce 0 reduce 1 reduce 2 r=3 Reduce-Tasks


Herunterladen ppt "– Vorlage bearbeiten – E FFIZIENTE M AP R EDUCE -P ARALLELISIERUNG VON E NTITY R ESOLUTION W ORKFLOWS Lars Kolb Abteilung Datenbanken Universität Leipzig."

Ähnliche Präsentationen


Google-Anzeigen