Konstruktion von Suffix Bäumen

Slides:



Advertisements
Ähnliche Präsentationen
8. Termin Teil B: Wiederholung Begriffe Baum
Advertisements

Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,
Prof. Dr. S. Albers Prof.Dr.Th Ottmann
Polynomial Root Isolation
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (26-Graphenalgorithmen: Wiederholung und Übung) Prof. Th. Ottmann.
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Das LCA – Problem in Suffixbäumen
WS Prof. Dr. Th. Ottmann Algorithmentheorie 09 - Suche in Texten KMP, BM.
Kapitel 6: Klassifizierung von Sortiertechniken
7. Natürliche Binärbäume
Suche in Texten (Stringsuche )
R. Der - Vorlesung Algorithmen und Datenstrukturen (Magister)
Sortierverfahren Richard Göbel.
Algorithmentheorie 04 –Hashing
Suche in Texten: Suffix-Bäume
WS Algorithmentheorie 13 - Kürzeste (billigste) Wege Prof. Dr. Th. Ottmann.
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.
Dynamische Programmierung (2) Matrixkettenprodukt
Algorithmentheorie 02 – Polynomprodukt und Fast Fourier Transformation
Prof. Dr. S. Albers Prof. Dr. Th. Ottmann
Konstruktion von Suffix Bäumen
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (23 – Sortieren vorsortierter Daten) Prof. Th. Ottmann.
Prof. Dr. S. Albers Prof. Dr. Th. Ottmann
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.
Sortieren vorsortierter Daten
Bestimmung des Next-Arrays im KMP-Algorithmus
WS Prof. Dr. Th. Ottmann Algorithmentheorie 09 - Suche in Texten Suffix –Tree –Konstruktion Ukkonen Algorithmus.
WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Bäume: Grundlagen und natürliche Suchbäume) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 - AVL-Bäume: Entfernen, Bruder-Bäume) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen 09 - Weitere Sortierverfahren Heapsort-Nachtrag Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (20 - Balancierte Bäume, AVL-Bäume) Prof. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 – Kürzeste Wege) T. Lauer.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (20 - AVL-Bäume: Entfernen, Bruder-Bäume) Prof. Th. Ottmann.
Algorithmentheorie 12 – Spannende Bäume minimalen Gewichts
Union-Find-Strukturen
WS Prof. Dr. Th. Ottmann Algorithmentheorie 09 - Suche in Texten Suffix - Bäume.
WS03/041 Binomial Queues Prof. Dr. S. Albers Prof.Dr.Th Ottmann.
EINI-I Einführung in die Informatik für Naturwissenschaftler und Ingenieure I Vorlesung 2 SWS WS 99/00 Gisbert Dittrich FBI Unido
PG 478 – Open Graph Drawing Framework Thema: Compounds & Force-Directed Francois Bertault & Mirka Miller – An Algorithm for Drawing Compound Graphs [1999]
Planarisierung von Cluster Graphen
Minimum Spanning Tree: MST
Hauptseminar Automaten und Formale Sprachen
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung 1 SS 2001 Algorithmus von Dijkstra.
Effiziente Algorithmen
Diskrete Mathematik II
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen
Effiziente Algorithmen
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation
Information und Kommunikation
Information und Kommunikation
Auslegung eines Vorschubantriebes
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Arne Vater Wintersemester 2006/ Vorlesung
Christian Schindelhauer Wintersemester 2006/07 2. Vorlesung
Analyse der Laufzeit von Algorithmen
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung Datenstrukturen für den Algorithmus von.
Henneberg-Konstruktion in O(n²) Konstruktion von Laman-Graphen mittels Rot-Schwarz-Hierarchien Marko Walther WS 07/08.
Binärbäume.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 2 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
 Präsentation transkript:

Konstruktion von Suffix Bäumen Prof. Dr. S. Albers Prof. Dr. Th. Ottmann WS03/04

Ukkonen‘s Algorithmus: Impliziter Suffix Baum Definition: Ein impliziter Suffix Baum ist der Baum, den man aus dem Suffix Baum für t$ enthält indem man : (1) $ von den Markierungen der Kanten entfernt, (2) Kanten ohne Markierung entfernt, (3) Knoten mit nur einem Kind entfernt. WS03/04

Ukkonen‘s Algorithmus: Impliziter Suffix Baum t = x a b x a $ 1 2 3 4 5 6 x a 1 a b x a $ $ $ $ a x b 4 $ 3 b x a $ 6 5 2 WS03/04

Ukkonen‘s Algorithmus: Impliziter Suffix Baum (1) Entfernen der Kantenmarkierung $ für t = x a b x a $ x a 1 a b x a a x b 4 3 b x a 6 5 2 WS03/04

Ukkonen‘s Algorithmus: Impliziter Suffix Baum (2) nicht markierten Kanten entfernen t = x a b x a $ 1 2 3 4 5 6 x a 1 a b x a a x b 3 b x a 2 WS03/04

Ukkonen‘s Algorithmus: Impliziter Suffix Baum (3) Knoten mit nur einem Kind entfernen t = x a b x a $ 1 2 3 4 5 6 x a b x a 1 a x b a b x a 3 2 WS03/04

Ukkonen‘s Algorithmus Sei t = t1t2t3 ... tm Ukk arbeitet online: Der Suffix Baum ST(t) wird schrittweise durch Konstruktion einer Reihe von impliziten Suffix Bäumen für alle Präfixe von t konstruiert: ST(), ST(t1), ST(t1t2), ..., ST(t1t2 ... tm) ST() ist der leere implizite Suffix Baum. Er besteht nur aus der Wurzel WS03/04

Ukkonen‘s Algorithmus Die Methode wird online genannt, weil in jedem Schritt der implizite Suffix Baum für ein Anfangsstück von t konstruiert wird ohne den Rest des Inputstrings zu kennen. Der Algorithmus arbeitet also inkrementell, da er den Input String zeichenweise von links nach rechts liest. WS03/04

Ukkonen‘s Algorithmus Inkrementelle Konstruktion des impliziten Suffixbaumes: Induktionsanfang: ST() besteht nur aus der Wurzel. Induktionsschritt: Aus ST(t1 .... ti) wird ST(t1 ... titi+1), für alle i < m Sei Ii der implizite Suffix Baum für t[1...i] Zuerst konstruiert man I1 : Der Baum hat nur eine Kante, die mit dem Zeichen t1 markiert ist. Die in Phase i+1 zu lösende Aufgabe ist, Ii+1 aus Ii für i = 1 bis m – 1 zu konstruieren. WS03/04

Ukkonen‘s Algorithmus Pseudo-code Formulierung von ukk: Konstruiere Baum I1 for i = 1 to m – 1 do begin {Phase i+1} for j = 1 to i +1 do begin {Erweiterung j} Finde das Ende des Pfades von der Wurzel, der mit t[j ... i] markiert ist, im aktuellen Baum. Falls erforderlich, erweitere ihn durch Hinzufügen des Zeichens t[i+1], damit gewährleistet ist, dass der String t[j...i+1] im Baum ist. end; WS03/04

Ukkonen‘s Algorithmus t = a c c a $ c a c c c c a a c a a c c a a c c 1 1 2 1 2 1 3 2 I1 I2 I3 I4 Schritt 1 Schritt 2 WS03/04

Ukkonen‘s Algorithmus Jede Erweiterung j wird so durchgeführt, dass man das Ende des Pfades von der Wurzel, gekennzeichnet mit t[j...i], findet und den Pfad durch das Zeichen t[i+1] erweitert. In Phase i+1 wird zuerst der String t[1...i+1] in den Baum eingefügt, gefolgt von den Strings t[2...i+1] , t[3...i+1] ,.... (entsprechend den Erweiterungen 1,2,3,.... In Phase i+1) Erweiterung i+1 in Phase i+1 fügt das einzelne Zeichen t[i+1] in den Baum ein (es sei denn es ist schon vorhanden) WS03/04

Ukk: Suffix Erweiterungs-Regeln Der Erweiterungs-Schritt j (in Phase i+1) wird nach einer der folgenden Regeln durchgeführt: Regel 1: Wenn t[j...i] in einem Blatt endet, wird t[i+1] an die Markierung der zum Blatt führenden Kante angehängt. Regel 2: Falls kein Pfad vom Ende von t[j...i] mit dem Zeichen t[i+1] anfängt, wird eine neue Kante zu einem neuen Blatt erzeugt, die mit dem Zeichen t[i+1] markiert wird. (Das ist die einzige Erweiterung, die die Anzahl der Blätter im Baum erhöht! Das Blatt repräsentiert bei Position j beginnende Suffixe.) Regel 3: Falls ein mit dem Zeichen t[i+1] markierter Pfad am Ende von t[j..i] beginnt, tut man nichts. (Denn dann tritt t[j…i+1] tritt bereits im Baum auf.) WS03/04

Ukkonen‘s Algorithmus t = a c c a $ t[1...3] = acc t[1...4] = acca t[1..4] = acca t[2..4] = cca Erweitere Suffix 1 Regel 1 Erweitere Suffix 2 Regel 1 c c c c c c a a c c a c c a a c c a I3 2 2 1 2 1 1 t[3..4] = ca t[4..4] = a c a c c a c c a a 1 3 2 I4 Erweitere Suffix 3 Regel 2 Regel 3 a ist bereits im Baum c a a a c c a 1 3 2 WS03/04

Ukkonen‘s Algorithmus Bei Durchführung von Phase i +1 (der Vorgang, durch den Ii+1 aus Ii konstruiert wird) kann man beobachten: (1) Sobald in Erweiterung j erstmals Regel 3 angewandt wurde, muss der Pfad, der mit t[j...i] im aktuellen Baum Ii markiert ist, eine Fortsetzung mit Zeichen t[i+1] haben. Dann muss auch für jedes j´  j der Pfad , der mit t[j´... i] markiert ist, ebenfalls eine Fortsetzung mit Zeichen t[i+1] haben. Daher wird Regel 3 auch für Erweiterung j´ für j´= j+1... i+1 angewandt. Wenn man also einmal Regel 3 für eine Erweiterung j in Phase i +1 angewandt hat kann man diese Phase beenden. WS03/04

Ukkonen‘s Algorithmus (2) Sobald man ein in Ii ein Blatt erzeugt, bleibt dies ein Blatt in allen Bäumen Ii´ für i´> i. (Einmal ein Blatt, immer ein Blatt!) Denn, es gibt keine Regel für das Entfernen von Blättern t = a c c a b a a c b a …. a c c a c c a a 1 3 2 I4 WS03/04

Ukkonen‘s Algorithmus Folgerung: Blatt 1 wird in Phase 1 erstellt, daher gibt es in jeder Phase i + 1 eine Anfangssequenz von aufeinanderfolgenden Erweiterungen (angefangen bei Erweiterung 1) bei der Regel 1 oder Regel 2 angewandt wird. Sei ji die letzte Erweiterung in Phase i, die nach Regel 1 oder 2 erfolgt; d.h. jede Erweiterung j´, mit j´> ji , erfolgt nach Regel 3. Da jede Anwendung von Regel 2 ein neues Blatt erstellt, gilt nach Beobachtung 2: ji  ji+1 Nicht alle Erweiterungen müssen explizit durchgeführt werden! WS03/04

Ukkonen‘s Algorithmus Beispiel: Phase 1: berechne Erweiterungen 1 ... j1 Phase 2: berechne Erweiterungen j1+ 1 ... j2 Phase 3: berechne Erweiterungen j2 +1 ... j3 .... Phase i-1: berechne Erweiterungen ji-2 + 1... ji-1 Phase i: berechne Erweiterungen ji-1 + 1... ji In jeden zwei aufeinanderfolgenden Phasen gibt es höchstens einen Index, der in beiden Phasen betrachtet werden muss, um die erforderlichen Erweiterungen durchzuführen. WS03/04

Ukkonen‘s Algorithmus Der Algorithmus kann nun verbessert werden: Die in Phase i+1 auszuführenden Erweiterungen j für j  [1, ji] basieren alle auf Regel 1 und es wird nur konstante Zeit benötigt, um all diese Erweiterungen implizit durchzuführen. Falls j  [ji +1, i+1] ist, sucht man das Ende des mit t[i...j] markierten Pfades und erweitert ihn mit dem Zeichen t[i+1] indem man Regel 2 oder 3 anwendet. Falls dabei Regel 3 angewandt wird setzt man nur ji = j–1 und beendet Phase i+1. WS03/04

Ukkonen`s Algorithmus t = pucupcupu i: 1 2 3 4 5 6 7 8 9  *p pu puc pucu pucup pucupcu pucupcup pucupcupu *u uc ucu ucup ucupc ucupcu ucupcup ucupcupu *c cu cup cupc cupcu cupcup cupcupu u *up upc upcu upcup upcupu p *pc pcu pcup pcupu c *cupu up *upu Suffixe, die zu einer Erweiterung nach Regel 2 führen, sind mit * markiert Unterstrichene Suffixe markieren die letzte Erweiterung nach Regel 2 Suffixe, die eine Phase beenden (erstmalige Anwendung von Regel 3) sind blau markiert. WS03/04

Ukkonen‘s Algorithmus Solange der Algorithmus explizite Erweiterungen ausführt, merkt man sich im Index j* den Index der gerade aktuell ausgeführten expliziten Erweiterung. Im Verlaufe der Ausführung des Algorithmus nimmt j* niemals ab, sondern kann zwischen zwei aufeinanderfolgenden Phasen höchstens gleich bleiben. Da es nur m Phasen gibt (m = |t|), und j* durch m begrenzt ist, führt der Algorithmus daher nur 2m explizite Erweiterungen aus. WS03/04

Ukkonen‘s Algorithmus Revidierte Pseudocode Formulierung von uuk: Konstruiere Baum I1; j1 = 1; for i = 1 to m – 1 do begin {Phase i+1} for j = ji +1 to i +1 do begin {Erweiterung j} Finde das Ende des Pfades von der Wurzel mit Markierung t[j ... i] im aktuellen Baum. Falls erforderlich, erweitere ihn durch Hinzufügung des Zeichens t[i+1], damit gewährleistet wird, dass der String t[j...i+1] im Baum ist. ji+1 := j; if Regel 3 wurde angewandt im Erweiterungsschritt j then ji+1 := j – 1 und beende Phase i+1; end; WS03/04

Ukkonen‘s Alorithmus Die Laufzeit kann noch weiter verbessert werden, wenn man Hilfszeiger (sog. Suffix Links) ausnutzt. Definition: Sei x? ein beliebiger String, wobei x ein einzelnes Zeichen darstellt und ? ein (möglicherweise leerer) Teilstring. Für jeden inneren Knoten v mit Kennzeichnung x? gilt, dass falls es einen weiteren Knoten s(v) mit Pfad-Markierung ? gibt, der Zeiger von v auf s(v) als Suffix Link bezeichnet wird. ? x s(v) v WS03/04

Ukkonen‘s Algorithmus Die Idee ist, Nutzen aus den Suffix Links zu ziehen, um die Erweiterungspunkte effizienter zu finden (in amortisiert konstanter Zeit) ohne bei jeder expliziten Erweiterung an der Wurzel beginnen zu müssen. ? x s(v) v WS03/04

Ukkonen`s Algorithmus Beispiel : Nehme an, man führt Erweiterung 3 in Phase 6 für String t = „acacag“ aus Man muss also t[3...5] = „aca“ finden, indem man von der Wurzel runterläuft und überprüft, ob „ acag“ eingefügt werden soll oder ob es bereits im Baum vorhanden ist. Dann muss man wieder von der Wurzel runterlaufen für die Suffixe „cag“, „ag“ und „g“ und Regel 2 auf sie anwenden. WS03/04

Ukkonen`s Algorithmus Beispiel : Nehme an, man führt Erweiterung 3 in Phase 6 für String t = „acacag“ aus finde t[3 ...5] = „aca“ und erweitere: „aca g“ „ca g“ „a g“ „g“ a g ca ac g 6 gac g gac 5 g 2 4 3 1 WS03/04

Ukkonen´s Algorithmus Mit der Hilfe von Suffix Links werden die Erweiterungen basierend auf Regel 2 oder Regel 3 vereinfacht. Jede explizite Erweiterung kann in amortierister Zeit O(1) ausgeführt werden (hier nicht gezeigt) Weil nur 2m explizite Erweiterungen durchgeführt werden, beträgt die Gesamtlaufzeit von Ukkonen´s Algorithmus O(m) (m = |t| ). WS03/04

Ukkonen´s Algorithmus Der echte Suffix-Baum: Der endgültige implizite Suffix Baum Im kann in einen wirklichen Suffix Baum in Zeit O(m) umgewandelt werden: (1) Füge ein Terminalsymbol $ ans Ende vom String t ein (2) Lasse Ukkonen´s Algorithmus mit diesem Zeichen weiterlaufen Das Resultat ist der echte Suffix Baum in dem kein Suffix ein Prefix eines anderen Suffix ist und jedes Suffix in einem Blatt endet. WS03/04