Spree SoSe 2011 Volltextsuche Sequentielle Suche und interviertes Dateisystem
Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Suchproblem Treffer Wie funktioniert die Suche in einer Datenbank ? Modell der sequenziellen Suche mit Musterabgleich Graphik: Winfried Gödert: Konzepte, Methoden und Verfahren des Information Retrieval, Folie 6
Nein Nein Nein Treffer Sequentielle Suche / Mustererkennung im Dokument Methode: Die Zeichenkette wird nacheinander im gesamten Dokument gesucht: Probleme: Zeitaufwändig Nur möglich, wenn der gesamte Datenbestand vollständig vorliegt. Quelle: teilweise übernommen von Gödert
Eintrag01 Eintrag02 Eintrag03 Eintrag04 Eintrag05 Eintrag06 Eintrag07 Eintrag08 Eintrag09 Eintrag10 Eintrag11 Eintrag12 Eintrag13 Eintrag14 Eintrag15 Eintrag16 Eintrag17 Eintrag18 Eintrag19 Eintrag20 Eintrag21 Eintrag22 Eintrag23 Eintrag24 Suche sequenziell ? Nein Kann das sein? Gesuchter Eintrag Fast wörtlich übernommen: Winfried Gödert: Konzepte, Methoden und Verfahren des Information Retrieval, Folie 8 Wie funktioniert die Indexsuche in Datenbanken?
Numerischer und alphabetischer Index Gliederung Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2009 Dok. 1: Das ist eine Banane 1 das 2 ist 3 eine 4 Banane Banane 4 Das 1 Eine 3 Ist 2 Dok. 2: Das ist eine grüne Banane Numerischer IndexAlphabetischer Index Wenn ein neues Dokument hinzukommt, muss der alphabetische Index nur ergänzt werden. grüne wird als neuer Eintrag ergänzt. 1 das 2 ist 3 eine 4 Banane 5 grüne
Index aufbauen und ergänzen Gliederung Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 ZeileWortEingang 1banane4 2das1 3eine3 4ist2 5grüne5 ZeileWortEingang 1banane4 2das1 3eine3 4grüne5 4 wird 5ist2 6 wird 7 Alle Einträge unterhalb von eine ändern ihre Position, der Index wird bei jedem Neuzugang neu aufgebaut grüne Es wird lediglich eine Zeile ergänzt
Invertiertes Dateisystem Einführung Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Wort.IdDok.IdPositionFrequenzZusatz P h P h P h P h1 h h1 h3 Banane 4 das 1 eine3 grüne5 ist 2 Dok.3 grüne Banane Alphabetischer Index/ Zugangsliste Invertierte Liste
Und noch ein Trick: schnelle Suche im alphabetischen Index Eintrag01 Eintrag02 Eintrag03 Eintrag04 Eintrag05 Eintrag06 Eintrag07 Eintrag08 Eintrag09 Eintrag10 Eintrag11 Eintrag12 Eintrag13 Eintrag14 Eintrag15 Eintrag16 Eintrag17 Eintrag18 Eintrag19 Eintrag20 Eintrag21 Eintrag22 Eintrag23 Eintrag24 Bildung von Hälften Test, ob gesuchter Eintrag in der ersten Häfte oder in der zweiten Häfte Nein Ja Fast wörtlich übernommen: Winfried Gödert: Konzepte, Methoden und Verfahren des Information Retrieval, Folie 9
Das Verfahren wird mit der zutreffenden Hälfte fortgesetzt Eintrag13 Eintrag14 Eintrag15 Eintrag16 Eintrag17 Eintrag18 Eintrag19 Eintrag20 Eintrag21 Eintrag22 Eintrag23 Eintrag24 Nein Ja Eintrag19 Eintrag20 Eintrag21 Eintrag22 Eintrag23 Eintrag24 Das Verfahren folgt einem binären Entscheidungsbaum und kommt auch bei großen Indizes sehr schnell zu einem Ergebnis Ja Eintrag19 Eintrag20 Eintrag21 Ja Eintrag19 Eintrag20 Nein Ja Fast wörtlich übernommen: Winfried Gödert: Konzepte, Methoden und Verfahren des Information Retrieval, Folie 10
Ressourcen Einführung Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 CROFT 2011 Croft, Bruce. W; Metzler, Donald; Strohman, Trevor Gerhard Begleitmaterialien zum Buch: Search Engines : Information Retrieval in Practice. Abruf: Download unter: GÖDERT 2009 Gödert, Winfried: Konzepte, Methoden und Verfahren des Information Retrieval. Vorlesungsskript SS Fachhochschule Köln : Institut für Informationswissenschaft. Abruf: Download unter: