Spree SoSe 2011 Volltextsuche Sequentielle Suche und interviertes Dateisystem.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Kohonennetze für Information Retrieval mit User Feedback
Hash-Tabellen und -Funktionen Hash-Tabellen in Java
Das Bilderbuch zur Inhaltserschließung.
Dokumentenserver an Fachhochschulen in NRW Michael Uwe Möbius Fachhochschule Düsseldorf
Indexed Sequential Access Method
Zeitschriften-Recherche und Recherche von Zeitschriftenaufsätzen: Recherche im VK-KUG bzw KUG: über Suche auf weitere Kataloge ausdehnen die Datenbank.
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Seminar Autonome Systeme THEMA Ggf. Unterthema HAW Hamburg, SoSe 2011, Vorname Nachname Bild 1 zum THEMABild 2 zum THEMA.
Sortierverfahren Richard Göbel.
Sortierverfahren Richard Göbel.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Zitieren in wissenschaftlichen Arbeiten
Optimierung von Volltextindices
Gebrauchsmuster, Patente, Marken
Wissensorganisation Einstieg
Optimierung von Volltextindices
Wie funktionieren Suchmaschinen?
Informationsbedarf und Recherchestrategie
Spree SoSe 2008 Bilderschliessung Einführung Metadatensets des Dublin Core Inhaltliche Erschließung Quellen.
Automatisches Clustering und automatische Klassifikation
Spree SoSe 2007 Titel Lexikographie – Produktion lexikographischer Werke (am Beispiel lookedup4you) Abb.: Relaunch lookedup4you Betaversion.
How to? Tipps und Tricks für die Thesauruserstellung
Spree SoSe 2011 Qualität einer Erschließung Relevanz- und Vollständigkeitsrate Zur Erinnerung: Zweck der Erschließung von Dokumenten/Texten ist nicht in.
OWL-Web Ontology Language Eine Einführung
Klassifikation - Grundbegriffe
Spree SoSe 2009 Feedback Thesaurus Feedback Thesaurus Einstieg Frau Spree Schöne Ergebnisse – bei strengster Bewertung: 1,01,31,72,02,32,73,03,74,
How to? Tipps und Tricks für die Thesauruserstellung
Letzte Aktualisierung: Spree WS 2008/2009 Studierende « Medien und Information » : Unbekannte Wesen WS 2008/2009? Studierende « Medien und Information.
Spree SoSe 2007 Titel Herausforderungen bei der Erstellung von (allgemeinen) Nachschlagewerken Among these unhappy mortals is the writer of dictionaries;
Spree SoSe 2011 Feedback Thesaurus / Facettenklassifikation Feedback Thesaurus / Facettenklassifikation Einstieg Schöne Ergebnisse – bei strengster Bewertung:
Spree SoSe 2007 Titel Lexikographie und Metalexikographie Lexikonproduktion und Lexikontheorie Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien.
1 Indexierung - Begriffszerlegung Alphabete Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2005/2006 Begriffszerlegung – wo gibt.
Letzte Aktualisierung: Spree WS 2007/2008 Fachterminologie Klassifikation Feedback Fachterminologie Klassifikation Feedback Einstieg.
Indexierung - Verschlagwortung
Protégé OWL – TBox und ABox Abox_tbox_protege Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2009/2010 Wissensbasis TBox Frau.
IndexierungsqualitätEinstieg
1 Letzte Aktualisierung: Spree WS 2005/2006 Feedback Arbeitsaufgabe - Regelwerk Viele interessante Einsendungen Ich glaube, Sie haben verstanden,
Diskussion Dezimalklassifikation - Expertendiskussion Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2006/76 Diskusion Woran.
Spree SoSe 2009 Kundeneigene Wissensorganisation Kundeneigene Wissensorganisation Einstieg Was leisten Folksonomies im Bereich der Inhaltserschließung?
SoSe 2005/Spree Datenbankretrieval AOS-Survival-Kit.
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Feedback Thesaurus-Projekt
Spree SoSe 2006 Titel Typen von Informationsressourcen Eine systematische Übersicht.
Informationsarchitektur Beschreiben und Benennen
Feedback Hörfunkdokumentation
Bilderschließung Einführung Metadatensets Dublin Core ICPT
Spree WS 2008/2009 Facetmap debugged Debugging macht teilweise mehr als 50% der Arbeitszeit eines Programmierers aus Proof of concept: Ihre Facetmaps funktionieren.
Spree SoSe 2007 Titel Lexika und ihre Benutzer Benutzervoraussetzungen Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien zum Thema Lexikographie.
Erste Schritte im §§§§§§§ Dschungel Spree SoSe 2010 Rechtsinformationen.
OWL-Web Ontology Language Eine Einführung
Fortgeschrittene Methoden der Wissensorganisation
Information Broking als Beruf? Spree SoSe 2010 Quelle: 0/ /
Spree SoSe 2006 Titel Fortgeschrittene Methoden der Wissensorganisation Rückblick und Vorschau.
Qualität einer Dokumentation Relevanz- und Vollständigkeitsrate
LiLi-Einführung Spezialvorlesung Groupware und Wissensmanagement Andrea Kienle
Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft.
Spree SoSe 2010 Optimierung von Volltextinvertierung durch den Einsatz von Indexierungswörterbüchern Artikelstrecke ab BUTTERBLUME im Deutschen Wörterbuch.
Entitäten Extraktion Einführung
Ideen der Informatik Suchen und Sortieren [Ordnung muss sein…]
Hauptseminar WS10-11 : VRE Dozent: Prof. Manfred Thaller Tag clouds Referentin: N.X. Duyen Tao-Pham Datum:
Projektpräsentation der Bücherei
Projektpräsentation der Bücherei
learn:line NRW 2 April 2011 Die Medienberatung NRW ist ein Angebot des LVR-Zentrums für Medien und Bildung und des LWL-Medienzentrums für Westfalen im.
VI Universität zu Köln Institut: Historisch - Kulturwissenschaftliche Informationsverarbeitung Seminar: IT - Zertifikat – Allgemeine Technologien I Susanne.
Erstellung einer Facettenklassifikation
ULG Library and Information Studies 2010/11, I2 Johanna Dusek.
Physik multimedial: LiLi und die Lernplattform physik multimedial Lehr- und Lernmodule für das Studium der Physik als Nebenfach Julika Mimkes:
Spree SoSe 2006 Feedback Bilderschließung. Klassifikation  vollständig Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2006.
Titel: Quelle: Übungsart: Titel: Quelle: Rechnen Sammelsurium
 Präsentation transkript:

Spree SoSe 2011 Volltextsuche Sequentielle Suche und interviertes Dateisystem

Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Suchproblem Treffer Wie funktioniert die Suche in einer Datenbank ? Modell der sequenziellen Suche mit Musterabgleich Graphik: Winfried Gödert: Konzepte, Methoden und Verfahren des Information Retrieval, Folie 6

Nein Nein Nein Treffer Sequentielle Suche / Mustererkennung im Dokument Methode: Die Zeichenkette wird nacheinander im gesamten Dokument gesucht: Probleme: Zeitaufwändig Nur möglich, wenn der gesamte Datenbestand vollständig vorliegt. Quelle: teilweise übernommen von Gödert

Eintrag01 Eintrag02 Eintrag03 Eintrag04 Eintrag05 Eintrag06 Eintrag07 Eintrag08 Eintrag09 Eintrag10 Eintrag11 Eintrag12 Eintrag13 Eintrag14 Eintrag15 Eintrag16 Eintrag17 Eintrag18 Eintrag19 Eintrag20 Eintrag21 Eintrag22 Eintrag23 Eintrag24 Suche sequenziell ? Nein Kann das sein? Gesuchter Eintrag Fast wörtlich übernommen: Winfried Gödert: Konzepte, Methoden und Verfahren des Information Retrieval, Folie 8 Wie funktioniert die Indexsuche in Datenbanken?

Numerischer und alphabetischer Index Gliederung Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2009 Dok. 1: Das ist eine Banane 1 das 2 ist 3 eine 4 Banane Banane 4 Das 1 Eine 3 Ist 2 Dok. 2: Das ist eine grüne Banane Numerischer IndexAlphabetischer Index Wenn ein neues Dokument hinzukommt, muss der alphabetische Index nur ergänzt werden. grüne wird als neuer Eintrag ergänzt. 1 das 2 ist 3 eine 4 Banane 5 grüne

Index aufbauen und ergänzen Gliederung Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 ZeileWortEingang 1banane4 2das1 3eine3 4ist2 5grüne5 ZeileWortEingang 1banane4 2das1 3eine3 4grüne5 4 wird 5ist2 6 wird 7 Alle Einträge unterhalb von eine ändern ihre Position, der Index wird bei jedem Neuzugang neu aufgebaut grüne Es wird lediglich eine Zeile ergänzt

Invertiertes Dateisystem Einführung Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Wort.IdDok.IdPositionFrequenzZusatz P h P h P h P h1 h h1 h3 Banane 4 das 1 eine3 grüne5 ist 2 Dok.3 grüne Banane Alphabetischer Index/ Zugangsliste Invertierte Liste

Und noch ein Trick: schnelle Suche im alphabetischen Index Eintrag01 Eintrag02 Eintrag03 Eintrag04 Eintrag05 Eintrag06 Eintrag07 Eintrag08 Eintrag09 Eintrag10 Eintrag11 Eintrag12 Eintrag13 Eintrag14 Eintrag15 Eintrag16 Eintrag17 Eintrag18 Eintrag19 Eintrag20 Eintrag21 Eintrag22 Eintrag23 Eintrag24 Bildung von Hälften Test, ob gesuchter Eintrag in der ersten Häfte oder in der zweiten Häfte Nein Ja Fast wörtlich übernommen: Winfried Gödert: Konzepte, Methoden und Verfahren des Information Retrieval, Folie 9

Das Verfahren wird mit der zutreffenden Hälfte fortgesetzt Eintrag13 Eintrag14 Eintrag15 Eintrag16 Eintrag17 Eintrag18 Eintrag19 Eintrag20 Eintrag21 Eintrag22 Eintrag23 Eintrag24 Nein Ja Eintrag19 Eintrag20 Eintrag21 Eintrag22 Eintrag23 Eintrag24 Das Verfahren folgt einem binären Entscheidungsbaum und kommt auch bei großen Indizes sehr schnell zu einem Ergebnis Ja Eintrag19 Eintrag20 Eintrag21 Ja Eintrag19 Eintrag20 Nein Ja Fast wörtlich übernommen: Winfried Gödert: Konzepte, Methoden und Verfahren des Information Retrieval, Folie 10

Ressourcen Einführung Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 CROFT 2011 Croft, Bruce. W; Metzler, Donald; Strohman, Trevor Gerhard Begleitmaterialien zum Buch: Search Engines : Information Retrieval in Practice. Abruf: Download unter: GÖDERT 2009 Gödert, Winfried: Konzepte, Methoden und Verfahren des Information Retrieval. Vorlesungsskript SS Fachhochschule Köln : Institut für Informationswissenschaft. Abruf: Download unter: