Vieweg+Teubner Verlag | Wiesbaden 2009 www.viewegteubner.de © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen.

Slides:



Advertisements
Ähnliche Präsentationen
Stefan Lohrum Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
Advertisements

Information Retrieval in XML-Dokumenten
Kohonennetze für Information Retrieval mit User Feedback
Herzlich willkommen zur Veranstaltung „Internet-Recherche“
Ein einführendes Tutorial
Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Entwurf eines Bibliothekssystems
Seminar Textmining WS 06/07 Aufgaben I 1.Metadaten 2.Einfache Inverse Liste 3.Modifizierte Inverse Liste für komplexere Anfragen 4.Boolsches Retrieval.
R. Der - Vorlesung Algorithmen und Datenstrukturen (Magister)
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Bibliothekskurs Sozialwissenschaften
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
FH-Hof Extensible Markup Language Richard Göbel. FH-Hof Extensible Markup Language XML XML ist universeller Ansatz für die Strukturierung von Zeichenketten.
FH-Hof Effizienz - Grundlagen Richard Göbel. FH-Hof Inhalt Einführung Aufwand für Anfragen ohne Indexierung Indexstrukturen für Anfragen an eine Tabelle.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Datenbanken werden als Anhäufung von Werten eines Wertebereiches aufgefasst und Datenbankabfragen.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Datenbanken vs. Markup Manfred Thaller WS 2009/2010 Humanities Computing Linda Scholz.
Präsentation des Seminararbeitsthemas
Fakten, Regeln und Anfragen
Wahl des Themas Präzisieren der Formale Eingrenzung Fragestellung
© 2002 Prof. Dr. G. Hellberg 1 XML-Seminar XML-Technologie: XML in Theorie und Praxis Prof. Dr. G. Hellberg XML-Technologie: XML in Theorie und Praxis.
SQL/XML. © Prof. T. Kudraß, HTWK Leipzig 2 2 Motivation Speicherung von XML in allen großen kommerziellen DBMS vorhanden proprietäre Lösungen für die.
Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel.
Support.ebsco.com Lernprogramm zur einfachen Suche in wissenschaftlichen Bibliotheken.
Semantisch gestützte Suche im Internet
Access 2000 Datenbanken.
Wie funktionieren Suchmaschinen?
Indexierung - Verschlagwortung
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Online Recherche 1.Vorbereitung der Recherche (bevor Sie sich in einen Host, bzw. Eine Datenbank einwählen) Erster Schritt: Ermittlung des Informationsbedarfs.
Relevanz Ranking Bisher:
3 Prinzipien des Information Retrieval
Datenmodellierung - Aufbau einer Datenbank -
Recherche im Ein einführendes Tutorial Informationssystem Medienpädagogik
Recherche im Ein einführendes Tutorial Informationssystem Medienpädagogik
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Buch S70ff (Informatik I, Oldenbourg-Verlag)
1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.
Entitäten Extraktion Einführung
Schnelles und effizientes Suchen. Was ist MPEG 7? Wie funktioniert MPEG? Was bietet MPEG 7? Wo wird MPEG 7 verwendet?
Einführung zur Literaturrecherche in der Sportwissenschaft Bibliothekskataloge und Datenbanken Herbstsemester 2013 Gabriela Scherrer
Komponenten eines Information Retrieval Systems
Verfahren zur Stammformreduktion
Suchmaschinen am Theo Groß und Bernhard Meyer.
Suchen im Internet Eine Einführung. Suchen im Internet Wer bietet Informationen an? è Privatpersonen è Kommerzielle Organisationen, Firmen è Universitäten,
Im Internet geht alles schneller, aber es dauert länger
Soziologisches Institut, Bibliothek Seite 1 Literaturrecherche für Masterstudierende Britta Biedermann (Dipl. Bibliothekarin + IuD Spezialistin.
Nutzungs- und Bedarfsanalyse
Suchstrategie und erste Recherchen
Java für Fortgeschrittene
Ausgabe vom Seite 1, XML Eine Einführung XML - Eine Einführung.
Suchen und Finden. Vielfältig vorgehen Kompetenzen aufbauen Recherche als Prozess Ziel: Ergebnismengen minimieren, Qualität maximieren.
Einführung in Datenbankmodellierung und SQL
Übung zu Einführung in die LDV I
Jahrestagung der ASpB - München
Information Retrieval, Vektorraummodell
Die Ganze Welt im Computer? Informationsbeschaffung im Internet
Eike Schallehn, Martin Endig
Eike Schallehn, Martin Endig
Live Search Die Suchmaschine von Microsoft. Was ist Live Search? Live Search gehört zur Microsoft Windows Live Familie (Windows Live Messenger, Windows.
ULG Library and Information Studies 2010/11, I2 Johanna Dusek.
1 Wolfgang Wiese, Regionales RechenZentrum Erlangen WCMS 3. August 2000 Wolfgang Wiese RRZE / Lehrstuhl für Informatik VII
Recherche-Workshop der Stadtbücherei Metzingen Schritte zur erfolgreichen Recherche.
Jugend-in-dresden.de medienetage- dresden.de Alles Google oder was? Recherche im Internet… suchet, so werdet Ihr finden, googelt, so werdet Ihr irren oder.
1 Suchprofile erstellen und verwalten. 2 Suchprofile bei Registrierung Hier können Sie bis zu drei Suchprofile einrichten. Diese finden Sie später unter.
13.Dezember 2006–1Elektronisches Publizieren: Schemasprachen — Relax NG Schemasprachen für XML — Relax NG — Anne Brüggemann-Klein TU München.
Wie verwende ich Suchmaschinen richtig?
Suchen und Finden Wie verwende ich Suchmaschinen richtig?
Einführung: Statistische Verfahren der automatischen Indexierung
 Präsentation transkript:

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags ECM – Enterprise Content Management Konzepte und Techniken rund um Dokumente 2009 / 1. Auflage Kapitel 3 / Manage - Information Retrieval

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Gliederung Definition Techniken Informationsangebot und –nachfrage

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Definition "Information Retrieval" Begriffsbeschreibung nach der Fachgruppe Information Retrieval der GI IR beschäftigt sich mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen Vage Anfragen sind dadurch gekennzeichnet, dass die Antwort a priori nicht eindeutig definiert ist. –Fragen mit unscharfen Kriterien –Fragen, die nur im Dialog iterativ durch Reformulierung (in Abhängigkeit von den bisherigen Systemantworten) beantwortet werden können

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Alternativdefinitionen

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Information Retrieval - Bereiche

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Grundmodell des Information Retrieval

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Grundmodell des Text Retrieval

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Kernaufgabe des Information Retrieval Den Nachweis aller relevanten vorhandenen Dokumente einer Dokumentensammlung mittels einer Suchanfrage zu ermitteln

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Daten – Informationen - Wissen Daten: Meyer – Flensburg – 0461/9999 Schulz – Schleswig – 04631/4444 Lehmann – Rendsburg – 04621/3333 Informationen: Name – Wohnort – Telefon-Nr Meyer – Flensburg – 0461/9999 Schulz – Schleswig – 04631/4444 Lehmann – Rendsburg – 04621/3333 Wissen: Name – Wohnort – Telefon-Nr Meyer – Flensburg – 0461/9999 Schulz – Schleswig – 04631/4444 Lehmann – Rendsburg – 04621/3333 Wissen aus Informationen extrahieren

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Text Retrieval Datenbankanfragen –beziehen sich auf vordefinierte Struktur –sind sehr exakt Daten werden auf der rein syntaktischen Ebene verarbeitet Dem DBMS ist es egal, ob Anfrage –select k.name, k.telefonnr –from kunde k, bestellung b –where k.kundennr = b.kundennr oder –select k.sdf, k.fgsfdg –from sfsdf k, dasfds b –where k.gfsgh = b.ewrgsah

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Information Retrieval Informationen sind oft unstrukturiert (z.B. Text, Bilder) Information Retrieval sucht auf der Bedeutungsebene Das System muss den Inhalt von Dokument und Anfrage interpretieren Trotz unterschiedlicher Formulierungen sollen möglichst alle relevanten Dokumente gefunden werden. Auswahl nicht 100% richtig Dokumente werden nach Relevanz sortiert

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Gliederung Definition Techniken Informationsangebot und –nachfrage

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Relevanz –Sammlung von Wörtern –Indexterme –wichtige Wörter z.B. Vorlesung –Häufigkeit –Relevanz + Aktualität + Linkverweise

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Bewertung Relevanz := Eigenschaft der Beziehung zwischen Anfrage und einem Element der Antwortmenge Annahmen: Anfrageergebnis ist Menge von Dokumenten und die Qualität des Ergebnisses (Relevanz) ist nur abhängig von der Anfrage

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Bewertungsmaßstäbe Precision: Anteil relevanter und gefundener Dokumente an den gefundenen Dokumenten Recall: Anteil der relevanten und gefundenen Dokumente an den relevanten Dokumenten Idealfall: Precision = Recall = 1

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Indexierung: Definition das Kennzeichnen und Feststellen des Dokumenteninhaltes über ausgewählte, das Dokument repräsentierende Begriffe. Jedes Dokument erhält ein Etikett, das über seinen Inhalt Auskunft gibt.

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Index - Deskriptor Suchbegriffe Indexterme (Deskriptoren) –automatische Indexierungssystemen –manuelle Erstellung Indexlisten (Deskriptorenlisten) Thesaurus –Liste über zulässige Deskriptoren pro Sachgebiet –Einführung von Unter- und Oberbegriffen –Erweiterung um Nicht-Deskriptoren z.B. Verweis von Nicht-Deskriptor Aufzug auf Deskriptor Lift

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Stoppwörter Entfernung von Wörtern mit geringer Bedeutung z.B. und, in, der, die, das …

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Stemming Rückführung auf Wortstämme, Flexions- und Derivationsformen werden automatisch in die Grundform übertragen –zwei Vorgehensweisen lexikalische Verfahren heuristische Verfahren Suche: Bäume Grundform: Baum

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Lexikalische Verfahren Grundformreduktion durch Einzelfallbehandlung über ein Lexikon Lexikon mit folgenden Relationen –Flexionsform - Grundform Hauses - Haus ging - gehen –Derivationsform - Grundform Lieblosigkeit - lieblos Berechnung - rechnen –Komposita - Dekomposition Haustür - Tür Armbanduhr - Uhr Nachteil: großer Aufwand für Aufbau und Pflege des Lexikons

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Heuristisches Verfahren Mit wenigen Regeln lassen sich sehr viele Fälle der Grundformreduktion abdecken, z.B: –Schneide die Endungen e, en, er ab Banken - Bank Häuser - Häus –Ersetze Umlaute: ä - a, ö - o, ü - u Häus - Haus Vollständige Regelmenge muss viele Ausnahmen berücksichtigen

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Vorverarbeitung eines Textes sprachabhängige Transformation Satzendeerkennung/-markierung entfernen Worte extrahieren Stoppworte eliminieren Stemming durchführen

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Probleme bei der Vorverarbeitung Homographen (Rentier >Tier& Bezieher einer Rente) Flexionsformen (Haus - Hauses - Häuser laufen - läuft - lief - gelaufen...) Derivationsformen (verschiedene Wortformen zu einem Wortstamm) Formatierung - Format - formieren - formatieren Komposita (Zusammensetzungen)

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Beispiel 1 Quelle: Köster, UNI Oldenburg

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Beispiel 2 Quelle: Köster, UNI Oldenburg

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Beispiel 3 Quelle: Köster, UNI Oldenburg

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Suchformen Hierarchische Suche Einfache Suche manuelles Blättern in der Ordnerstruktur Objekttypsuche Recherche anhand der Indexmerkmale eines Objekttyps Schnellsuche Suche über ausgewählte Suchkriterien Indexsuche Recherche über Indexdaten Volltextsuche Recherche über den Inhalt von Dokumenten Eingabe eines Suchbegriffs und Auswahl eines Suchbereichs

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Mögliche Anfragen /1 Wortposition –Phrasensuche –near –same sentence –same paragraph Inexact Match –Soundex-Suche (ähnlich klingende Wörter) –Ähnlichkeitssuche (ähnlich geschriebene Wörter, typische Tippfehler) –Stammwortreduktion –Verwendung von Wildcards –Synonymsuche

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Beispielanfragen Morphologie

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Mögliche Anfragen /2 Intelligent match –Suche nach Dokumenten über etwas (Verwendung einer Wissensbasis) –Behandlung nichtalphanumerischer Zeichen, Bsp: C++ Boolesche Kombinationen –AND, OR, NOT Relevance Ranking –Sortierung der Ergebnisse nach Relevanz –Beeinflussung des Rankings durch Begriffshäufigkeit Weiterhin: –XML search, Kombination der Auswertung von Markup mit Information Retrieval Anfragen

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Trunkierung Bezieht sich auf Zeichen am Wortende oder Wortanfang Front-und End-Trunkierung –schreib?: schreibt, schreibe,... –schreib*: schreiben, schreibst, schreibt,... –*schreiben: schreiben, beschreiben, anschreiben, verschreiben,... –??schreiben: beschreiben, anschreiben,...

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Maskierung Bezieht sich auf Zeichen in der Mitte des Wortes –schr??b*: schreiben, schrieb, schrauben –h??s*: haus, häuser, hanse, hausen, hassen Nachteil: Man findet auch unerwünschte Wörter: –schr??b*findet auch schrauben –h??s*findet auch Hans, Hanse, hausen

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Kontextoperatoren –genauer Wortabstand Bezug [3] Telefonat Bezug nehmend auf unser Telefonat –maximaler Wortabstand text retrieval text retrieval text and fact retrieval –beliebige Wortreihenfolge retrieval, information information retrieval retrieval of information

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Stoppwortlist Sinnvolle Erweiterungen um wenig sinntragende Wörter:

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Multilingualität Quelle: Wormser-Hacker, Uni Hildesheim

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Multilingualität - Auftreten Ein Dokument enthält eine oder mehrere Sprachen (Europäischer Gerichtshof) Eine Kollektion enthält Dokumente unterschiedlicher Sprachen (Europäisches Patentamt) Internationale Digitale Bibliotheken und Online-Datenbanken Dokumentsprache und Anfragesprache sind unterschiedlich (Internationale Pressedatenbanken)

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Multilingualität - Spracherkennung Auf der Basis von sprachtypischen Sonderzeichen (ä, ü, ß,å, ç, ø) Auf der Basis von Funktionswörtern (Artikel, Präpositionen etc.) Auf der Basis der Wahrscheinlichkeit des Auftretens von Buchstabenkombinationen (z.B. sch kommt im Französischen nicht vor) Auf der Basis der Häufigkeit von Trigrammen der Zeichen

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Ranking Ranking ist eine Ordnung der gefundenen Dokumente, die die Relevanz bezüglich der Suchanfrage widerspiegelt. Ein Ranking basiert auf : –Gewichten –Wahrscheinlichkeiten der Relevanz –Worthäufigkeiten

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Suchproblem : Wortstamm, Synonyme Quelle: UBA-Thesaurus Versickerung sickern Absickerung Sickergrube Sickerung sickert sickerns sickernd Umweltnutzung Technik Grundwasseranreicherung Infiltration Schluckbrunnen Sickerwasser Suchbegriff Synonyme Oberbegriffe Unterbegriffe Die Suche nach Synonymen Ober- und Unterbegriffen sowie Wortstämmen verlangt einen aktuellen Thesaurus und eine leistungsfähige linguistische Analyse.

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Suchproblem : geographische Begriffe Boden (GEMEINDE) Norden (GEMEINDE) Neustadt (GEMEINDE) Bodenbelag Bodenständigkeit Treibsand Umwelt Medien der Umwelt Gewässerboden Suchbegriff :... im Boden im Norden von Neustadt... Die geographische Suche wird dadurch erschwert, dass nicht erkennbar ist, ob ein Begriff ein Ortsnamen ist oder nicht. Quelle : Bandholtz, SAG 2000

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Suchproblem : Eingabe von Zeitangaben vor dem Artenschutzgesetz seit Tschernobyl Januar Jan 2000 Jahrtausendwende Millenium 20. Jahrhundert (ISO8086)

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Suchproblem - Wortbedeutung Synonyme –Samstag - Sonnabend –Junggeselle - unverheirateter Mann –selten - nicht oft Varianten in der Schreibweise –Delfin - Delphin Abkürzungen –VW - Volkswagen Quasi-Synonyme, z.B. fremdsprachliche Bezeichnungen –Rechner - Computer Homographen: verschieden gesprochene Wörter mit gleicher Orthographie –Tenor Polyseme: Wörter mit mehreren Bedeutungen –Bank

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Suche und Dienste Meta- ebene Zugriff Objekt- ebene d1d2 kauf00 kredit person regelung00 risiko10 sicherheit01 Begriffe der Texte Volltextsuche Klassifikations- schema Hierarchischer Abstieg Kredite Hypothek Privat Versicherungen Leven Kranken Kfz Klasse: Autor: Datum: Prozess: Organisation: Produkt: Stichworte: Attribut-Wert- repräsentation Anfrage- sprache Topic Topic Maps Navigation

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Gliederung Definition Techniken Informationsangebot und –nachfrage

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Informationsnachfrage und -angebot relevante Information angebotene Information nachgefragte Information Neben dem Abdeckungsgrad einer Suchmaschine spielt die Form der Suchanfrage und die Einschätzung der Relevanz des Angebotes für einen Suchbegriff eine ent- scheidende Rolle für das Ergebnis.

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Informationsnachfrage und -angebot relevante Information angebotene Information nachgefragte Information = angebotene Information, die weder nachgefragt noch relevant ist 2 = Information, die angeboten und nachgefragt wird, aber nicht relevant ist 3 = Information, die nachgefragt aber weder angeboten noch relevant ist 4 = Information, die relevant ist und nachgefragt, aber nicht angeboten wird 5 = relevante Information, die weder angeboten noch nachgefragt wird 6 = relevante Information, die angeboten aber nicht nachgefragt wird 7 = Angebot, Nachfrage und Bedarf decken sich

Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Literatur Information Retrieval Vorlesungsmanuskript: Norbert Fuhr, Ulrike Schwinn, XML in Oracle: relational and beyond, Tutorial, FH Nürnberg Tamino: Harald Schöning, Tamino - ein reines XML-Datenbanksystem, Tutorial, FH Nürnberg Suchmaschinen –Liste von Suchmaschinen: –Alternative Suchmaschinen: