Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Vieweg+Teubner Verlag | Wiesbaden 2009 www.viewegteubner.de © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen.

Ähnliche Präsentationen


Präsentation zum Thema: "Vieweg+Teubner Verlag | Wiesbaden 2009 www.viewegteubner.de © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen."—  Präsentation transkript:

1 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags ECM – Enterprise Content Management Konzepte und Techniken rund um Dokumente 2009 / 1. Auflage Kapitel 3 / Manage - Information Retrieval

2 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Gliederung Definition Techniken Informationsangebot und –nachfrage

3 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Definition "Information Retrieval" Begriffsbeschreibung nach der Fachgruppe Information Retrieval der GI IR beschäftigt sich mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen Vage Anfragen sind dadurch gekennzeichnet, dass die Antwort a priori nicht eindeutig definiert ist. –Fragen mit unscharfen Kriterien –Fragen, die nur im Dialog iterativ durch Reformulierung (in Abhängigkeit von den bisherigen Systemantworten) beantwortet werden können

4 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Alternativdefinitionen

5 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Information Retrieval - Bereiche

6 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Grundmodell des Information Retrieval

7 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Grundmodell des Text Retrieval

8 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Kernaufgabe des Information Retrieval Den Nachweis aller relevanten vorhandenen Dokumente einer Dokumentensammlung mittels einer Suchanfrage zu ermitteln

9 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Daten – Informationen - Wissen Daten: Meyer – Flensburg – 0461/9999 Schulz – Schleswig – 04631/4444 Lehmann – Rendsburg – 04621/3333 Informationen: Name – Wohnort – Telefon-Nr Meyer – Flensburg – 0461/9999 Schulz – Schleswig – 04631/4444 Lehmann – Rendsburg – 04621/3333 Wissen: Name – Wohnort – Telefon-Nr Meyer – Flensburg – 0461/9999 Schulz – Schleswig – 04631/4444 Lehmann – Rendsburg – 04621/3333 Wissen aus Informationen extrahieren

10 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Text Retrieval Datenbankanfragen –beziehen sich auf vordefinierte Struktur –sind sehr exakt Daten werden auf der rein syntaktischen Ebene verarbeitet Dem DBMS ist es egal, ob Anfrage –select k.name, k.telefonnr –from kunde k, bestellung b –where k.kundennr = b.kundennr oder –select k.sdf, k.fgsfdg –from sfsdf k, dasfds b –where k.gfsgh = b.ewrgsah

11 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Information Retrieval Informationen sind oft unstrukturiert (z.B. Text, Bilder) Information Retrieval sucht auf der Bedeutungsebene Das System muss den Inhalt von Dokument und Anfrage interpretieren Trotz unterschiedlicher Formulierungen sollen möglichst alle relevanten Dokumente gefunden werden. Auswahl nicht 100% richtig Dokumente werden nach Relevanz sortiert

12 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Gliederung Definition Techniken Informationsangebot und –nachfrage

13 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Relevanz –Sammlung von Wörtern –Indexterme –wichtige Wörter z.B. Vorlesung –Häufigkeit –Relevanz + Aktualität + Linkverweise

14 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Bewertung Relevanz := Eigenschaft der Beziehung zwischen Anfrage und einem Element der Antwortmenge Annahmen: Anfrageergebnis ist Menge von Dokumenten und die Qualität des Ergebnisses (Relevanz) ist nur abhängig von der Anfrage

15 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Bewertungsmaßstäbe Precision: Anteil relevanter und gefundener Dokumente an den gefundenen Dokumenten Recall: Anteil der relevanten und gefundenen Dokumente an den relevanten Dokumenten Idealfall: Precision = Recall = 1

16 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Indexierung: Definition das Kennzeichnen und Feststellen des Dokumenteninhaltes über ausgewählte, das Dokument repräsentierende Begriffe. Jedes Dokument erhält ein Etikett, das über seinen Inhalt Auskunft gibt.

17 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Index - Deskriptor Suchbegriffe Indexterme (Deskriptoren) –automatische Indexierungssystemen –manuelle Erstellung Indexlisten (Deskriptorenlisten) Thesaurus –Liste über zulässige Deskriptoren pro Sachgebiet –Einführung von Unter- und Oberbegriffen –Erweiterung um Nicht-Deskriptoren z.B. Verweis von Nicht-Deskriptor Aufzug auf Deskriptor Lift

18 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Stoppwörter Entfernung von Wörtern mit geringer Bedeutung z.B. und, in, der, die, das …

19 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Stemming Rückführung auf Wortstämme, Flexions- und Derivationsformen werden automatisch in die Grundform übertragen –zwei Vorgehensweisen lexikalische Verfahren heuristische Verfahren Suche: Bäume Grundform: Baum

20 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Lexikalische Verfahren Grundformreduktion durch Einzelfallbehandlung über ein Lexikon Lexikon mit folgenden Relationen –Flexionsform - Grundform Hauses - Haus ging - gehen –Derivationsform - Grundform Lieblosigkeit - lieblos Berechnung - rechnen –Komposita - Dekomposition Haustür - Tür Armbanduhr - Uhr Nachteil: großer Aufwand für Aufbau und Pflege des Lexikons

21 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Heuristisches Verfahren Mit wenigen Regeln lassen sich sehr viele Fälle der Grundformreduktion abdecken, z.B: –Schneide die Endungen e, en, er ab Banken - Bank Häuser - Häus –Ersetze Umlaute: ä - a, ö - o, ü - u Häus - Haus Vollständige Regelmenge muss viele Ausnahmen berücksichtigen

22 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Vorverarbeitung eines Textes sprachabhängige Transformation Satzendeerkennung/-markierung entfernen Worte extrahieren Stoppworte eliminieren Stemming durchführen

23 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Probleme bei der Vorverarbeitung Homographen (Rentier >Tier& Bezieher einer Rente) Flexionsformen (Haus - Hauses - Häuser laufen - läuft - lief - gelaufen...) Derivationsformen (verschiedene Wortformen zu einem Wortstamm) Formatierung - Format - formieren - formatieren Komposita (Zusammensetzungen)

24 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Beispiel 1 Quelle: Köster, UNI Oldenburg

25 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Beispiel 2 Quelle: Köster, UNI Oldenburg

26 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Beispiel 3 Quelle: Köster, UNI Oldenburg

27 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Suchformen Hierarchische Suche Einfache Suche manuelles Blättern in der Ordnerstruktur Objekttypsuche Recherche anhand der Indexmerkmale eines Objekttyps Schnellsuche Suche über ausgewählte Suchkriterien Indexsuche Recherche über Indexdaten Volltextsuche Recherche über den Inhalt von Dokumenten Eingabe eines Suchbegriffs und Auswahl eines Suchbereichs

28 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Mögliche Anfragen /1 Wortposition –Phrasensuche –near –same sentence –same paragraph Inexact Match –Soundex-Suche (ähnlich klingende Wörter) –Ähnlichkeitssuche (ähnlich geschriebene Wörter, typische Tippfehler) –Stammwortreduktion –Verwendung von Wildcards –Synonymsuche

29 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Beispielanfragen Morphologie

30 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Mögliche Anfragen /2 Intelligent match –Suche nach Dokumenten über etwas (Verwendung einer Wissensbasis) –Behandlung nichtalphanumerischer Zeichen, Bsp: C++ Boolesche Kombinationen –AND, OR, NOT Relevance Ranking –Sortierung der Ergebnisse nach Relevanz –Beeinflussung des Rankings durch Begriffshäufigkeit Weiterhin: –XML search, Kombination der Auswertung von Markup mit Information Retrieval Anfragen

31 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Trunkierung Bezieht sich auf Zeichen am Wortende oder Wortanfang Front-und End-Trunkierung –schreib?: schreibt, schreibe,... –schreib*: schreiben, schreibst, schreibt,... –*schreiben: schreiben, beschreiben, anschreiben, verschreiben,... –??schreiben: beschreiben, anschreiben,...

32 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Maskierung Bezieht sich auf Zeichen in der Mitte des Wortes –schr??b*: schreiben, schrieb, schrauben –h??s*: haus, häuser, hanse, hausen, hassen Nachteil: Man findet auch unerwünschte Wörter: –schr??b*findet auch schrauben –h??s*findet auch Hans, Hanse, hausen

33 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Kontextoperatoren –genauer Wortabstand Bezug [3] Telefonat Bezug nehmend auf unser Telefonat –maximaler Wortabstand text retrieval text retrieval text and fact retrieval –beliebige Wortreihenfolge retrieval, information information retrieval retrieval of information

34 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Stoppwortlist Sinnvolle Erweiterungen um wenig sinntragende Wörter:

35 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Multilingualität Quelle: Wormser-Hacker, Uni Hildesheim

36 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Multilingualität - Auftreten Ein Dokument enthält eine oder mehrere Sprachen (Europäischer Gerichtshof) Eine Kollektion enthält Dokumente unterschiedlicher Sprachen (Europäisches Patentamt) Internationale Digitale Bibliotheken und Online-Datenbanken Dokumentsprache und Anfragesprache sind unterschiedlich (Internationale Pressedatenbanken)

37 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Multilingualität - Spracherkennung Auf der Basis von sprachtypischen Sonderzeichen (ä, ü, ß,å, ç, ø) Auf der Basis von Funktionswörtern (Artikel, Präpositionen etc.) Auf der Basis der Wahrscheinlichkeit des Auftretens von Buchstabenkombinationen (z.B. sch kommt im Französischen nicht vor) Auf der Basis der Häufigkeit von Trigrammen der Zeichen

38 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Ranking Ranking ist eine Ordnung der gefundenen Dokumente, die die Relevanz bezüglich der Suchanfrage widerspiegelt. Ein Ranking basiert auf : –Gewichten –Wahrscheinlichkeiten der Relevanz –Worthäufigkeiten

39 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Suchproblem : Wortstamm, Synonyme Quelle: UBA-Thesaurus Versickerung sickern Absickerung Sickergrube Sickerung sickert sickerns sickernd Umweltnutzung Technik Grundwasseranreicherung Infiltration Schluckbrunnen Sickerwasser Suchbegriff Synonyme Oberbegriffe Unterbegriffe Die Suche nach Synonymen Ober- und Unterbegriffen sowie Wortstämmen verlangt einen aktuellen Thesaurus und eine leistungsfähige linguistische Analyse.

40 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Suchproblem : geographische Begriffe Boden (GEMEINDE) Norden (GEMEINDE) Neustadt (GEMEINDE) Bodenbelag Bodenständigkeit Treibsand Umwelt Medien der Umwelt Gewässerboden Suchbegriff :... im Boden im Norden von Neustadt... Die geographische Suche wird dadurch erschwert, dass nicht erkennbar ist, ob ein Begriff ein Ortsnamen ist oder nicht. Quelle : Bandholtz, SAG 2000

41 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Suchproblem : Eingabe von Zeitangaben vor dem Artenschutzgesetz seit Tschernobyl Januar Jan 2000 Jahrtausendwende Millenium 20. Jahrhundert (ISO8086)

42 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Suchproblem - Wortbedeutung Synonyme –Samstag - Sonnabend –Junggeselle - unverheirateter Mann –selten - nicht oft Varianten in der Schreibweise –Delfin - Delphin Abkürzungen –VW - Volkswagen Quasi-Synonyme, z.B. fremdsprachliche Bezeichnungen –Rechner - Computer Homographen: verschieden gesprochene Wörter mit gleicher Orthographie –Tenor Polyseme: Wörter mit mehreren Bedeutungen –Bank

43 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Suche und Dienste Meta- ebene Zugriff Objekt- ebene d1d2 kauf00 kredit person regelung00 risiko10 sicherheit01 Begriffe der Texte Volltextsuche Klassifikations- schema Hierarchischer Abstieg Kredite Hypothek Privat Versicherungen Leven Kranken Kfz Klasse: Autor: Datum: Prozess: Organisation: Produkt: Stichworte: Attribut-Wert- repräsentation Anfrage- sprache Topic Topic Maps Navigation

44 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Gliederung Definition Techniken Informationsangebot und –nachfrage

45 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Informationsnachfrage und -angebot relevante Information angebotene Information nachgefragte Information Neben dem Abdeckungsgrad einer Suchmaschine spielt die Form der Suchanfrage und die Einschätzung der Relevanz des Angebotes für einen Suchbegriff eine ent- scheidende Rolle für das Ergebnis.

46 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Informationsnachfrage und -angebot relevante Information angebotene Information nachgefragte Information = angebotene Information, die weder nachgefragt noch relevant ist 2 = Information, die angeboten und nachgefragt wird, aber nicht relevant ist 3 = Information, die nachgefragt aber weder angeboten noch relevant ist 4 = Information, die relevant ist und nachgefragt, aber nicht angeboten wird 5 = relevante Information, die weder angeboten noch nachgefragt wird 6 = relevante Information, die angeboten aber nicht nachgefragt wird 7 = Angebot, Nachfrage und Bedarf decken sich

47 Vieweg+Teubner Verlag | Wiesbaden © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen zu Medien des Vieweg+Teubner Verlags Literatur Information Retrieval Vorlesungsmanuskript: Norbert Fuhr, Ulrike Schwinn, XML in Oracle: relational and beyond, Tutorial, FH Nürnberg Tamino: Harald Schöning, Tamino - ein reines XML-Datenbanksystem, Tutorial, FH Nürnberg Suchmaschinen –Liste von Suchmaschinen: –Alternative Suchmaschinen:


Herunterladen ppt "Vieweg+Teubner Verlag | Wiesbaden 2009 www.viewegteubner.de © Wolfgang Riggert | ECM – Enterprise Content Management Vieweg+TeubnerPLUS Zusatzinformationen."

Ähnliche Präsentationen


Google-Anzeigen