Information Retrieval Systeme Suchverfahren im Web

Name: Information Retrieval Systeme Suchverfahren im Web
Uploaded: 2017-12-22T22:50:20+00:00
Duration: PTM26S44
Channel: Cundrie Boerst
Description: Information Retrieval Systeme Suchverfahren im Web

Information Retrieval Systeme Suchverfahren im Web
A.Kaiser; WU-Wien

Information Retrieval Systeme
Komponenten eines IR-Systems Informationserschließung Informationswiedergewinnung (Retrieval) Informationsaufbereitung A.Kaiser; WU-Wien

Grundmodell: Information Retrieval
Folie in Anlehnung an Womser-Hacker Informationsmanagement I 53

Textmodellierung Veranstaltung MIS Wirtschaftsuni verschiedene
Abteilungen anbieten Inhalte decken klein Prozentsatz Textmodellierung Die Veranstaltungen aus MIS werden an der Wirtschaftsuni von zwei verschiedenen Abteilungen angeboten. Die Inhalte decken sich nur zu einem kleinen Prozentsatz Transfor- mation Stoppwörter A.Kaiser; WU-Wien 74

Informationserschließung
Ein Beispiel für eine Methode der Informa-tionserschließung ist der invertierte Index. Erzeugung einer „Tabelle“, die in der 1.Spalte alle möglichen Suchbegriffe beinhaltet und in der 2.Spalte die Verweise auf diejenigen Dokumente (Adressen, etc.), die diese Suchbegriffe beinhalten. A.Kaiser; WU-Wien

invertierter Index Datenbank D1,D4,D7,D9 SQL D2,D4,D7,D8
Internet D5,D6,D7,D8,D9 Computer D3,D4,D9 Textverarbeitung D1 Berücksichtigung von Stoppwortlisten, d.s. Listen von Begriffen ohne Informationsgehalt (der, die, ...) Vorteil: Massive Beschleunigung des Suchprozesses A.Kaiser; WU-Wien

Informationserschließung
Indexierung Manuelle Indexierung Automatische Indexierung Computer-unterstützte Indexierung Die Dokumente werden “aufbereitet”, um effizient nach Informationen suchen zu können. A.Kaiser; WU-Wien

Das Matching-Paradigma des klassischen IR
Klassisches Boolesches Retrieval Benutzer drücken ihr Suchproblem in einer exakten Retrievalsprache aus Verbindung von Termen und Boolescher Logik search (mess? OR pruef?) AND laser Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme 75

Boolesche Logik AND, OR, NOT Term1 Term3 Term2 A.Kaiser; WU-Wien 76

Nachteile der Booleschen Systeme
Disjunkte Unterteilung in relevant und nicht-relevant Erwünschter Umfang schwer kontrollierbar Benutzer haben Probleme mit der Booleschen Logik Visualisierbarkeit Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme 77

Ranking-Systeme Anordnung des Ergebnisses in einer nach Relevanz sortierten Reihenfolge notwendige Voraussetzung: gewichtete Indexierung cut-off kann vom Benutzer bestimmt werden Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme 78

Grundprinzip Ranking 79

Boolesche Beispielrecherche
„Intelligentes Information Retrieval im Internet“ 1.Anfrage Information Retrieval 2.Anfrage IR 3.Anfrage Intelligent 4.Anfrage 1 AND 5.Anfrage 4 AND Internet A.Kaiser; WU-Wien 80

Suche in Ranking-Systemen
Anfrage Gewicht D1 D2 D3 Information Retrieval 5 x x x Intelligent 5 x Internet 1 x x Gewicht Anordnung: 1. D2 2.D3 3. D1 A.Kaiser; WU-Wien 81

Vorteile von Ranking-Verfahren
Die Rangordnung reiht die relevantesten Dokumente an den Anfang der Folge Der Benutzer bestimmt den Abbruch selbst, d.h. keine Mengenprobleme Experimente zeigen bessere Retrieval-qualität (bereits für sehr einfache Verfahren) cf. Salton et al. 1983 Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme 82

Systemunterschiede Indexierungs- und Retrievalmodell
Behandlung der Dokumente und Anfragen Indexierungsvokabular Gewichtung Dokumentstruktur Ähnlichkeitsmaß Outputform: Ranking, Relevance Feedback Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme 83

Einsatz von IR-Systemen
Literaturrecherche Suchmaschinen im Internet Suchverfahren im Multimediabereich ...

Formatierte DBS vs IR-Systeme
formatierte DBS IR-Systeme strukturierte, unformatierte formatierte Daten Daten direkte Suche indirekte Suche “Erfolg” ist objektiv “Erfolg” ist bestimmbar subjektiv (Nutzen)

Ein konkretes Beispiel
XBIBSUCHE an der Abteilung für Informationswirtschaft: Inhaltsverzeichnisse der Werke der Bibliotheken der Abteilung Einscannen, Abspeichern als ASCII-Datei Informationserschließung mit GLIMPSE Erzeugung eines invertierten Index Suche über das WWW in allen Inhaltsverzeichnissen

Xbibsuche Die Adresse für Xbibsuche
A.Kaiser; WU-Wien

Suchverfahren im WWW A.Kaiser; WU-Wien

Internet und WWW Linearer Text - Hypertext - Multimedia Hypermedia
World Wide Web: weltweit verteiltes multimediales Informationssystem HTTP (Hypertext Transfer Protocol) Connection - Request - Response - Close Caching: Zwischenspeicherung Hauptspeicher/Platte - Proxy; Archivierung Client-Server Prinzip A.Kaiser; WU-Wien

WWW vs. konventionelle, datenbankbasierte IS
Verteilte Datenhaltung hohe Dynamik bezüglich neuer, entfernter und geänderter Inhalte heterogene Datenformate und unheitlich strukturierte Inhalte hohe Anzahl von Dokument-Dubletten gigantische Menge von Dokumenten alle Eigenschaften erschweren die Suche und Lokalisierung von Infos im WWW A.Kaiser; WU-Wien

Suchverfahren im WWW Suche in lokalen WWW-Servern
Katalog- und verzeichnisbasierte Suche Roboterbasierte Suche Metasuchmaschinen Intelligente Agenten A.Kaiser; WU-Wien

Suche in lokalen WWW-Servern und Datenbanken
HTML Gateways zu Datenbanken Literaturrecherche in Bibliotheken ALEPH: österreichweiter Bibliotheksverbund Web-Server (Oracle) A.Kaiser; WU-Wien

Matching - Browsing Matching: Vergleich von Begriffen, die das Informationsbedürfnis des Suchenden umschreiben, mit Begriffen, die aus den indexierten Dokumenten gewonnen wurden. Browsing: (zielgerichtete) Navigation von einem Hyperlink zum anderen, so dass sich ein zurückgelegter Pfad von besuchten Seiten ergibt. A.Kaiser; WU-Wien

Matching Matching: Vorgehensweise der klassischen Suchmaschine.
Zwingt den Suchenden sein Informationsproblem zu durchdenken und zu strukturieren Suchender muß über Problemgebiet und Vokabular Bescheid wissen und auch wissen was sein/ihr Problem ist. A.Kaiser; WU-Wien

Browsing Browsing wird erst möglich mit dem Vorhanden-sein von Hyperlinks. Ist das Suchverfahren in Katalogen gerichtetes Browsing ungerichtetes Browsing assoziatives Browsing sukzessive Eingrenzung des Problembereichs, keine exakte Beschreibung des Problembereichs notwendig weniger zielorientiert, oft aufwendig, Risiko(? ) der Ablenkung A.Kaiser; WU-Wien

Katalog- und verzeichnisbasierte Suche
(manuell) aufgebaute Linksammlungen Navigation in hierarchisch aufgebauten Sachgebieten Eignen sich dann, wenn man zu einem bestimmten Gebiet einen (guten) Einstieg finden will. Yahoo, Dino, ... A.Kaiser; WU-Wien

Kataloge Aufbau durch Betreiber (oftmals manuell)
Anmelden eigener Webseiten durch Benutzer (Begutachtung und/oder Klassifikation durch Betreiber) Beispiel: VU (virtuelle Universität) A.Kaiser; WU-Wien

Kataloge Weitere Beispiele für Kataloge Yahoo: http://yahoo.com
Dino: Euroseek: WWW Virtual Library: A.Kaiser; WU-Wien

Portale vs. Kataloge Portale: Einstiegspunkt für den vereinfachten Zugang zu einer großen Menge an Informationen. Sie verwenden Informationsquellen und Suchwerkzeuge, den den wirtschaftlichen Interessen der Portal-Anbieter entsprechen (Suchmaschinen, Kataloge, Spezialsuchdienste, ...) Oftmals Möglichkeiten der Personalisierung = persönliche Anpassung der Seiten des Portals an Interessen und Präferenzen A.Kaiser; WU-Wien

Portale Beispiele für Portale: EXCITE: http://www.excite.de
NETSCAPE: A.Kaiser; WU-Wien

Roboterbasierte Suche / Suchmaschinen
Roboter, Spider, Wanderer, Worm rekursive Inhaltserschließung (über Referenzen des gerade bearbeiteten Dokuments) Erschließung weiterer Dokumentformate (PDF, Word, Postscript, ...) Aufbau einer Indexdatenbank “klassisches IR” A.Kaiser; WU-Wien

Reichweite von Suchmaschinen
Google (1,346, URLs), Alta Vista (350 Mio URLs), Excite (250 Mio URLs), HotBot (110 Mio URLs), Lycos (340 Mio URLs), WebCrawler (2 Mio URLs) A.Kaiser; WU-Wien

Systemaufbau von Suchmaschinen
A.Kaiser; WU-Wien

Aufbau der Datenbank von Suchmaschinen
bekannte WWW-Seiten (Startpunkt Kataloge, etc.) rekursive Erschließung explizit durch Benutzer A.Kaiser; WU-Wien

Probleme beim Aufbau der DB
WWW-Seiten mit Frames Link-Bilder über CGI-Schnittstelle Aktualisierung (neu erstellte / aktualisierte Dokumente) Nicht-verlinkte Dokumente Zugriffsgeschützte Dokumente Dynamische Dokumente Geschützte Seiten nach dem Roboter-Exclusion-Standard A.Kaiser; WU-Wien

Indexierung von Dokumenten
Oftmals unklar, Kernkompetenz der Anbieter Methoden des klassischen Information Retrievals Wortextraktion mit mehrsprachigen Stoppwortlisten Position der Wörter Berechnung der Dokumentähnlichkeiten Funktion der Wörter (URL, Titel, Überschrift, Link, etc.) HTML-Elemente Verweisstrukturen A.Kaiser; WU-Wien

Indexierung von Dokumenten
Volltext-Indexierung die gesamte HTML-Seite wird unter Berücksichtigung von mehrsprachigen Stoppwortlisten indexiert Teilindex nur ein Teil der Seite (meist URL, Titel, Überschriften) werden indexiert Spezielle inhaltsbeschreibende Bereiche META-Tags in HTML A.Kaiser; WU-Wien

Anfragebearbeitung Verschiedene Suchmodi (einfache / erweiterte Suche)
Formularbasierte Suchmasken mit diversen Einstellmöglichkeiten Voreinstellungen werden tw. Über Buttons, Menüs und Listen ausgewählt Java-basierte Suchmasken (selten) A.Kaiser; WU-Wien

Relevanzberechnung Anzahl gefundener Suchbegriffe
Position der gefundenen Begriffe Statistische Häufigkeit des Begriffs innerhalb eines Dokuments Nähe der Suchbegriffe untereinander innerhalb des Textes Gesamtanzahl eines Suchbegriffs in der Datenbank Popularität eines Dokuments Anzahl und Qualität von Hyperlinks, die auf ein Dokument verweisen und von einem Dokument ausgehen. A.Kaiser; WU-Wien

Suchmaschinen Beispiele für Suchmaschinen
Google: Altavista: A.Kaiser; WU-Wien

Metasuchmaschinen Gleichzeitige Suche bei mehreren Suchmaschinen über ein einziges Suchformular Die verschiedenen Suchdienste werden vorgegeben, tw. auch Auswahlmöglichkeiten für Benutzer Funktionalität und Operatoren der verschiedenen Suchdienste werden verwendet. Anpassung der Anfrage an die Metamaschine auf die einzelnen Suchdienste wird vorgenommen. Die spezifischen Eigenschaften der einzelnen Suchdienste bleiben dem Benutzer verborgen A.Kaiser; WU-Wien

Metasuchmaschinen Metasuchmaschinen die Duplikate eliminieren und eine fusionierte Relevanzbeurteilung vornehmen entweder Weiterführen des Rankings im Ursprungssuchdienst oder komplette Neubeurteilung der Relevanz basierend auf den Worthäufigkeiten der Suchbegriffe in Angaben wie Titel, URL, Kurzbeschreibung) Metasuchmaschinen die Duplikate eliminieren, aber keine fusionierte Relevanzbeurteilung vornehmen Problem: Ranking der gemischten Treffermenge Treffermenge meist nach Suchdiensten gruppiert Duplikateliminierung lediglich über URL-Vergleich A.Kaiser; WU-Wien

Metasuchmaschinen Sequentielle Suche in mehreren Suchdiensten
Ausgabe erst nach der Befragung des letzten Suchdienstes Parallele Suche in mehreren Suchdiensten Ausgabe, sobald einer der befragten Suchdienste die Anfrage abgearbeitet hat A.Kaiser; WU-Wien

Metasuchmaschinen Erspart das Laden der Homepages einzelner Suchdienste Guter Überblick über unterschiedliche Dienste Zeitersparnis und größerer Dokumentenraum Beschränkung bei der Formulierung der Suchanfrage, weil Syntax der einzelnen Maschinen unterschiedlich (vgl. Informationsbedürfnis und Informationsnachfrage) A.Kaiser; WU-Wien

Metasuchmaschinen Beispiele für Metasuchmaschinen MetaGer
Highway 61 Metacrawler A.Kaiser; WU-Wien

Eigene Webseiten und Suchmaschinen
Wichtiger Text im oberen Bereich Schlüsselbegriffe im TITLE-Element und Überschrift (ev.auch in der Adresse) Keine Frames bzw. alternative Seiten zu Frames Regelmäßige Überprüfung der eigenen Seiten Verwendung von Metatags in HTML A.Kaiser; WU-Wien

Eigene Webseiten und Suchmaschinen
Hilfswerkzeuge Webmasterplan.com Makemetop Searchenginecheck.com A.Kaiser; WU-Wien

Vorgehensweise bei der Suche
1) „Klärung“ des Informationsbedarfs 2) Auswahl der „richtigen“ Suchbegriffe 3) Auswahl geeigneter Suchverfahren 4) Durchführung der Recherche A.Kaiser; WU-Wien

Klärung des Informationsbedarfs
Gesamtüberblick über ein Thema? Wahrscheinlich geringe Vorinformationen Ziel: hohe Anzahl gefundener Web-Seiten Detailinformationen wahrscheinlich gewisse Vorkenntnisse vorhanden Ziel: hohe Anzahl relevanter Web-Seiten A.Kaiser; WU-Wien

Auswahl der Suchbegriffe
Sprache der Suchbegriffe (eine oder mehrere) spezielle und allgemeinere Suchbegriffe verwenden Synonyme zu den Suchbegriffen überlegen A.Kaiser; WU-Wien

Auswahl der Suchverfahren
Informationsbedürfnis Allgemeines Interesse Überblick über Thema Detailinformationen über ein Thema (man kennt die Suchbegriffe) Suchverfahren Surfen, spezielle Seiten mit aktuellen und interessanten Links Kataloge Suchmaschinen, Datenbanken A.Kaiser; WU-Wien

Intelligente Agenten Programme, die Aufträge eines Benutzers oder eines anderen Programmes ausführen und dabei Wissen über die Ziele und Wünsche des Benutzers anwenden vgl. Intelligentes IR, Letizia, etc. A.Kaiser; WU-Wien

Information Retrieval
Intelligentes Information Retrieval A.Kaiser; WU-Wien

Konventionelles vs intelligentes IR
Konventionelles IR Informationsbedürfnis kann vor Recherche klar definiert werden Benutzer weiß was er/sie will Informationsbedürfnis ändert sich nicht im Dialog mit dem IR-System Intelligentes IR Benutzer weiß nicht genau nach welchen Informationen er/sie sucht Benutzer lernt im Dialog mit dem IR-System über Informationsbedürfnis dazu A.Kaiser; WU-Wien

Intelligentes Information Retrieval
vergleiche Vorgehensweise beim Erstellen einer Diagnose beim Arzt Weg um in Kooperation mit dem IR-System („=Arzt“), das wahre Informationsbedürfnis zu eruieren und die relevanten Informationen zu finden („=Therapie“) „Es sind (oft) nicht die Antworten die erhellen, sondern die Fragen A.Kaiser; WU-Wien

Intelligentes Information Retrieval
Ziel: Angleich bzw. Annäherung Informationsbedürfnis und Informationsbedarf unterschiedliche Ansätze um dieses Ziel zu erreichen Computerunterstütztes Indexieren mit Relevance Feedback Fallbasiertes Schließen Intelligente Agenten ... A.Kaiser; WU-Wien

Dynamischer Dokumentenraum - Ziele
Eliminierung von falschen Deskriptoren Dokumente, die als relevant eingestuft wurden, sollen der Suchanfrage ähnlicher gemacht werden Dokumente, die als nicht relevant eingestuft wurden, sollen der Suchanfrage unähnlicher gemacht werden Anpassung des Dokumentenraums an die Sprachentwicklung Anpassung des Dokumentenraums an die Benutzer A.Kaiser; WU-Wien

Prototypen Guided Information Exploration Letizia A.Kaiser; WU-Wien

Guided Information Exploration
System als Assistent der dem Anwender „über die Schultern schaut“, was er tut, welche Informationen er verarbeitet und welche Informationen er übergeht. Basierend auf diesen Informationen stellt das System Hypothesen über das Informationsbedürfnis des Anwenders auf. Retrieval von relevanten Informationen basierend auf den aufgestellten Hypothesen Kein explizites Relevance-Feedback sondern implizites Ableiten dieser wichtigen Informationen durch Interpretation der Anwender-Aktionen A.Kaiser; WU-Wien

Guided Information Exploration
Das System schätzt die Relevanz jedes Dokuments in Bezug auf die aufgestellten Hypothesen iterativer und dynamischer Aspekt von GIE Präsentation der durch GIE ''gefundenen'' Dokumente sollte ''unaufdringlich'' sein. Der Anwender soll nicht unnötig in seinem Suchprozeß unterbrochen werden. Trotzdem sollte es das Interface dem Benutzer erlauben sich die angebotenen Dokumente schnell durchzusehen um deren Relevanz beurteilen zu können. Implementation mit neuronalen Netzen A.Kaiser; WU-Wien

Letizia Software-Agent der einen Anwender beim Browsing assistiert
verfolgt die Gewohnheiten des Benutzers und versucht basierend auf den gewonnenen Erfahrungen jeweils ausgehend von der aktuellen Position des Benutzers, weitere passende Links selbständig zu finden. Suche nach Information ist cooperatives Unternehmen zwischen dem Anwender und einem intelligenten Software-Agenten A.Kaiser; WU-Wien

Letizia Schnelleres Erkunden möglicher relevanter Informationsknoten.
Orientierung an den ''Bewegungen'' des Anwenders einfache Heuristiken Verknüpfung von Konzepten des Information Retrievals und des Information Filterings Nutzung der Idle-Time Anwendung dann, wenn sich der Anwender unsicher ist, welchen Schritt er als nächstes setzen soll. A.Kaiser; WU-Wien

Letizia http://lieber.www.media.mit.edu/people/
lieber/Lieberary/Letizia/Letizia.html A.Kaiser; WU-Wien

Information Retrieval Systeme Suchverfahren im Web

Ähnliche Präsentationen

Präsentation zum Thema: "Information Retrieval Systeme Suchverfahren im Web"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Information Retrieval Systeme Suchverfahren im Web

Ähnliche Präsentationen

Präsentation zum Thema: "Information Retrieval Systeme Suchverfahren im Web"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback