Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Inhalt der Präsentation

Ähnliche Präsentationen


Präsentation zum Thema: "Inhalt der Präsentation"—  Präsentation transkript:

1 Inhalt der Präsentation
Probleme der Informationssuche im WWW: Semantische Lücke Schlüsselwort-Suche Ranking-System Entwicklung des WebSifter II mit den folgenden Eigenschaften Genaue Semantikerfassung (umgehen der „semantischen Lücke“) Verbesserung der Schlüsselwort-Suche Benutzerdefinierte Beurteilung und Darstellung gefundener Webseiten Lösungsvorschlag

2 Weighted Semantic Taxonomy Tree (WSTT)
Die Suche eines Geschäftsmannes nach einem Bürostuhl Er durchsucht das Web alternativ nach: „chair“ „office“ AND „chair“ (a) und (b) sind einfache „taxonomy trees“, die schon von Suchmaschinen (z.B. Yahoo) benutzt werden (a) chair office (b) chair office

3 WSTT Beispiel eines WSTT in bezug auf die Suche des Geschäftsmannes
office equipment 10 office furniture 10 chair 9 desk 6 phone 4 office supplies 3 paper 3 pen 7 computers - Gewichte von 1 bis 10 - repräsentativer Term Vorteil: Gewichtszuordnung Nachteil: keine Eindeutigkeit der Terme

4 Wordnet Allgemein: linguistische Datenbank die die Wörter enthält, die dieselbe Semantik haben (Synsets) jedes Synset hat eine spezifische Bedeutung im Englischen, wobei jedes Wort mehrere Synsets (Konzepte) haben kann Beispiel „chair“: {chair, seat} A seat for one person, with a support for the back {professorship, chair} The position of professor, or a chaired professorship {president, chairman, chairwoman, chair, chairperson} The officer who presides at the meetings of an organization {electric chair, chair, death chair, hot seat} An instrument of death by electrocution that resembles a chair

5 Positive und negative Konzepte
{chair, seat} A seat for one person, with a support for the back {professorship, chair} The position of professor, or a chaired professorship {president, chairman, chairwoman, chair, chairperson} The officer who presides at the meetings of an organization {electric chair, chair, death chair, hot seat} An instrument of death by electrocution that resembles a chair Positive Konzepte: {chair, seat} Negative Konzepte: {professorship, president, chairman, chairwoman, chairperson, electric chair, death chair, hot seat}

6 Interne Repräsentation des WSTT
pct = {chair, seat} nct = {professorship, president, chairman, chairwoman, chairperson, electric chair, death chair, hot seat} 10 pct = {office furniture, furniture, piece of furniture, article of furniture} nct = {} pct = {office equipment} nct = {} 10 4 9 pct = {office supplies} nct = {} 7 6 pct = {desk, table} nct = {} pct = {computer, data processor, electronic computer, information processing, system, machine} nct = {calculator, reckoner, figurer, estimator} pct = {telephone, phone, telephone set, electronic equipment} nct = {speech sound, sound, earphone, earpiece, headphone}

7 Sammeln der Informationen
Übersetzung des WSTT in boolesche Ausdrücke, die für bestehende Suchmaschinen verständlich sind Generierung von Anfragen basierend auf den Pfaden des WSTT Logischer Operator „AND“ Beispiel: Pfad {office equipment, office furniture, chair} “office equipment” AND “office furniture” AND “chair” “office equipment” AND “office furniture” AND “seat” “office equipment” AND “furniture” AND “chair” “office equipment” AND “furniture” AND “seat” “office equipment” AND “piece of furniture” AND “chair” “office equipment” AND “piece of furniture” AND “seat” “office equipment” AND “article of furniture” AND “chair” “office equipment” AND “article of furniture” AND “seat”

8 Suchanfrage durch den Search Broker
Search Broker und Search Request Broker Search Broker schickt jede generierte Anfrage an bestehende Suchmaschinen wie Google, Yahoo, Altavista etc. Page Broker extrahiert den Inhalt der Seite mittels HTTP Anfrage Analyse der Resultate und Speicherung in interne Datenstruktur (XML) Query String Identifikation der Suchmaschine URL Titel Inhalt Rang von der Suchmaschine Kategorie (optional) Beliebtheit (optional)

9 Präsentation der Suchpräferenzen (1)
Semantische Komponente Inhalt der Seite Syntaktische Komponente Inhalt der URL, Struktur Kategorischer Treffer Ähnlichkeit zwischen Struktur des WSTT des Benutzers und Kategorie der Suchmaschine Suchmaschinen-Komponente Vorliebe und Vertrauen des Benutzers in Suchmaschinenergebnisse Authorität/Hub Komponente Beliebtheitskomponente

10 Präsentation der Suchpräferenzen
Schema User’s Search Preference 10 8 6 3 Semantic Component Syntactic Component Categorical Match Component Search Engine Component Popularity Component Authority/Hub Component 2 Benutzer kann den verschiedenen Komponenten Gewichte (von 1 bis 10) zuweisen Jede Seite erhält genau einen Relevanzwert, nachdem die Seiten sortiert werden Jede Seite hat genau 6 Relevanzwerte bestimmt durch die Gewichte Mittels AHP werden diese in einem Wert vereint

11 Systemarchitektur WebSifter II
Ontology Engine (Wordnet) World Wide Web and Internet Ontology Agent Stemming Agent Spell Checker Agent WSTT Base WSTT Elicitor Search Broker External Search Engines Personalized Evaluation Rule Base List of Web Pages Search Engine Preference Personal Preference Agent Web Page Rater Component Preference Base Ranked Web Pages Page Request Broker

12 Komponenten des Web Sifter II
WSTT Elictor Unterstützt die Erstellung des WSTT in der GUI Umgebung Erstellung des taxonomy trees Gewichtszuweisung der Knoten Auswahl des entsprechenden Konzepts (Wordnet) Speicherung des fertigen WSTT in XML-Format in der WSTT Base Ontology Agent Anfrage an Wordnet (Web Version) für Auswahl der Konzepte Kann modifiziert werden um mit anderen Wörterbüchern zu arbeiten

13 Komponenten des WebSifter II (2)
Stemming Agent Arbeitet mit Porter‘s Algorithmus Kooperiert mit WSTT Elictor, indem er die Konzepte in Stammformen verwandelt Transformiert den Inhalt der gefundenen Webseite in Stammformen, um Anfrage und Ergebnis vergleichen zu können Spell Check Agent Beobachtet die Texteingaben des Benutzers und prüft und macht Vorschläge für eine korrekte Rechtschreibung in Echtzeit

14 Komponenten des WebSifter II (5)
Search Preference Elictor Unterstützt den Prozess, der nötig ist, die Suchpräferenzen des Benutzers zu erfassen Gewichtszuweisung der Suchpräferenzen (Component Preference Base) Präferenz für Suchmaschinen (Search Engine Preference) Präferenzen für syntaktische Regeln (Personalized Evaluation Rule Base) Direct Hit, Directory Hit, Page Hit

15 Komponenten des WebSifter II (4)
Search Broker Interpretiert den XML-basierenden WSTT und generiert dann alle möglichen Anfragen für die Suchmaschinen Schickt diese booleschen Anfragen an bestehende Suchmaschinen Interpretiert die Resultate der Suchmaschinen und speichert die geparsten Informationen in einer temporären Datenbank Aktiviert nach seinem Ablauf den Page Request Broker Page Request Broker Anfrage des Inhalts einer spezifischen URL Kooperiert mit Stemming Agent und Web Page Rater Web Page Rater Unterstützt die gesamte Auswertung der Webseiten Darstellung der Ergebnisse für den Benutzer

16 Fazit Entwicklung des WSTT Umgehen der semantischen Lücke (Wordnet)
Aktive Suche des Benutzers, mehr Ausdruckskraft Suchpräferenzen Darstellung der Suchpräferenzen des Benutzers Semantische Relevanz, syntaktische Relevanz etc.


Herunterladen ppt "Inhalt der Präsentation"

Ähnliche Präsentationen


Google-Anzeigen