Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Inhalt der Präsentation Probleme der Informationssuche im WWW: – Semantische Lücke – Schlüsselwort-Suche – Ranking-System Entwicklung des WebSifter II.

Ähnliche Präsentationen


Präsentation zum Thema: "Inhalt der Präsentation Probleme der Informationssuche im WWW: – Semantische Lücke – Schlüsselwort-Suche – Ranking-System Entwicklung des WebSifter II."—  Präsentation transkript:

1 Inhalt der Präsentation Probleme der Informationssuche im WWW: – Semantische Lücke – Schlüsselwort-Suche – Ranking-System Entwicklung des WebSifter II mit den folgenden Eigenschaften – Genaue Semantikerfassung (umgehen der semantischen Lücke) – Verbesserung der Schlüsselwort-Suche – Benutzerdefinierte Beurteilung und Darstellung gefundener Webseiten Lösungsvorschlag

2 Weighted Semantic Taxonomy Tree (WSTT) Die Suche eines Geschäftsmannes nach einem Bürostuhl Er durchsucht das Web alternativ nach: chair office AND chair (a) und (b) sind einfache taxonomy trees, die schon von Suchmaschinen (z.B. Yahoo) benutzt werden chair office chair office (a)(b)

3 WSTT Beispiel eines WSTT in bezug auf die Suche des Geschäftsmannes office equipmentoffice furniturechair desk phone office suppliespaper pen computers Gewichte von 1 bis 10 - repräsentativer Term Vorteil: Gewichtszuordnung Nachteil: keine Eindeutigkeit der Terme

4 Wordnet Allgemein: – linguistische Datenbank die die Wörter enthält, die dieselbe Semantik haben (Synsets) – jedes Synset hat eine spezifische Bedeutung im Englischen, wobei jedes Wort mehrere Synsets (Konzepte) haben kann Beispiel chair: {chair, seat} A seat for one person, with a support for the back {professorship, chair} The position of professor, or a chaired professorship {president, chairman, chairwoman, chair, chairperson} The officer who presides at the meetings of an organization {electric chair, chair, death chair, hot seat} An instrument of death by electrocution that resembles a chair

5 Positive und negative Konzepte Positive Konzepte: {chair, seat} Negative Konzepte: {professorship, president, chairman, chairwoman, chairperson, electric chair, death chair, hot seat} {chair, seat} A seat for one person, with a support for the back {professorship, chair} The position of professor, or a chaired professorship {president, chairman, chairwoman, chair, chairperson} The officer who presides at the meetings of an organization {electric chair, chair, death chair, hot seat} An instrument of death by electrocution that resembles a chair

6 Interne Repräsentation des WSTT pct = {office equipment} nct = {} pct = {office furniture, furniture, piece of furniture, article of furniture} nct = {} pct = {office supplies} nct = {} pct = {computer, data processor, electronic computer, information processing, system, machine} nct = {calculator, reckoner, figurer, estimator} pct = {chair, seat} nct = {professorship, president, chairman, chairwoman, chairperson, electric chair, death chair, hot seat} pct = {desk, table} nct = {} pct = {telephone, phone, telephone set, electronic equipment} nct = {speech sound, sound, earphone, earpiece, headphone}

7 Sammeln der Informationen Übersetzung des WSTT in boolesche Ausdrücke, die für bestehende Suchmaschinen verständlich sind – Generierung von Anfragen basierend auf den Pfaden des WSTT – Logischer Operator AND Beispiel: Pfad {office equipment, office furniture, chair} – office equipment AND office furniture AND chair – office equipment AND office furniture AND seat – office equipment AND furniture AND chair – office equipment AND furniture AND seat – office equipment AND piece of furniture AND chair – office equipment AND piece of furniture AND seat – office equipment AND article of furniture AND chair – office equipment AND article of furniture AND seat

8 Suchanfrage durch den Search Broker Search Broker und Search Request Broker – Search Broker schickt jede generierte Anfrage an bestehende Suchmaschinen wie Google, Yahoo, Altavista etc. – Page Broker extrahiert den Inhalt der Seite mittels HTTP Anfrage Analyse der Resultate und Speicherung in interne Datenstruktur (XML) – Query String – Identifikation der Suchmaschine – URL – Titel – Inhalt – Rang von der Suchmaschine – Kategorie (optional) – Beliebtheit (optional)

9 Präsentation der Suchpräferenzen (1) Semantische Komponente – Inhalt der Seite Syntaktische Komponente – Inhalt der URL, Struktur Kategorischer Treffer – Ähnlichkeit zwischen Struktur des WSTT des Benutzers und Kategorie der Suchmaschine Suchmaschinen-Komponente – Vorliebe und Vertrauen des Benutzers in Suchmaschinenergebnisse Authorität/Hub Komponente Beliebtheitskomponente

10 Präsentation der Suchpräferenzen Benutzer kann den verschiedenen Komponenten Gewichte (von 1 bis 10) zuweisen Jede Seite erhält genau einen Relevanzwert, nachdem die Seiten sortiert werden – Jede Seite hat genau 6 Relevanzwerte bestimmt durch die Gewichte – Mittels AHP werden diese in einem Wert vereint Users Search Preference Semantic Component Syntactic Component Categorical Match Component Search Engine Component Popularity Component Authority/Hub Component 2 Schema

11 Systemarchitektur WebSifter II WSTT Elicitor Ontology Agent WSTT Base Stemming Agent Spell Checker Agent Search Broker List of Web Pages External Search Engines Ontology Engine (Wordnet) Web Page Rater World Wide Web and Internet Personal Preference Agent Search Engine Preference Personalized Evaluation Rule Base Ranked Web Pages Component Preference Base Page Request Broker

12 Komponenten des Web Sifter II WSTT Elictor – Unterstützt die Erstellung des WSTT in der GUI Umgebung Erstellung des taxonomy trees Gewichtszuweisung der Knoten Auswahl des entsprechenden Konzepts (Wordnet) – Speicherung des fertigen WSTT in XML-Format in der WSTT Base Ontology Agent – Anfrage an Wordnet (Web Version) für Auswahl der Konzepte – Kann modifiziert werden um mit anderen Wörterbüchern zu arbeiten

13 Komponenten des WebSifter II (2) Stemming Agent – Arbeitet mit Porters Algorithmus –Kooperiert mit WSTT Elictor, indem er die Konzepte in Stammformen verwandelt –Transformiert den Inhalt der gefundenen Webseite in Stammformen, um Anfrage und Ergebnis vergleichen zu können Spell Check Agent – Beobachtet die Texteingaben des Benutzers und prüft und macht Vorschläge für eine korrekte Rechtschreibung in Echtzeit

14 Komponenten des WebSifter II (5) Search Preference Elictor – Unterstützt den Prozess, der nötig ist, die Suchpräferenzen des Benutzers zu erfassen Gewichtszuweisung der Suchpräferenzen (Component Preference Base) Präferenz für Suchmaschinen (Search Engine Preference) Präferenzen für syntaktische Regeln (Personalized Evaluation Rule Base) –Direct Hit, Directory Hit, Page Hit

15 Komponenten des WebSifter II (4) Search Broker – Interpretiert den XML-basierenden WSTT und generiert dann alle möglichen Anfragen für die Suchmaschinen – Schickt diese booleschen Anfragen an bestehende Suchmaschinen – Interpretiert die Resultate der Suchmaschinen und speichert die geparsten Informationen in einer temporären Datenbank – Aktiviert nach seinem Ablauf den Page Request Broker Page Request Broker – Anfrage des Inhalts einer spezifischen URL – Kooperiert mit Stemming Agent und Web Page Rater Web Page Rater – Unterstützt die gesamte Auswertung der Webseiten – Darstellung der Ergebnisse für den Benutzer

16 Fazit Entwicklung des WSTT – Umgehen der semantischen Lücke (Wordnet) – Aktive Suche des Benutzers, mehr Ausdruckskraft Suchpräferenzen – Darstellung der Suchpräferenzen des Benutzers Semantische Relevanz, syntaktische Relevanz etc.


Herunterladen ppt "Inhalt der Präsentation Probleme der Informationssuche im WWW: – Semantische Lücke – Schlüsselwort-Suche – Ranking-System Entwicklung des WebSifter II."

Ähnliche Präsentationen


Google-Anzeigen