Semantisch gestützte Suche im Internet

Slides:



Advertisements
Ähnliche Präsentationen
Hinweise zur Lizenz Diese PowerPoint-Präsentation steht unter der Creative-Commons CC-BY-NC-SA-Lizenz Sie dürfen: das Werk vervielfältigen, verbreiten.
Advertisements

Kohonennetze für Information Retrieval mit User Feedback
Tipps und Tricks bei der Internetsuche
Ein einführendes Tutorial
Julika Mimkes ISN Oldenburg LiLi Links zu Lerninhalten der Physik Eine Datenbank zu verteilten Quellen Julika Mimkes Institute.
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
8 Behandlung von Begriffen 8.1 Grundlagen aus Logik und Psychologie
Kapitel 4 Datenstrukturen
Harmonisierung von Ontologien Martin Zobel. Was versteht man in der Informatik unter einer Ontologie? Wikipedia: Unter Ontologie versteht man in der Informatik.
Mein EBSCOhost-Lernprogramm
Support.ebsco.com Business Source-Suche in EBSCOhost Lernprogramm.
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
Datenbanken vs. Markup Manfred Thaller WS 2009/2010 Humanities Computing Linda Scholz.
1 KM-Modul: Knowledge Wizard Personalisierte Verknüpfung von Wissensprozessen und Geschäftsprozessen auf Basis von Metainformationen Dr. Marc Diefenbruch.
Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.
Jan Fienhold1 Institut für Informatik Betriebliche Informationssysteme OWL Web Ontology Language.
Ontologische Visualisierung von Genexpressionsdaten aus Makroarray-Experimenten Bioinformatik Praktikum David Rudolph, Michael Tauer Thema 6.
Access 2000 Datenbanken.
Wie funktionieren Suchmaschinen?
Informationsarchitektur Beschreiben und Benennen
Relevanz Ranking Bisher:
Jakob Voß: Grundlegende Aspekte des Semantic Web: Modellierung von Ontologien ( ) Modellierung von Ontologien Jakob Voß
Concurrent Versions System
MeiNetz-Suche Wie kann man in meiNetz etwas suchen? 1.durch Gruppen browsen 2.Suchfunktion.
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
Titelmasterformat durch Klicken bearbeiten Formatvorlage des Untertitelmasters durch Klicken bearbeiten Die formalen Sprachen bei ETAP Teil II.
Entitäten Extraktion Einführung
Zur Extension von Begriffen: existierende „Ontologien“ bzw
Suchmaschinen Das "Surfen" im Internet ist eine gewisse Zeit lang interes-sant, aber auf Dauer ist dies ineffektiv und teuer, wenn man bestimmte Informationen.
Zur Arbeit mit Suchmaschinen
Knowledge Discovery mit Wordnet und Alembic Workbench
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
W w w. s a f e r i n t e r n e t. a t Die Welt zu Hause Informationen suchen und finden.
Kurs: Digital Objects Processing - CMS vs. Digital Library
Suchmaschinen am Theo Groß und Bernhard Meyer.
8 WWW-Informationen suchen und finden
Suchen im Internet Eine Einführung. Suchen im Internet Wer bietet Informationen an? è Privatpersonen è Kommerzielle Organisationen, Firmen è Universitäten,
Theologische Hochschule Friedensau BS5P1-3: Literaturstudium und Recherche Baustein 7 Recherche im Internet 1 Dozent: Dietmar Päschel, Dipl.-Theol. Wintersemester.
Ontologien und DAML+OIL
Ontologien im Wissensmanagement
Clever Search: A WordNet Based Wrapper for Internet Search Engines Peter M. Kruse, André Naujoks, Manuela Kunze, Dietmar Rösner Otto-von-Guericke-Universität.
Lexikalische Semantik
Übung zu Einführung in die LDV I
Suchmaschinen.
SB 4 Exkurs These: Algorithmierung liegt begrifflich in einer Nähe zum Begriff Geschäftsprozess.
Die Ganze Welt im Computer? Informationsbeschaffung im Internet
Theoretischer Hintergrund Systematische Wortschatzarbeit –
Bedeutungsbeziehungen
Google (Web-Suchmaschine) Google Books Google Scholar
Das Interenet als Recherchemedium nutzen!
Informationsrecherche & Analyse im Netz
26. Oktober 2005Autor: Walter Leuenberger Computeria Urdorf Treff vom 26. Oktober 2005 Suchmaschinen im Internet Google & Co.
Semantic Web.
2 Grundlagen In diesem Abschnitt werden die Grundbegriffe und Methoden der Theorie der formalen Sprachen und der Automaten wiederholt, soweit diese ben.
Semantische Netze im Recht
The PicSOM Retrieval System 1 Christian Steinberg.
Dreamteam: Web 2.0 und der Katalog Anne Christensen und Thomas Hapke GBV-Verbundkonferenz
Lexikalische Semantik
Tanja Eder Slawische Korpuslinguistik Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association.
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
VO#1: Lexikologie als sprachwissenschaftliche Disziplin Lexikologie, Matej-Bel-Univeristät in Banská Bystrica, Z. Tuhárska.
1) Das Wort als sprachliche Grundeinheit; 2) Das Problem der Grundeinheit der Sprache 3) Die Definition des Wortes;
Vo#1:Semantik als Wissenschaft Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.
Wie verwende ich Suchmaschinen richtig?
Suchen und Finden Wie verwende ich Suchmaschinen richtig?
 Präsentation transkript:

Semantisch gestützte Suche im Internet TaxoSearch Semantisch gestützte Suche im Internet

Was ist TaxoSearch? Tool zur automatischen semantischen Erweiterung einer Suchanfrage Schnittstelle für Internet-Suche mittels mehrerer Web-Suchmaschinen Information-Retrieval System zur Aufbereitung der Suchergebnisse

Ziele des Projekts TaxoSearch Erhöhung der Trefferquote durch automatische Erweiterung der Suchanfrage Begrenzung der Suchergebnisse auf relevante Dokumente Sinnvolles Ranking der Ergebnisse durch Information Retrieval

Namensfindung Ursprünglich: OntoSearch Jetzt : TaxoSearch Ontologie + Search Aber OntoSearch™ 1.0 von Ontos AG (ontosearch.com) Jetzt : TaxoSearch Taxonomie + Search

Was versteht man unter „Ontologie“? „Ontologie ist eine explizite begriffliche Formalisierung eines Anwendungsbereiches. Sie dient der Wissensrepräsentation zum Zwecke der zwischenmenschlichen Kommunikation, aber vor allem auch der computergestützten Wissensverarbeitung.“ Eine Ontologie ist eine explizite, formale Spezifizierung einer gemeinsamen Konzeptualisierung eine explizite Spezifikation von Begriffen (concepts) und deren Beziehungen in einem Bereich (domain) meist Taxonomie, Klassifikationsordnung oder eine Katalogerstellung von Objekten und deren Zusammenhang

Taxonomie Lehre von der Bildung der verschiedenen Kategorien (Taxa), in die die Naturgegenstände eingeteilt werden. Teilgebiet der Linguistik, auf dem man durch Segmentierung und Klassifikation sprachlicher Einheiten den Aufbau eines Sprachsystems beschreiben will. WordNet

WordNet WordNet ist eine semantische (allgemeinorientierte) Wortdatenbank, die an der University of Princeton erstellt wurde http://www.cogsci.princeton.edu/~wn/ WordNet ist eine hierarchische Datenbank, die erfassten Konzepte werden in Baumform konzeptualisiert. WordNet ist ein erweitertes Lexikon, dessen Design an aktuelle psycholinguistische Theorien des menschlichen Wortgedächtnisses angelehnt ist. Englische Nomen, Verben und Adjektive werden in sogenannten Synonym Sets organisiert, von denen jeder ein zugrundeliegendes lexikalisches Konzept repräsentiert. Verschiedene Beziehungen verbinden diese Synonym Sets.

WordNet II WordNet speichert seine Informationen nicht nach alphabetischen, sondern nach konzeptuellen Gesichtspunkten. Begriffe gleicher oder ähnlicher Bedeutung werden zusammen abgelegt. die Datenbank von WordNet umfaßt im Gegensatz zu früheren Projekten ungefähr 95600 verschiedene Wortformen, welche in ca. 70100 Bedeutungsklassen (Synonym Sets) eingeordnet sind. WordNet unterteilt das Lexikon in 5 Kategorien : Nomen, Verben, Adjektive, Adverben und Funktionswörter (nicht implementiert). Diese Einteilung beruht auf Untersuchungen über Wortassoziationen von Fillenbaum und Jones (1965) Der Nachteil dieser Vorgehensweise besteht darin, daß mache Wörter in mehr als eine syntaktische Kategorie hineinfallen können und somit mehrmals gespeichert werden müssen.

Wordnet III Synonyme : Dies ist die wichtigste Beziehung in WordNet. Dabei wird eine erweiterte Definition verwendet, nach der zwei Ausdrücke synonym sind, wenn der Austausch des einen Wortes durch das andere den Wahrheitswert einer Aussage nicht verändert. Ein Beispiel für Synonyme sind z.B. Fantasie und Vorstellungskraft. Antonyme : Antonyme sind Wörter gegensätzlicher Bedeutung. Ein Beispiel dafür ist aufgehen - untergehen. Hyponyme : Ein Hyponym ist eine Verfeinerung, besitzt also eine speziellere Bedeutung als das Wort, auf das es sich bezieht. Beispiel : Haus ist Hyponym von Gebäude. Hypernym : Hypernym ist das Gegenteil von Hyponym, also eine Verallgemeinerung des Ursprungswortes. Beispiel : Tier ist Hypernym von Katze. Meronym : Meronym ist ein Teil einer Gesamtheit. Beispiel : Rad ist Meronym von Auto. Holonym : Holonym ist das Gegenteil von Meronym. Beispiel : Baum ist Holonym von Ast. Morphologische Relationen : Morphologische Relationen beschreiben die syntaktische Abhängigkeit eines Wortes vom Kontext. Beispiel: Pluralformen.

Schematischer Aufbau Semantisches Netz Internet User TaxoSearch Engine Kommezielle Suchmaschinen Web Queries Web Search Angebot Wortfeld Auswahl Erste Ergebnisse Endergebnis End- Ergebnis Erste Ergebnisse IR-Modul

Funktionsweise TaxoSearch Rückgabe der Endergebnisse Internet User Schritt 6: IR-Modul alle relevanten Bedeutengen Suchanfrage Schritt 1: Suchanfrage parsen relevante Bedeutungen Liste der Links Suchbegriffe aus der Suchanfrage Schritt 5: Ergebnistransformator Schritt 3: Synonym-Generator Schritt 2: Bedeutungs-Klassifizierung Ergebnisse der Suchmaschinen erweiterte Suchanfrage Kommerzielle Suchmaschinen Schritt 4: Search Syntax Generator Websuchanfrage

Schritt 1: Suchanfrage Eingabe der Suchanfrage über GUI

Schritt 2: Bedeutungsklassifizierung Bei Wörtern mit mehr als einer Bedeutung werden diese dem Benutzer zur Auswahl zurückgegeben Benutzer wählt gewünschtes Bedeutungsfeld aus

Schritt 3: Synonym Generator Benutzer hat Bedeutungsfeld des / der Suchbegriffe festgelegt Synonym Generator erweitert die Suchanfrage durch Synonyme

Schritt 4: Search Syntax Generator Aufbereitung der Suchanfrage-URL für die unterschiedlichen Suchmaschinen Verfügbare Suchmaschinen zunächst nur google.com und altavista.com

Schritt 5: Ergebnistransformator Auslesen der Ergebnisseiten aller Suchmaschinen Ausfiltern doppelter Suchtreffer Aufbereiten der Ergebnisse für IR-Modul

Schritt 6: IR-Modul Analyse der gefundenen Dokumente Ranking der Dokumente nach Relevanz Methode: Vektormodell

(Schritt 7: Ergebnisse anzeigen) Ausgabe der Ergebnisliste Eventuell auf dynamisch generierter HTML-Seite

Erwartete Probleme Hohes Datentransfervolumen Noch keine empirischen Untersuchungen, ob dieses Verfahren die Trefferquote wirklich steigert Begrenzt durch Datenbestand in WordNet