"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim

Slides:



Advertisements
Ähnliche Präsentationen
Alexander Stuber & Partner
Advertisements

PRESENTATION HEADLINE
Vernetzung von Repositorien : DRIVER Guidelines Dr Dale Peters, SUB Goettingen 4. Helmholtz Open Access Workshop Potsdam, 17 Juni 2008.
Finding the Pattern You Need: The Design Pattern Intent Ontology
Copyright © Siemens Enterprise Communications GmbH & Co. KG All rights reserved. Siemens Enterprise Communications GmbH & Co. KG is a Trademark Licensee.
Automated IT Change Planning
ServiceGlobe: Flexible and Reliable Web Service Execution Markus Keidl, Stefan Seltzsam und Alfons Kemper Universität Passau Fakultät für Mathematik und.
Webseitenranking für Suchanfragen anhand von Linkgraphen
SharePoint “v2.0” Übersicht über Produkte und Technologien
Die ZBW ist Mitglied der Leibniz-Gemeinschaft Copyright © ZBW 2010 Seite 1 Potenziale semantischer Technologien für die Bibliothek der Zukunft Klaus Tochtermann.
© 2006 Open Grid Forum OGF26 - Chapel Hill, May 2009 Addressing Metadata Challenges OGF Digital Repositories RG.
Steinbeis Forschungsinstitut für solare und zukunftsfähige thermische Energiesysteme Nobelstr. 15 D Stuttgart WP 4 Developing SEC.
Modulare Aufbereitung von Lehr-/Lerninhalten Khaldoun Ateyeh Peter C. Lockemann Jutta Mülle Universität Karlsruhe.
Daffodil Such-/ Agentensystem zur Literaturrecherche in Digitalen Bibliotheken Prototypen PIANO, 2000 zielt auf strategische Unterstützung während Informationssuchprozesses.
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.
HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 1 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Vorlesung.
Personalisierte Benutzeroberflächen BFD WS 12/13 Übung 6 Producing an end-user experience that is uniquely appropriate for each individual. [Sears]
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
HTML - Einführung Richard Göbel.
We test your ideas. Test us. ASAM-ODS Benutzertreffen, Glashütten 16. Juni 2005 Page 1 Eine Suchmaschine für ASAM-ODS Dr. Bruno Thelen
Proactivity for nomadic devices
XML Entwicklungen in Giessen XML Clearinghouse - Berlin,
Semantisch gestützte Suche im Internet
Relevanz Ranking Bisher:
Forschungsgruppe Informationssysteme und Semantic Web
DVG Verkettete Listen Verkettete Listen. DVG Verkettete Listen 2 Primitive Datentypen Vorteile: –werden direkt vom Prozessor unterstützt.
WWW-Anfragesprachen Seminar Datenbanken Vortrag von Jörg Sorg.
PageRank 1.What does the graph represent? 2.Describe PageRank. 3.What does PageRank measure in a graph? 4.Which role does PageRank play in IR?
CTS2 based Terminology Server – Overview – Project eBPG
Status eSciDoc Malte Dreyer eSciDoc Hauptaktivitäten in 2006 Abstimmung mit den Zielgruppen Funktionale Anforderungserhebung mit.
Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik
Wie Google Webseiten bewertet
5 Jahre Semantic Network Service (SNS) Aktueller Stand und Ausblick Maria Rüther, Thomas Bandholtz,
Formatvorlage des Untertitelmasters durch Klicken bearbeiten Platin-Partner: Gold-Partner: Veranstaltungs-Partner: Medien-Partner: Web Content Management.
Hyperlinks und Anker Links notieren
AGENDA Abgrenzung SEO zu SEA Suchmaschinenwerbung (SEA)
Case Study Session in 9th GCSM: NEGA-Resources-Approach
Machen Sie sich schlau am Beispiel Schizophrenie.
Institute for Program Structures and Data Organization Universität Karlsruhe Germany Entwicklung eines Suchsystems und einer.
Semantic Web – Utopie? Universität Zürich – Institut für Informatik E-Business für Unternehmungen und öffentliche Verwaltungen Wintersemester 2002/03 20.
Anwendungsentwicklung. … überlegen sie mal… Wir beschäftigen uns mit dem Aufbau der Arbeitsweise und der Gestaltung von betrieblichen Informationssystemen.
Clever Search: A WordNet Based Wrapper for Internet Search Engines Peter M. Kruse, André Naujoks, Manuela Kunze, Dietmar Rösner Otto-von-Guericke-Universität.
INOSOFT präsentiert Das Visualisierungssystem mit den „“ Möglichkeiten unter Die Brücke zwischen Mensch und Maschine.
Institut AIFB, Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Towards Automatic Composition of Processes based on Semantic.
OpenSource Loadbalancer im Vergleich zu kommerziellen systemem Thomas stahl Diplomarbeit SS 2002.
Alles google, oder was? Richtig googeln spart Zeit
ETS4 - Was ist neu? - Wie fange ich an? - Noch Fragen?
The free XML Editor for Windows COOKTOP Semistrukturierte Daten 1 Vortrag Semistrukturierte Daten 1 COOKTOP The free XML-Editor for Windows
Ressourcen in Process-Aware Information Systems Paul Hübner | | DBIS Seminar Betreuer : Andreas Lanz Quelle : Seven Fallacies.
Semantic Annotations in Web Engineering Tobias Zanke.
XML IV: Cocoon 2.
Staatsballett Berlin Ein Verbesserungskonzept für den Social- Media Auftritt Your picture here.
KIT – University of the State of Baden-Württemberg and National Large-scale Research Center of the Helmholtz Association Institute of Applied Informatics.
Modul 1 Suchumgebung (3): Suchsysteme
Office Business Anwendungen mit SharePoint Fabian Moritz | MVP Office SharePoint Server.
3rd Review, Vienna, 16th of April 1999 SIT-MOON ESPRIT Project Nr Siemens AG Österreich Robotiker Technische Universität Wien Politecnico di Milano.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
KIT – die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH) Vorlesung Knowledge Discovery - Institut AIFB Tempus fugit Towards.
Ressourcen in Process-Aware Information Systems Paul Hübner | | DBIS Seminar Betreuer : Andreas Lanz Quelle : Seven Fallacies.
Linked Data und semantische Suchfunktionalität in Europeana
Data Mining Spectral Clustering Junli Zhu SS 2005.
An Approach to standardize a Service Life Cycle Management
Seminar: Neue Ansätze der Künstlichen Intelligenz Seite 1Ulf Schneider02. Juli 2002 Ulf Schneider Neue Ansätze der Künstlichen Intelligenz: OIL Ontology.
The PicSOM Retrieval System 1 Christian Steinberg.
Das Internet Ein Netzwerk, das viele Rechner miteinander verbindet
The PageRank Axioms Johannes Zaunschirm. Überblick / Outline  Alon Altman and Moshe Tennenholtz. “Ranking Systems: The PageRank Axioms”., 2005  Basisstruktur.
Wie verwende ich Suchmaschinen richtig?
Hypertext 2015/2016.
Marketingcontrolling Kapitel 4: Suchmaschinenmarketing Teil 1
Wie sucht man im Internet und welche Web-Browser kennt man
 Präsentation transkript:

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim2 Motivation Information Overload Suche nach konkreten Inhalten im Netz Z.B.: Ziel: bessere Suchergebnisse, aber weniger Einsatz von Manpower

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim3 Agenda The CLEVER Project Enhancements to HITS algorithm Hypertext Classification Mining Communities. Focused Crawling (en detail) Ontology-Focused Crawling

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim4 Clever Searching Problem: traditionelle automatische Methoden zum Finden von Informationen werden durch qualitativ schlechte, unverknüpfte Inhalte überwältigt Zur Lösung werden mehrere Ansätze gebraucht: Enhancements to HITS algorithm Hypertext Classification Mining Communities Focused Crawling

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim5 kurz angerissen: HITS Algorithmen Verbesserung der Ranking-Algorithmen von Suchmaschinen Prezision und Funktionalität der zugrunde liegenden Algorithmen verbessern z.B. durch Geschwindigkeit und größeren Datenvorhalt Nutzung von Querverweisen (Google u.a.) Werbung

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim6 kurz angerissen: Hypertext Classification Kombination von Textauswertung und eines Graphes der Verlinkung z.B. gut geeignet für einheitlich strukturierte Daten (Patentdatenbank oder Yahoo-Kategorien) Fehler fällt von 36 auf 21% Probleme bei vielen nicht direkt verlinkten Webseiten

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim7 kurz angerissen: Mining Communities Im Netz findet man rund 100,000 verschiedene Gruppen von Leuten, die, basierend auf gleichen Interessen innerhalb oder für ihre Community, Webseiten erstellen und pflegen meist qualitativ hochwertige Informationen auf speziellen Gebieten Problem: Finden solcher Gruppen / Seiten Einbinden in ein einheitliches Framework

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim8 Agenda The CLEVER Project Enhancements to HITS algorithm Hypertext Classification Mining Communities. Focused Crawling (en detail) Ontology-Focused Crawling

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim9 Beispiel ARC – Anfänge Automatic Recource Compiler Motivation: Yahoo und andere Webkataloge beschäftigen viele Leute als Surfer, das geht auch automatisch Annahme: 2 Sorten von interessanten Seiten authority pages – beinhalten Informationen hub pages – verlinken thematisch verbundene authority pages

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim10 ARC - Ablauf Rootset mit Suchmaschine erstellen Erweitern des Rootsets durch alle in- linking und out-linking Seiten Wertung der Seiten (Wiederholt): authority a(p) = sum h(p) in-linking hub a(p) = sum a(p) out-linking Wichtung der Werte durch den Text rund um den href-Tag

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim11 ARC – Berechnung einfachen, schnelle Berechnung 2 Vektoren (a, h), 2 Matrix (W, Z=W T ) h wird auf 1 gesetzt k mal {a = W * h h = Z * a }

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim12 ARC - Ergebnisse 15 beste authority und hub pages wurden mit den Ergebnissen von Yahoo und Infoseek an die Probanden gegeben (kein Blindtest) Einschätzung: ARC gleichauf mit von Menschen erstellten Listen etwas besser bei speziellen oder nicht kommerziellen Topics

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim13 Motivation: Focused Crawler Crawler soll sich einen optimalen Weg durch das Web suchen gezieltes Raten durch Abschätung der Relevanz Unwichtig Netzteile werden ignoriert

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim14 Beispiel – Focused Crawler relevante Seiten zu einer Themenliste (gegeben als Webseiten) erstellen Relevanz–Taxonomie aus Beispiel- Seiten entwickeln 2 Programmteile zum Hypertextmining classifier – Relevanz des Dokuments distiller – identifiziert Seiten, die innerhalb weniger Links auf relevante Seiten verweisen (hubs)

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim15 Focused Crawler – Ergebnisse keine irrelevanten Seiten innerhalb der ersten par hundert im Durchschnitt: rund 3000 relevante Seiten innerhalb eine Stunde mit Desktop PC Problem: Verbesserung des destillers in Bezug auf nicht-textuelle Inhalte, zu untersuchende Linktiefe Auswahl der Lernstichprobe

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim16 Agenda The CLEVER Project Enhancements to HITS algorithm Hypertext Classification Mining Communities. Focused Crawling (en detail) Ontology-Focused Crawling

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim17 Ontology Focused Crawling CATYRPEL – ontology focused crawling framework Einbeziehung von Ontologien und neuen begrifflich und linguistisch Mitteln zur Verbesserung der Relevanz-Berechnung verständliche Arbeitsumgebung / Tools

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim18 System Parts User Interaktion Ontologie, Start-URLs vorgeben Web crawling abrufen von Links (Relevanz-geordnet) Preprozessing Text normalisieren, Wörterbücher anwenden Ontologie Management Relevanz Berechnung

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim19 Abläufe im System 2 Kreisprozesse 1)Ontology cycle hauptsächlich manuell definieren des crawling targets durch instanziierte Ontologie output: Dokumentenliste mit gefundenen Seiten Vorschläge zur Erweiterung der Ontologie 2)Internet crawler Seiten holen und durch Verknüpfung mit der Ontologie Relevanz berechnen interssante Links erkennen

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim20 System Parts & Ablauf

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim21 Relevanz Berechnung – 3 Phasen Establish Entity Reference mit Hilfe von Lexikas, Grammatiken und Thesaurus einzelne Begriffs-Token identifizieren zählen Background Knowlegde Computation Relevanz der Token berechnen Summarisation Berechnen des Seitenrankings nur Elemente des Suchraums werden einbezogen

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim22 Ontologie (Ausschnitt) airplanevehicletransportspassengerpersonMarc Muster military airplane commercial airplane B747A340 owned by airline Lufthansafliesflight subClassOf domain range instanceOf

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim23 Relevanz Sets Wirken wie ein Filter, die nur bestimmte Token in die Berechnung einfließen lassen: Single: Elemente, die im Dokument vorkommen Taxonomic: Elemente, die in der Ontologie direkt verknüpft sind Relational: Elemente, die direkt verknüpft sind, + ihre Relationen (also mit Reichweite 2) Total: Elemente aus gesammter Ontologie, aber gewichtet durch Entfernung von zentralem Fragebegriff mit jedem Entfernungschritt wird das Gewicht um 50% geringer

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim24 Relevanz Sets airplanevehicletransportspassengerpersonMarc Muster military airplane commercial airplane B747A340 owned by airline Lufthansafliesflight Single Taxonomic Relational Total subClassOf domain range relation instanceOf

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim25 Beispiel – Berechnung Lufthansa just received ist newest Airbus A340 from the base in Toulouse. Airbus Industries added some new features to this version of the airplane. textcountratingscore ontology airbu_ lufthansa airplane vers_ airbus = 2 lufthansa = 1 airplane = 1 airbus = 2 lufthansa = 1 airplane = 4 score = 4 1. lexicon lookup 2. relevance relational, sum 3. summarization Anscheinend nicht vollständig, oder nicht konsequent mit den selben Vorgaben gearbeitet.

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim26 Ergebnisse deutliche Verbesserung von Standard-Crawlern nächste Ausbaustufe: auch Auswertung von Metadata

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim27 Zusammenfassung weites Forschungsfeld sehr gute Möglichkeiten zur Suche spezieller Informationen in bestimmten Einsatzgebieten es fehlt eine Engine, die schon gegebene Ontologien auswertet

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim28 Quellen 1)S. Chakrabarti, B. Dom, P. Raghavan, S. Rajagopalan. D. Gibson, J. Kleinberg, Automatic resource compilation by analyzing hyperling structure and associated text, WWW )S. Chakrabarti, B. Dom and P. Indyk, Enhanced hypertext categorization using hyperlinks, ACM SIGMOD )S. Chakrabarti, M. van den Berg, B. Dom, Focused crawling: a new approach to topic-Specific Web resource discovery, Elsevier Science )S. Chakrabarti, K. Punera, M. Subramanyam, Accelerated Focused crawling through Online Relevance Feedback, WWW )B. Berendt, A. Hotho, G. Stumme, Towards Semantic Web Mining, The Semantic Web - ISWC )M. Ehring, A. Maedche, Ontology-Focused Crawling of Web Dokuments, SAC 2003