Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim

Ähnliche Präsentationen


Präsentation zum Thema: ""Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim"—  Präsentation transkript:

1 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

2 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim2 Motivation Information Overload Suche nach konkreten Inhalten im Netz Z.B.: Ziel: bessere Suchergebnisse, aber weniger Einsatz von Manpower

3 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim3 Agenda The CLEVER Project Enhancements to HITS algorithm Hypertext Classification Mining Communities. Focused Crawling (en detail) Ontology-Focused Crawling

4 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim4 Clever Searching Problem: traditionelle automatische Methoden zum Finden von Informationen werden durch qualitativ schlechte, unverknüpfte Inhalte überwältigt Zur Lösung werden mehrere Ansätze gebraucht: Enhancements to HITS algorithm Hypertext Classification Mining Communities Focused Crawling

5 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim5 kurz angerissen: HITS Algorithmen Verbesserung der Ranking-Algorithmen von Suchmaschinen Prezision und Funktionalität der zugrunde liegenden Algorithmen verbessern z.B. durch Geschwindigkeit und größeren Datenvorhalt Nutzung von Querverweisen (Google u.a.) Werbung

6 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim6 kurz angerissen: Hypertext Classification Kombination von Textauswertung und eines Graphes der Verlinkung z.B. gut geeignet für einheitlich strukturierte Daten (Patentdatenbank oder Yahoo-Kategorien) Fehler fällt von 36 auf 21% Probleme bei vielen nicht direkt verlinkten Webseiten

7 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim7 kurz angerissen: Mining Communities Im Netz findet man rund 100,000 verschiedene Gruppen von Leuten, die, basierend auf gleichen Interessen innerhalb oder für ihre Community, Webseiten erstellen und pflegen meist qualitativ hochwertige Informationen auf speziellen Gebieten Problem: Finden solcher Gruppen / Seiten Einbinden in ein einheitliches Framework

8 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim8 Agenda The CLEVER Project Enhancements to HITS algorithm Hypertext Classification Mining Communities. Focused Crawling (en detail) Ontology-Focused Crawling

9 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim9 Beispiel ARC – Anfänge Automatic Recource Compiler Motivation: Yahoo und andere Webkataloge beschäftigen viele Leute als Surfer, das geht auch automatisch Annahme: 2 Sorten von interessanten Seiten authority pages – beinhalten Informationen hub pages – verlinken thematisch verbundene authority pages

10 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim10 ARC - Ablauf Rootset mit Suchmaschine erstellen Erweitern des Rootsets durch alle in- linking und out-linking Seiten Wertung der Seiten (Wiederholt): authority a(p) = sum h(p) in-linking hub a(p) = sum a(p) out-linking Wichtung der Werte durch den Text rund um den href-Tag

11 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim11 ARC – Berechnung einfachen, schnelle Berechnung 2 Vektoren (a, h), 2 Matrix (W, Z=W T ) h wird auf 1 gesetzt k mal {a = W * h h = Z * a }

12 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim12 ARC - Ergebnisse 15 beste authority und hub pages wurden mit den Ergebnissen von Yahoo und Infoseek an die Probanden gegeben (kein Blindtest) Einschätzung: ARC gleichauf mit von Menschen erstellten Listen etwas besser bei speziellen oder nicht kommerziellen Topics

13 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim13 Motivation: Focused Crawler Crawler soll sich einen optimalen Weg durch das Web suchen gezieltes Raten durch Abschätung der Relevanz Unwichtig Netzteile werden ignoriert

14 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim14 Beispiel – Focused Crawler relevante Seiten zu einer Themenliste (gegeben als Webseiten) erstellen Relevanz–Taxonomie aus Beispiel- Seiten entwickeln 2 Programmteile zum Hypertextmining classifier – Relevanz des Dokuments distiller – identifiziert Seiten, die innerhalb weniger Links auf relevante Seiten verweisen (hubs)

15 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim15 Focused Crawler – Ergebnisse keine irrelevanten Seiten innerhalb der ersten par hundert im Durchschnitt: rund 3000 relevante Seiten innerhalb eine Stunde mit Desktop PC Problem: Verbesserung des destillers in Bezug auf nicht-textuelle Inhalte, zu untersuchende Linktiefe Auswahl der Lernstichprobe

16 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim16 Agenda The CLEVER Project Enhancements to HITS algorithm Hypertext Classification Mining Communities. Focused Crawling (en detail) Ontology-Focused Crawling

17 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim17 Ontology Focused Crawling CATYRPEL – ontology focused crawling framework Einbeziehung von Ontologien und neuen begrifflich und linguistisch Mitteln zur Verbesserung der Relevanz-Berechnung verständliche Arbeitsumgebung / Tools

18 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim18 System Parts User Interaktion Ontologie, Start-URLs vorgeben Web crawling abrufen von Links (Relevanz-geordnet) Preprozessing Text normalisieren, Wörterbücher anwenden Ontologie Management Relevanz Berechnung

19 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim19 Abläufe im System 2 Kreisprozesse 1)Ontology cycle hauptsächlich manuell definieren des crawling targets durch instanziierte Ontologie output: Dokumentenliste mit gefundenen Seiten Vorschläge zur Erweiterung der Ontologie 2)Internet crawler Seiten holen und durch Verknüpfung mit der Ontologie Relevanz berechnen interssante Links erkennen

20 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim20 System Parts & Ablauf

21 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim21 Relevanz Berechnung – 3 Phasen Establish Entity Reference mit Hilfe von Lexikas, Grammatiken und Thesaurus einzelne Begriffs-Token identifizieren zählen Background Knowlegde Computation Relevanz der Token berechnen Summarisation Berechnen des Seitenrankings nur Elemente des Suchraums werden einbezogen

22 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim22 Ontologie (Ausschnitt) airplanevehicletransportspassengerpersonMarc Muster military airplane commercial airplane B747A340 owned by airline Lufthansafliesflight subClassOf domain range instanceOf

23 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim23 Relevanz Sets Wirken wie ein Filter, die nur bestimmte Token in die Berechnung einfließen lassen: Single: Elemente, die im Dokument vorkommen Taxonomic: Elemente, die in der Ontologie direkt verknüpft sind Relational: Elemente, die direkt verknüpft sind, + ihre Relationen (also mit Reichweite 2) Total: Elemente aus gesammter Ontologie, aber gewichtet durch Entfernung von zentralem Fragebegriff mit jedem Entfernungschritt wird das Gewicht um 50% geringer

24 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim24 Relevanz Sets airplanevehicletransportspassengerpersonMarc Muster military airplane commercial airplane B747A340 owned by airline Lufthansafliesflight Single Taxonomic Relational Total subClassOf domain range relation instanceOf

25 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim25 Beispiel – Berechnung Lufthansa just received ist newest Airbus A340 from the base in Toulouse. Airbus Industries added some new features to this version of the airplane. textcountratingscore ontology airbu_ lufthansa airplane vers_ airbus = 2 lufthansa = 1 airplane = 1 airbus = 2 lufthansa = 1 airplane = 4 score = 4 1. lexicon lookup 2. relevance relational, sum 3. summarization Anscheinend nicht vollständig, oder nicht konsequent mit den selben Vorgaben gearbeitet.

26 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim26 Ergebnisse deutliche Verbesserung von Standard-Crawlern nächste Ausbaustufe: auch Auswertung von Metadata

27 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim27 Zusammenfassung weites Forschungsfeld sehr gute Möglichkeiten zur Suche spezieller Informationen in bestimmten Einsatzgebieten es fehlt eine Engine, die schon gegebene Ontologien auswertet

28 "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim28 Quellen 1)S. Chakrabarti, B. Dom, P. Raghavan, S. Rajagopalan. D. Gibson, J. Kleinberg, Automatic resource compilation by analyzing hyperling structure and associated text, WWW7 1998 2)S. Chakrabarti, B. Dom and P. Indyk, Enhanced hypertext categorization using hyperlinks, ACM SIGMOD 1998 3)S. Chakrabarti, M. van den Berg, B. Dom, Focused crawling: a new approach to topic-Specific Web resource discovery, Elsevier Science 1999 4)S. Chakrabarti, K. Punera, M. Subramanyam, Accelerated Focused crawling through Online Relevance Feedback, WWW2002 2002 5)B. Berendt, A. Hotho, G. Stumme, Towards Semantic Web Mining, The Semantic Web - ISWC 2002 6)M. Ehring, A. Maedche, Ontology-Focused Crawling of Web Dokuments, SAC 2003


Herunterladen ppt ""Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim"

Ähnliche Präsentationen


Google-Anzeigen