Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:J�rgen Gerhardt Geändert vor über 10 Jahren
1
Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002
2
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata2 Übersicht 1.Situation 2.Grundlagen des fokussierten Crawlings 3.Architektur 4.Implementierung 5.Evaluation 6.Zusammenfassung
3
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata3 1. Situation Entwickeltes weltweites Datennetz Viele Dokumente Finden, Extrahieren und Kombinieren von Informationen
4
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata4 2. Grundlagen des fokussierten Crawlings Crawling: –Laden eines Dokuments –Extraktion der Links –Nächstes Dokument laden Fokussiertes Crawling –Intelligente fokussierte Auswahl des nächsten Schritts
5
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata5 Prozess des ontologiefokussierten Crawlings Ontologie und Metadaten –Definitionen, Initialisierungen –Metadatenextraktion –Ausgabe, Evolution Crawler –Laden der Dokumente –Überprüfung der Relevanz –Festlegung der Reihenfolge der nächsten Dokumente Ontology and Metadata Management Focused Crawling of Documents and Metadata
6
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata6 Wissensmodell Ontologie Metadaten Lexikon
7
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata7 Linkauswahl InhaltsbasiertStrukturbasiert –Forward Link Count –Backward Link Count –Location Metric –Page Rank WebdokumentModell ASCII-TextASCII-Text (Keywords) Graph Beliebig
8
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata8 Welcher Dokumenteninhalt ist noch relevant für die Suche? Unterscheidung zwischen Zieldokumenten und Pfaddokumenten Überlegungen zu engem und weitem Fokus
9
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata9 3. Systemarchitektur
10
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata10 Ontologie- und Metadatenmanagement User Inter- action Ontology and Metadata Management ComputationPreprocessing Instiantiated Ontology & Metadata Structure Result Presentation and Ontology Evolvement managing ontology and metadata structures inspect RDF-metadataMaintenance User Interaction Ontology and Metadata Management ComputationPreprocessing Crawling
11
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata11 Web Crawler Crawling Crawler 1 URL Buffer (ranked) Retrieved Web Documents Buffer (ranked by URL) Crawler 2 Crawler 3 Crawler 4 Crawler 5 Filter against doubles and wrong file-types URLs (rated) documents Internet Preprocessing Computation User Interaction Ontology and Metadata Management ComputationPreprocessing Crawling
12
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata12 Vorverarbeitung Ontology and Metadata Management Preprocessing textprocessor / natural language processing: tags, stopwords, stemming, parsing Free-Text Lookup id ex- traction Anchortext Lookup documents matching id ex- traction instantiated ontology & metadata structure instantiated ontology & metadata structure lexicon metadata list language check file type check and conversion rdf metadata separator link separator Web Crawler Computation document relevance link relevance User Interaction Ontology and Metadata Management ComputationPreprocessing Crawling
13
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata13 Relevanzmengen SingleTaxonomicRelational D vehicletransportspassenger airplane military airplane commercial airplane fliesflight owned byairline LufthansaA340B747 S subClassOf D domain R range T instanceOf R S S D R S T R T D T Total person Marc Ehrig T S User Interaction Ontology and Metadata Management ComputationPreprocessing Crawling
14
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata14 airbus = 2 lufthansa = 1 airplane = 1 airbus = 1 lufthansa = 1 airplane = 4 airbu_ lufthansa airplane vers_ airbus = 1 lufthansa = 1 airplane = 0 airbus = 1 lufthansa = 1 airplane = 2 #airbus #lufthansa score = 6 Relevanzberechnung textcountrating scoremetadatacountrating 1. lexicon lookup 3. summarization 1. validation ontology Lufthansa just received its newest Airbus A340 from the base in Toulouse. Airbus Industries added some new features to this version of the airplane. <c:owns rdf:resource="airbus123"/> 2. relevance relational, sum 2. relevance relational, sum Beispiel: User Interaction Ontology and Metadata Management ComputationPreprocessing Crawling
15
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata15 Benutzer Eingabe –Initialisierung der Wissensbasis –Definition der Suche –Crawling Strategie –Start URLs Ausgabe –Besten Dokumente –URL-Liste –Metadaten –Wortvorschläge User Interaction Ontology and Metadata Management ComputationPreprocessing Crawling
16
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata16 4. Implementierung CATERPYL
17
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata17 5. Evaluation Maße –Discovery Rate: #Minimum/#Schritte –Harvest Rate: #Relevant/#Gelesen Daten –University.kaon –Airplane.kaon –Tourism.kaon Strategien –Single für Dokument –Breadth-First, Keyword, Single, Relational und Total für Pfad Szenarien –CIIR –Prof. Deshmukh –Boeing 747 –Hotel
18
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata18 Beispiel 1: Center for Intelligent Information Retrieval Institut an der University of Massachusetts Strategien Taxonomic, Relational und Total deutlich überlegen
19
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata19 Beispiel 2: Hotel Waterfront Hotel am Wasser Total besser als alle anderen Keyword auf der x- Achse
20
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata20 6. Zusammenfassung Ontologie und Metadaten –Definitionen, Initialisierungen –Metadatenextraktion –Ergebnisausgabe, Fortentwicklung Crawler –Laden der Dokumente –Überprüfung der Relevanz mittels Relevanzmengen –Festlegung der Reihenfolge der nächsten Dokumente Ontology and Metadata Management Focused Crawling of Documents and Metadata
21
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata21 Ergebnis Fokussiertes Crawling besser als unfokussiertes Verbesserung durch Nutzung eines möglichst großen Wissensmodells Fokus muss genau austariert sein Strategie weiter verfolgen
22
Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata22 leer
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.