Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata2 Übersicht 1.Situation 2.Grundlagen des fokussierten Crawlings 3.Architektur 4.Implementierung 5.Evaluation 6.Zusammenfassung
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata3 1. Situation Entwickeltes weltweites Datennetz Viele Dokumente Finden, Extrahieren und Kombinieren von Informationen
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata4 2. Grundlagen des fokussierten Crawlings Crawling: –Laden eines Dokuments –Extraktion der Links –Nächstes Dokument laden Fokussiertes Crawling –Intelligente fokussierte Auswahl des nächsten Schritts
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata5 Prozess des ontologiefokussierten Crawlings Ontologie und Metadaten –Definitionen, Initialisierungen –Metadatenextraktion –Ausgabe, Evolution Crawler –Laden der Dokumente –Überprüfung der Relevanz –Festlegung der Reihenfolge der nächsten Dokumente Ontology and Metadata Management Focused Crawling of Documents and Metadata
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata6 Wissensmodell Ontologie Metadaten Lexikon
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata7 Linkauswahl InhaltsbasiertStrukturbasiert –Forward Link Count –Backward Link Count –Location Metric –Page Rank WebdokumentModell ASCII-TextASCII-Text (Keywords) Graph Beliebig
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata8 Welcher Dokumenteninhalt ist noch relevant für die Suche? Unterscheidung zwischen Zieldokumenten und Pfaddokumenten Überlegungen zu engem und weitem Fokus
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata9 3. Systemarchitektur
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata10 Ontologie- und Metadatenmanagement User Inter- action Ontology and Metadata Management ComputationPreprocessing Instiantiated Ontology & Metadata Structure Result Presentation and Ontology Evolvement managing ontology and metadata structures inspect RDF-metadataMaintenance User Interaction Ontology and Metadata Management ComputationPreprocessing Crawling
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata11 Web Crawler Crawling Crawler 1 URL Buffer (ranked) Retrieved Web Documents Buffer (ranked by URL) Crawler 2 Crawler 3 Crawler 4 Crawler 5 Filter against doubles and wrong file-types URLs (rated) documents Internet Preprocessing Computation User Interaction Ontology and Metadata Management ComputationPreprocessing Crawling
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata12 Vorverarbeitung Ontology and Metadata Management Preprocessing textprocessor / natural language processing: tags, stopwords, stemming, parsing Free-Text Lookup id ex- traction Anchortext Lookup documents matching id ex- traction instantiated ontology & metadata structure instantiated ontology & metadata structure lexicon metadata list language check file type check and conversion rdf metadata separator link separator Web Crawler Computation document relevance link relevance User Interaction Ontology and Metadata Management ComputationPreprocessing Crawling
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata13 Relevanzmengen SingleTaxonomicRelational D vehicletransportspassenger airplane military airplane commercial airplane fliesflight owned byairline LufthansaA340B747 S subClassOf D domain R range T instanceOf R S S D R S T R T D T Total person Marc Ehrig T S User Interaction Ontology and Metadata Management ComputationPreprocessing Crawling
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata14 airbus = 2 lufthansa = 1 airplane = 1 airbus = 1 lufthansa = 1 airplane = 4 airbu_ lufthansa airplane vers_ airbus = 1 lufthansa = 1 airplane = 0 airbus = 1 lufthansa = 1 airplane = 2 #airbus #lufthansa score = 6 Relevanzberechnung textcountrating scoremetadatacountrating 1. lexicon lookup 3. summarization 1. validation ontology Lufthansa just received its newest Airbus A340 from the base in Toulouse. Airbus Industries added some new features to this version of the airplane. <c:owns rdf:resource="airbus123"/> 2. relevance relational, sum 2. relevance relational, sum Beispiel: User Interaction Ontology and Metadata Management ComputationPreprocessing Crawling
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata15 Benutzer Eingabe –Initialisierung der Wissensbasis –Definition der Suche –Crawling Strategie –Start URLs Ausgabe –Besten Dokumente –URL-Liste –Metadaten –Wortvorschläge User Interaction Ontology and Metadata Management ComputationPreprocessing Crawling
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata16 4. Implementierung CATERPYL
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata17 5. Evaluation Maße –Discovery Rate: #Minimum/#Schritte –Harvest Rate: #Relevant/#Gelesen Daten –University.kaon –Airplane.kaon –Tourism.kaon Strategien –Single für Dokument –Breadth-First, Keyword, Single, Relational und Total für Pfad Szenarien –CIIR –Prof. Deshmukh –Boeing 747 –Hotel
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata18 Beispiel 1: Center for Intelligent Information Retrieval Institut an der University of Massachusetts Strategien Taxonomic, Relational und Total deutlich überlegen
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata19 Beispiel 2: Hotel Waterfront Hotel am Wasser Total besser als alle anderen Keyword auf der x- Achse
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata20 6. Zusammenfassung Ontologie und Metadaten –Definitionen, Initialisierungen –Metadatenextraktion –Ergebnisausgabe, Fortentwicklung Crawler –Laden der Dokumente –Überprüfung der Relevanz mittels Relevanzmengen –Festlegung der Reihenfolge der nächsten Dokumente Ontology and Metadata Management Focused Crawling of Documents and Metadata
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata21 Ergebnis Fokussiertes Crawling besser als unfokussiertes Verbesserung durch Nutzung eines möglichst großen Wissensmodells Fokus muss genau austariert sein Strategie weiter verfolgen
Diplomvortrag Marc Ehrig, FZI Ontology-Focused Crawling of Documents and Relational Metadata22 leer