Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002.

Ähnliche Präsentationen


Präsentation zum Thema: "Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002."—  Präsentation transkript:

1 Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

2 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata2 Übersicht 1.Situation 2.Grundlagen des fokussierten Crawlings 3.Architektur 4.Implementierung 5.Evaluation 6.Zusammenfassung

3 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata3 1. Situation Entwickeltes weltweites Datennetz Viele Dokumente Finden, Extrahieren und Kombinieren von Informationen

4 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata4 2. Grundlagen des fokussierten Crawlings Crawling: –Laden eines Dokuments –Extraktion der Links –Nächstes Dokument laden Fokussiertes Crawling –Intelligente fokussierte Auswahl des nächsten Schritts

5 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata5 Prozess des ontologiefokussierten Crawlings Ontologie und Metadaten –Definitionen, Initialisierungen –Metadatenextraktion –Ausgabe, Evolution Crawler –Laden der Dokumente –Überprüfung der Relevanz –Festlegung der Reihenfolge der nächsten Dokumente Ontology and Metadata Management Focused Crawling of Documents and Metadata

6 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata6 Wissensmodell Ontologie Metadaten Lexikon

7 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata7 Linkauswahl InhaltsbasiertStrukturbasiert –Forward Link Count –Backward Link Count –Location Metric –Page Rank WebdokumentModell ASCII-TextASCII-Text (Keywords) Graph Beliebig

8 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata8 Welcher Dokumenteninhalt ist noch relevant für die Suche? Unterscheidung zwischen Zieldokumenten und Pfaddokumenten Überlegungen zu engem und weitem Fokus

9 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata9 3. Systemarchitektur

10 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata10 Ontologie- und Metadatenmanagement User Inter- action Ontology and Metadata Management ComputationPreprocessing Instiantiated Ontology & Metadata Structure Result Presentation and Ontology Evolvement managing ontology and metadata structures inspect RDF-metadataMaintenance User Interaction Ontology and Metadata Management ComputationPreprocessing Crawling

11 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata11 Web Crawler Crawling Crawler 1 URL Buffer (ranked) Retrieved Web Documents Buffer (ranked by URL) Crawler 2 Crawler 3 Crawler 4 Crawler 5 Filter against doubles and wrong file-types URLs (rated) documents Internet Preprocessing Computation User Interaction Ontology and Metadata Management ComputationPreprocessing Crawling

12 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata12 Vorverarbeitung Ontology and Metadata Management Preprocessing textprocessor / natural language processing: tags, stopwords, stemming, parsing Free-Text Lookup id ex- traction Anchortext Lookup documents matching id ex- traction instantiated ontology & metadata structure instantiated ontology & metadata structure lexicon metadata list language check file type check and conversion rdf metadata separator link separator Web Crawler Computation document relevance link relevance User Interaction Ontology and Metadata Management ComputationPreprocessing Crawling

13 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata13 Relevanzmengen SingleTaxonomicRelational D vehicletransportspassenger airplane military airplane commercial airplane fliesflight owned byairline LufthansaA340B747 S subClassOf D domain R range T instanceOf R S S D R S T R T D T Total person Marc Ehrig T S User Interaction Ontology and Metadata Management ComputationPreprocessing Crawling

14 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata14 airbus = 2 lufthansa = 1 airplane = 1 airbus = 1 lufthansa = 1 airplane = 4 airbu_ lufthansa airplane vers_ airbus = 1 lufthansa = 1 airplane = 0 airbus = 1 lufthansa = 1 airplane = 2 #airbus #lufthansa score = 6 Relevanzberechnung textcountrating scoremetadatacountrating 1. lexicon lookup 3. summarization 1. validation ontology Lufthansa just received its newest Airbus A340 from the base in Toulouse. Airbus Industries added some new features to this version of the airplane. <c:owns rdf:resource="airbus123"/> 2. relevance relational, sum 2. relevance relational, sum Beispiel: User Interaction Ontology and Metadata Management ComputationPreprocessing Crawling

15 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata15 Benutzer Eingabe –Initialisierung der Wissensbasis –Definition der Suche –Crawling Strategie –Start URLs Ausgabe –Besten Dokumente –URL-Liste –Metadaten –Wortvorschläge User Interaction Ontology and Metadata Management ComputationPreprocessing Crawling

16 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata16 4. Implementierung CATERPYL

17 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata17 5. Evaluation Maße –Discovery Rate: #Minimum/#Schritte –Harvest Rate: #Relevant/#Gelesen Daten –University.kaon –Airplane.kaon –Tourism.kaon Strategien –Single für Dokument –Breadth-First, Keyword, Single, Relational und Total für Pfad Szenarien –CIIR –Prof. Deshmukh –Boeing 747 –Hotel

18 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata18 Beispiel 1: Center for Intelligent Information Retrieval Institut an der University of Massachusetts Strategien Taxonomic, Relational und Total deutlich überlegen

19 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata19 Beispiel 2: Hotel Waterfront Hotel am Wasser Total besser als alle anderen Keyword auf der x- Achse

20 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata20 6. Zusammenfassung Ontologie und Metadaten –Definitionen, Initialisierungen –Metadatenextraktion –Ergebnisausgabe, Fortentwicklung Crawler –Laden der Dokumente –Überprüfung der Relevanz mittels Relevanzmengen –Festlegung der Reihenfolge der nächsten Dokumente Ontology and Metadata Management Focused Crawling of Documents and Metadata

21 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata21 Ergebnis Fokussiertes Crawling besser als unfokussiertes Verbesserung durch Nutzung eines möglichst großen Wissensmodells Fokus muss genau austariert sein Strategie weiter verfolgen

22 Diplomvortrag Marc Ehrig, FZI 22.01.2002 Ontology-Focused Crawling of Documents and Relational Metadata22 leer


Herunterladen ppt "Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002."

Ähnliche Präsentationen


Google-Anzeigen