Martin Theobald Stefan Siersdorfer, Sergej Sizov

Slides:



Advertisements
Ähnliche Präsentationen
Perceptrons and the perceptron learning rule
Advertisements

Kohonennetze für Information Retrieval mit User Feedback
PG 520 Intelligence Service
Pop Jazz C B A Jazz C A Lehrstuhl für Künstliche Intelligenz
Inhalt Saarbrücken,.
Tipps und Tricks bei der Internetsuche
Webseitenranking für Suchanfragen anhand von Linkgraphen
SST - Sequence Search Tree
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
DEPARTMENT FÜR INFORMATIK
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.
HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 1 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Vorlesung.
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Referat von Thomas Frenz auf der kostenlosen Veranstaltung zur Realschullehrerfortbildung an der Universität Passau 2003 © Th. Frenz Passau 2003.
Sortierverfahren Richard Göbel.
Algorithmen und Datenstrukturen
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (10 - Suchverfahren) T. Lauer.
Algorithmen und Datenstrukturen
XINDICE The Apache XML Project Name: Jacqueline Langhorst
Information Retrieval Modelle: Vektor-Modell
Information und Technik Nordrhein-Westfalen Das personalisierte Portal Düsseldorf, Das personalisierte Portal.
Bau effizienter und effektiver Metasuchmaschinen
Wissensbasierte Daten- interpretation für einen automatisierten und adaptiven Inhaltsintegrationsprozeß Lyndon J B Nixon
PinK Plattform für intelligente Kollaborationsportale Dr. Joachim Quantz, e.V. Berlin, 13. September 2005.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil 5.
Christian Kästner Modellgetriebene Softwareentwicklung Eclipse Modelling Framework.
Effiziente Suche in Bilddatenbanken
Kurzvorstellung der AG Algorithmen und Komplexität MPI Informatik
Carsten Greiveldinger
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Inhalt der Präsentation
Informationssysteme SS Informationssysteme Grundvorlesung Informatik Sommersemester 2004 Universität des Saarlandes, Saarbrücken Dr. Ralf Schenkel.
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Classification of Credit Applicants Using Data Mining. Thema.
Seminar: Informationstechnik in der Medizin Universität Dortmund Skin Detection Fakultät für Elektrotechnik und Informationstechnik Lehrstuhl für Kommunikationstechnik.
Machine Learning KNN und andere (Kap. 8).
Machine Learning Was wir alles nicht behandelt haben.
Entitäten Extraktion Einführung
Wie Google Webseiten bewertet
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Ideen der Informatik Suchen und Sortieren [Ordnung muss sein…]
Best Fit Matching von Punktewolken
Best Practices in der Datenbank-programmierung
RVK-Portal und BibScout
Abschlussvortrag zur Studienarbeit
Binde & Wallner Engineering GmbH
Nicolas Frings Maximilian Bernd Stefan Piernikarcyk
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Volumenorientierte Modellierung als Grundlage einer vernetzt- kooperativen Planung im konstruktiven Ingenieurbau Antragsteller: Prof. E. Rank, Prof. H.-J.
… oder wie finde ich den Weg
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt
Suchmaschinen.
Dokumenten- und Publikationsserver
Klassifikation und Regression mittels neuronaler Netze
Nichtlineare Fisher-Diskriminanzanalyse
Eike Schallehn, Martin Endig
Eike Schallehn, Martin Endig
© 2001 Sven Dammann1 Aufbau Integrierter Informationssysteme XML Bearbeitung und relationale Abbildung Sven Dammann Martin-Luther-Universität Halle-Wittenberg.
26. Oktober 2005Autor: Walter Leuenberger Computeria Urdorf Treff vom 26. Oktober 2005 Suchmaschinen im Internet Google & Co.
1 Wolfgang Wiese, Regionales RechenZentrum Erlangen WCMS 3. August 2000 Wolfgang Wiese RRZE / Lehrstuhl für Informatik VII
Analyse und Umsetzung einer Filter-basierten Paketverarbeitungsmaschine für IP-Netzwerke Lehrstuhl für Systemarchitektur und Betriebssysteme Forschungs-
12. Januar 2005Autor: Walter Leuenberger Computeria Urdorf Treff vom 12. Januar 2005 «Firefox»
The PicSOM Retrieval System 1 Christian Steinberg.
Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen.
HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 1 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Vorlesung.
Ziel - Konzept - Realisierung 28. August 2003 Ursula Jutzi.
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
Ralf Stockmann, Stefan Schmunk SUB Göttingen, Abteilung Forschung & Entwicklung Forschungsdaten in Raum und Zeit.
Oracle Text bei sehr großen Datenmengen Referent Martin Augst Senior Project / Account Manager Semantec GmbH Benzstr.
 Präsentation transkript:

BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien Martin Theobald Stefan Siersdorfer, Sergej Sizov Universität des Saarlandes Lehrstuhl für Datenbanken und Informationssysteme Prof. Dr.-Ing. G. Weikum 2. Oktober 2002

BINGO! „Bookmark-Induced Gathering of !nformation“ Fokussierendes Crawling zur Ontologiegenerierung Aufbau und Erweiterung benutzerdefinierter Ontologien über spezifischen Themenhierarchien („Yahoo-Style“) Automatisches Aktualisieren und Filtern hierarchischer Themenstrukturen unter Ausnutzung unterschiedlicher Relevanzkriterien (SVM-Konfidenz, Autorität, Cosinus-Maß) Automatisierte Bearbeitung von Expertenqueries bzw. Vervollständigung vorhandener Ergebnismengen („Nadel im Heuhaufen“) Virtuelles Bookmark-Dokument mit spezifischen Keywords Query-Ergebnisse externer Suchmaschine als Startdokumente z.B. 10 beste Google-Ergebnisse zu „Mountainbike Garda See Tour Panorama Trails“ ROOT Mountainbiking Garda-See OTHERS

Überblick über den System-Aufbau WWW ...... ..... Fokussierendes Crawling mit adaptivem Neu-Training auf „Archetypen“ Crawler Dokument- Analysator Feature- Selektion Klassifikator Adaptives Training Link- analyse ? URL Queue Doks Feature- Vektoren Ontologie- index Trainings- Doks Hubs & Authorities Book- marks

Klassifikation mit Support-Vector-Machines (SVM) x1 x2 ? n Trainingsvektoren mit Komponenten (x1, ..., xm, C) und C = +1 oder C = -1 C C   Training: Berechne trennende Hyperebene , die die Positiv- von den Negativbeispielen mit maximalem Abstand trennt. Löse quadratisches Optimierungsproblem Klassifikation: Teste unbeschrifteten Vektor y auf Lage zur Hyperebene Skalarprodukt (SVM-Klassifikations-Konfidenz) Sehr effiziente Laufzeit O(m) linear zur Anzahl m der Terme in Xi

Hierarchische Klassifikation und Feature-Selektion ROOT -0.3 0.4 Rekursive Klassifikation entlang der Hierarchie Enscheidung basiert auf klassenspezifischen Feature-Räumen Beispiel: deadlock, recovery, pattern, hypertext gut für DB Core gegen Semistructured Data schlecht für Data Mining gegen XML DB Core S.Data 0.2 0.6 -0.2 Web IR Data Mining XML Knotenspezifische Bereinigung der Feature-Vektoren durch Bestimmung der m besten Diskriminatoren nach MI (Mutual Information bzw. Kullback-Leibler-Distanz) Beste Diskriminatoren für Data Mining gegen Web IR und XML (m = 200): mine, knowledge, OLAP, pattern, discover, cluster, dataset … Termgewichtung nach TF/IDF

Link-Analyse nach Kleinberg‘s HITS Algorithmus Für einen Webgraphen G=(V,E) und eine themenspezifische Basis B  V finde gute Authorities mit Gewichtung und gute Hubs mit Gewichtung Iterative Approximation des dominanten Eigenvektors: 

Adaptives Neu-Trainieren auf Archetypen Wachtumsphase: Iteratives Neutrainieren des Klassifikators ausgehend von Bookmarks und hochwertigen Nachbardokumenten Identifikation von Archetypen: beste Doks nach SVM-Konfidenz beste Authorities SVM-Konfidenz > mittlere Konfidenz der Bookmarks Verhindere „Topic-Drift“! Harte Fokussierung des Crawlers: Akzeptiere nur solche Links (p,q) mit class(p) = class(q) Erntephase: Massencrawl nach erweiterter Trainingsbasis Schwache Fokussierung mit erhöhter Ausbeute & Präzision Akzeptiere Links (p,q) mit class( q ) != ROOT/OTHERS/

Experimentelle Evaluation (I) Portalgenerieung für ein Einzelthema: Finde möglichst viele Webseiten zu „Database Research“ Einzige Quellen: Homepages von David DeWitt & Jim Gray gegen 400 Negativbeispiele aus Yahoo Top-Level-Kategorien als initiales SVM-Modell Wachstumsphase mit Crawlingtiefe 4 beschränkt auf den Ausgangshost liefert 1002 Archetypen (inkl. PDF, Word) Ausbeute der Erntephase im Vergleich zur DBLP-Trier: ca. 72% Überlappung unter Homepages der Top 1000 Autoren nach 12 Stunden (ohne DBLP selbst zu crawlen!) Präzision: ca. 27% der 1000 besten DBLP-Autoren unter 1000 besten nach SVM-Konfidenz ROOT Database Research OTHERS

Experimentelle Evaluation (II) Expertensuche Suche: „public domain open source implementations of the ARIES recovery algorithm“ (Shore, MiniBase & Exodus) Keine brauchbaren Ergebnisse unter den Top 10 Google Ergebnissen oder Open-Source Portalen wie sourceforge.net Manuelle Auswahl von 10 Startdokumenten aus Google-Queries zu „aries recovery algorithm“ und „aries recovery method“ gegen zufällig gewählte Yahoo Top-Level-Kategorien Massencrawl liefert 17.000 URLs mit 2.167 Dokumenten in Bereich „ARIES“ innerhalb von 10 min. Schlüsselwortsuche nach Cosinus-Maß für „source code release“ liefert Links zu den Open-Source Projekten „Shore“ und „MiniBase“ unter den Top 10, „Exodus“ wird direkt auf der Shore-Homepage referenziert

Zusammenfassung BINGO! integriert unterschiedliche Techniken des Web-IR wie SVM, MI, HITS mit der Identifikation von Archetypen und adaptivem Neu-Training Umfassendes und vielseitiges Werkzeug auf dem Weg zu einer neuen Generation der individualisierten Web-Suche / Information-Mining Erweiterung um einen auf Web-Services basierenden Portal-Explorer mit semantisch reicherem Ontologie-Service XML: Feature-Generierung, Klassifikation, XPath-Queries…