A Social Tagging Environment for Web Information Extraction

Slides:



Advertisements
Ähnliche Präsentationen
Das E-Portfolio – essentielles Instrument zukünftiger Wissensarbeit? 27. Community-Treffen der PWM, 23. Februar 2007 Paul Meinl GF, factline Webservices.
Advertisements

Das Web in der politischen Bildung – Das Politische im Web
ARBEITSKREIS DIGITALE KUNSTGESCHICHTE
Zur SCORM-Fähigkeit konventioneller XML-unterstützender eLearning Developer Tools im Projekt I-can-EIB OFFIS Oldenburger Forschungs- und Entwicklungsinstitut.
Kohonennetze für Information Retrieval mit User Feedback
Pop Jazz C B A Jazz C A Lehrstuhl für Künstliche Intelligenz
Anforderungen an wissenschaftliche Arbeit
Implizite Digitale Soziale Netze als Basis für Expertenempfehlungssysteme Tamara Heck, Isabella Peters Abteilung für Informationswissenschaft Heinrich-Heine-Universität.
Idee und Realisierung des Internet der Zukunft
Soziale Vernetzung & kollektives Wissen
PADLR Submodul Modular Content Archives Ein Content Browser für Lehr- materialien aus der Elektrotechnik Dipl.-Ing. Mark Painter Institut für Nachrichtentechnik.
Forum Information and Communication in Mathematics Jahrestagung der ÖMG/DMV Graz.
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Komplexpraktikum Medieninformatik „Implementierung eines Präsentationstools für das Reformprojekt ProblemOrientiertes Lernen“ Nebenfachausbildung Gesundheit.
Ontologien- Query 1 Teil2
DEPARTMENT FÜR INFORMATIK
Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.
Konzeption und prototypische Implementierung eines zentralen Informationssystems für Systemmanagement Motivation Oft wird es schwierig, die benötigten.
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
Erschließen von semantischen Referenzen mit Ontology-Reasoning-Werkzeugen Das Ziel dieser Masterarbeit war die Erweiterung des ORBI Systems um ein Inferenz-System.
Colibi Bibliothekssystem der Computerlinguistik. Einführung Motivation Was braucht Colibi? Software Datenbankdesign.
CIDOC-CRM Universität zu Köln Historisch-kulturwissenschaftliche Informationsverarbeitung AM 2 Dozent: Prof. Dr. Manfred Thaller Referent: Nelson Marambio.
1 Ein Computermodell zur Bestimmung von Begriffstypen Christof Rumpf Heinrich-Heine-Universität Tag der Forschung
WIESEL – Integration von Wissensmanagement und E-Learning auf der Basis von Semantic Web Technologien Matthias Rust, XML-Tage 2004, Berlin WIESEL Integration.
PinK Plattform für intelligente Kollaborationsportale Dr. Joachim Quantz, e.V. Berlin, 13. September 2005.
CBT Generierung diagnostischer Trainingsfälle aus Arztbriefen Christian Betz, Alexander Hörnlein, Frank Puppe, Martin Schuhmann, Universität Würzburg,
Datenbankentwurfsprozess
Die Bank von morgen - eine neue Welt für IT und Kunden? 23. Oktober 2001.
UML Begleitdokumentation des Projekts
1 Talk - CeBIT 2008 GroupMe!... where Semantic Web meets Web 2.0 Prof. Dr. Nicola Henze Leibniz Universität.
Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &
DiskussionLösungsansatzLibraryThingEinleitungdel.icio.us Was motiviert zum Mitmachen? 10. Juni 2008 Elina Sachse Hochschule für Angewandte Wissenschaften.
Grundlagen zu Thesaurus Petra Maier CIS, SS 07. Thesaurus und verwandte Begriffe Folksonomy Glossar Kontrolliertes Vokabular Ontologie Taxonomie, Klassifikationsschema.
2 Beispiele von Wissensorganisation 2.0 del.icio.us und BibSonomy vorgestellt von Sylvia Fabricius-Wiese 08. April 2008.
Spezifikation von Anforderungen
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
Übersicht Motivation Konzeption Umsetzung/ Implementierung
Konzeption eines formatflexiblen Systems zur automatisierten Verschließung von Karton-Faltschachteln Bachelorarbeit Maximilian Pilz Matr.-Nr.:
© Copyright 2010 STI INNSBRUCK Social Media im Tourismus.
Binde & Wallner Engineering GmbH
A Social Tagging Environment for Web Information Extraction
1 // Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Systemarchitektur Trad. & offener Katalog Metadatenexporte & Neuigkeiten.
Context-awareness Andreas Bossard, Matthias Hert.
3. Juni 2003Moritz Petersen Minimales Markup und Templates zur Erstellung von strukturierten Texten Ein Zwischenbericht zur Diplomarbeit.
Bilddatenbank der Universität Magdeburg Ähnlkeitssuche im hochdimensionalen Raum von Bilddatenbanken Stand April 2005 Anke Schneidewind.
Integration existierender digitaler Bibliotheken in Lernumgebungen LEBONED (Learning Environment Based On Non Educational Digital Libraries) Dipl.-Inform.
Integration oberflächenbestimmender Objekte ins DGM Seminar GIS IV SS
Arbeitsbereich „Rechnernetze und verteilte Systeme“
Web-basierter Unterricht in der Computergraphik: Konzepte und Realisierung von interaktiven Online-Kursen Reinhard Klein, Frank Hanisch Wilhelm-Schickard.
xRM1 Pilot Implementierung
Eike Schallehn, Martin Endig
© 2001 Sven Dammann1 Aufbau Integrierter Informationssysteme XML Bearbeitung und relationale Abbildung Sven Dammann Martin-Luther-Universität Halle-Wittenberg.
BADI – Barrierefreie Aufbereitung Digitaler Inhalte
Semantic Web.
Vergleichende Analyse verbreiteter und neuester Software-Projekt-Management-Werkzeuge unter besonderer Berücksichtigung studentischer Software-Projekte.
Bibliothek 1.0, 2.0 oder 3.0? 10. InetBib-Tagung , Würzburg Prof. Dr. René SchneiderHaute Ecole de Gestion, Genf.
Dreamteam: Web 2.0 und der Katalog Anne Christensen und Thomas Hapke GBV-Verbundkonferenz
© Fraunhofer-Institut für Angewandte Informationstechnik FIT Social Search.
Web 2.0 und autonomes Datenbank-Tuning Thema 3: Tagging und Folksonomies Swen Hermeth Prof. Dr. K. Küspert, G. Rabinovitch, D. Wiese Lehrstuhl für Datenbanken.
1 Zahlreiche Transformationen - Achtung Hochspannung Meike Klettke.
Seminar Ingenieurdatenbanken WS 04/05 Dr. Schallehn, Prof. Paul, Dipl.-Inf. Fröhlich {eike | paul | iti.cs.uni-magdeburg.de.
Das Internet Ein Netzwerk, das viele Rechner miteinander verbindet
Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.
HYPERLINK WAS IST DAS WEB 2.0? SEMANTIC WEB.
Webzubi Ein Web 2.0-Netzwerk zur Gestaltung innovativer Berufsausbildung für gewerblich-technische Auszubildende.
Optimierung von Geschäftsprozessen durch Webformulare und Webworkflow Rainer Driesen Account Manager.
Institut für Informatik Betriebliche Informationssysteme S.Dietzold, T.Riechert, J.Lehmann, A.Aslam, M.Herrmann1 Semantic Web Services and Interfaces Sebastian.
1. Betreuer: Prof. Dr. Jörg Striegnitz 2. Betreuer: Dr. Martin Schindler Kontextsensitive Autocompletion für Klassendiagramme in der UML/P Florian Leppers.
GBIF NODES Committee Meeting Kopenhagen, Dänemark 4. Oktober 2009 Das GBIF Integrated Publishing Toolkit Alberto GONZÁLEZ-TALAVÁN Programme Officer für.
 Präsentation transkript:

A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai Matrikelnummer: 1621677 E-Mail: jacob@tzi.de Erstgutachter: Prof. Dr. Rainer Malaka Zweitgutachter: Prof. Dr. Martin Gogolla

Einleitung Motivation: Die relevanten strukturellen Daten einfach und effektiv aus semi-strukturierten und unstrukturierten Web Dokumenten zu identifizieren, annotieren und extrahieren. Fragestellung: Wie kann man mittels Social Tagging, Tag- Empfehlungen und modernen Webtechniken eine Social Tagging Umgebung zu Unterstützung von Web Informationsextraktion aufbauen.

Einleitung Ergebnis: Ein Social Tagging Umgebung wurde für Web Information Extraction entworfen und implementiert und evaluiert. Aufbau der Arbeit: Stand der Forschung Konzeption Umsetzung eines Tagging Systems für Web Information Extraction Evaluation

Stand der Forschung Social Software und Kollektive Intelligenz Social/Collaborative Tagging Semantische Annotation Web Informationsextraktion

Social Software und Kollektive Intelligenz „Internetbasierte Anwendungen, die Informations-, Identitäts- und Beziehungsmanagement in den (Teil-)Öffentlichkeiten hypertextueller und sozialer Netzwerke unterstützen“1. Kollektive Intelligenz „Das Ganze ist mehr als die Summe seiner Teile“2.

Social/Collaborative Tagging Social Tagging R = (r1,...,rl): Menge der verschlagworteten Ressource. T = (t1,...,tm): Menge der vergebenen Schlagwörter. U = (u1,...,un) Menge der Nutzer. Folksonomy Die Menge aller Tags, die einer bestimmten Ressource von allen Nutzers zugewiesen wurden.

Social/Collaborative Tagging Folksonomy „folk“ (Volk) und „taxonomy“ (Taxonomie, Klassifikation). die Ordnung ist nicht vornher festgelegt. keine formellen Beziehungen in einer Folksonomie. Vier zentrale Merkmale3: Tagging is done independently; Tags are aggregated. Relationships are inferred. Any inference methode is valid. (Tag-Zähler, Co-occurence, Clustering)

Social/Collaborative Tagging Tag-Empfehlung Algorithmus von Yahoo!4 Auffindung und Wiederfindung von Ressourcen Popularität, Co-ocurrence und Normalisierung von Tags

Social/Collaborative Tagging Einsatzgebiete und Systembeispiele Managing Personal Information, z.B „Labels“ in Google Mail; Social Bookmarking, z.B del.icio.us; Collecting and Sharing Digital Objects, z.B YouTube, Flickr, LibraryThing; E-Commerce, z.B Etsy, Buzzillions; Other Uses, z.B ESP Game, Diigo.

Social/Collaborative Tagging Wesentliche Vorteile Erleichterung der Zusammenarbeit; Gewinnung von deskriptiven Metadaten; Verbesserung der Auffindbarkeit; Erhöhung der Beteiligung; Erkennung der „Patterns“; Erweiterung existierender Klassifikation; Chance für Innovation.

Semantische Annotation Professionelle Annotation manuell von von Experten; sehr teuer (zeit-/arbeitsintensiv). Automatische Annotation automatisch durch computerlinguistische Methoden; nicht immer zutreffend und oft nicht ausreichend. Soziale Annotation Kollektive Intelligenz Vorteile von Social Tagging

Semantische Annotation Taxonomie Hierarchie von Begriffen (Über/Unterordnung); keine Beziehungen zwischen Elementen; aufwendig und wenig fexibel. Ontologie formale Spezifikation einer Konzeptualisierung; ein Netz von Hierarchien mit logischer Beziehungen; teuer und wenig fexibel. Folksonomie freies Tagging und kollektive Intelligenz; jedes Schlussfolgerungsverfahren ist zulässig.

Semantische Annotation Web Annotation Inhaltsbezogene bzw, textuelle Annotation Strukturelle Annotation Abbildung 2.9: Text-Markierung und Kontext-Menü in Thresher

Web Informationsextraktion versucht nicht, die Input-Texte bzw. Quellen zu verstehen; analysiert Teilbereiche von jedem Dokument, welche relevante Informationen enthalten Wrapper eine Reihe von Extraktionsregeln und Code; manuell, überwacht (semi-automatischer) oder automatisch generieren

Web Informationsextraktion Klassifikationen Sprachbasiert: Programmiersprachen unterstützen Wrapper Generierung; guten Programmierkenntnis notwendig; sehr hohen manuellen Arbeitsaufwand. HTML-basiert: Analyse von HTML Dokumenten anhand der HTML-Struktur- Eigenschaften; unstrukturiert und semi-strukturiert; täglich neu und ständig Veränderung. NLP-basiert: für freie, natürlichsprachliche Texte; vollgrammatikalische Sätze erfordert; nicht sehr gut für Web IE.

Web Informationsextraktion Klassifikationen Wrapper-Induction-basiert: Extraktionsregeln werden von einer Reihe von Trainingsbeispielen abgeleitet; große Menge von Trainingsbeispieln erfordert. Modell-basiert: die Struktur von den Zielobjekten ist gegeben; versucht Seiten zu finden, die eine absolut konforme Teilstruktur dazu aufweisen; große Menge von strukturierter Daten notwendig; Ontologie-basiert: die Techniken des Semantic Webs noch nicht sehr verbreitet; zum aktuellen Zeitpunkt noch uneffizient.

Web Informationsextraktion Problemklassen Auffinden der Webseiten durch das Verfolgen von Hyperlinks; Unsaubere HTML-Struktur; Das Hyperlink Dilemma; Struktur Synthese Problem; Data Mapping und Data Integration Problem Das „Deep Web“; Die Flexibilität des Webs.

Web Informationsextraktion Nutzung visueller Information Abbildung: Visuelle Extraktion Umgebung von Lixto

Zusammenfassung manuelle und überwachte Bearbeitungen kostet sehr hohen Arbeitsaufwand große Menge von Bespieldaten für verschiedene Informationsquellen sind notwendig; häufige Veränderung von Webseiten erhöhtet Arbeitsaufwand. Social Tagging als Hilfsmittel; Relevante Webinhalte werden durch kollektive menschliche Intelligenz klassifiziert; immer aktuellen Metadaten werden von sozialer Annotation erstellt.

Konzeption Grundidee

Konzeption Systemübersicht

Umsetzung Analyse Systementwurf Implementierung Nutzung des Tagging Systems

Analyse Client-Server Architektur Funktionale Anforderungen Interaktionen und die strukturellen Informationen

Systementwurf Systemarchithektur

Systementwurf Clientseitige Interaktionen

Systementwurf Serverseitige Funktionalitäten

Systementwurf Datenmodelle

Implementierung Technologieentscheidung

Implementierung Klassenstruktur

Nutzung des Tagging Systems

Evaluation Nutzungssituation

Evaluation Empfehlungsanalyse Schritte/Tags Preisinfo Computernetzwerke Buch Preis Schritt 1 1,0 0,33 0,60 5,0 Schritt 2 0,5 0,10 Schritt 3 0,41 0,51 Schritt 4 0,18

(Personendarstellung) Evaluation Empfehlungsanalyse Webseite Die empfohlenen Tags W1 (Fußball) fussball, belgien, ergebnis, privatliga, tabelle W2 (Wettervorhersagen) wetter, bremen, temperatur, vorsage, wetterbericht W3 (Personendarstellung) gernot (Personname), lebenslauf, adresse, telefon, karriere W4 (Bücher) preis, buch, computernetzwerke, preisinfo, wesley W5 (Filme) 007, schauspieler, film, superstar, connery

Fazit und Ausblick

Quelle Jan Schmidt: Social Software: Onlinegestütztes Informations-, Identitäts- und Beziehungsmanagement. In: Forschungsjournal Neue Soziale Bewegungen, Nr 2/2006 von Aristoteles (384 - 322 v. Chr.), er war der erste große Systematiker unter den Philosophen und gilt als Begründer der abendländischen Wissenschaft. Smith, G. (2008). Tagging: People-powered Metadata for the Social Web (1ed.). New Riders Press. Xu, Z., Y. Fu, J. Mao, and D. Su (2006). Towards the semantic web: Collaborative tag suggestions. WWW 2006 Tagging Workshop Proceedings.

Vielen Dank!