Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Slides:



Advertisements
Ähnliche Präsentationen
Das E-Portfolio – essentielles Instrument zukünftiger Wissensarbeit? 27. Community-Treffen der PWM, 23. Februar 2007 Paul Meinl GF, factline Webservices.
Advertisements

Das Web in der politischen Bildung – Das Politische im Web
ARBEITSKREIS DIGITALE KUNSTGESCHICHTE
Zur SCORM-Fähigkeit konventioneller XML-unterstützender eLearning Developer Tools im Projekt I-can-EIB OFFIS Oldenburger Forschungs- und Entwicklungsinstitut.
Kohonennetze für Information Retrieval mit User Feedback
Pop Jazz C B A Jazz C A Lehrstuhl für Künstliche Intelligenz
Implizite Digitale Soziale Netze als Basis für Expertenempfehlungssysteme Tamara Heck, Isabella Peters Abteilung für Informationswissenschaft Heinrich-Heine-Universität.
Idee und Realisierung des Internet der Zukunft
Soziale Vernetzung & kollektives Wissen
PADLR Submodul Modular Content Archives Ein Content Browser für Lehr- materialien aus der Elektrotechnik Dipl.-Ing. Mark Painter Institut für Nachrichtentechnik.
Forum Information and Communication in Mathematics Jahrestagung der ÖMG/DMV Graz.
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Ontologien- Query 1 Teil2
DEPARTMENT FÜR INFORMATIK
Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.
Konzeption und prototypische Implementierung eines zentralen Informationssystems für Systemmanagement Motivation Oft wird es schwierig, die benötigten.
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
Erschließen von semantischen Referenzen mit Ontology-Reasoning-Werkzeugen Das Ziel dieser Masterarbeit war die Erweiterung des ORBI Systems um ein Inferenz-System.
HTML - Einführung Richard Göbel.
Colibi Bibliothekssystem der Computerlinguistik. Einführung Motivation Was braucht Colibi? Software Datenbankdesign.
DOM (Document Object Model)
CIDOC-CRM Universität zu Köln Historisch-kulturwissenschaftliche Informationsverarbeitung AM 2 Dozent: Prof. Dr. Manfred Thaller Referent: Nelson Marambio.
HTML - Eine erste Annäherung
WIESEL – Integration von Wissensmanagement und E-Learning auf der Basis von Semantic Web Technologien Matthias Rust, XML-Tage 2004, Berlin WIESEL Integration.
PinK Plattform für intelligente Kollaborationsportale Dr. Joachim Quantz, e.V. Berlin, 13. September 2005.
Seminar Modellgetriebene Softwareentwicklung Einführung Seminar modellgetriebene Softwareentwicklung WS 05/06 Dipl.-Inf. Nadine Fröhlich Prof. Dr.-Ing.
XDoclet ETIS SS05.
7th international Bielefeld Konferenz Thinking beyond Digital Libraries Designing the Information Strategy for the next Decade Dynamische Infrastrukturen.
Projekt Web Engineering
Die Bank von morgen - eine neue Welt für IT und Kunden? 23. Oktober 2001.
1 Talk - CeBIT 2008 GroupMe!... where Semantic Web meets Web 2.0 Prof. Dr. Nicola Henze Leibniz Universität.
Folie 1 Reengineering-Werkzeugen für Webseiten Johannes Martin, University of Victoria Ludger Martin, Technische Universität Darmstadt WSR 2001 Bad Honnef,
Entitäten Extraktion Einführung
Spezifikation von Anforderungen
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
Übersicht Motivation Konzeption Umsetzung/ Implementierung
„Katalog und Bestell-Format
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE.
© Copyright 2010 STI INNSBRUCK Social Media im Tourismus.
Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Softwaretechnologie II (Teil I): Simulation und 3D Programmierung Prof.
A Social Tagging Environment for Web Information Extraction
Sesame Florian Mayrhuber
WebML for Semantic Web Michael Hertel.
Context-awareness Andreas Bossard, Matthias Hert.
3. Juni 2003Moritz Petersen Minimales Markup und Templates zur Erstellung von strukturierten Texten Ein Zwischenbericht zur Diplomarbeit.
Struktur von RDF Fabian Scheller.
Integration existierender digitaler Bibliotheken in Lernumgebungen LEBONED (Learning Environment Based On Non Educational Digital Libraries) Dipl.-Inform.
Arbeitsbereich „Rechnernetze und verteilte Systeme“
xRM1 Pilot Implementierung
Eike Schallehn, Martin Endig
© 2001 Sven Dammann1 Aufbau Integrierter Informationssysteme XML Bearbeitung und relationale Abbildung Sven Dammann Martin-Luther-Universität Halle-Wittenberg.
TIS – Managementsystem für die regionale Fortbildung Ein weiterer Schritt zur Erhöhung der Wirksamkeit des Unterstützersystems
Semantic Web.
Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Softwaretechnologie II (Teil I): Simulation und 3D Programmierung Prof.
Datenbanken im Web 1.
Vergleichende Analyse verbreiteter und neuester Software-Projekt-Management-Werkzeuge unter besonderer Berücksichtigung studentischer Software-Projekte.
Digitale Annotationen. Grundlage: John Bradley “Towards a Richer Sense of Digital Annotation: Moving Beyond a Media Orientation of the Annotation of Digital.
Dreamteam: Web 2.0 und der Katalog Anne Christensen und Thomas Hapke GBV-Verbundkonferenz
© Fraunhofer-Institut für Angewandte Informationstechnik FIT Social Search.
WILLKOMMEN Daniel Matheis Betreuer: Birgitta König-Ries Michael Klein "Dezentrale Realisierung von Gruppendiensten in Peer-to-Peer-Umgebungen" Studienarbeiter:
Web 2.0 und autonomes Datenbank-Tuning Thema 3: Tagging und Folksonomies Swen Hermeth Prof. Dr. K. Küspert, G. Rabinovitch, D. Wiese Lehrstuhl für Datenbanken.
1 Zahlreiche Transformationen - Achtung Hochspannung Meike Klettke.
Seminar Ingenieurdatenbanken WS 04/05 Dr. Schallehn, Prof. Paul, Dipl.-Inf. Fröhlich {eike | paul | iti.cs.uni-magdeburg.de.
A Social Tagging Environment for Web Information Extraction
Das Internet Ein Netzwerk, das viele Rechner miteinander verbindet
HYPERLINK WAS IST DAS WEB 2.0? SEMANTIC WEB.
Webzubi Ein Web 2.0-Netzwerk zur Gestaltung innovativer Berufsausbildung für gewerblich-technische Auszubildende.
XML Technologie für NOKIS Software Wassilios Kazakos, Andreas Schmidt, Alexei Valikov, Alexei Akhounov FZI Forschungszentrum Informatik Karlsruhe
1. Betreuer: Prof. Dr. Jörg Striegnitz 2. Betreuer: Dr. Martin Schindler Kontextsensitive Autocompletion für Klassendiagramme in der UML/P Florian Leppers.
 Präsentation transkript:

Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai Matrikelnummer: Erstgutachter: Prof. Dr. Rainer Malaka Zweitgutachter: Prof. Dr. Martin Gogolla

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 2 Einleitung  Motivation:  Die relevanten strukturellen Daten einfach und effektiv aus semi-strukturierten und unstrukturierten Web Dokumenten zu identifizieren, annotieren und extrahieren.  Fragestellung:  Wie kann man mittels Social Tagging, Tag-Empfehlungen und modernen Webtechniken eine Social Tagging Umgebung zu Unterstützung von Web Informationsextraktion aufbauen.

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 3 Einleitung  Ergebnis:  Ein Social Tagging Umgebung wurde für Web Information Extraction entworfen und umgesetzt und evaluiert.  Aufbau der Arbeit:  Stand der Forschung  Konzeption  Umsetzung  Evaluation

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 4 Stand der Forschung 1.Social Software und Kollektive Intelligenz 2.Social/Collaborative Tagging 3.Semantische Annotation 4.Web Informationsextraktion

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 5 Social Software und Kollektive Intelligenz  Social Software „Internetbasierte Anwendungen, die Informations-, Identitäts- und Beziehungsmanagement in den (Teil-)Ö ff entlichkeiten hypertextueller und sozialer Netzwerke unterstützen“ 1.  Kollektive Intelligenz „ Das Ganze ist mehr als die Summe seiner Teile“ 2.

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 6 Social/Collaborative Tagging  Social Tagging R = (r 1,...,r l ): Menge der verschlagworteten Ressource. T = (t 1,...,t m ): Menge der vergebenen Schlagwörter. U = (u 1,...,u n ) Menge der Nutzer.  Folksonomy Die Menge aller Tags, die einer bestimmten Ressource von allen Nutzers zugewiesen wurden.

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 7 Social/Collaborative Tagging  Folksonomy „folk“ (Volk) und „taxonomy“ (Taxonomie, Klassifikation). die Ordnung ist nicht vornher festgelegt. keine formellen Beziehungen in einer Folksonomie. Vier zentrale Merkmale 3 : 1. Tagging is done independently; 2. Tags are aggregated. 3. Relationships are inferred. 4. Any inference methode is valid. (Tag-Zähler, Co-occurence, Clustering)

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 8 Social/Collaborative Tagging  Tag-Empfehlung  Algorithmus von Yahoo! 4  Auffindung und Wiederfindung von Ressourcen  Popularität, Co-ocurrence und Normalisierung von Tags

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 9 Social/Collaborative Tagging  Einsatzgebiete und Systembeispiele 1.Managing Personal Information, z.B „Labels“ in Google Mail; 2.Social Bookmarking, z.B del.icio.us; 3.Collecting and Sharing Digital Objects, z.B YouTube, Flickr, LibraryThing; 4.E-Commerce, z.B Etsy, Buzzillions; 5.Other Uses, z.B ESP Game, Diigo.

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 10 Social/Collaborative Tagging  Wesentliche Vorteile 4 1.Erleichterung der Zusammenarbeit; 2.Gewinnung von deskriptiven Metadaten; 3.Verbesserung der Au ffi ndbarkeit; 4.Erhöhung der Beteiligung; 5.Erkennung der „Patterns“; 6.Erweiterung existierender Klassifikation; 7.Chance für Innovation.

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 11 Semantische Annotation  Professionelle Annotation  manuell von von Experten;  sehr teuer (zeit-/arbeitsintensiv).  Automatische Annotation  automatisch durch computerlinguistische Methoden;  nicht immer zutre ff end und oft nicht ausreichend.  Soziale Annotation  Kollektive Intelligenz  Vorteile von Social Tagging

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 12 Semantische Annotation  Taxonomie  Hierarchie von Begri ff en (Über/Unterordnung);  keine Beziehungen zwischen Elementen;  aufwendig und wenig fexibel.  Ontologie  formale Spezifikation einer Konzeptualisierung;  ein Netz von Hierarchien mit logischer Beziehungen;  teuer und wenig fexibel.  Folksonomie  freies Tagging und kollektive Intelligenz;  jedes Schlussfolgerungsverfahren ist zulässig.

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 13 Semantische Annotation  Web Annotation  Inhaltsbezogene bzw, textuelle Annotation  Strukturelle Annotation Abbildung 2.9: Text-Markierung und Kontext-Menü in Thresher

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 14 Web Informationsextraktion  Informationsextraktion  versucht nicht, die Input-Texte bzw. Quellen zu verstehen;  analysiert Teilbereiche von jedem Dokument, welche relevante Informationen enthalten  Wrapper  eine Reihe von Extraktionsregeln und Code;  manuell, überwacht (semi-automatischer) oder automatisch generieren

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 15 Web Informationsextraktion  Klassifikationen 5 1.Sprachbasiert: Programmiersprachen unterstützen Wrapper Generierung; guten Programmierkenntnis notwendig; sehr hohen manuellen Arbeitsaufwand. 2.HTML-basiert: Analyse von HTML Dokumenten anhand der HTML-Struktur- Eigenschaften; unstrukturiert und semi-strukturiert; täglich neu und ständig Veränderung. 3.NLP-basiert: für freie, natürlichsprachliche Texte; vollgrammatikalische Sätze erfordert; nicht sehr gut für Web IE.

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 16 Web Informationsextraktion  Klassifikationen 4.Wrapper-Induction-basiert: Extraktionsregeln werden von einer Reihe von Trainingsbeispielen abgeleitet; große Menge von Trainingsbeispieln erfordert. 5.Modell-basiert: die Struktur von den Zielobjekten ist gegeben; versucht Seiten zu finden, die eine absolut konforme Teilstruktur dazu aufweisen; große Menge von strukturierter Daten notwendig; 6.Ontologie-basiert: die Techniken des Semantic Webs noch nicht sehr verbreitet; zum aktuellen Zeitpunkt noch une ffi zient.

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 17 Web Informationsextraktion  Problemklassen 6  Au ffi nden der Webseiten durch das Verfolgen von Hyperlinks;  Unsaubere HTML-Struktur;  Das Hyperlink Dilemma;  Struktur Synthese Problem;  Data Mapping und Data Integration Problem  Das „Deep Web“ 7 ;  Die Flexibilität des Webs 8.

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 18 Web Informationsextraktion  Nutzung visueller Information Abbildung: Visuelle Extraktion Umgebung von Lixto

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 19 Zusammenfassung  manuelle und überwachte Bearbeitungen kostet sehr hohen Arbeitsaufwand  große Menge von Bespieldaten für verschiedene Informationsquellen sind notwendig;  häufige Veränderung von Webseiten erhöhtet Arbeitsaufwand.  Social Tagging als Hilfsmittel;  Relevante Webinhalte werden durch kollektive menschliche Intelligenz klassifiziert und durch Schlagworteingabe semantisch zusammengefasst;  immer aktuellen Metadaten werden von sozialer Annotation erstellt.

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 20 Konzeption  Grundidee

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 21 Konzeption  Systemübersicht

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 22 Umsetzung  Analyse  Systementwurf  Implementierung  Nutzung des Tagging Systems

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 23 Analyse  Client-Server Architektur C/S bzw. B/S Architektur  Funktionale Anforderungen 1.strukturelle und textuelle Annotation direkt auf der Webseite; 2.die strukturellen Informationen sammeln; 3.interaktive Dialog für die Schlagworteingabe und Tag- Empfehlung; 4.die strukturellen Informationen mit Relationen von Nutzer, Tags und Ressourcen speichern; 5.für ausgewählte Webinhalte die empfohlenen Tags generieren; 6.Kommando steuerte Kommunikation; 7.asynchrone und Cross-Domain Datenübertragung.

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 24 Analyse  Interaktionen und die strukturellen Informationen InteraktionenArt von AuswahlDie strukturellen Informationen Strukturelle Selektion SingleURL, XPath dieses Knotens, Position dieses Knoten Multi URL, XPath gemeinsamer Vater-Knoten, alle ausgewählten Kinder-Knoten, Position des visuellen Bereichs auf der Webseite Textuelle Markierung Single URL, XPath eingeordnetes Knoten, Zeichen-O ff set (Start und End), ausgewählter Textinhalt Multi besteht aus mehreren Single-Auswahl von textueller Markierung

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 25 Systementwurf  Systemarchithektur

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 26 Systementwurf  Clientseitige Interaktionen

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 27 Systementwurf  Serverseitige Funktionalitäten 1.Neu Anmelden / Einloggen / Ausloggen; 2.Einfügen / Löschen / Modifizieren von Annotation; 3.Laden Tagging History; 4.Tag-Empfehlung;

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 28 Systementwurf  Datenmodelle

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 29 Implementierung  Frontend :  Javascript, Bookmarklet  Backend:  Java(-Servlet), Hibernate, Mysql, Tomcat  Kommunikation:  XMLHttpRequest, JSON(P)

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 30 Nutzung des Tagging Systems

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 31 Evaluation  Empirisches Verfahren  Online-Befragung und Tagging-Experiment  Nutzungssituation und Empfehlungsanalyse

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 32 Evaluation  Nutzungssituation Ergebnisse durch Cut-O ff Wert von „4“ und „5“

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 33 Evaluation  Empfehlungsanalyse Schritte/TagsPreisinfoComputernetzwerkeBuchPreis Schritt 11,00,330,605,0 Schritt 20,50,330,10 Schritt 30,410,51 Schritt 40,18

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 34 Evaluation  Empfehlungsanalyse WebseiteDie empfohlenen Tags W1 (Fußball) fussball, belgien, ergebnis, privatliga, tabelle W2 (Wettervorhersagen) wetter, bremen, temperatur, vorsage, wetterbericht W3 (Personendarstellung) gernot (Personname), lebenslauf, adresse, telefon, karriere W4 (Bücher) preis, buch, computernetzwerke, preisinfo, wesley W5 (Filme) 007, schauspieler, film, superstar, connery

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 35 Fazit und Ausblick  Der aktuelle Stand der Forschung analysiert;  Eine neues Konzept von Social Tagging als Hilfsmittel für Web Informationsextraktion vorgestellt;  Eine Social Tagging Umgebung wurde mit integriertem Empfehlungssystem erfolgreich umgesetzt und evaluiert;  zur Verbesserung kann die Tagging-Umgebung als ein Spiel Endnutzer motivieren;  In der Zukunft: vereinfachte und verbesserte Web Interaktion; semantischen Technologie und IE-Verfahren macht das WWW noch intelligent.

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 36 Quelle 1.Jan Schmidt: Social Software: Onlinegestütztes Informations-, Identitäts- und Beziehungsmanagement. In: Forschungsjournal Neue Soziale Bewegungen, Nr 2/ von Aristoteles ( v. Chr.), er war der erste große Systematiker unter den Philosophen und gilt als Begründer der abendländischen Wissenschaft. 3.Smith, G. (2008). Tagging: People-powered Metadata for the Social Web (1ed.). New Riders Press. 4.Xu, Z., Y. Fu, J. Mao, and D. Su (2006). Towards the semantic web: Collaborative tag suggestions. WWW 2006 Tagging Workshop Proceedings. 5.Laender, A. H. F., B. A. Ribeiro-Neto, A. S. da Silva, and J. S. Teixeira (2002,June). A brief survey of web data extraction tools. 6.Myllymaki, J. (2001). E ff ective web data extraction with standard xml technologies. International World Wide Web Conference. 7.Bergman, M. K. (2001). The deep web: Surfacing hidden value. 8.X., G., Z. M., and A. P. (2003, October). Learning information extraction patterns from tabular web pages without manual labelling. IEEE/WIC International Conference.

Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 37 Vielen Dank!