A Social Tagging Environment for Web Information Extraction

A Social Tagging Environment for Web Information Extraction
Diplomand: Wenyu Cai Matrikelnummer: Erstgutachter: Prof. Dr. Rainer Malaka Zweitgutachter: Prof. Dr. Martin Gogolla

Einleitung Motivation:
Die relevanten strukturellen Daten einfach und effektiv aus semi-strukturierten und unstrukturierten Web Dokumenten zu identiﬁzieren, annotieren und extrahieren. Fragestellung: Wie kann man mittels Social Tagging, Tag- Empfehlungen und modernen Webtechniken eine Social Tagging Umgebung zu Unterstützung von Web Informationsextraktion aufbauen.

Einleitung Ergebnis: Ein Social Tagging Umgebung wurde für Web Information Extraction entworfen und implementiert und evaluiert. Aufbau der Arbeit: Stand der Forschung Konzeption Umsetzung eines Tagging Systems für Web Information Extraction Evaluation

Stand der Forschung Social Software und Kollektive Intelligenz
Social/Collaborative Tagging Semantische Annotation Web Informationsextraktion

Social Software und Kollektive Intelligenz
„Internetbasierte Anwendungen, die Informations-, Identitäts- und Beziehungsmanagement in den (Teil-)Öﬀentlichkeiten hypertextueller und sozialer Netzwerke unterstützen“1. Kollektive Intelligenz „Das Ganze ist mehr als die Summe seiner Teile“2.

Social/Collaborative Tagging
Social Tagging R = (r1,...,rl): Menge der verschlagworteten Ressource. T = (t1,...,tm): Menge der vergebenen Schlagwörter. U = (u1,...,un) Menge der Nutzer. Folksonomy Die Menge aller Tags, die einer bestimmten Ressource von allen Nutzers zugewiesen wurden.

Folksonomy „folk“ (Volk) und „taxonomy“ (Taxonomie, Klassiﬁkation). die Ordnung ist nicht vornher festgelegt. keine formellen Beziehungen in einer Folksonomie. Vier zentrale Merkmale3: Tagging is done independently; Tags are aggregated. Relationships are inferred. Any inference methode is valid. (Tag-Zähler, Co-occurence, Clustering)

Tag-Empfehlung Algorithmus von Yahoo!4 Auffindung und Wiederﬁndung von Ressourcen Popularität, Co-ocurrence und Normalisierung von Tags

Einsatzgebiete und Systembeispiele Managing Personal Information, z.B „Labels“ in Google Mail; Social Bookmarking, z.B del.icio.us; Collecting and Sharing Digital Objects, z.B YouTube, Flickr, LibraryThing; E-Commerce, z.B Etsy, Buzzillions; Other Uses, z.B ESP Game, Diigo.

Wesentliche Vorteile Erleichterung der Zusammenarbeit; Gewinnung von deskriptiven Metadaten; Verbesserung der Auﬃndbarkeit; Erhöhung der Beteiligung; Erkennung der „Patterns“; Erweiterung existierender Klassiﬁkation; Chance für Innovation.

Semantische Annotation
Professionelle Annotation manuell von von Experten; sehr teuer (zeit-/arbeitsintensiv). Automatische Annotation automatisch durch computerlinguistische Methoden; nicht immer zutreﬀend und oft nicht ausreichend. Soziale Annotation Kollektive Intelligenz Vorteile von Social Tagging

Taxonomie Hierarchie von Begriﬀen (Über/Unterordnung); keine Beziehungen zwischen Elementen; aufwendig und wenig fexibel. Ontologie formale Speziﬁkation einer Konzeptualisierung; ein Netz von Hierarchien mit logischer Beziehungen; teuer und wenig fexibel. Folksonomie freies Tagging und kollektive Intelligenz; jedes Schlussfolgerungsverfahren ist zulässig.

Web Annotation Inhaltsbezogene bzw, textuelle Annotation Strukturelle Annotation Abbildung 2.9: Text-Markierung und Kontext-Menü in Thresher

Web Informationsextraktion
versucht nicht, die Input-Texte bzw. Quellen zu verstehen; analysiert Teilbereiche von jedem Dokument, welche relevante Informationen enthalten Wrapper eine Reihe von Extraktionsregeln und Code; manuell, überwacht (semi-automatischer) oder automatisch generieren

Klassiﬁkationen Sprachbasiert: Programmiersprachen unterstützen Wrapper Generierung; guten Programmierkenntnis notwendig; sehr hohen manuellen Arbeitsaufwand. HTML-basiert: Analyse von HTML Dokumenten anhand der HTML-Struktur- Eigenschaften; unstrukturiert und semi-strukturiert; täglich neu und ständig Veränderung. NLP-basiert: für freie, natürlichsprachliche Texte; vollgrammatikalische Sätze erfordert; nicht sehr gut für Web IE.

Klassifikationen Wrapper-Induction-basiert: Extraktionsregeln werden von einer Reihe von Trainingsbeispielen abgeleitet; große Menge von Trainingsbeispieln erfordert. Modell-basiert: die Struktur von den Zielobjekten ist gegeben; versucht Seiten zu finden, die eine absolut konforme Teilstruktur dazu aufweisen; große Menge von strukturierter Daten notwendig; Ontologie-basiert: die Techniken des Semantic Webs noch nicht sehr verbreitet; zum aktuellen Zeitpunkt noch uneffizient.

Problemklassen Auﬃnden der Webseiten durch das Verfolgen von Hyperlinks; Unsaubere HTML-Struktur; Das Hyperlink Dilemma; Struktur Synthese Problem; Data Mapping und Data Integration Problem Das „Deep Web“; Die Flexibilität des Webs.

Nutzung visueller Information Abbildung: Visuelle Extraktion Umgebung von Lixto

Zusammenfassung manuelle und überwachte Bearbeitungen kostet sehr hohen Arbeitsaufwand große Menge von Bespieldaten für verschiedene Informationsquellen sind notwendig; häuﬁge Veränderung von Webseiten erhöhtet Arbeitsaufwand. Social Tagging als Hilfsmittel; Relevante Webinhalte werden durch kollektive menschliche Intelligenz klassiﬁziert; immer aktuellen Metadaten werden von sozialer Annotation erstellt.

Konzeption Grundidee

Konzeption Systemübersicht

Umsetzung Analyse Systementwurf Implementierung
Nutzung des Tagging Systems

Analyse Client-Server Architektur Funktionale Anforderungen Interaktionen und die strukturellen Informationen

Systementwurf Systemarchithektur

Systementwurf Clientseitige Interaktionen

Systementwurf Serverseitige Funktionalitäten

Systementwurf Datenmodelle

Implementierung Technologieentscheidung

Implementierung Klassenstruktur

Nutzung des Tagging Systems

Evaluation Nutzungssituation

Evaluation Empfehlungsanalyse Schritte/Tags Preisinfo
Computernetzwerke Buch Preis Schritt 1 1,0 0,33 0,60 5,0 Schritt 2 0,5 0,10 Schritt 3 0,41 0,51 Schritt 4 0,18

(Personendarstellung)
Evaluation Empfehlungsanalyse Webseite Die empfohlenen Tags W1 (Fußball) fussball, belgien, ergebnis, privatliga, tabelle W2 (Wettervorhersagen) wetter, bremen, temperatur, vorsage, wetterbericht W3 (Personendarstellung) gernot (Personname), lebenslauf, adresse, telefon, karriere W4 (Bücher) preis, buch, computernetzwerke, preisinfo, wesley W5 (Filme) 007, schauspieler, film, superstar, connery

Fazit und Ausblick

Quelle Jan Schmidt: Social Software: Onlinegestütztes Informations-, Identitäts- und Beziehungsmanagement. In: Forschungsjournal Neue Soziale Bewegungen, Nr 2/2006 von Aristoteles ( v. Chr.), er war der erste große Systematiker unter den Philosophen und gilt als Begründer der abendländischen Wissenschaft. Smith, G. (2008). Tagging: People-powered Metadata for the Social Web (1ed.). New Riders Press. Xu, Z., Y. Fu, J. Mao, and D. Su (2006). Towards the semantic web: Collaborative tag suggestions. WWW 2006 Tagging Workshop Proceedings.

Vielen Dank!

A Social Tagging Environment for Web Information Extraction

Ähnliche Präsentationen

Präsentation zum Thema: "A Social Tagging Environment for Web Information Extraction"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

A Social Tagging Environment for Web Information Extraction

Ähnliche Präsentationen

Präsentation zum Thema: "A Social Tagging Environment for Web Information Extraction"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback