Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Ähnliche Präsentationen


Präsentation zum Thema: "Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai."—  Präsentation transkript:

1 Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai Matrikelnummer: Erstgutachter: Prof. Dr. Rainer Malaka Zweitgutachter: Prof. Dr. Martin Gogolla

2 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 2 Einleitung  Motivation:  Die relevanten strukturellen Daten einfach und effektiv aus semi-strukturierten und unstrukturierten Web Dokumenten zu identifizieren, annotieren und extrahieren.  Fragestellung:  Wie kann man mittels Social Tagging, Tag- Empfehlungen und modernen Webtechniken eine Social Tagging Umgebung zu Unterstützung von Web Informationsextraktion aufbauen.

3 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 3 Einleitung  Ergebnis:  Ein Social Tagging Umgebung wurde für Web Information Extraction entworfen und implementiert und evaluiert.  Aufbau der Arbeit:  Stand der Forschung  Konzeption  Umsetzung eines Tagging Systems für Web Information Extraction  Evaluation

4 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 4 Stand der Forschung 1.Social Software und Kollektive Intelligenz 2.Social/Collaborative Tagging 3.Semantische Annotation 4.Web Informationsextraktion

5 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 5 Social Software und Kollektive Intelligenz  Social Software „Internetbasierte Anwendungen, die Informations-, Identitäts- und Beziehungsmanagement in den (Teil-)Ö ff entlichkeiten hypertextueller und sozialer Netzwerke unterstützen“ 1.  Kollektive Intelligenz „ Das Ganze ist mehr als die Summe seiner Teile“ 2.

6 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 6 Social/Collaborative Tagging  Social Tagging R = (r 1,...,r l ): Menge der verschlagworteten Ressource. T = (t 1,...,t m ): Menge der vergebenen Schlagwörter. U = (u 1,...,u n ) Menge der Nutzer.  Folksonomy Die Menge aller Tags, die einer bestimmten Ressource von allen Nutzers zugewiesen wurden.

7 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 7 Social/Collaborative Tagging  Folksonomy „folk“ (Volk) und „taxonomy“ (Taxonomie, Klassifikation). die Ordnung ist nicht vornher festgelegt. keine formellen Beziehungen in einer Folksonomie. Vier zentrale Merkmale 3 : 1. Tagging is done independently; 2. Tags are aggregated. 3. Relationships are inferred. 4. Any inference methode is valid. (Tag-Zähler, Co-occurence, Clustering)

8 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 8 Social/Collaborative Tagging  Tag-Empfehlung  Algorithmus von Yahoo! 4  Auffindung und Wiederfindung von Ressourcen  Popularität, Co-ocurrence und Normalisierung von Tags

9 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 9 Social/Collaborative Tagging  Einsatzgebiete und Systembeispiele 1.Managing Personal Information, z.B „Labels“ in Google Mail; 2.Social Bookmarking, z.B del.icio.us; 3.Collecting and Sharing Digital Objects, z.B YouTube, Flickr, LibraryThing; 4.E-Commerce, z.B Etsy, Buzzillions; 5.Other Uses, z.B ESP Game, Diigo.

10 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 10 Social/Collaborative Tagging  Wesentliche Vorteile 1.Erleichterung der Zusammenarbeit; 2.Gewinnung von deskriptiven Metadaten; 3.Verbesserung der Au ffi ndbarkeit; 4.Erhöhung der Beteiligung; 5.Erkennung der „Patterns“; 6.Erweiterung existierender Klassifikation; 7.Chance für Innovation.

11 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 11 Semantische Annotation  Professionelle Annotation  manuell von von Experten;  sehr teuer (zeit-/arbeitsintensiv).  Automatische Annotation  automatisch durch computerlinguistische Methoden;  nicht immer zutre ff end und oft nicht ausreichend.  Soziale Annotation  Kollektive Intelligenz  Vorteile von Social Tagging

12 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 12 Semantische Annotation  Taxonomie  Hierarchie von Begri ff en (Über/Unterordnung);  keine Beziehungen zwischen Elementen;  aufwendig und wenig fexibel.  Ontologie  formale Spezifikation einer Konzeptualisierung;  ein Netz von Hierarchien mit logischer Beziehungen;  teuer und wenig fexibel.  Folksonomie  freies Tagging und kollektive Intelligenz;  jedes Schlussfolgerungsverfahren ist zulässig.

13 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 13 Semantische Annotation  Web Annotation  Inhaltsbezogene bzw, textuelle Annotation  Strukturelle Annotation Abbildung 2.9: Text-Markierung und Kontext-Menü in Thresher

14 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 14 Web Informationsextraktion  Informationsextraktion  versucht nicht, die Input-Texte bzw. Quellen zu verstehen;  analysiert Teilbereiche von jedem Dokument, welche relevante Informationen enthalten  Wrapper  eine Reihe von Extraktionsregeln und Code;  manuell, überwacht (semi-automatischer) oder automatisch generieren

15 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 15 Web Informationsextraktion  Klassifikationen 1.Sprachbasiert: Programmiersprachen unterstützen Wrapper Generierung; guten Programmierkenntnis notwendig; sehr hohen manuellen Arbeitsaufwand. 2.HTML-basiert: Analyse von HTML Dokumenten anhand der HTML-Struktur- Eigenschaften; unstrukturiert und semi-strukturiert; täglich neu und ständig Veränderung. 3.NLP-basiert: für freie, natürlichsprachliche Texte; vollgrammatikalische Sätze erfordert; nicht sehr gut für Web IE.

16 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 16 Web Informationsextraktion  Klassifikationen 4.Wrapper-Induction-basiert: Extraktionsregeln werden von einer Reihe von Trainingsbeispielen abgeleitet; große Menge von Trainingsbeispieln erfordert. 5.Modell-basiert: die Struktur von den Zielobjekten ist gegeben; versucht Seiten zu finden, die eine absolut konforme Teilstruktur dazu aufweisen; große Menge von strukturierter Daten notwendig; 6.Ontologie-basiert: die Techniken des Semantic Webs noch nicht sehr verbreitet; zum aktuellen Zeitpunkt noch une ffi zient.

17 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 17 Web Informationsextraktion  Problemklassen  Au ffi nden der Webseiten durch das Verfolgen von Hyperlinks;  Unsaubere HTML-Struktur;  Das Hyperlink Dilemma;  Struktur Synthese Problem;  Data Mapping und Data Integration Problem  Das „Deep Web“;  Die Flexibilität des Webs.

18 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 18 Web Informationsextraktion  Nutzung visueller Information Abbildung: Visuelle Extraktion Umgebung von Lixto

19 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 19 Zusammenfassung  manuelle und überwachte Bearbeitungen kostet sehr hohen Arbeitsaufwand  große Menge von Bespieldaten für verschiedene Informationsquellen sind notwendig;  häufige Veränderung von Webseiten erhöhtet Arbeitsaufwand.  Social Tagging als Hilfsmittel;  Relevante Webinhalte werden durch kollektive menschliche Intelligenz klassifiziert;  immer aktuellen Metadaten werden von sozialer Annotation erstellt.

20 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 20 Konzeption  Grundidee

21 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 21 Konzeption  Systemübersicht

22 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 22 Umsetzung  Analyse  Systementwurf  Implementierung  Nutzung des Tagging Systems

23 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 23 Analyse  Client-Server Architektur  Funktionale Anforderungen  Interaktionen und die strukturellen Informationen

24 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 24 Systementwurf  Systemarchithektur

25 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 25 Systementwurf  Clientseitige Interaktionen

26 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 26 Systementwurf  Serverseitige Funktionalitäten

27 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 27 Systementwurf  Datenmodelle

28 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 28 Implementierung  Technologieentscheidung

29 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 29 Implementierung  Klassenstruktur

30 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 30 Nutzung des Tagging Systems

31 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 31 Evaluation  Nutzungssituation

32 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 32 Evaluation  Empfehlungsanalyse Schritte/TagsPreisinfoComputernetzwerkeBuchPreis Schritt 11,00,330,605,0 Schritt 20,50,330,10 Schritt 30,410,51 Schritt 40,18

33 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 33 Evaluation  Empfehlungsanalyse WebseiteDie empfohlenen Tags W1 (Fußball) fussball, belgien, ergebnis, privatliga, tabelle W2 (Wettervorhersagen) wetter, bremen, temperatur, vorsage, wetterbericht W3 (Personendarstellung) gernot (Personname), lebenslauf, adresse, telefon, karriere W4 (Bücher) preis, buch, computernetzwerke, preisinfo, wesley W5 (Filme) 007, schauspieler, film, superstar, connery

34 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 34 Fazit und Ausblick

35 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 35 Quelle 1.Jan Schmidt: Social Software: Onlinegestütztes Informations-, Identitäts- und Beziehungsmanagement. In: Forschungsjournal Neue Soziale Bewegungen, Nr 2/ von Aristoteles ( v. Chr.), er war der erste große Systematiker unter den Philosophen und gilt als Begründer der abendländischen Wissenschaft. 3.Smith, G. (2008). Tagging: People-powered Metadata for the Social Web (1ed.). New Riders Press. 4.Xu, Z., Y. Fu, J. Mao, and D. Su (2006). Towards the semantic web: Collaborative tag suggestions. WWW 2006 Tagging Workshop Proceedings.

36 Universität Bremen FB3 AG-Digitale Medien Prof. Dr. Rainer Malaka Diplomarbeit Abschlussvortrag 36 Vielen Dank!


Herunterladen ppt "Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai."

Ähnliche Präsentationen


Google-Anzeigen