1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,

Slides:



Advertisements
Ähnliche Präsentationen
Programmieren im Großen von Markus Schmidt und Benno Kröger.
Advertisements

Polynome und mehrfache Nullstellen
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
On the Criteria to Be Used in Decomposing Systems into Modules
PKJ 2005/1 Stefan Dissmann Vorwoche - Klasse public class Studierende { private String name, vorname, studiengang; private int matNr, semester; private.
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
B-Bäume.
What do you get marks for?
Pflege der Internetdienste
Arbeitsbereich Technische Aspekte Multimodaler Systeme Universität Hamburg Fachbereich Informatik Oberseminar TAMS Grundlagen omnidirektionaler Sichtsysteme.
Verifizieren versus Berechnen
Der Einstieg in das Programmieren
Klicke Dich mit der linken Maustaste durch das Übungsprogramm! Vereinfachung von Termen Ein Übungsprogramm der IGS - Hamm/Sieg © IGS-Hamm/Sieg 2006 Dietmar.
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
© 2006 W. Oberschelp, G. Vossen Rechneraufbau & Rechnerstrukturen, Folie 4.1.
Vorlesung: 1 Betriebssysteme 2007 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebssysteme Hochverfügbarkeit (Einführung) 3. Quartal.
Vorlesung: 1 Betriebssysteme 2008 Prof. Dr. G. Hellberg Studiengang Mechatronik FHDW Vorlesung: Betriebssysteme Hochverfügbarkeit (Einführung) 2. Quartal.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
PKJ 2005/1 Stefan Dissmann Rückblick auf 2005 Was zuletzt in 2005 vorgestellt wurde: Klassen mit Attributen, Methoden und Konstruktoren Referenzen auf.
PKJ 2005/1 Stefan Dissmann Zusammenfassung Vorwoche Methoden sind mit einem Namen versehene Programmabschnitte besitzen Rückgabetyp, Namen, Parameterliste.
Kursleitung: Hier ist Platz für Ihren Namen
Differentieller Stromverstärker
Inhalte und Maßnahmen eingegeben haben,
Grundschutztools
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Maschinelles Lernen und automatische Textklassifikation
Maschinelles Lernen und automatische Textklassifikation
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.
20:00.
Die Geschichte von Rudi
PowerPoint.
1 Fachtagung am Seniorenorientiertes Design und Marketing ThyssenKrupp Immobilien Design for all - Anpassungen im Wohnungsbestand 1.Demographie.
...ich seh´es kommen !.
Generalisierung/Spezialisierung Subtypisierung/Vererbung
Sesame Florian Mayrhuber
Präsentation läuft auch vollautomatisch ab … wie du möchtest
Auslegung eines Vorschubantriebes
WS 2009/10 Datenbanksysteme Fr 15:15 – 16:45 R Vorlesung #3 Das relationale Modell (Teil 2)
Janein
Analyse von Ablaufdiagrammen
HORIZONT 1 XINFO ® Das IT - Informationssystem HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 /
HORIZONT 1 XINFO ® Das IT - Informationssystem PL/1 Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.
PROCAM Score Alter (Jahre)
Managemententscheidungsunterstützungssysteme (Ausgewählte Methoden und Fallstudien) ( Die Thesen zur Vorlesung 3) Thema der Vorlesung Lösung der linearen.
Großer Altersunterschied bei Paaren fällt nicht auf!
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Analyseprodukte numerischer Modelle
2014 Januar 2014 So Mo Di Mi Do Fr Sa So
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Vortrag von Rechtsanwältin Verena Nedden, Fachanwältin für Steuerrecht zur Veranstaltung Wege zum bedingungslosen Grundeinkommen der Piratenpartei Rhein-Hessen.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Information Retrieval, Vektorraummodell
Formulare in HTML.
Der Erotik Kalender 2005.
Bildergalerie PRESEASON CAMP Juni 2014 Romanshorn Get ready for the Season!
Begrüßung und Abschied
Familie Beutner, Konrad-Voelckerstrasse, Edenkoben/Pfalz, Tel:
Fragebogen Studierende
Numbers Greetings and Good-byes All about Me Verbs and Pronouns
prof. dr. dieter steinmannfachhochschule trier © prof. dr. dieter steinmann Folie 1 vom Montag, 30. März 2015.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
 Präsentation transkript:

1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam, Sean Slattery (2000) Oliver Rohr

2 Gliederung Überblick Problemspezifikation Erkennen von Klasseninstanzen Erkennen von Relationsinstanzen Extraktion aus Textsegmenten Fazit, Ausblick

3 Überblick Funktion des Web-KB Systems Wissensbasis WWWWeb-KB System unterchiedliche Informationsquellen ErkennungsfunktionenDaten

4 Überblick Ontologie Ontologie: Klassen und Relationen, die Informatikfachbereichsseiten beschreiben

5 Überblick Training / Testing Training: es werden Erkennungsfunktionen zur Extraktion gelernt (ML). Trainingsmenge: gelabelte Webseiten von 4 Fachbereichen an versch. Universitäten (8000 Seiten Seitenpaare) Testing: System durchsucht selbsttätig das Web und extrahiert neue Instanzen von Klassen und Relationen (4127 Seiten Hyperlinks)

6 Überblick Anwendung Breitensuche auf dem Graphen aus Seiten und Hyperlinks: erkannte Klasse Klasse other...

7 Das Webinterface des vorgestellten Prototyps

8 Problemspezifikation gegeben: –initiale Wissensbasis bestehend aus Ontologie (und optional Instanzen) –Trainingsbeispiele, die Instanzen von Klassen und Relationen beschreiben gesucht: –Erkennungsfunktionen zur selbständigen Extraktion von Instanzen aus dem Web (Erweiterung der Wissensbasis)

9 Problemspezifikation Annahmen: –Klassen werden durch Hypertextsegmente beschrieben (1 Textabschnitt, 1 Seite oder zusammenhängende Seiten), hier: nur 1 Seite –Relationen werden durch Hyperlinkpfade beschrieben (Weg aus Seiten+Hyperlinks) oder durch Textsegmente oder durch andere gelernte Regeln, hier: nur binäre Relationen

10 Problemspezifikation offene Aufgaben –Erkennen von Klasseninstanzen –Erkennen von Relationsinstanzen –Extraktion aus Textsegmenten

11 Erkennen von Klasseninstanzen statistische Textklassifikation Classifier –full-text –title / heading –hyperlink

12 Erkennen von Klasseninstanzen statistische Textklassifikation Bewertung –probabilistisches Model (unigram, bag-of- words): Wörter sind unabhängig voneinenander –ordne Seite der Klasse zu, die - bzgl. der vorkommenden Wörter - am wahrscheinlichsten ist

13 Top-Ten Wörter

14 Erkennen von Klasseninstanzen statistische Textklassifikation Verwendete Score-Funktion: enstanden aus:

15 Konfusionsmatrix (full-text)

16 Accuracy / Coverage Tradeoff (full-text)

17 Erkennen von Klasseninstanzen logische Klassifikation Classifier werden als logische Regeln (Klauseln) gelernt FOIL: beginne mit leerer Klausel und füge per hill-climbing Suche neue Literale hinzu bis die Regel nur noch positive Instanzen abdeckt

18 Erkennen von Klasseninstanzen logische Klassifikation Hintergrundrelationen, z.B. –has_word(Page) –link_to(Page, Page) Beispiel-Regel:

19 Accuracy / Coverage Tradeoff (logische Regeln)

20 Erkennen von Klasseninstanzen kombinierte Klassifikation benutze alle 4 bisherigen Classfier (full-text, title/heading, hyperlink, logische Regeln) und nehme die Klasse mit den meisten Stimmen (bei Stimmgleichheit entscheidet die Zuverlässigkeit der Vorhersagen) Ergebnis etwas deprimierend (keine einheitliche Verbesserung i.V. zu einzelnen Classifiern), zu einfache Kombination?

21 Accuracy / Coverage Tradeoff bei kombinierten Classifiern (200 Vokabeln)

22 Erkennen von Relationsinstanzen Hyperlinkpfade Hintergrundrelationen –class(Page) –link_to(Hyperlink, Page, Page) –...

23 Erkennen von Relationsinstanzen Algo so ähnlich wie FOIL: (1) Pfadteil der Klausel wird gelernt (2) Literale werden hinzugefügt (hill-climbing) (1) (2)

24 Erkennen von Relationsinstanzen Pfadfinder bei der Arbeit:

25 Erkennen von Relationsinstanzen Beispiel: ADB CE

26 Accuracy / Coverage Tradeoff bei gelernten Relationen

27 Extraktion aus Textsegmenten typische IE - Aufgabe IDL Lerner im Sinne FOILs: SRV (Sequence Rule with Validation) Eingabe für SRV: –gelabelte Seiten (bzgl. der gesuchten Instanzen) –Features Ausgabe: IE Regeln

28 Extraktion aus Textsegmenten hill-climbing: Füge ein Literal hinzu, das soviel positive Instanzen (gelabelte Segmente) wie möglich abdeckt und viele negative Instanzen (ungelabelte Segmente) ausschliesst beende Suche, wenn Regel gut genug ist

29 Extraktion aus Textsegmenten Beispiel:

30 Extraktion aus Textsegmenten Erkannter Name: Regel trotzdem gut, Accuracy bei 77%

31 Fazit Prototyp hat Accuracy von über 70% bei Coverage von ca. 30% Methoden lassen sich vermutlich in neuen Kombination in anderen Domänen anwenden Aber: geignetste Methode hängt von der Darstellung der Instanzen ab

32 Fazit Prototyp gut an Webseiten angepasst: –Sicht nach 'Außen': Betrachtung der Umgebung von Webseiten (logische Regeln) –Sicht nach 'Innen': Betrachtung einzelner Textabschnitte von Webseiten (SRV- Textextraktion)

33 Ausblick viele potentielle Verbesserungen –hierarchische Relation zwischen Klassen –kombiniere ungelabelte und gelabelte Trainingsmenge –mehr linguistische Struktur –multiple Strategien zum Extrahieren von Textsegmenten –...

34 Links /aij00.ps

35 Erkennen von Klasseninstanzen statistische Textklassifikation Wortwahrscheinlichkeiten (Abschätzung)