Question Answering Systeme

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Eine dynamische Menge, die diese Operationen unterstützt,
Einführung in die Informatik: Programmierung und Software-Entwicklung
Prof. Dr. W. Conen 15. November 2004
Zusammenfassung der Vorwoche
What do you get marks for?
CPCP Institute of Clinical Pharmacology AGAH Annual Meeting, 29. Februar 2004, Berlin, Praktischer Umgang mit den Genehmigungsanträgen gemäß 12. AMG Novelle.
8. Formale Sprachen und Grammatiken
Genetische Algorithmen für die Variogrammanpassung
Untersuchung und szenariobasierte Entwicklung von Websites zur Orientierung in Universitätsstudiengängen unter Berücksichtigung von Prinzipien des Web.
Klicke Dich mit der linken Maustaste durch das Übungsprogramm! Vereinfachung von Termen Ein Übungsprogramm der IGS - Hamm/Sieg © IGS-Hamm/Sieg 2006 Dietmar.
IMS Universität Stuttgart 1 Einführung in XML Hannah Kermes HS: Elektronische Wörterbücher Do,
FH-Hof Extensible Markup Language Richard Göbel. FH-Hof Extensible Markup Language XML XML ist universeller Ansatz für die Strukturierung von Zeichenketten.
Algorithmentheorie 04 –Hashing
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
Prof. Dr. S. Albers Prof. Dr. Th. Ottmann
HTML - Eine erste Annäherung
© 2006 W. Oberschelp, G. Vossen Rechneraufbau & Rechnerstrukturen, Folie 2.1.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
PKJ 2005/1 Stefan Dissmann Rückblick auf 2005 Was zuletzt in 2005 vorgestellt wurde: Klassen mit Attributen, Methoden und Konstruktoren Referenzen auf.
PKJ 2005/1 Stefan Dissmann Zusammenfassung Vorwoche Programm besteht aus mehreren Bestandteilen: Schlüsselwörter Sonderzeichen Bezeichner Kommentare Texte.
Zusammenfassung Vorwoche
PKJ 2005/1 Stefan Dissmann Zusammenfassung Vorwoche Methoden sind mit einem Namen versehene Programmabschnitte besitzen Rückgabetyp, Namen, Parameterliste.
Kursleitung: Hier ist Platz für Ihren Namen
Differentieller Stromverstärker
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
Inhalte und Maßnahmen eingegeben haben,
MeiNetz-Suche Wie kann man in meiNetz etwas suchen? 1.durch Gruppen browsen 2.Suchfunktion.
1. 2 Schreibprojekt Zeitung 3 Überblick 1. Vorstellung ComputerLernWerkstatt 2. Schreibprojekt: Zeitung 2.1 Konzeption des Kurses 2.2 Projektverlauf.
Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.
20:00.
© Gabriele Sowada © Gabriele Sowada 2 Manuell Beispiel 1 demonstriert die Vorgehensweise bei der manuellen Programm- Eingabe am.
Die Geschichte von Rudi
Selbsttest zum Modul 2 Informationstechnik
Formale Sprachen und Automaten
TWS/Graph HORIZONT Produkt-Präsentation Software für Rechenzentren
Beschreibung der energetischen Zustände der Elektronen
HORIZONT 1 XINFO ® Das IT - Informationssystem Java Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
Wir üben die Malsätzchen
Polynome und schnelle Fourier-Transformation
© Bibliothek und Archiv der Österreichischen Akademie der Wissenschaften Katalogisierung in RAK / MAB2 Beispiele 1. Teil Lösungen Verbund für Bildung und.
Analyse von Ablaufdiagrammen
HORIZONT 1 XINFO ® Das IT - Informationssystem HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 /
HORIZONT 1 XINFO ® Das IT - Informationssystem PL/1 Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.
PROCAM Score Alter (Jahre)
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES KULTURELLER ZUSAMMENHALT UND AUSDEHNUNG DER IDEEN AUF EUROPÄISCHEM.
Das IT - Informationssystem
Großer Altersunterschied bei Paaren fällt nicht auf!
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
SQL - Structured Query Language AIFB SS (1/9) Join-Operationen in SQL-92(1/9) Syntax einer Join-Operation: join-op := CROSS JOIN | [NATURAL]
1 © Holger Meyer, Scheeßel 2009 Schönes Haus! … aber es verbraucht zuviel.
Analyseprodukte numerischer Modelle
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Vortrag von Rechtsanwältin Verena Nedden, Fachanwältin für Steuerrecht zur Veranstaltung Wege zum bedingungslosen Grundeinkommen der Piratenpartei Rhein-Hessen.
Kursarbeit Informatik
1 © Holger Meyer, Scheeßel 2008 Schönes Haus! … aber es verbraucht zuviel.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Information Retrieval, Vektorraummodell
Bildergalerie PRESEASON CAMP Juni 2014 Romanshorn Get ready for the Season!
Numbers Greetings and Good-byes All about Me Verbs and Pronouns
Kompetenztraining Jura Martin Zwickel / Eva Julia Lohse / Matthias Schmid ISBN: © 2014 Walter de Gruyter GmbH, Berlin/Boston Abbildungsübersicht.
7. Formale Sprachen und Grammatiken
Das IT - Informationssystem
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
1 Suchprofile erstellen und verwalten. 2 Suchprofile bei Registrierung Hier können Sie bis zu drei Suchprofile einrichten. Diese finden Sie später unter.
 Präsentation transkript:

Question Answering Systeme Vortrag von Alexander Wey

Überblick Was sind Question Answering Systeme? TREC-9 QA Task Ein einfaches Question Answering System FALCON Zusammenfassung Ausblick

Was sind Question Answering Systeme ? liefern Antworten auf natürlich-sprachlich gestellte Fragen selektieren relevante Dokumente einer Wissensbasis durchsuchen die relevanten Dokumente nach möglichen Antworten

Was ist „TREC“ ? Text REtrieval Conference wird finanziert vom National Institute of Standards (NIST) und vom U.S. Verteidigungsministerium ermöglicht Vergleichbarkeit von IR Verfahren durch Verwendung gleicher Datenmengen und Bewertungskriterien

TREC-9 QA Task 28 Teilnehmer (Forschungsgruppen von Universitäten und aus der privaten Wirtschaft) 3 GB großer Datenkorpus und 693 Test-Fragen wurden den Teilnehmern übergeben Pro Frage sollte eine Liste von 5 Paaren übermittelt werden (Paar bestand aus Id-Nr. und Antwortstring) ; Liste nach Relevanz geordnet. 4 Durchläufe, jeweils zwei 50 und 250 - Byte

Bewertung Die Listen wurden von unabh. NIST Mitarbeitern überprüft. Abhängig vom Rang der Antwort wurden die Punkte verteilt. 1/r Punkte, wobei r der Rang der richtigen Antwort sei. Gesamtergebnis aufgeteilt in „unsupported“ und supported“

QA Strategie Im 1. Schritt wird der Antwort-Typ einer Frage ermittelt. Im 2. Schritt wird aus allen Dokumenten ein kleiner Ausschnitt selektiert. Um passende Einträge (die vom gleichem Typ sind wie die Antwort) zu finden, wird dieser Ausschnitt mit einem Parser durchlaufen.

Ein einfaches QA System entwickelt von Cooper & Rüger der Imperal College of Science, Technology and Medicine , London Geschrieben in Perl und verwendet : CMU Link Parser WordNet REX System für XML Parsing Managing Gigabyte Suchmaschine

Vorbereitung der Daten Um die Rohdaten der Dokumente zu erhalten entfernte man die SGML (Standard Generalized Markup Language) – Zeichen $ und £ Zeichen wurden durch die Wörter dollar und pounds ersetzt. Die “rohen” Dokumente wurden in Paragraphen aufgeteilt.

Verarbeitung einer Frage

Sentence Splitter & Tokenizer markiert die Satzenden, durch Suche nach Fragezeichen, Ausrufezeichen und Punkten. Punkt => wirklich Satzende ? tokenizer – Modul zerlegt die Frage in ihre einzelnen Bestandteile auf Wörter, welche Ziffern enthalten werden ebenfalls zerlegt, Bsp. pounds20m -> 3 Tokens : pounds, 20, m

Link Parser analysiert die syntaktische Struktur der Frage hängt den Ableitungsbaum an das Ergebnis des „sentence splitter & tokenizer“ an. <sentence><t n=“1“>How</t> <t n=“2“>far</t> <t n=“3“>away</t> <t n=“4“>is</t> <t n=“5“>the</t> <t n=“6“>moon</t> <t n=“7“> ?</t><parse><pos n=“2“ pos=“a“/><pos n=“4“ pos=“v“/><pos n=“6“ pos=“n“/><link name=“Xp” l=“0“ r=“7“/><link name=“Wq“ l=”0” r=”2”/><link name=”PF” l=”2” r=”4”/><linke name=”MVp” l=”2” r= “3”/><link name=”Sis” l=”4” r=”6”/><link name=”Ds” l=”5” r=”6”/><link name=”RW” l=”7” r=”8”/></parse></sentence>

Question Focus (1) Wort oder Satzteil der Frage, welches ein Indiz für den Antworttyp sein könnte Bei manchen leichter bei anderen Fragen schwieriger Antworttyp einer „what“ Frage benötigt weiteres Wort (question focus) z.B. „What time is the train arriving?“ Das erste Substantiv der Frage wird als „question focus“ festgelegt

Question Focus (2) Bei unserer Beispielfrage wird das Wort „moon“ als question focus gewählt. <questionFocus><t n=„6“>moon</t></questionFocus>

Answer Type (1) legt den Antworttyp mit Hilfe des „question focus“ fest. Schwachpunkt des Systems : Bei „who“ Fragen wird angenommen, dass immer nach einer Person gesucht wird Gegenbeispiele : „Who won the Premiership?“ (Fussballverein gesucht) „Who beat Fred in the 100 m?“ (Liste von Läufern) „Who beat England in the relay?“ (mehrere Länder)

Answer Type (2) Zusätzliche Synonyme können die Ermittlung des richtigen Antworttyps vereinfachen. Synonyme können mittels WordNet gefunden werden. Für die Beispielfrage „How far away is the moon?“ wird das Wort length hinzugenommen : <answerType t=„length“/>

Übersicht Antworttypen Fragewort Antworttyp When time Where place Why reason Describe description Define definition Who, whom person What, which, name Mittels question focus… How Wort nach „how“

Keyword Extraction Einzelne Wörter der Frage werden mit speziellen Kategorien kommentiert Dies geschieht an Hand von Listen, in denen Namen von Personen, Plätzen, etc. und deren zugehörige Kategorie steht London hört z.B. zur Kategorie „city“ Das Token „London“ wird kommentiert : <aCity>London</aCity>

Paragraph Retrieval via MG Der Datenkorpus wird mit der Managing Gigabyte Suchmaschine und der aufgearbeiteten Frage durchsucht. Man erhält einen Ausschnitt von Dokumenten (Paragraphen), in denen die Antwort vermutet wird. Problem : Zu wenig oder zu viele Dokumente ?

Candidate Answer Extraction markiert Stellen im Text, welche Antworten sein könnten Synonyme des Antworttyps werden mittels WordNet gefunden. Mit der Disjunktion der Synonyme erstellt man einen regulären Ausdruck und vergleicht diesen mit dem Text

Ausnahmen Antworttyp „person“ Antworttyp „description“ zuviele Synonyme , z.B. consumer, creator Antworttyp „description“ zu schwer um hiermit die passenden Stellen zu finden Annahme : zwischen Komma und Punkt steht eine Beschreibung Antwortyp „length“ zu viele Antwortkandidaten

Answer Scoring (1) Beschreibung Heuristik score_comma_3_word Folgt nach einem Antwortkandidaten ein Komma, so werden die 3 Wörter nach dem Komma, welche auch in der Frage auftauchen gezählt score_punctuation 1 Punkt, wenn nach dem Antwortkandidat ein Punkt folgt (sonst 0 Punkte) score_same_sentence # Wörter, welche sowohl in der Frage als auch beim Antwortkandidaten in einem Satz stehen

Answer Scoring (2) Heuristiken sind untereinander unabhängig. Score_description_before Gilt nur für den Antworttyp „description“. Berechnet die Anzahl der Wörter die vor einem Antwortkandidaten stehen Score_description_in #Wörter die im Antwortkandidaten stehen Heuristiken sind untereinander unabhängig. Jeder Antwortkandidat wird ein Paar (id, score) zugeordnet

Answer Weighting Heuristik Gewichtung score_comma_3_word 1.2 score_punctuation 1.1 score_same_sentence 1.0 score_description_before 2.0 score_description_in

Answer Ranking Antwortkandidaten werden Duplikate werden gelöscht. aus den Dokumenten kopiert nach Gewicht sortiert einem Rang zugeordnet Duplikate werden gelöscht.

Zusammenfassung & Leistung Um relevante Dokumente zu finden ermittelt man den Antworttyp und sucht passende Keywords Textstellen werden markiert, welche Antworten sein könnten Die Güte eines Antwortkandidaten wird bewertet. Das einfache QA System konnte bis zu 39 % der Fragen beantworten.

FALCON Southern Methodist University, Dallas Bestes Ergebnis im TREC-9 QA Task 58% der Fragen im 50-Byte Durchlauf beantwortet 76% der Fragen im 250-Byte Durchlauf beantwortet geht auf die umformulierten Fragen ein Richtigkeit der Antwort wurde an Hand der semantischen Form und logischen Form der Frage und Antwort überprüft.

Aufbau des Falcon Systems

Strategien des Falcon Systems Bisher gestellte Fragen und Antworten werden abgespeichert (cached answers) Relevante Dokumente werden mittels „boolean retrieval“ selektiert Antworttyp wird zusätzlich mit Hilfe der semantischen Form der Frage ermittelt Dasselbe Problem, wie beim einfachen QA System : zu wenige, oder zu viele relevante Dokumente  Verfeinerung der Suche

Verfeinerung der Antwortsuche

Morphologische & lexikalische Alternativen Mit WordNet werden alle morphologischen Ableitungen eines Schlüsselwortes gesucht Bsp : „Who invented the paper clip?“ morphologische Ableitungen des Wortes invented : inventor, invent Mit WordNet werden Synonyme und andere Beschreibungen für ein Wort gesucht. Bsp : „Who killed Martin Luther King?“ Hier wurde das Wort „assasin“ als Schlüsselwort hinzugefügt, da es ein Synonym für killer ist.

Semantische Alternativen Auch hier mit der Hilfe von WordNet „liking better“ dieselbe Bedeutung wie „prefer“ Bsp : „Where do lobsters like to live ?“ Konnte mit Hilfe des Schlüsselworts „prefer“ beantwortet werden.

Semantische Form einer Frage Mit dem „new statistical parser“ von Collins wird ein Ableitungsbaum erstellt. Hieraus kann leicht die semantische Form einer Frage (bzw. Antwort) erstellt werden.

Erstellung der semantischen Form Substantive, Verben, Adjektive und Adverbien werden als non-skipnodes bezeichnet, alle anderen Blätter werden als skipnodes bezeichnet An Hand einer Regel erhält Vaterknoten die Bezeichnung eines Sohnes Vaterknoten wird mit allen anderen „non-skipnodes“ verknüpft. Non-skipnodes hier : astronaut, walk, space

Logische Form einer Frage Transformation der semantischen Form in eine logische Form geschieht mit dem Programm Tacticus (von Jerry R. Hobbs)

Zusammenfassung QA Systeme arbeiten meist in 2 Schritten : 1. Schritt : Suchen der relevanten Dokumente 2. Schritt : Suchen der Antwort in diesen Dokumenten Mit Hilfe semantischen Wissens konnte FALCON bis zu 76% der Fragen richtig beantworten

Ausblick Beantwortung komplexerer Fragen Benutzerfreundlichere Suchmaschinen Dialogsysteme zur Beantwortung faktischer Fragen

Quellenangabe Overview of the TREC-9 Question Answering Track, Ellen M. Voorhees, National Institute of Standards an Technology, Gaithersburg. A Simple Question Answering System. Richard J Cooper and Stefan M Rüger, Departement of Computing, Imperial College of Science, Technology and Medicine, 180 Queen‘s Gate, London. Falcon : Boosting Knowledge of Answering Engines. S. Harabagiu, D. Moldovan, M. Pasca, R. Mihalcea, M. Surdeanu, R. Bunescu, R. Girju, V. Rus, P. Morarecsu, Departement of Computer Science and Engineering, Southern Methodist University, Dallas

Vielen Dank für die Aufmerksamkeit und frohe Weihnachten !