20.06.01Maschinelle Lernverfahren für IE und TM 1 Topic Detection.

Slides:



Advertisements
Ähnliche Präsentationen
By the end of this half term you will be able to:
Advertisements

Doris Kocher, PH Freiburg
Subjunctive, Conditional
“Unentbehrliche Arzneimittel”
Deutsch II Frau Spampinato
1. Nimm ein Deutsch II Buch. 2. If your parents have signed the classroom expectations form, please put it out on your desk. 2. Schreib 3 Sӓtze: Wann war.
Starter Match up these future time markers!
CALPER Publications From Handouts to Pedagogical Materials.
1 von 7 ViS:AT BMUKK, IT – Systeme für Unterrichtszwecke 05/11 EZ, CR Social Networks – Soziale Netzwerke Virtuelle Science Cafes & Diskussionsforen für.
Titelmasterformat durch Klicken bearbeiten Textmasterformate durch Klicken bearbeiten Zweite Ebene Dritte Ebene Vierte Ebene Fünfte Ebene 1 Titelmasterformat.
WE SHAPE THE FUTUREWIR BILDEN ZUKUNFT SCHUTZ & HILFE 08 – 12 Sep 2014 Reichenau, AUSTRIA STANAG 6001 Testing Workshop 2014 Josef ERNST,
International commitment: Art 42 Treaty of the EU Art 23f B-VG Österreich wirkt an der Gemeinsamen Außen- und Sicherheitspolitik der Europäischen Union….mit.
Coordinating Conjunctions Why we need them & how to use them deutschdrang.com.
Software Architektur für on-premise und die Cloud Lösungen
As of 1st July 2011 there will be no more "Wehrdienst" in Germany. It still has its place in the German constitution (Grundgesetz) but young men are no.
Time and Dates. Telling time To ask: What time it is? Wie spät ist es? Wie viel Uhr ist es?
Linking sentences or phrases together
Mein Arbeitspraktikum. Today we are learning to talk about work experience we have done, giving facts, details and opinions The bigger picture: We are.
Institut für Angewandte Mikroelektronik und Datentechnik Course and contest Results of Phase 4 Nils Büscher Selected Topics in VLSI Design (Module 24513)
Stephanie Müller, Rechtswissenschaftliches Institut, Universität Zürich, Rämistrasse 74/17, 8001 Zürich, Criminal liability.
Akkusativ Präpositionen
Deutsch 1 Lesson 6 den 30. April  What do all German nouns have in common? Revision.
Risikomanagement und Statistik
Joint Workshop Vienna, December 11, 2014 Olaf Hartmann, FFG EUREKA NPC Austria „E!DI“ – EUREKA Danube Initiative.
What is a “CASE”? in English: pronouns, certain interrogatives
WE SHAPE THE FUTUREWIR BILDEN ZUKUNFT SCHUTZ & HILFE 08 – 12 Sep 2014 Reichenau, AUSTRIA STANAG 6001 Testing Workshop 2014 Josef ERNST,
Frau McKeag. Märchen fangen fast immer an mit "Once upon a time," oder "Es war einmal…”
How does the Summer Party of the LMU work? - Organizations and Networks -
DEUTSCH 1 den 4. Juni. TODAY IS THE LAST LESSON  Until 30 July.
The Journey to America… The Immigrant Experience.
10.1 Lektion 10 Geschichte und Gesellschaft STRUKTUREN © and ® 2012 Vista Higher Learning, Inc Das Plusquamperfekt —Wir hatten uns doch geschworen,
E STUNDE Deutsch AP. Dienstag, der 23. April 2013 Deutsch AP (E Stunde)Heute ist ein B Tag Goal: to understand authentic written text, audio material.
Institut für Angewandte Mikroelektronik und Datentechnik Results of phase 5: Investigations on a specific topic Special Features of the Virtex-6 FPGAs.
Studentenstreik 2009, 2010 in Deutschland Part 1: Studiengebühren.
1 Konica Minolta IT Solutions Prinzip Partnerschaft MANAGED MONITORING ÜBERWACHJUNG DER SERVERINFRASTRUKTUR UND ANWENDUNGEN DIREKT AUS DER CLOUD.
Deepening Topics QM in Clinical studies.
FRAU SNELL Wie ist das Datum heute? _______________________________________________.
Kapitel 8 Grammar INDEX 1.Command Forms: The Du-Command Form & Ihr- Command 2.Sentences & Clauses.
10.3 Lektion 10 Geschichte und Gesellschaft STRUKTUREN © and ® 2012 Vista Higher Learning, Inc Der Konjunktiv I and indirect speech —Ich komme.
Chair of Business and Human Resource Education II Prof. Dr. Marc Beutner EU-StORE: The EU-StORe OER and Learning scenario conference, Rome 27 th – 29 th.
Institut für Betriebswirtschaftslehre Globalisierung und Multinationale Unternehmen Teil I: Die Globalisierung als Herausforderung für Weltwirtschaft,
B LOCKED DAY 1 OBJECTIVES: To consolidate vocabulary and structures within the theme of DIE UMWELT To further practise the techniques used in the prose.
Essay structure Example: Die fetten Jahre sind vorbei: Was passiert auf der Almhütte? Welche Bedeutung hat sie für jede der vier Personen? Intro: One or.
LLP DE-COMENIUS-CMP Dieses Projekt wurde mit Unterstützung der Europäischen Kommission finanziert. Die Verantwortung für den Inhalt dieser.
Dienstag den Aufgabe bis Mittwoch den IA 10.4 and printout LB 10.4 A-C GR10.3: due Monday Guten Morgen!
Strukturen 3B.2 LEKTION 3B 3B.2-1© 2014 by Vista Higher Learning, Inc. All rights reserved. Time expressions Startblock German has two main concepts related.
Staten Island
Was ist eigentlich… Big Data?
Interrogatives and Verbs
Globalisierung und Multinationale Unternehmen Teil I: Die Globalisierung als Herausforderung für Weltwirtschaft, multinationale Unternehmen und verantwortliches.
Cobra 120 Tablets Price In Pakistan
Premiere Conferencing GmbH
Dom zu Lübeck The Lübeck Cathedral (German: Dom zu Lübeck, or colloquially Lübecker Dom) is a large brick Lutheran cathedral in Lübeck, Germany and part.
Freizeit Thema 5 Kapitel 1 (1)
Sentence Structure Connectives
Process and Impact of Re-Inspection in NRW
Cape Cod-Seminar Dr. Bernd Schmid July 2013
Telling Time in German Deutsch 1 Part 1.
Students have revised SEIN and HABEN for homework
PP 1.3 das Wetter und die Kleidung
Die Medien heute Montag, 19. November 2018 Lernziele
Health Card for refugees in Bremen
Austria Recent Media Mentions The 2017 Report’s Policy Recommendations
Management of new and historical pollution sources
Pitch to win! Wroclaw, November 19th, 2017
INDICATIVE ROADMAP CO-CREATION OUTREACH TRAINING MID 2020
Wann und wie fühlt man sich erwachsen?
Was kann/ soll/muss man für die Umwelt tun?
Look at the photo during the preparation period.
 Präsentation transkript:

Maschinelle Lernverfahren für IE und TM 1 Topic Detection

Maschinelle Lernverfahren für IE und TM 2 Inhalt Motivation Begriffe Aufgaben –Segmentierung –First Story Detection –Topic Detection –Topic Tracking –Story Link Detection Verbesserungen Zusammenfassung Referenzen

Maschinelle Lernverfahren für IE und TM 3 Motivation immer mehr Informationen immer schneller verfügbar, Aktualität oft entscheidend Ziele: –automatische Klassifizierung von Dokumenten –neue Themen entdecken / verfolgen (Text-Mining) bisherige IR-Methoden reichen nicht aus: –Keyword-Suche vs. generische Queries was ist passiert? –Abstraktions-Level: Asienkrise –zeitliche Dimension: was ist neu?, wie entwickelt sich ein Thema?

Maschinelle Lernverfahren für IE und TM 4 Anwendungen Journalismus Börsen- und Finanzmarkt-Analyse Konsum-Marktforschung Politik, Krisen-Erkennung private Information und Unterhaltung Suchmaschinen verbesserte Übersetzung

Maschinelle Lernverfahren für IE und TM 5 Begriffe event: "A reported occurrence at a specific time and place, and the unavoidable consequences. Specific elections, accidents, crimes, natural disasters. activity: "A connected set of actions that have a common focus or purpose - campaigns, investigations, disaster relief efforts." topic: "A seminal event or activity, plus all derivative (directly related) facts, events or activities." story: "A topically cohesive segment of news that includes two or more declarative independent clauses about a single event."

Maschinelle Lernverfahren für IE und TM 6 Beispiele Hurricane Mitch (Sep./Oct.98) –On topic: coverage of the disaster itself; estimates of damage and reports of loss of life; relief efforts by aid organizations; impact of the hurricane on the economies of the effected countries. Thai Airbus Crash ( ) –On topic: stories reporting details of the crash, injuries and deaths; reports on the investigation following the crash; policy changes due to the crash (new runway lights were installed at airports). Euro Introduced ( ) –On topic: stories about the preparation for the common currency (negotiations about exchange rates and financial standards to be shared among the member nations); official introduction of the Euro; economic details of the shared currency; reactions within the EU and around the world.

Maschinelle Lernverfahren für IE und TM 7 TDT Corpus TDT3: –45k Stories, Okt.-Dez –Englisch (CNN, ABC, NBC,...), Mandarin (VOA, XIN, ZBN) –News-Stories aus Radio / TV / Agenturen –Texte und Audio / ASR-Daten, chronologisch geordnet –60 markierte Topics –Trainings-Corpus pro Topic: yes, no, brief(<10% relevant) TDT2000: –60 weitere Topics

Maschinelle Lernverfahren für IE und TM 8 TDT Aufgaben

Maschinelle Lernverfahren für IE und TM 9 Segmentation HMM (Mitre) [1] baue HMM aus Trainings-Stories: –250 Knoten: entsprechen ersten 250 Worten einer Story –pro Knoten: Wahrscheinlichkeits-Verteilung über Feature-Value- Kombinationen, z.B. P(F1=v2)=0.5 Segmentation: –lese Wort w und bestimme Werte aller Features –bestimme wahrscheinlichsten Übergang zu nächstem Knoten –falls danach in Knoten 1: boundary states

Maschinelle Lernverfahren für IE und TM 10 Segmentation HMM (Mitre) [1] Features: X-duration, Coherence, Trigger X-duration: –Dauer der non-speech-Phase (ASR-Skript: X) vor w –0, falls nicht existent Coherence-1, 2, 3, 4: –(erstes...) Fenster von 50 Worten vor w –0, falls w nicht vorkommt, sonst –allgemein: Worte wiederholen sich vermutlich innerhalb einer Story –z.B. P(coh-2=0): max. für w1-50, weil Fenster ganz in vorheriger Story, kleiner für w50-100, am kleinsten ab w100 s w : # Stories mit w s: # Stories insgesamt

Maschinelle Lernverfahren für IE und TM 11 Segmentation HMM (Mitres) [1] Trigger: –Region R: erstes, zweites, letztes, vorletztes Wort # Vorkommen von w insgesamt # Vorkommen von w in R Anteil Tokens von w, die in R vorkommen –Feature-Wert für w und R groß, wenn: w oft in R vorkommt (Trainings-Corpus) viele Tokens von w in R vorkommen w insgesamt selten ist –z.B. P(hi=erstes Wort) relativ groß

Maschinelle Lernverfahren für IE und TM 12 Segmentation - Ergebnisse

Maschinelle Lernverfahren für IE und TM 13 First Story Detection bestimme Ähnlickeit der aktuellen Story mit Vergangenheit Story ist NEW, falls Ähnlichkeit gering, sonst OLD Vektorraum-Modell: –repräsentiere Stories als Query-Vektoren –Stemming, Stopwort-Elimination, Termgewichtung Varianten: –Termgewichte (raw tf, tf*idf,...) –Ähnlickeits-Maße (Cosinus, gewichtete Summe,...) –Grenzwerte für NEW/OLD –Menge der Vergleichs-Stories (Zeit-Ausschnitt)

Maschinelle Lernverfahren für IE und TM 14 First Story Detection Single-Pass Clustering (Umass) [2] für aktuelle Story S mit Term-Vektor d: –bilde Query q aus N gewichteten Features von S –bestimme Basis-Schwellwert x = sim(q,S) –vergleiche Queries bisheriger Stories mit S –falls dabei x + Zeitstrafe überschritten wird OLD(S), sonst NEW(S) –optional, OLD: Cluster-Bildung (assoziiere S mit Trigger-Query)

Maschinelle Lernverfahren für IE und TM 15 FSD - Ergebnisse Umass [2], CMU [3]: Single-Pass Clustering Dragon [5]: Language Model

Maschinelle Lernverfahren für IE und TM 16 Topic Detection repräsentiere Topics als Cluster bereits betrachteter Stories Single-Pass Clustering: (IBM [10], CMU [3], Dragon [5]) für aktuelle Story S... –bestimme ähnlichsten Cluster C –falls Ähnlichkeit groß ist addiere S zu C, sonst bilde neuen Cluster (FSD: markiere S als NEW) kNN, Nearest Neighbour: (Umass [4]) –vergleiche S direkt mit bisherigen Stories (Zeitfenster) –betrachte k ähnlichste Stories und deren Topics –Topic (Cluster) von S durch einfache Mehrheit

Maschinelle Lernverfahren für IE und TM 17 Topic Detection Single-Pass Clustering (CMU) [9] clustering (Tc) und novelty threshold (Tn), Tn<=Tc, context W aktuelle Story x: OLD(x), x in ähnlichsten Cluster aus W OLD(x), neuer Cluster NEW(x), neuer Cluster FSD: Tc=unendlich (kein Clustering) TD: Tc=Tn (Tn nicht berücksichtigen)

Maschinelle Lernverfahren für IE und TM 18 Topic Detection Single-Pass Clustering, Language Model - Dragon [5] bestimme Wort-Verteilung für jeden Cluster C (Wahrscheinlichkeit, daß ein Wort w in C vorkommt) für aktuelle Story S ähnlichsten Cluster: N=Länge von S, pc(w)=Prob(w) in Cluster, pb(w)=Prob(w) in Background-Modell, t=Zeitstrafe sim groß, wenn: –Terme in S kommen oft in C und selten in Background vor –Stories in C sind neu

Maschinelle Lernverfahren für IE und TM 19 Topic Detection - Ergebnisse CMU [3], Dragon [5]: Single-Pass Clustering, Umass [4]: kNN

Maschinelle Lernverfahren für IE und TM 20 Topic Tracking gegeben Trainings-Corpus für Topic T, Frage S on topic? kNN: (CMU [6]) –bestimme kNN von aktueller Story S aus Trainings-Corpus –falls davon mehr mit yes, als mit no markiert sind YES, sonst NO Decision Trees: (CMU [6]) –baue je einen Decision Tree pro Topic T –repräsentiere Trainings-Stories für T (markiert mit "yes", "no") als Queries –Knoten-Labels sind Aussagen über Term-Gewichte qi –maximiere Informationsgewinn, "Reinheit" der Unterbäume –Ziel: pro Blatt nur "yes"/"no"-Queries –Kosten: ca. 2 Min für 25 Topics / DTs mit je Trainings-Stories

Maschinelle Lernverfahren für IE und TM 21 Topic Tracking kNN-Algorithmus (CMU) [6] Parameter: k>0 und 0<k1<k, 0<k2<k für aktuelle Story S bestimme... K(k,m) := Menge der k zu S ähnlichsten Stories aus Trainings- Corpus mit Markierung m P(S,k1) := K(k1,m), m=yes/brief N(S,k2) := K(k2,m), m=no Wahrscheinlichkeit, daß S bzgl. des geg. Topics relevant ist: Gesamtzahl pos. Trainings-Beispiele pro Event (<=16), z.B. k=5

Mandarin Audio Term Translation President Bill Clinton and… English Story Term Selection Bilingual Term List Query Construction IR-System Story Boundaries Score Normalization Document Construction Speech Recognition Ranked List of TS Score IDF Computation Mandarin Training Stories n-word units (weighted) top-N translations Topic Tracking UMD [7]

Maschinelle Lernverfahren für IE und TM 23 Topic Tracking - Ergebnisse (CMU) [6]

Maschinelle Lernverfahren für IE und TM 24 Story Link Detection tf*idf, LCA (Umass) [4] Cosinus-Ähnlichkeit mit Gewichten tf*idf, threshold 0.8 Problem: –meist relativ kurze Stories, kleine gemeinsame Term-Menge, Synonyme Local Context Analysis (LCA) smoothing: –nehme Top-n Terme aus Story-Vektor für Query –Query Q gegen Rest-Corpus (zeitlich davor) –extrahiere alle Terme aus Menge ähnlicher Stories –gewichte jeden Term t basierend auf... Gewicht von t in Q räumlicher Distanz von t zu anderen Termen aus Q und deren Gewicht in Q –bilde neuen Dokument-Vektor aus Q und Top-n der LCA-Expansion

Maschinelle Lernverfahren für IE und TM 25 Story Link Detection

Maschinelle Lernverfahren für IE und TM 26 Verbesserungen bereits getestet: verschiedene Termgewichte, Ähnlichkeitsmaße (Vektorraum) Verwendung von Named Entities weitere Möglichkeiten: Ausnutzung von... –Text-Struktur (z.B. erster / letzter Satz) –Einfluß von Topic auf Art der Terme: wo vs. wer (NEs), Verben NLP: Schlüsselsätze finden prob. Vorhersagen auf Basis von zeitlicher Topic-Entwicklung –Verbrechen -> Untersuchung -> Prozess

Maschinelle Lernverfahren für IE und TM 27 Named Entities Tracking (Univ.Iowa) [8] zusätzlich zu Term-Vektor: NE-Vektoren –Personen, Organisationen, Orte, Events, MeSH (Medical Subject Headings) gewichtet nach Vektor-Länge und Häufigkeit der vork. Terme separate NER in Mandarin vor Übersetzung vergleiche S mit Trainings-Stories: –für jedes Paar von NE-Vektoren bestimme Cos-Ähnlichkeit –bilde gewichtete Summe: sim(s1,s2) = 0.3*sim(per) + 0.3*sim(org) + 0.2*sim(loc) + 0.1*sim(event) + 0.1*sim(mesh)

Maschinelle Lernverfahren für IE und TM 28 Named Entities FSD / Tracking

Maschinelle Lernverfahren für IE und TM 29 Named Entities - Probleme Abhängigkeit von Qualität der NER nicht robust gegenüber Qualität der ASR (>20% Fehler): –Groß- und Kleinschreibung –unterschiedliche Schreibweisen Anzahl der vorkommenden NEs in gesuchten Stories Zuordnung von NEs zu Topics –NEs in mehreren Topics (z.B. Politiker) –gleiche Namen für verschiedene NEs –manche Topics nicht durch spezifische NEs charakterisiert –NEs nicht Topic-relevant (z.B. Reporter)

Maschinelle Lernverfahren für IE und TM 30 Zusammenfassung Topic-Definition ergeignisbasiert Hauptaufgaben: –Topic Detection –First Story Detection –Tracking Voraussetzungen: ASR, Übersetzung, Segmentierung, SLD viel Raum für Verbesserungen und Forschung –reines Vektorraum-Modell in Effizienz begrenzt –Kombination mit NER / NLP?

Maschinelle Lernverfahren für IE und TM 31 Referenzen [1] Mitre TDT2000 Segmentation System, Greiff, Morgan, Fish, (Mitre Corporation, 2000) [2] Online New Event Detection using Single-Pass Clustering, Papka, Allan (University of Massachusetts, 1997) [3] A study on Retrospective and On-Line Event Detection, Yang, Pierce, Carbonell (Carnegie Mellon University, 1998) [4] Umass at TDT2000, Allan, Lavrenko, Frey, Khandelwal (Umass, 2000) [5] Statistical Models for Tracking and Detection, (Dragon Systems, 1999) [6] Learning Approaches for Detecting and Tracking News Events, Yang, Carbonell, Brown (CMU, 1999) [7] Translingual Topic Tracking: Applying Lessons from the MEI Project, Levow, Oard, (University of Maryland, 2000)

Maschinelle Lernverfahren für IE und TM 32 Referenzen [8] Entity Based Tracking, Eichmann (University Iowa, 2000) [9] A study on Retrospective and On-Line Event Detection, Yang, Pierce, Carbonell (CMU, 1998) [10] Story Segmentation and Topic Detection in the Broadcast News Domain, Dharanipragada, Franz, Carley (IBM, 1998)

Maschinelle Lernverfahren für IE und TM 33 Beispiele Pinochet Trial ( ) –On topic: stories covering any angle of the legal process surrounding this trial (including Pinochet's initial arrest in October, his appeals, British Court rulings, reactions of world leaders and Chilean citizens to the trial, etc.).

Maschinelle Lernverfahren für IE und TM 34 Segmentation Decision Trees (IBM) [1] System: –sprachl. Vorverarbeitung (Satzerkennung, Stemmer) -> Feature Extraction -> DT -> Refinement (Vergleich adjazenter Segmente) Eingabe für Decision Tree: –je eine NSP im ASR-Skript, endlich viele Sätze davor und danach Features, erlernte Indikatoren für Segment-Grenzen: –Dauer der NSP –Vorkommen von Worten/Paaren (Distanz von Story-Grenzen) –Menge der Nomen im Vor- und Nachfeld Refinement: Vergleich adjazenter Segmente (false alarms)

Maschinelle Lernverfahren für IE und TM 35 Termgewichte df(i) = Anzahl (bisheriger) Dokumente mit Term ti idf(i) = N / df(i), N = Anzahl aller (bisherigen) Dokumente tf(ij) = Anzahl Vorkommen von ti in Dokument dj tf*idf: adaptive idf, Zeitpunkt p:

Maschinelle Lernverfahren für IE und TM 36 Dokument-Ähnlichkeit Cosinus-Ähnlichkeit: gewichtete Summe:

Maschinelle Lernverfahren für IE und TM 37 First Story Detection Single-Pass Clustering (Umass) [2] für aktuelle Story S mit Term-Vektor d: –bilde Query q aus N gewichteten Features von S –bestimme Basis-Schwellwert x = sim(q,S) –vergleiche Queries bisheriger Stories mit S –falls dabei x + Zeitstrafe überschritten wird OLD(S), sonst NEW(S) –optional, OLD: Cluster-Bildung (assoziiere S mit Trigger-Query) t = Häufigkeit von qi in d

Maschinelle Lernverfahren für IE und TM 38 FSD - Ergebnisse

Maschinelle Lernverfahren für IE und TM 39 Topic Tracking Single-Pass Clustering: –nur zwei Cluster: Yes und No (initialisiert mit entsprechenden Dokumenten aus T) –bestimme Ähnlichkeit von S mit Yes und No –füge S zu ähnlichstem Cluster hinzu