Web-Assisted Annotation, Semantic Indexing and Search of Television and Radio News Armin Doroudian.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Web 2.0 Social Network Communities
Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch
Aufgabe 17 Thema: Redesign eines Webauftritts 2
Webportale mit Typo3 Eine Einführung 29. März 2008
Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"
Hier einige Hieroglyphen:
Kohonennetze für Information Retrieval mit User Feedback
Periodismo Online Niveau Lernsystem Lerneinheit Inhalte Presse Radio / TV Ziele Einführung Didaktik Zielgruppe Übungen Periodismo Online e-learning Plattform.
Inhalt Saarbrücken,.
WML – Wireless Markup Language Vortrag von Eduard Jakel.
Webseitenranking für Suchanfragen anhand von Linkgraphen
On the Criteria to Be Used in Decomposing Systems into Modules
B-Bäume.
Suche in Texten (Stringsuche )
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
Genetische Algorithmen für die Variogrammanpassung
Ontologien- Query 1 Teil2
Art der Arbeit (Projekt-/Studien-/Diplomarbeit/
Untersuchung und szenariobasierte Entwicklung von Websites zur Orientierung in Universitätsstudiengängen unter Berücksichtigung von Prinzipien des Web.
Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
Quellen-Filter Theorie der Sprachproduktion
Heuristiken und Kontexteinflüsse
HTML - Einführung Richard Göbel.
Algorithmentheorie 04 –Hashing
Dynamische Programmierung (2) Matrixkettenprodukt
Bestimmung des Next-Arrays im KMP-Algorithmus
WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.
Geometrisches Divide and Conquer
Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel.
Technik Gestaltung Navigation Daten. Übersicht Client Webbrowser InternetServer.
Grundlegende Analysen & Zwischendarstellungen
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Spree/Worg2/LE 10 Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen.
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
Carsten Greiveldinger
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Hauptseminar Automaten und Formale Sprachen
Heute: Scherenzange zeichnen
FH-Hof HTML - Einführung Richard Göbel. FH-Hof Komponenten des World Wide Webs WWW Browser HyperText Transfer Protocol (HTTP) via Internet WWW Server.
Ontologien und Wissensmanagement1 Ontologien und Wissensmanagement von Malte Siedenburg.
Time Notes.
Can you think of some KEY phrases which would be useful in multiple contexts? Take 2 minutes with a partner and come up with as many as you can!
Nützlichkeit statistischer Phrasen in der Textklassifikation
04 b Ressourcenschichtplan. © beas group 2011 / Page 2 This documentation and training is provided to you by beas group AG. The documents are neither.
17 Personalzeiterfassung
Seniorkom.at vernetzt Jung & Alt Das Internet ist reif
Histogramm/empirische Verteilung Verteilungen
Zur Arbeit mit Suchmaschinen
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Hyperlinks und Anker Links notieren
1 Semiautomatische Medienresonanz- und Diffusions-Analyse Waltraud Wiedermann, GF APA-DeFacto und APA-MediaWatch Michael Granitzer, Know-Center.
Automatic composition of UI mashups Vortrag zum Seminar Webengineering 2011 Michael Reißner.
Studentische Arbeiten im Social Web Aktuelle Nutzung und Anforderungen für die Nutzung Klaus Tochtermann Seite 1.
Wie schreibe ich eine Diplom- bzw. Masterarbeit ?
Ganzheitliches Projekt-, Ressourcen- und Qualitätsmanagement 1 Reports und AddOns Auf den folgenden Seiten wird Ihnen die Funktionsweise der Reports und.
Oliver Spritzendorfer Thomas Fekete
Von Isabelle Spörl und Simon Schausberger
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Information Retrieval, Vektorraummodell
Stoppen der Eingabeaufforderung einer Abfrage j drücken Sie dann F5, oder klicken Sie auf Bildschirmpräsentation > Von Beginn an, um den Kurs zu starten.
Google (Web-Suchmaschine) Google Books Google Scholar
1 Tagesüberblick 5 Lösung Hausaufgabe/Fragen Assoziative Felder Funktionen zu Variablenbehandlung.
Live Search Die Suchmaschine von Microsoft. Was ist Live Search? Live Search gehört zur Microsoft Windows Live Familie (Windows Live Messenger, Windows.
Sprachprodukttechnologie SS 2001G. Heyer 1 Sprachstatistik  Grundlegende Definitionen  Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von.
Carsten Haberland Otto-von-Guericke-Universität Magdeburg Seminar: Security-based Web Engineering Steganography and Watermarking Techniques Steganalysis.
1 Suchprofile erstellen und verwalten. 2 Suchprofile bei Registrierung Hier können Sie bis zu drei Suchprofile einrichten. Diese finden Sie später unter.
Oracle Text bei sehr großen Datenmengen Referent Martin Augst Senior Project / Account Manager Semantec GmbH Benzstr.
 Präsentation transkript:

Web-Assisted Annotation, Semantic Indexing and Search of Television and Radio News Armin Doroudian

2 Einführung Medienunternehmen produzieren eine gewaltige Anzahl an Nachrichten- und Dokumentationssendungen Diese müssen zeitnah erfasst und für eine Suche zugänglich gemacht werden Eine detaillierte Suche wird durch Hilfe von Metadaten im Katalogsystem ermöglicht Hierzu wird eine automatische Lösung gesucht für die inhaltliche Zusammenfassung der Sendungen sowie die semantische Beschreibung der Sendungen

3 The Rich News System Dieses System bietet zusammengefasst Techniken für die Informations-Extraktion Ergänzung von Web-basierten Inhalten Semantische Beschreibung Für den Suchenden entsteht hieraus eine Mixform der Zusammenfassung der Sendung bestehend aus Inhaltsangabe Verlinkungen zu zusätzlichem Material

4 Architektur des Rich News Annotator Unterteilt in sieben Modulen die sequenziell ausgeführt werden THISL Speech Recogniser C99 Topical Segmenter TF.IDF Key Phrase Extraction Web-Search and Document Matching Manual Annotation (Optional) Index Document Creation KIM Semantic Annotation

5 Spracherkennung (Automatic Speech Recognition) THISL Spracherkennungssystem ABBOT Zusammenhangs-Spracherkenner Wortschatz umfasst Wörter tri-gram Sprachmodel Wahrscheinlich eher vorkommenden Formulierungen …Tür ist offen… 40% …Tür ist Ofen… >1% Wurde speziell für Nachrichtensendungen angepasst: - 50 Stunden Nachrichtensendungen Millionen Wörter aus Zeitungen

6 Spracherkennung Satzzeichen können nicht berücksichtigt werden Komplette Erkennungs-Abschrift in Kleinbuchstaben Kurze Pausen werden mit markiert Große Pausen werden mit markiert Auszug: thousands of local people have been protesting at the way the authorities handle the operation can marshal reports from the coastal village of mitch a crash patches of oil has started to perk up and dalglish encased are the main body of the thick blue is several miles offshore dozens of volunteers working on a beach in which at having to use a blade to carve up the thick

7 Inhaltliche Gliederung (Topical Segmenter) Interesse besteht nur an einem bestimmten Teil der Sendung Mögliche Ansätze für die Bestimmung von Grenzen: Audio/Visuelle Hinweise Änderung von Farbschema Gesichtern Untertitel Musik/Geräuschen Nachteil: Nur möglich bei Fernseh- sendungen Einfache Texthinweise Formulierungen an Textgrenzen … [reportername] thank you! …back to the Studio! Nachteil: Nicht zuverlässig

8 C99 Segmenter - Algorithmus Basiert auf der Grundidee der lexikalischen Verkettung Algorithmus: Vorverarbeitung Stopwörter entfernen Übriggebliebene Wörter auf die Stammform bringen Hauptphase Segmente aus ASR als Eingabe verwenden Lexikalische Ketten identifizieren Bereiche mit hohem lexikalischen Zusammenhang als thematisch gleich bewerten

9 Lexikalische Ketten Basiert auf Lexical Cohesion …is the cohesion that arises from semantic relationships between words (Morris, Hirst 1991) Beispiele Synonyme: Auto, Karre Spezialisierung / Generalisierung: Pferd, Hengst Teil – Ganzes / Ganzes – Teil: Politiker, Regierung Statistisches Co-Vorkommen: Al Kaida, World Trade Center

10 Lexikalische Ketten Lexical Chains Guppen gebildet aus semantisch, verbundenen Wörtern Bilden lexikalisch, zusammenhängenden Struktur im Text Beispiel: {Blume, Rasen, Rose, Garten, Baum}

11 Hauptthemen Erkennung (Key-phrase Extraction) Ziel ist die Erkennung von Schlüsselwörter oder –Sätzen Diese dienen später zur Suche im Web Suche nach häufig auftretende Schlüsselwörter außerhalb des gewöhnlichen Sprachgebrauchs:

12 Hauptthemen Erkennung - Algorithmus Vorbedingungen Nur Verwendung von Stammformen Nur die Verwendung von Sätzen mit mind. 6 Wörtern Ausgenommen solche die mit Stopwörtern anfangen / enden Vorverarbeitung Berechnung der Häufigkeit aller Sätze Übersteigt die Anzahl der Sätze die Höhe von , werden nur die Häufigsten weiterverwendet Hauptphase Falls ein Wort mind. zwei mal vorkommt, wird TF.IDF Wert berechnet Es werden die vier Wörter mit den höchsten Wert als Schlüsselwörter verwendet

13 Websuche (Web-Search and Document Matching) Verwendung der Google-API zur Suche Eingabe: site:news.bbc.co.uk zur Begrenzung auf BBC-Inhalten Tag und Vortag der Ausstrahlung der Sendung Vier TF.IDF Hauptsätze Erste Suche mit den ersten und zweiten gefundenen Phrasen Weitere Suche mit je einem der vier Phrasen Ausgabe: Es wurden jeweils nur die ersten drei gefundenen URLs verwendet max. 15 URLs

14 Websuche Welche der 15 URLs soll genommen werden? Diese 15 Seiten wurden mit dem Ausgangssegment verglichen Hier wurde auch C99 zur Ermittlung der Ähnlichkeit genutzt Häufig ist die erste URL der ersten beiden Phrasen ein Treffer Wichtig: Es wurden aber auch die anderen Suchen berücksichtigt!

15 Manuelle Kommentierung (Manual Annotation) Meisten BBC Webseiten enthalten Meta-Informationen Schlagzeile Eine kurze Zusammenfassung Klassifikation der Geschichte Diese können entnommen und dem Transkript automatisch hinzugefügt werden Ab diesem Punkt können die Daten für das Format des ELAN Linguistic annotator aufbereitet werden

16 ELAN (Manuelle Nachbearbeitung des Transkripts)

17 Erstellung des Index-Dokuments Für jede Geschichte mit gefundener URL wird ein GATE Dokument erstellt und enthält: Text der übereinstimmenden Webseite Schlagzeile, kurze Zusammenfassung und Bereich URL der Media-Datei der Originalsendung Zeitinformation des Start- und Endpunkts in der Sendung Kanal, Ausstrahlungsdatum und Programmname Diese Daten bilden die Basis für eine Katalogeintrag

18 Semantische Information (Semantic Annotation) Bis hierhin erzeugte Metadaten sind im Textformat Für die Erzeugung von Semantischen Informationen wird die Knowledge and Information Management Plattform KIM verwendet: Identifiziert automatisch Entitäten (Personen, Länder…) Verbindet diese Entität mit einer URI URIs können innerhalb von 250 Klassen und 100 Properties organisiert werden

19 KIM

20 Suche von Sendungen KIM Web UI ermöglicht Einfache Textsuche sowie Semantisch unterstützte Suche

21 Evaluation Performance des Systems wird anhand dessen gemessen, wie erfolgreich Index Dokumente erzeugt werden Dies hängt wiederum davon ab, ob Webseiten zu den Geschichten gefunden werden Evaluation: Grundlage war BBC Radiosender The World at One Neun Sendungen à 30 Minuten wurden verwendet Vorbereitend wurden die Geschichten händisch notiert

22 Evaluation - Ergebnisse Jedes Index Dokument wurde darauf untersucht, Ob es der Geschichte in der entsprechenden Sendung entsprach (Strict) Ob es ähnlich aber nicht genau der gezeigten Sendung entsprach (Lenient) Ob es keinen Zusammenhang mit der Sendung gab Die neun Sendungen enthielten insgesamt 66 Geschichten CorrectIncorrectPrecision (%) Recall (%) F1 Strict Lenient

23 Aussicht Die Spracherkennung stellt noch eine Hürde dar Reportagen außerhalb des Studios, beinhalten zuviel Störgeräuche Hier würde eine Verbesserung erheblich die Performance steigern Bei dem Document Matcher könnten in Zukunft neue Quellen hinzugezogen werden

24 Fazit Aufgrund der Schwächen bei der ASR kam kein hoher Recall zustande Dennoch wurden die Index Dokumente mit einer hohen Precision erstellt und beweist so die Zuverlässigkeit So kann ein großer Teil von der mühsame Arbeit abgenommen werden

25 Fazit Aufgrund der Schwächen bei der ASR kam kein hoher Recall zustande Dennoch wurden die Index Dokumente mit einer hohen Precision erstellt und das beweist die Zuverlässigkeit So kann ein großer Teil von der mühsame Arbeit abgenommen werden Danke für die Aufmerksamkeit!