Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Web-Assisted Annotation, Semantic Indexing and Search of Television and Radio News Armin Doroudian.

Ähnliche Präsentationen


Präsentation zum Thema: "Web-Assisted Annotation, Semantic Indexing and Search of Television and Radio News Armin Doroudian."—  Präsentation transkript:

1 Web-Assisted Annotation, Semantic Indexing and Search of Television and Radio News Armin Doroudian

2 2 Einführung Medienunternehmen produzieren eine gewaltige Anzahl an Nachrichten- und Dokumentationssendungen Diese müssen zeitnah erfasst und für eine Suche zugänglich gemacht werden Eine detaillierte Suche wird durch Hilfe von Metadaten im Katalogsystem ermöglicht Hierzu wird eine automatische Lösung gesucht für die inhaltliche Zusammenfassung der Sendungen sowie die semantische Beschreibung der Sendungen

3 3 The Rich News System Dieses System bietet zusammengefasst Techniken für die Informations-Extraktion Ergänzung von Web-basierten Inhalten Semantische Beschreibung Für den Suchenden entsteht hieraus eine Mixform der Zusammenfassung der Sendung bestehend aus Inhaltsangabe Verlinkungen zu zusätzlichem Material

4 4 Architektur des Rich News Annotator Unterteilt in sieben Modulen die sequenziell ausgeführt werden THISL Speech Recogniser C99 Topical Segmenter TF.IDF Key Phrase Extraction Web-Search and Document Matching Manual Annotation (Optional) Index Document Creation KIM Semantic Annotation

5 5 Spracherkennung (Automatic Speech Recognition) THISL Spracherkennungssystem ABBOT Zusammenhangs-Spracherkenner Wortschatz umfasst 64.000 Wörter tri-gram Sprachmodel Wahrscheinlich eher vorkommenden Formulierungen …Tür ist offen… 40% …Tür ist Ofen… >1% Wurde speziell für Nachrichtensendungen angepasst: - 50 Stunden Nachrichtensendungen - 130 Millionen Wörter aus Zeitungen

6 6 Spracherkennung Satzzeichen können nicht berücksichtigt werden Komplette Erkennungs-Abschrift in Kleinbuchstaben Kurze Pausen werden mit markiert Große Pausen werden mit markiert Auszug: thousands of local people have been protesting at the way the authorities handle the operation can marshal reports from the coastal village of mitch a crash patches of oil has started to perk up and dalglish encased are the main body of the thick blue is several miles offshore dozens of volunteers working on a beach in which at having to use a blade to carve up the thick

7 7 Inhaltliche Gliederung (Topical Segmenter) Interesse besteht nur an einem bestimmten Teil der Sendung Mögliche Ansätze für die Bestimmung von Grenzen: Audio/Visuelle Hinweise Änderung von Farbschema Gesichtern Untertitel Musik/Geräuschen Nachteil: Nur möglich bei Fernseh- sendungen Einfache Texthinweise Formulierungen an Textgrenzen … [reportername] thank you! …back to the Studio! Nachteil: Nicht zuverlässig

8 8 C99 Segmenter - Algorithmus Basiert auf der Grundidee der lexikalischen Verkettung Algorithmus: Vorverarbeitung Stopwörter entfernen Übriggebliebene Wörter auf die Stammform bringen Hauptphase Segmente aus ASR als Eingabe verwenden Lexikalische Ketten identifizieren Bereiche mit hohem lexikalischen Zusammenhang als thematisch gleich bewerten

9 9 Lexikalische Ketten Basiert auf Lexical Cohesion …is the cohesion that arises from semantic relationships between words (Morris, Hirst 1991) Beispiele Synonyme: Auto, Karre Spezialisierung / Generalisierung: Pferd, Hengst Teil – Ganzes / Ganzes – Teil: Politiker, Regierung Statistisches Co-Vorkommen: Al Kaida, World Trade Center

10 10 Lexikalische Ketten Lexical Chains Guppen gebildet aus semantisch, verbundenen Wörtern Bilden lexikalisch, zusammenhängenden Struktur im Text Beispiel: {Blume, Rasen, Rose, Garten, Baum}

11 11 Hauptthemen Erkennung (Key-phrase Extraction) Ziel ist die Erkennung von Schlüsselwörter oder –Sätzen Diese dienen später zur Suche im Web Suche nach häufig auftretende Schlüsselwörter außerhalb des gewöhnlichen Sprachgebrauchs:

12 12 Hauptthemen Erkennung - Algorithmus Vorbedingungen Nur Verwendung von Stammformen Nur die Verwendung von Sätzen mit mind. 6 Wörtern Ausgenommen solche die mit Stopwörtern anfangen / enden Vorverarbeitung Berechnung der Häufigkeit aller Sätze Übersteigt die Anzahl der Sätze die Höhe von 300.000, werden nur die 100.000 Häufigsten weiterverwendet Hauptphase Falls ein Wort mind. zwei mal vorkommt, wird TF.IDF Wert berechnet Es werden die vier Wörter mit den höchsten Wert als Schlüsselwörter verwendet

13 13 Websuche (Web-Search and Document Matching) Verwendung der Google-API zur Suche Eingabe: site:news.bbc.co.uk zur Begrenzung auf BBC-Inhalten Tag und Vortag der Ausstrahlung der Sendung Vier TF.IDF Hauptsätze Erste Suche mit den ersten und zweiten gefundenen Phrasen Weitere Suche mit je einem der vier Phrasen Ausgabe: Es wurden jeweils nur die ersten drei gefundenen URLs verwendet max. 15 URLs

14 14 Websuche Welche der 15 URLs soll genommen werden? Diese 15 Seiten wurden mit dem Ausgangssegment verglichen Hier wurde auch C99 zur Ermittlung der Ähnlichkeit genutzt Häufig ist die erste URL der ersten beiden Phrasen ein Treffer Wichtig: Es wurden aber auch die anderen Suchen berücksichtigt!

15 15 Manuelle Kommentierung (Manual Annotation) Meisten BBC Webseiten enthalten Meta-Informationen Schlagzeile Eine kurze Zusammenfassung Klassifikation der Geschichte Diese können entnommen und dem Transkript automatisch hinzugefügt werden Ab diesem Punkt können die Daten für das Format des ELAN Linguistic annotator aufbereitet werden

16 16 ELAN (Manuelle Nachbearbeitung des Transkripts)

17 17 Erstellung des Index-Dokuments Für jede Geschichte mit gefundener URL wird ein GATE Dokument erstellt und enthält: Text der übereinstimmenden Webseite Schlagzeile, kurze Zusammenfassung und Bereich URL der Media-Datei der Originalsendung Zeitinformation des Start- und Endpunkts in der Sendung Kanal, Ausstrahlungsdatum und Programmname Diese Daten bilden die Basis für eine Katalogeintrag

18 18 Semantische Information (Semantic Annotation) Bis hierhin erzeugte Metadaten sind im Textformat Für die Erzeugung von Semantischen Informationen wird die Knowledge and Information Management Plattform KIM verwendet: Identifiziert automatisch Entitäten (Personen, Länder…) Verbindet diese Entität mit einer URI URIs können innerhalb von 250 Klassen und 100 Properties organisiert werden

19 19 KIM

20 20 Suche von Sendungen KIM Web UI ermöglicht Einfache Textsuche sowie Semantisch unterstützte Suche

21 21 Evaluation Performance des Systems wird anhand dessen gemessen, wie erfolgreich Index Dokumente erzeugt werden Dies hängt wiederum davon ab, ob Webseiten zu den Geschichten gefunden werden Evaluation: Grundlage war BBC Radiosender The World at One Neun Sendungen à 30 Minuten wurden verwendet Vorbereitend wurden die Geschichten händisch notiert

22 22 Evaluation - Ergebnisse Jedes Index Dokument wurde darauf untersucht, Ob es der Geschichte in der entsprechenden Sendung entsprach (Strict) Ob es ähnlich aber nicht genau der gezeigten Sendung entsprach (Lenient) Ob es keinen Zusammenhang mit der Sendung gab Die neun Sendungen enthielten insgesamt 66 Geschichten CorrectIncorrectPrecision (%) Recall (%) F1 Strict25292.637.953.8 Lenient27010040.157.2

23 23 Aussicht Die Spracherkennung stellt noch eine Hürde dar Reportagen außerhalb des Studios, beinhalten zuviel Störgeräuche Hier würde eine Verbesserung erheblich die Performance steigern Bei dem Document Matcher könnten in Zukunft neue Quellen hinzugezogen werden

24 24 Fazit Aufgrund der Schwächen bei der ASR kam kein hoher Recall zustande Dennoch wurden die Index Dokumente mit einer hohen Precision erstellt und beweist so die Zuverlässigkeit So kann ein großer Teil von der mühsame Arbeit abgenommen werden

25 25 Fazit Aufgrund der Schwächen bei der ASR kam kein hoher Recall zustande Dennoch wurden die Index Dokumente mit einer hohen Precision erstellt und das beweist die Zuverlässigkeit So kann ein großer Teil von der mühsame Arbeit abgenommen werden Danke für die Aufmerksamkeit!


Herunterladen ppt "Web-Assisted Annotation, Semantic Indexing and Search of Television and Radio News Armin Doroudian."

Ähnliche Präsentationen


Google-Anzeigen