Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Content Mining des TIB|AV-Portals

Ähnliche Präsentationen


Präsentation zum Thema: "Content Mining des TIB|AV-Portals"—  Präsentation transkript:

1 Content Mining des TIB|AV-Portals
Automatische Analyse und Verschlagwortung von AV-Medien Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin

2 Content Mining des TIB|AV-Portals
Inhalt TIB|AV-Portal Sammlungsprofil Automatische Videoanalyse Automatische Verschlagwortung der AV-Medien Mehrwert des Portals 2 2

3 1. TIB|AV-Portal Profil Medienspezifisches Portal für wissenschaftliche Videos aus Technik & Naturwissenschaften Automatische Videoanalyse mit Szenen-, Sprach-, Text- und Bilderkennung Zielgruppe Wissenschaftler, Lehrende, Lernende Inhalte Videos aus Forschung und Lehre (Technik & Naturwissenschaften) 2700 Videos / 1900 Filmnachweise (Feb. 2015) Das Meiste unter Open Access av.getinfo.de Entwicklung: KNM und HPI ( ) Online-Gang: 29. April 2014 3

4 Content Mining des TIB|AV-Portals
Inhalt TIB|AV-Portal Sammlungsprofil Automatische Videoanalyse Automatische Verschlagwortung der AV-Medien Mehrwert des Portals 4 4

5 2. Sammlungsprofil AV-Medien aus Wissenschaft und Lehre zu den Kernfächern der Technischen Informationsbibliothek: Architektur Chemie Informatik Mathematik Physik Technik 5 5

6 Sammlungsprofil Materialien
Aus den genannten Fachgebieten werden u.a. folgende Materialien gesammelt: Aufzeichnungen von Konferenzbeiträgen, Vorlesungen und Podiumsdiskussionen Aufzeichnungen von Experimenten aus Forschung und Entwicklung Interviews Massive Open Online Courses (MOOCs) Dokumentationen von Forschungsarbeiten und -ergebnissen filmische Vorstellungen von 3D-Modellen (z.B. aus Architektur) Modellierung, Simulationen und Vorstellung von Spezialsoftware 6 6

7 Content Mining des TIB|AV-Portals
Inhalt TIB|AV-Portal Sammlungsprofil Automatische Videoanalyse Automatische Verschlagwortung der AV-Medien Mehrwert des Portals 7 7

8 3. Automatische Videoanalyse
Überblick über Prozesskette Zitierung und permanente Verlinkung visuelles Inhaltsverzeichnis / zielgenauer Zugriff Suche im geschriebenen Text des Videos Suche im gesprochenen Text des Videos Suche nach Bildmotiven Suche nach semantisch verknüpften Schlagworten 8 8

9 3.1 DOI-Vergabe DOI und MFI Der Digital Object Identifier (DOI)
… ist ein eindeutiger und permanenter digitaler Identifikator für Objekte wie z.B. AV-Medien. … wird durch den DOI-Service der TIB vergeben. Verlinkung und Zitierung des gesamten Videodokuments Der Media Fragment Identifier (MFI) … wird dem DOI hinzugefügt, um Teile des Videos zu adressieren. Verlinkung und Zitierung einzelner Sekunden des Videos 9 9

10 3.1 DOI-Vergabe DOI MFI 10 10

11 3.2 Szenenerkennung Shot Boundary Detection segmentiert das Video anhand von Bildmerkmalen in einzelne Segmente. visuelles Inhaltsverzeichnis: Überblick über den Inhalt des Videos zielgenauer Zugriff auf Videoinhalt 11 11

12 3.2 Szenenerkennung Automatische Erkennung eines Schnittes anhand von
Kopf, S. (2006): Computergestützte Inhaltsanalyse von digitalen Videoarchiven. Dissertation, Mannheim. Automatische Erkennung eines Schnittes anhand von Helligkeit / Kontrast Farbverteilung Kanten 12 12

13 3.2 Szenenerkennung visuelles Inhaltsverzeichnis zielgenauer Zugriff
13 13

14 3.3 Texterkennung Optical Character Recognition (OCR) indexiert geschriebene Sprache im Video und macht sie somit durchsuchbar. Volltextsuche in den geschriebenen Texten des Videos (Texteinblendungen, Vorlesungsfolien …) 14 14

15 3.3 Texterkennung Texteinblendung 15 15

16 3.3 Texterkennung Vorlesungsfolie 16 16

17 3.4 Spracherkennung Speech to Text notiert die gesprochene Sprache im Video in Form eines Transkripts. Volltextsuche im gesprochenen Text des Videos 17 17

18 3.4 Spracherkennung 18 18

19 3.5 Bilderkennung Visual Concept Detection indexiert das Bewegtbild mit fächerübergreifenden und fachspezifischen visuellen Konzepten. Suche nach Bildmotiven wie z.B. Computeranimation, Experiment oder Mikroskopie 19 19

20 3.5 Bilderkennung 20 20

21 Content Mining des TIB|AV-Portals
Inhalt TIB|AV-Portal Sammlungsprofil Automatische Videoanalyse Automatische Verschlagwortung der AV-Medien Mehrwert des Portals 21 21

22 4. Automatische Verschlagwortung der AV-Medien
Named Entity Recognition Named Entity Recognition: Zuordnung von Begriffen eines Referenzvokabulars auf analysierte Textinhalte. GND = Gemeinsame Normdatei 22 22

23 Named Entity Recognition
Mapping der GND-Sachbegriffe 23 23

24 Verschlagwortung auf Segmentebene
24 24

25 Vorteile der automatischen Verschlagwortung
1. GND-Sachbegriffe werden als Indexterme verwendet standardisierte Erschließung mit kontrolliertem Vokabular 2. GND-Sachbegriffe werden zeitbezogen entsprechend der Videosegmentierung zugewiesen zielgenaue Suche innerhalb des Videos 3. GND-Sachbegriffe werden fachbezogen zugewiesen (z.B. Physikvokabular für Physikvideos) höhere Precision (Genauigkeitsrate) im Retrieval 4. GND-Sachbegriffe stehen in semantischen Beziehungen zueinander Erweiterung der Treffermenge durch Einbezug von Synonymen, Ober- und Unterbegriffen 25 25

26 Content Mining des TIB|AV-Portals
Inhalt TIB|AV-Portal Sammlungsprofil Automatische Videoanalyse Automatische Verschlagwortung der AV-Medien Mehrwert des Portals 26 26

27 5. Mehrwert des TIB|AV-Portals
Rezipienten Produzenten Innovative Suchmöglichkeiten Mehrsprachige Suche Segmentgenauer Zugriff Segmentgenaues Zitieren Herunterladen, Bestellen, Lizenzieren Einbetten auf anderen Webseiten Empfehlungen Video-Upload Hosting Qualitätsprüfung Standardisierte Erschließung Sprachtranskription DOI-Vergabe Langzeitarchivierung Rechtssicherheit 27 27 27

28 Vielen Dank für Ihre Aufmerksamkeit!


Herunterladen ppt "Content Mining des TIB|AV-Portals"

Ähnliche Präsentationen


Google-Anzeigen