Datenanalyse und Musik

Slides:



Advertisements
Ähnliche Präsentationen
Spektrale Analysen in EMU-R: eine Einführung
Advertisements

LS 8 Künstliche Intelligenz Prof. Dr
Kohonennetze für Information Retrieval mit User Feedback
Pop Jazz C B A Jazz C A Lehrstuhl für Künstliche Intelligenz
Intelligente Anwendungen im Internet
Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Information Systems & Semantic Web University of Koblenz Landau, Germany 5. Feature - Transformationsverfahren 5.1 Diskrete Fourier-Transformation (DFT)
Christian Schindelhauer
Data Mining Anwendungen und Techniken
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Rechnergestützte Musikanalyse Einführung Projektseminar Musikwissenschaftliches Institut Hamburg WS 2005/06 Leitung: Klaus Frieler.
Music Information Retrieval: Genre & Stil
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2012.
Leistungszentren für Forschungsinformation II – Sicherung und Bereitstellung von Textquellen und Primärdaten DINI – AG Informationsmanagement Essen, 17.
Paul, Morten, Yannick Blue J. Entwicklungsumgebung versteht Java Programmcode versteht Java Programmcode Für die Entwicklung eigener Software.
Genetische Algorithmen
Genetische Algorithmen
Sortierverfahren Richard Göbel.
FH-Hof Effizienz - Grundlagen Richard Göbel. FH-Hof Inhalt Einführung Aufwand für Anfragen ohne Indexierung Indexstrukturen für Anfragen an eine Tabelle.
Berechnung von digitalen Signalen Jonathan Harrington.
Spektrale Analysen in EMU-R: eine Einführung
Was ist laut Stevens die Beziehung zwischen dem akustischen Signal, distinktiven Merkmalen und dem Lexikon?
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Datenbanken vs. Markup Manfred Thaller WS 2009/2010 Humanities Computing Linda Scholz.
CIDOC-CRM Universität zu Köln Historisch-kulturwissenschaftliche Informationsverarbeitung AM 2 Dozent: Prof. Dr. Manfred Thaller Referent: Nelson Marambio.
Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.
Einsatz von XML zur Kontextspeicherung in einem agentenbasierten ubiquitären System Faruk Bagci, Jan Petzold, Wolfgang Trumler und Theo Ungerer Lehrstuhl.
MMQL – Multimedia Query Language Eine Anfragesprache für Multimedia-Ähnlichkeitsanfragen Christian Mantei.
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
Effiziente Suche in Bilddatenbanken
Globaler Ansatz Hough-Transformation
Thorsten Jost INF-M2 – AW1 – Sommersemester Mai 2008
Vorlesung 3: Verschiedenes Universität Bielefeld – Technische Fakultät AG Rechnernetze und verteilte Systeme Peter B. Ladkin
Strukturänderungen Verteilte Anwendungen Wintersemester 06/07 © Wolfgang Schönfeld.
Christian Steinle, Joachim Gläß, Reinhard Männer
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Machine Learning KNN und andere (Kap. 8).
Maschinelles Lernen und automatische Textklassifikation
Maschinelles Lernen und automatische Textklassifikation
Schnelles und effizientes Suchen. Was ist MPEG 7? Wie funktioniert MPEG? Was bietet MPEG 7? Wo wird MPEG 7 verwendet?
Technische oder personenorientierte Lösungen?
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Ausgleichungsrechnung II
Einführung in die Programmierung
Akustisches Herzschlag-
Abschlussvortrag zur Studienarbeit
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Softwaretechnologie II (Teil I): Simulation und 3D Programmierung Prof.
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Technische Universität München Dr. Andreas Bauer – Lehrstuhl für Organische Chemie I – Praxisseminar III1 Organisch-Chemisches Grundpraktikum Praxisseminar.
Einführung in die Programmierung Wintersemester 2009/10 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.
Shape Similarity 27. Februar 2006 Michael Keller.
LS 8 – Künstliche Intelligenz
Klassifikation und Regression mittels neuronaler Netze
Information Retrieval, Vektorraummodell
Vom graphischen Differenzieren
Semantic Web.
Audiovisuelle Archive in der digitalen (Medien-)Welt Teil 2 Herbert Hayduck WS 2005.
Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Softwaretechnologie II (Teil I): Simulation und 3D Programmierung Prof.
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 1 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
 Präsentation transkript:

Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund www-ai.cs.uni-dortmund.de morik@ls8.cs.uni-dortmund.e

Überblick Motivation Merkmalsextraktion für Audiodaten Technische Grundlagen Arbeitsfelder Merkmalsextraktion für Audiodaten Unterstützung der Vorverarbeitung – Yale Lernen der geeigneten Merkmalstransformation Lernen aus heterogenen verteilten Audiobeständen NemOz Verteiltes kollaboratives Clustering Zusammenfassung

Motivation – technische Grundlagen Moving Pictures Expert Group Audio Layer 3 Karlheinz Brandenburg, TU Ilmenau, Fraunhofer Inst. 1987 – 89 Fraunhofer Erlangen u.a. Standard für Musik und Filme, min. 1/12 komprimiert Tauschbörsen für Musik: Napster 80 Mio. Benutzer Nachfolger: Morpheus, Gnutella, KaZaA KaZaA 500 Mio. Musikstücke Privatsammlungen oft mehr als 10 000 Musikstücke Speichern, Abspielen, GUI zum Anbieten von Musik

Motivation -- Arbeitsfelder Wissenschaftliche Untersuchung von Musik Computer Music Journal Komposition Interpretation (Gerhard Widmer) Der "Performance Worm": Eine Bewegung des Wurms nach rechts oben beschreibt ein gleichzeitiges Beschleunigen und Lauterwerden. Der dunkelste Punkt repräsentiert den gegenwärtigen Zeitpunkt, die Vergangenheit erscheint blasser. Typische Muster für Künstler finden.

Motivation -- Arbeitsfelder Untersuchung menschlichen Hörens, Akustik Noten erkennen (Audio  Midi) Music Information Retrieval (MIS) Anfragen (über ID3 tags, query by humming) Indexierung (semantic web über Metadaten, automatisch über Audiodaten) Navigation gemäß Ähnlichkeit Musikempfehlungen Organisation von Musiksammlungen Persönliche Taxonomien Abspiellisten (persönliche, automatic DJ)

Intelligente Systeme für Musik Automatische Annotation von Musik Lernen von Metadaten Klassifikation von Musik nach Genre (nur noch als benchmark) Benutzerpräferenzen Gelegenheiten Automatische Organisation von Sammlungen Empfehlungen z.B. EU-Projekt SIMAC http://www.semanticaudio.org/

Technischer Kern Audiodaten sind Zeitreihen univariat: Elongation Wir müssen Ähnlichkeiten von Zeitreihen erkennen Indexing Clustering

Clustering von Zeitreihen – Standard So passen ähnliche Musikstücke nicht!

Dynamic Time Warping So auch nicht!

Technischer Kern Merkmalsextraktion ist notwendig für Annotation Indexierung Clustering Klassifikation Je Aufgabe unterschiedliche Merkmale nötig! Klangähnlichkeit, Liedtexte, Kulturelle Metadaten (MPEER, Stephan Baumann) Verschiedene Benutzer verwenden andere Merkmale (Klassifikation von Benutzerpräferenzen, Ingo Mierswa)

Merkmalsextraktion Paul-Taiwo, A. Sandler, M. B. Davies, M. E. 2004. Feature extractors for Music Information Retrieval: Noise Robustness. AES Convention Gómez, E. Herrera, P. 2004. Automatic Extraction of Tonal Metadata from Polyphonic Audio Recordings. AES Conference Pohle,T. Pampalk, E. Widmer, G. 2005. Evaluation of Frequently Used Audio Features. Workshop Content-Based Multimedia Indexing.

Low Level Descriptors Lautstärke Spectral Centroid (Cepstral) Mel Frequency Cepstral Coefficient (MFCC) Zero Crossing Rate Peaks: Amplitude, Zweithöchster/ Höchsten, Intervall zwischen Zweithöchstem und Höchstem

High-Level Descriptors Genre Stimmung: glücklich, traurig, neutral Tempo: sehr langsam – sehr schnell, variierend Komplexität: gering, mittel, hoch Gefühl: sanft, neutral, aggressiv Fokus: Gesang, beides, Instrument Lernaufgabe: Klassifikation nach HLD, gegeben LLD Ergebnis: klappt nicht! Pohle et al. 2005

Merkmalsextraktion lernen lassen! Zils, A. Pachet, F. 2004. Automatic Extraction of Music Descriptors from Acoustic Signals. ISMIR Mierswa, I. Morik, K. 2005. Automatic Feature Extraction for Classifying Audio Data. Machine Learning Journal, 58, 127 - 149. Genetische Programmierung zur Optimierung der Merkmalsextraktion für eine Lernaufgabe! Einzelbestandteile der LLD kombinieren lassen zu einem Merkmalsbaum, der ein Merkmal extrahiert.

LLD Merkmale genauer -- Zeit Merkmale in der Zeitdimension mittlere Lautstärke Extrema extrahieren und andere Werte null setzen Differenz zwischen den Extrema Tempobestimmung (Autokorrelation verschobener Reihe) Phasenverschiebung des Musikstückes um einen Takt. Bestimmung der Autokorrelation durch Berechnung der gemittelten Differenz zum Original. Iteriere Berechnung für alle Geschwindigkeiten im Intervall zwischen 90 und 170 bpm. Ingo Mierswa

LLD genauer -- Frequenz Merkmale in der Frequenzdimension (Fast Fourier Transform.) Peaks Stärkste Frequenz in Zeitfenstern: Bei einer vollständigen FT geht die Information verloren, wann genau die Frequenzen auftreten. Verschieben eines Zeitfensters der Breite w mit Schrittweite s und Berechnung der Frequenz des stärksten Peaks nach einer FT liefert die Zeitreihe:

Frequenz -- Peaks

Frequenz -- Stärkste Frequenz

Intervalle im Frequenzbereich Ingo Mierswa

Neue LLD -- Phasenraum Merkmale im Phasenraum Winkel Länge von Teilstücken

Phasenraum U.Gather, M. Bauer Phasenraum Zeitreihe yt yt+1 Deterministischer Prozess Deter- ministic Process yt time t yt+1 yt AR(1)-process with outlier (AO) AR(1) Prozess mit Ausreißer timet yt HRt yt+1 Herzrate Heart rate yt time t U.Gather, M. Bauer

Audiodaten: Phasenraum Pop

Audiodaten: Phasenraum Klassik

Darstellung der geeigneten Transformationen für eine Aufgabe Methodenbaum: Reihe von Transformationen, durch ein Funktional abgeschlossen Transformationen von Wertereihen in Wertereihen Transformation in einen anderen Raum Fensterung ist eine Transformation, die selbst wieder ein Methodenbaum ist Aufbau eines Methodenbaums: Dynamische Fensterung erzeugt neue Teilbäume Anwendung eines Methodenbaums erzeugt Merkmale für eine gegebene Wertereihe Ingo Mierswa

Methodenbaum Ingo Mierswa Wurzel T: EMA T: Fensterung F: Avg + Var Wertereihe Wurzel Merkmale T: EMA T: Fensterung F: Avg + Var T: Hanning T: FFT F: MaxIndex Ingo Mierswa

Lernen eines Methodenbaums für eine Aufgabe mit genetischer Programmierung Training der Merkmalsextraktion auf Teilmenge der Daten. Anwendung der Merkmalsextraktion auf alle Daten für die Lösung einer Lernaufgabe. Genetische Programmierung: Individuen: Methodenbäume Fitness durch Kreuzvalidierung der jeweiligen Lernaufgabe nach Vorverarbeitung durch das zu evaluierende Individuum. Ingo Mierswa

Jede Aufgabe verlangt andere Merkmale Pop vs. Klassik: durchschnittliche Länge nach einer Phasenraumtransformation bestes Merkmal; korrekte Klassifikation von 184 der 200 Instanzen Pop vs. Techno: Varianz der Extremadifferenz als bestes Merkmal; korrekte Klassifikation von 132 der 160 Instanzen. Benutzerpräferenzen: jeder Benutzer braucht andere Merkmale! 84,5 -- 95,2 accuracy 85,9 – 98,3 precision 83,7 – 99,0 recall

Systemunterstützung durch Yale Experimente sind (geschachtelte) Ketten von Operatoren für Vorverarbeitung, maschinelles Lernen und Evaluation. Abspeichern der Ketten erlaubt ihre Wiederverwendung mit anderen Parametern: Daten: Datenformat in XML beschrieben Datei Lernparameter

Yale Ralf Klinkenberg, Ingo Mierswa, Simon Fischer

Lernergebnis einer Analyseaufgabe

Experimente zum Lernen mit Merkmalstransformation Lernen des Methodenbaums für eine Aufgabe: Ergebnis diese Lernlaufs ist ein Yale-Experiment. Durchführung des gelernten Yale-Experiments. Lernen der Analyseaufgabe mit den gelernten Merkmalen.

Wertereihen

Lernen der Merkmalsextraktion

Lernverlauf

Lernergebnis

Methodenbäume in Yale

Allgemein: Funktionsapproximation Approximiert wird die zu Grunde liegende Funktion. Diese ist oft nichtlinear. Die Güte der Approximation wird anhand neuer, vorher nicht gesehener Daten bewertet. Hinweis: hier zum Verdeutlichen nur einfache Funktionen. In der Praxis wesentlich kompliziertere Lage. Nach dem Einblenden der zweiten Kurve: „Hätten Sie das gedacht?“ -- Das gleiche Verwundern erzeugen nach dem Einblenden der Testpunkte.

Merkmalstransformation und Kernfunktionen SVM optimiert gemäß strukturellem Risiko: empirisches Risiko und Komplexitätsmaß des Hypothesenraums SVM separiert Klassen linear. Kernfunktion transformiert Beispiele in einen anderen Raum, in dem sie linear separierbar sind. x1 x2 (x1)2 (x1,x2) = (x12,x2)

Kernfunktionen für Wertereihen? Skalarprodukt Abbildung  in Raum mit Skalarprodukt definiert eine Abbildung in einen Hilbert-Raum von Sinus- und Kosinusschwingungen, die bei geeignetem Skalarprodukt folgende Kernfunktion ergibt: Beim ersten Punkt mündlicher Hinweis, das nur lineare Funktionen möglich sind.

Stöberngemäß eigener Präferenzen Nemoz NEtwork Media OrganiZer: Collaborative clustering in P2P networks Einbindung von Yale Klassifikation Clustering Kopieren Stöberngemäß eigener Präferenzen

Grundlage der Prozesse Taxonomie: hierarchisches clustering Ci. Jeder Teilbaum ist natürlich auch eine Taxonomie. Anfrage an peers, dass Xq zu clustern ist. Bestimme einige Ci die am besten zu Xq passen. Klassifiziere Objekte in Xq gemäß Ci, modifiziere Ci. Präsentiere alle Ci dem Benutzer, der das beste wählt. Annahme: Benutzer-gemachte Taxonomien sind besser als ‘reines’ clustering.

Kollaboratives Filtern -- Amazon Einkäufe eines Kunden als cluster interpretiert Ähnlichkeit: co-occurrence von Objekten Neuer Einkauf eines (anderen) Kunden: Xq Finden des maximal ähnlichen clusters zu Xq Also: keine (hierarchische) Struktur als Ergebnis keine Berücksichtigung der Struktur bei der Suche nach ähnlichem cluster Für die Organisation von Daten nicht geeignet.

Verteiltes kollaboratives Clustering Die n besten Taxonomien werden ausgegeben. Nicht nur Merkmale, auch Taxonomien (der peers) werden berücksichtigt. Gegeben eine Menge von Taxonomien CM = {C0,C1,…,Ck} und eine Menge von Objekten Xq Finde Taxonomien {Cres1,Cres2,…,Cresn} so dass cluster Bedingungen für alle xi in Xq gelten und es gibt irgendein Ci in CM und Cresj wobei entweder ext(Ci )  ext(Cresj) – jetzt mehr einsortiert -- oder ext(Ci ) = ext(Cresj) und |{ci in Cresj }| > |{ci in Ci }| – jetzt feiner strukturiert Wurst, Morik 2005

Ähnlichkeit von Anfrage zu Teilbaum Repräsentation eines clusters durch ausgewählte Punkte. Abstand zwischen den Punkten eines clusters und allen Punkten in Xq. Bottom-up Kombination der Ähnlichkeit von Teilbäumen Ci‘ zur Ähnlichkeit des direkt übergeordneten Baums C. ... c Xq c1 c2 c3

Sequenzielles Abdecken Elemente von Xq werden in den ähnlichsten Teilbaum einsortiert, sofern sie ähnlich genug sind. Für die restlichen wird wieder verteiltes kollaboratives clustering aufgerufen. Das Ergebnis wird als Teilbaum eingehängt. ... Xq ci ck c4 c5 ck c1 c2 c3 c4 c5

Ergebnisse 39 Taxonomien von Liedern. Alle Objekte einer Taxonomie herausnehmen als Xq Clustering durch Kollaboratives clustering, K-means clustering, Single link clustering Method Correlation Absolute distance Collabor. clustering 0.44 0.68 K-means 0.23 1.9 Single-link 0.1 10.8 random 0.09 1.8 Tatsächlich verbessern die Taxonomien der andern das Ergebnis.

Was wissen Sie jetzt? Musiksammlungen stellen viele Aufgaben Klassifikation Clustering Organisation der Sammlung in Taxonomien Musikdaten sind der Härtetest für Merkmalsextraktion Merkmalsextraktion Verschiedene Merkmalsextraktion je konkreter Lernaufgabe Komplizierte Ähnlichkeitsmaße Lernen der Merkmalsextraktion LLD dekomponieren zu einfachen Bausteinen HLD als Methodenbaum

Credo Vorverarbeitung ist entscheidend für die Qualität der Wissensentdeckung. Vorverarbeitung ist aufwändig und schwierig, daher Wiederverwendung wichtig. Abstraktion durch Metadaten (MiningMart) bzw. Experimente (Yale)