Mp3 Geschichte Verfahren Codecs (Vor- und Nachteile)

Slides:

Advertisements

Ähnliche Präsentationen

Audio & Videoformate Max Rennhofer.

Advertisements

Spektrale Analysen in EMU-R: eine Einführung

Metriken in Netzwerken

Dateiformate Tobias Rolle IT takes more than systems …

Information Systems & Semantic Web University of Koblenz Landau, Germany 5. Feature - Transformationsverfahren 5.1 Diskrete Fourier-Transformation (DFT)

Referat zum Thema: Soundkarte Von Julian Weger IT-Klasse 2482.

Audioformate in der Unterhaltungselektronik

Digitale Audioformate

Die Soundkarte Von Patrick Gaschler.

Quellen-Filter Theorie der Sprachproduktion

Die akustische Analyse von Sprachlauten

5.1 Aufnahme und Wiedergabe

Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:

Spektrale Analysen in EMU-R: eine Einführung

Einführung in die Akustik und ihr Teilgebiet der Psychoakustik

Multimediatechnik / Audio Dipl. -Ing. Oliver Lietz

Akustik nur in 7 I.

Audio-Kompression: MPEG

Digital Audio Medientyp digital audio representation

Komprimierung PCM-Daten

Digital Audio Medientyp digital audio representation

Wie funktioniert Signalübertragung?

Wie funktionniert das Musikklauen denn im Detail?

Komprimierung von Sprachdaten mit LPC10 auf einem dsPIC

Multikollinearität Wann spricht man von Multikollinearität?

FRAGENKATALOG GRUNDLAGEN DES SCHALLS

Von Tom Wehnert & Konstantin Preißer

VoIP – Voice over IP Von Bernd Heilinger.

Angewandte Naturwissenschaften

Informatik / G. Graubner

Signaltheorie Modulationsarten Betriebsarten Rauschsperren.

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

Hartmut Klauck Universität Frankfurt SS

Information und Kommunikation Hartmut Klauck Universität Frankfurt SS

Information und Kommunikation Hartmut Klauck Universität Frankfurt SS

Messgrößen für Schallwellen

Messgrößen für Schallwellen

Messgrößen für Schallwellen

Theorie Praktische Beispiele

Schwingungen Tonhöhe und Lautstärke Zum Zuordnen Zum Ausfüllen.

MATHEMATIK UND AKUSTISCHE SIGNALVERARBEITUNG

Analog-Digital Umsetzer NI USB 6009 Blockschaltbild

Daniela Wurhofer und Ismail Karagöz

Eine Präsentation von Clemens Prehl!!““

Theorie Praktische Beispiele

Das Binär-System Alles ist davon abhängig, ob Strom fließt oder nicht!

1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Systeme II Christian Schindelhauer Sommersemester 2006.

MP3 Davis Balija 1AHWIM 2012/2013. Inhaltsverzeichnis Was ist MP3 3 Sind MP3 Datein legal 4 Geschichte des MP3 5 Was ist streaming 6 Womit kann man MP3`s.

Kalibrierung eines Mikrofons unter DASYLab

Sampling, Rekonstruktion

3. Schaltungsentwicklung - Beispiel Taschenlichtorgel

Übersicht Change blindness Wiederholung:

Übersicht Täuschung des Tages Wiederholung: Abtastung CCD-Kamera

Fourier-Analyse und technologische Anwendungen

1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Systeme II Christian Schindelhauer Sommersemester 2006.

Kap Multimedia.

Audiowandlung und Formate

Einführung in die Akustik und ihr Teilgebiet der Psychoakustik

JPEG Joint Photographic Experts Group Thomas Leinmüller

Computer und Kriminalität

Akkustik Geräusch - Ton - Klang.

Wichtige Transformationen

Analog-Digital-Wandler

6. Sitzung Das menschliche Ohr Anatomie und Funktion

 Ein MP3-Player oder MP3-Spieler ist ein Gerät, das digital gespeicherte MP3-Dateien abspielt. Die Bezeichnung MP3-Player wird allerdings auch für Geräte.

Mp3 und co. – Audiobearbeitung am PC. Vorteile Audio am PC Audiofiles lassen sich einfacher verwalten und weiter verarbeiten als Kassettenaufnahmen.

Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.

Analog-Digital-Wandlung und Alesis ADAT-Schnittstelle Rudolf-Diesel-Fachschule Markus Vogl 12. März 2009.

Digitales Video I ● Wie wird Video am Computer codiert? ● Bilder – Auflösung – Speicherung am Computer ● Bewegte Bilder – Interlacing – Kompression / Codec.

Präsentation transkript:

Mp3 Geschichte Verfahren Codecs (Vor- und Nachteile) Kodierverfahren (2 Arten) Kodieren (Maskierungen) Qualität/Verluste MP3: Legal oder Illegal

Geschichte entwickelt 1985 von Gruppe von Studenten um Prof. Dr. Karlheinz Brandenburg am Fraunhofer-Institut (großteils) sowie an der Friedrich-Alexander-Universität Erlangen-Nürnberg in Zusammenarbeit mit AT&T Bell Labs und Thomson. 1992 wurde es als Teil des MPEG-1-Standards festgeschrieben Die Dateiendung .mp3 (als Abkürzung für ISO MPEG 1 Layer 3) wurde 1995 festgelegt. Prof. Dr. Brandenburg wurde für die Entwicklung dieses Datenformates mehrfach ausgezeichnet.

Verfahren Wie alle anderen Kompressionsformate für Musik nutzt MP3 sogenannte psychoakustisch Effekte der Wahrnehmung aus (z.B. zwei Töne erst ab einem gewissen Mindestunterschied der Tonhöhe (Frequenz) voneinander unterscheidbar oder dass man vor und nach sehr lauten Geräuschen für kurze Zeit leisere Geräusche schlechter oder gar nicht wahrnimmt. Ursprungssignal nicht exakt abspeichern, sondern Signalanteile, die das menschliche Gehör wahrnehmen kann. Die Aufgabe des Kodierers ist es, das Signal so aufzuarbeiten, dass es weniger Speicherplatz benötigt, aber für das menschliche Gehör noch genauso klingt wie das Original. Der Decoder erzeugt dann aus MP3 ein original klingendes Signal, das aber nicht mit dem Ursprungssignal identisch ist, da bei der Umwandlung in MP3 Informationen entfernt wurden. srthdrh

Codecs für Audiokomprimierung Lossy Codecs Lossless Codecs

Lossy Codecs (verlustbehaftet = Datenreduktion) Ausnutzung, dass menschl. Gehörs: hohe und tiefe Frequenzen ab einer Grenze nicht mehr wahrnimmt Frequenzen werden durch höhrere übertönt und nicht wahrgenommen Bei hohen Lautstärken werden leise nicht erkannt Ziel: Erreichen von Transparenz, d.h. kein hörbarer Unterschied zwischen kompr. und originaler Datei Bekannte Formate: MP3, MPC, Ogg Vorbis und AAC

Vor- und Nachteile Lossy Codecs Vorteile breite Hard- und Software-Unterstützung gute Qualität mit dem LAME-Encoder bei mittleren und hohen Bitraten Nachteile mäßige Qualität bei niedrigen Bitraten das Encodieren mit LAME (derzeit effektivste) dauert sehr lange viele immer noch verwendete schlechte Encoder (auch FhG-Encodern)

Lossless Codecs (verlustfrei = Datenkomprimierung) Hier wird nur die Datei (ähnlich wie WinZip) mit bekannten Algorithmen ( z.B. Huffman-Kodierung) komprimiert und es kommt so zu keinem Qualitätsverlust Es kann die vollkommen idente Datei wie die Originaldatei wieder hergestellt werden Bekanntestes Format: FLAC

Vor- und Nachteile Lossless Codecs Vorteile keine Qualitätsverluste, weder hörbar noch messbar sehr hohe Encodier- und Decodiergeschwindigkeit freies und offenes Audioformat plattformübergreifende Software-Unterstützung (Windows, Linux, Mac OS X) Nachteile Geringere Komprimierung ( auf ~60 %)

Kodierverfahren Kodierung mit konstanter Datenrate (CDR) (und damit schwankender Qualität) Kodierung mit schwankender Datenrate (VDR) (und damit konstanter Qualität) (MPEG Video) Vorteile: Qualitätseinbrüche werden vermieden, d.h. bei komplexerer Signalstruktur gute Qualität aber bei stillen Passagen höhere Datenrate als normalerweise notwendig Die Qualitätsstufe ist vorgegeben!

Kodieren mit der Fast Fourier Transformation (FFT) oder der Diskreten Kosinus Transformation (DCT) wird das Frequenzspektrum der Audiodaten bestimmt Dabei wird einer Funktion f(t) ihre Fouriertransformierte zugeordnet,d.h. für das Zeit-Amplitudensignal das Frequenzspektrum berechnet = Fourieranalyse Man zerlegt die Funktion in wellenartige Bestandteile (Kosinus, Sinus). Das Ergebnis der Transformation sind die Koeffizienten der Basisfunktionen, d. h. deren Anteil (Faktor) an der ursprünglichen Funktion

Fouriertransformation Beispiel: f(t) = cos(2.t)

Fouriertransformation die Rücktransformation (Fouriersynthese) lautet in der Praxis wird das Signal abgetastet und man erhält ein zeitdiskretes Signal (nicht kont. wie im vorherigen Beispiel) und berechnet hier mit Hilfe der diskreten Fourieranalyse das Spektrum für die einzelnen Zeitintervalle (nicht mehr analytisch sondern numerisch FFT)

Maskierungen Hörschwellenmaskierung Frequenzmaskierung temporale Maskierung

Hörschwellenmaskierung Jedes Paket wird einer Hörschwellenmaskierung unterzogen, d.h. gewisse Frequenzen eines Geräusches können nur schlecht oder gar nicht wahrgenommen und deshalb gelöscht werden Abb 1.1 : Hörschwelle des Menschen z.B. Ton mit f=16 kHz und L= 40 dB dieser Ton bzw. die Daten können gelöscht werden

Frequenzmaskierung Nun wird das Audiosignal einer Frequenzmaskierung unterzogen, wobei hier Töne beseitigt werden, die durch andere übertönt werden. Ein lautes Basssignal übertönt z.B. leise Töne aus den mittleren Frequenzbereichen; man sagt :“der Bass maskiert die Mitten!“

Abb 1.2 : Frequenzmaskierung Ein Ton der eine Frequenz von 1 kHz und eine Lautstärke von 80 dB hat, übertönt z.B. einen Ton von 2 kHz/40 dB.

Frequenzmaskierung

Grund für Frequenzmaskierung Schwingungen durch Schalldruck bringen Basilarmembran im Innenohr zur Schwingung und führen je nach Frequenz an versch. Stellen der Membran zu Resonanz. Nerven sind über ganze Länge der Membran verteilt und so werden bei bestimmten Frequenzen bestimmte Nerven angeregt Hohe Töne führen am Beginn der BM zu Resonanz und werden dann sofort abgedämpft. Tiefere Töne müssen erst die Membran entlanglaufen und führen so auch am Anfang der BM zu Schwingungen Die mittleren und hohen Frequenzen müssen also so laut sein, dass sie die tiefen Frequenzen „übertönen“

Temporale Maskierung bei der temporalen Maskierung, spiegelt sich die Trägheit des menschlichen Ohrs wider. das Gehör stellt sich auf laute und leise Tongeräusche ein und braucht so zwischen lautem und leisem Signal Erholungszeit d.h. nach lautem Knall können für kurze Zeit keine leiseren Töne wahrgenommen werden

Stereoredundanz Wird das Signal stereo übertragen, muss man dieses nicht 2 mal übertragen (z.B. Gesang), außer es sind z.B. Instrumente die nicht auf beiden Kanälen gleich übertragen werden. Intensity Stereo (IS-Stereo) Es werden hier nur die Monodaten und Richtungsinformationen der Stereodaten gespeichert. Phaseninformationen gehen verloren. Es wird hier ein Summensignal gebildet und für jeden Kanal ein Skalierungsfaktor bestimmt. Verwendet man zur Datenreduktion also IS-Stereo, kann auch für Surround Sound kodiertes Material nicht mehr dekodiert werden, da die Phaseninformation fehlt.

Stereoredundanz Mid-Side Stereo (MS-Stereo) es wird hier ein Mittelwert- (Middlesignal) und Differenzsignal gebildet und gespeichert (Diff. Signal hat weniger Speicher und wird als Side-Signal bezeichnet). Vorteil: es geht keine Phaseninformation verloren, also können auch Surround Sound Signale komprimiert werden.

Koeffizientenquantisierung Das durch die vorher durchgeführtenVerfahren erhaltene Frequenzspektrum wird nun noch quantisiert wobei sich hier ein Rauschen (Fehler) von rund 6dB pro weggelassenem Bit ergibt.

Hörbare Verluste Die hörbaren Verluste hängen ab: von der Qualität des Kodierers/Codecs der Komplexität des Signals von der Datenrate : 8 kBit/s bis zu 320 kBit/s (üblicherweise zwischen 128 und 256 kbit/s) (Audio-CD: ca. 1411 kbit/s) von der verwendeten Audiotechnik (Verstärker, Verbindungskabel, Lautsprecher) vom Gehör des Hörers : subjektiv und von Mensch zu Mensch sowie von Gehör zu Gehör untersch.; die meisten Personen können jedoch ab einer Bitrate von etwa 160 kBit/s keinen Unterschied mehr wahrnehmen ("CD-Qualität“ :Datenrate 128 kbit/s (mp3))

Analog – Digital Analogsignal Digitalsignal Analog  Digital Nyquist Theorem Störungen

Analogsignal ist ein Signal, bei dem zw. 2 Extrema kontinuierlich jeder Wert angenommen werden kann. Meistens elektr. Kontext aber auch mechan., hydr. und pneumatischer bekannt. Das Signal nutzt Eigenschaften des Mediums aus (Spannung, Stromstärke, Frequenz, Ladung) Nachteil analoger Signale: Fehleranfälligkeit auf Grund von zufälligen Variationen (kein System ist störungsfrei); tritt bei öfterem kopieren von Signalen und bei Verlängerung der Übertragungsstrecke auf  Rauschen = Signalverlust

Digitalsignal digitus = lat. für Finger (Binärsystem, Wert, Wort) ist ein Takt vorgegeben, der die Größe der Änderung eines Wortes auf ein gewisses Zeitintervall einschränkt, so wird dies als zeitdiskretes Signal bezeichnet man hat nun eine reelle Funktion, mit Definitionsbereich (D) im Rn (Zeit- aber auch Ortsabhängigkeit möglich) und Wertebereich (W) im Rm Handelt es sich beim D nun um diskrete Werte  diskretes Signal Sind W und D nun endliche Mengen  digitales Signal (Signal durch Bitfolgen mit {0,1}k darstellbar)

Analog  Digital hat man nun ein analoges Signal (z.B. Schallwelle), so wird diese mit Hilfe eines Mikrofons in eine Spannungsschwankung umgewandelt und mit Hilfe eines AD-Konverters in ein digitales Signal umgewandelt, um dieses nun am Computer zu bearbeiten dies geschieht, indem man die Spannungen zu bestimmten Zeiten misst (Sampling) und Messwerte speichert (1 Wert = 1 Sample) Qualität ist von der Samplingrate [Hz] und der Speicherqualität [Bit] (Quantisierung) abhängig

Quantisierung: Darstellung von Messwerten, in einem System wo nur diskrete Werte möglich sind Man erhält also ein umso besseres Signal umso feiner das Raster in Abb 2.1 wird (PCM = Pulse Code Modulation) dies erhält man durch eine höhere Samplingrate (Zeitachse) oder durch eine höhere Quantisierung (vertikale Achse)

Geschichte zum Nyquist Theorem Harry Nyquist (1889 – 1976): geboren in Schweden, dann nach Amerika ausgewandert Stellte fest, dass das analoge Signal mit der doppelten Signalfrequenz abgetastet werden muss, um aus dem entstandenen zeitdiskreten Signal das ursprüngliche, kontinuierliche Signal wieder herstellen zu können (= Nyquist-Shannon Abtasttheorem) Shannon hatte das Theorem 1948 formuliert und bildete damit Grundlage zur Informationstheorie

Nyquist Theorem hat man also bandbegrenztes Signal muss mit bestimmter Frequenz abgetastet werden bei Basisbandsignal, d.h. 0 < f < fmax fabtast > 2 . fmax bei Nicht-Basisbandsignal, d. h. fmin < f < fmax fabtast > 2 . (fmax – fmin) man muss also vor dem Abtasten die Grenzfrequenz bestimmen (z.B. Fourieranalyse), um schließlich das Signal gut approximieren zu können die Frequenz fN = fabtast / 2 wird als Nyquistfrequenz bezeichnet

Daten da das Gehör bis zu 22 kHz Töne wahrnimmt muss mit 44 kHz abgetastet werden um Artefakte zu vermeiden (Standard: 44.1 kHz mit 16 bit) d.h. es werden 44100 . 16 = 705600 bit ~ 86 kbyte Daten erzeugt (pro Sekunde) bei Stereo doppelt soviel, egal ob ein Sinuston oder ein ganzes Orchester

Störungen Hat man Signal mit f > fabtast / 2 so kommt es zu Artefakten (=Alias Signale;= Störsignale). Aliasing wird der Effekt bei zu niedriger Samplingrate bezeichnet (Bsp. Kutsche) Hat man Signal mit f > fabtast / 2 so kommt es zu Artefakten (=Alias Signale;= Störsignale). Aliasing wird der Effekt bei zu niedriger Samplingrate bezeichnet (Bsp. Kutsche) Hat man Signal mit f > fabtast / 2 so kommt es zu Artefakten (=Alias Signale;= Störsignale). Aliasing wird der Effekt bei zu niedriger Samplingrate bezeichnet (Bsp. Kutsche) Die Linien geben die gesampelten Werte wieder und so wird aus dem Ursprungssignal (kont. Linie) ein niederfrequenteres Signal (gestrichelt) Die Linien geben die gesampelten Werte wieder und so wird aus dem Ursprungssignal (kont. Linie) ein niederfrequenteres Signal (gestrichelt) Die Linien geben die gesampelten Werte wieder und so wird aus dem Ursprungssignal (kont. Linie) ein niederfrequenteres Signal (gestrichelt)

Beispiel für Aliasing es handelt sich hier um einen Ton, der linear von 100 Hz auf 8 kHz ansteigt fabtast = 16 kHz und damit das doppelte der maximalen Frequenz fabtast = 8 kHz und damit gleich der maximalen Frequenz beim ersten Ton hört man wie erwartet das ansteigende Signal. Beim zweiten Ton ist ab der Mitte des Signals die Abtastfrequenz zu gering und deshalb erhalten wir ein Signal, das tiefer statt höher wird (siehe Abb 2.2)

Störungen Man kann mit der richtigen Frequenz, aber auch mit einem Tiefpass-Filter Störungen vermeiden; d.h. ist eine bestimmte fabtast nicht gewollt/realisierbar, so kann man mit Hilfe des Filters gewisse Frequenzen wegschneiden und so Aliasing vermeiden. Bearbeitung mit Filter führt zu Veränderung des Signals und soll verwendet werden, wenn Änderung nicht merkbar ist oder keine höhere Abtastrate gewählt werden kann

Mp3: legal oder illegal Musikurheber haben persönlichkeitsbezogene und wirtschaftliche Rechte an ihren Stücken eigene Rechte können an Firmen aus dem Bereich der Musikindustrie übertragen werden (Verwertung und Vervielfältigung) Erfasst werden auch digitale Kopien Bestimmte Verwertungsvorgänge im privaten Bereich von der urheberrechtlichen Zustimmungs- und Vergütungspflicht ausgenommen Nutzung im privaten Bereich kann nicht kontrolliert werden (Grundsatz der Unverletzlichkeit der Wohnung)

Lösungen Geräteabgabe heute müssen Produzenten von Tonträgern (TT) und Abspielgeräten für jedes Gerät und leeren TT Abgaben an die Musikurheber bzw –industrie leisten Seit 1971 ist System der privaten Vervielfältigung und Geräteabgabe akzeptiert

Digitale Kopien Kopien können heute billiger und schneller erzeugt werden bei Software existiert rechtl. Schutz: nur berechtigte dürfen Sicherheitskopie erstellen; digitale Kopien haben selben Gesetze wie 1971 beschlossen ist der Besitz von MP3-Dateien illegal oder das private Kopieren? Download von Musikdateien aus dem Netz zur rein privaten Nutzung ist legal private Nutzer braucht keine Lizenz da § 53 UrhG eine gesetzliche Lizenz zur privaten Nutzung fremder Musikwerke beinhaltet

Muss die Vorlage für Kopie ein rechtmäßig erstelltes Original sein, also urheberrechtlich korrekt lizenziert sein? Diebstahl geistigen Eigentums begeht derjenige, der unerlaubt ins Netz stellt, unerlaubt produziert und verbreitet d.h. Mp3 und Raubkopien darf man besitzen nur bei Software muss legales Original sein, 1 Kopie vom Käufer für den privaten Gebrauch einzelne Kopien herzustellen ist erlaubt (3 bis 7 Stück), wobei diese Zahl von einem Gesetz für Papierkopien stammt das weiterverschenken an Personen zu denen eine persönliche Beziehung besteht ist erlaubt bei 50 Freunden darf jeder dem anderen eine Kopie der Kopie erstellen