Audio-Kompression: MPEG Karlheinz Brandenburg Bernhard Grill Harald Popp
Audio-Kompression: MPEG ISO/IEC IS 11172 (1988-1992) Ziel: Digitales Video auf CD 1,5 Mbit/s MPEG 1 Audio: ISO/IEC IS 11172-3 3 Schichten wachsender Komplexität MPEG 1 Layer 3 = MP3 Moving Pictures Experts Group Offizieller Name ISO/IEC JTC1/SC29/ WG11
Audio-Kompression: MPEG (1994) Ziel: Digitales Fernsehen, viele Bitraten z.B. DVD, Videokonferenzen MPEG 2 Audio: ISO/IEC 13818-3 Zusätzlich: 5-Kanal (Dolby Suround) Kleinere Bitraten / Abtastfrequenzen AAC = MPEG 2 Advanced Audio Coding Verbesserte Codecs Moving Pictures Experts Group Offizieller Name ISO/IEC JTC1/SC29/ WG11
1:4 Layer 1 (384 kbps for a stereo signal) Komprimierung: MP3 Komressions- Rate für CD-Qualität 1:4 Layer 1 (384 kbps for a stereo signal) 1:6...1:8 Layer 2 (256..192 kbps for a stereo signal) 1:10...1:12 Layer 3 (128..112 kbps for a stereo signal) MPEG Layer-3 sound quality bandwidth mode bitrate reduction ratio telephone sound 2.5 kHz mono 8 kbps * 96:1 better than shortwave 4.5 kHz mono 16 kbps 48:1 better than AM radio 7.5 kHz mono 32 kbps 24:1 similar to FM radio 11 kHz stereo 56...64 kbps 26...24:1 near-CD 15 kHz stereo 96 kbps 16:1 CD >15 kHz stereo 112..128kbps 14..12:1
Komprimierung: Psycho-Akustik http://www.kfs.oeaw.ac.at/fsf/psa/index.html Original-Spektrogramm aus der „Pastorale“ Audio- Software ST-X
Komprimierung: Psycho-Akustik Akustisch relevante Anteile Hörbarer Anteil
Komprimierung: Psycho-Akustik Differenz-Signal ohne „relevante“ Komponenten: „unhörbar“ Verdeckte Komponenten
Komprimierung: Psycho-Akustik Critical Band = Frequenzbereiche gleicher Laut(stärke)empfindung 24 Kritische Bänder im Bereich 0-15 kHz
Unhörbar bei 1000Hz-Ton mit 100dB Komprimierung: Psycho-Akustik Simultane Maskierung Unhörbar bei 1000Hz-Ton mit 100dB Hörbarkeitsschwelle unhörbar http://www.tecchannel.de/multimedia/58/index.html
Komprimierung: Psycho-Akustik Verdeckung durch kurzes lautes Signal (tonal) (Rauschsignal) Rauschsignale werden durch lautere tonale Signale verdeckt. Konsequenz: Quantisierungsrauschen wird verdeckt. http://www.tecchannel.de/multimedia/57/index.html
Komprimierung: Psycho-Akustik Vor- und Nachmaskierung Rückwärtsmaskierung: Lauter Impuls „überholt“ leises Rauschhen Vorwärtsmaskierung: Lauter Impuls hebt die Hörschwelle an 20 ms 200 ms http://www.tecchannel.de/multimedia/57/index.html
Hörbeispiel 1: Rauschen verdeckt einzelne Töne Demo1.wav Testsignal 600 Hz Testsignal 1000 Hz Testsignal 1600 Hz Jeweils um 10 dB ansteigendes Testsignal im Rauschsignal Rauschsignal 900-1100 Hz
Hörbeispiel 2: Vorwärtsmaskierung Demo2.wav Impuls Jeweils um 10 dB ansteigendes Testsignal im Rauschsignal Rauschsignal
Hörbeispiel 3: Rückwärtsmaskierung Demo3.wav Impuls Rauschsignal
MPEG 1 Audio Sub-Band Coding SBC QMF Quadrature Mirror Filter VLC variable-length coding
MPEG 1/2 Audio Layer 3 Zerlegung in 32 Frequenzbänder Jedes Band 18 mal zerlegen
MPEG 1/2 Audio Layer 3 Zerlegung in 32 Frequenzbänder Jedes Band 18 mal zerlegen Störsignal minimieren Verdeckte Komponenten ermitteln Innere Schleife: Optimale Codierung finden (Bitrate) Mehrere Hufman-Tabellen, Verstärkungsfaktoren Starkes Signal = grobe Kodierung, schwaches Signal = feine Codierung
MPEG 1/2 Audio Layer 3 Zerlegung in 32 Frequenzbänder Jedes Band 18 mal zerlegen Entropie-Kodierung Verdeckte Komponenten ermitteln Aufbau Frames
MPEG 1/2 Audio Layer 3 http://www.iis.fhg.de/amm/techinf/layer3/layer3_block.gif
Mp3 Bitstream Jeder Frame kann für sich dekodiert werden Jeder Frame kann andere Samplingrate und Modus besitzen (III) Joint Stereo: MS-Stereo: Mittensignal, Seitensignal Intensity Stereo nur hörbare Differenzen Header: Copyright 2bits Syncword: 12bits Layercode: 2bits (I,II,II) Bitrate: 4bits (s. Tabelle) Sampling-F.: 2bits (48,44.1,32 kHz) Mode: 2bit (stereo, mono, 2-sprachig, joint stereo) Padding 1bit
MPEG 1 Layers / Bitraten Typewriter1-4.mp3 43 kB, joint stereo 44,1 kHz typewriter1.wav 3,8 MB Typewriter1-2.mp3 342 kB, joint stereo Typewriter1-1.mp3 834 kB, joint stereo
Psychoakustik in MPEG Modell I: Modell II: FFT in wie in Modell I, jedoch für kurze (192) und lange Blöcke (576) Spreading function auf benach- barte Critical Bands anwenden Modell I: FFT (512/1024) Werte und Bandfilter berechnen Schalldruck in jedem Band Stille Regionen berechnen Tonale und nichttonale verdeckende Komponenten aus FFT Verdeckte Komponenten entfernen
MPEG Audio Übersicht MPEG-1 Iso/IEC 11172-3 (1993) Http://sound.media.mit.edu/mpeg4/audio/faq MPEG-1 Iso/IEC 11172-3 (1993) mono/stereo/2-channel/joint Abstastraten 48, 44.1, 32 KHz MPEG-2 Iso/IEC 13818-3 (1995) Iso/IEC 13818-7 (1997) mono/stereo/multichannel viele Abstastraten, Daten- ströme < 64 kBit/sec, AAC Ziel: Video & Audio-CD Kommunikation Layer I Layer II Layer III
MPEG 4 Audio MPEG-7 Multimedia Content Description Interface Http://sound.media.mit.edu/mpeg4/audio/faq MPEG-7 Multimedia Content Description Interface
MPEG 4 Natural Audio Harmonic Vector eXcitation Coding Code Excited Linear Predictive MPEG-2 AAC
MPEG 4 Synthesized Audio TTSI Text to Speech Interface Text mit Ausspracheinformationen Score driven Synthesis SAOL Structured Audio Orchestra Language Instrumente definieren als Sammlung einfacher Signalprozessoren Noten für diese Instrument (abstraktes MIDI) Wavetables mit Effektfiltern
Vorlesung „Medientechnik WS 1999/2000“ Dr. Manfred Jackel Studiengang Computervisualistik Institut für Informatik Universität Koblenz-Landau Rheinau 1 56075 Koblenz © Manfred Jackel E-Mail: jkl@uni-koblenz.de WWW: www.uni-koblenz.de/~jkl mtech.uni-koblenz.de Literatur zu diesem Kapitel Brandenburg, Karlheinz: MP3 and AAC explained Hyperlinks zu diesem Kapitel Grafik-Quellen