Startseite   |  Site map   |  A-Z artikel   |  Artikel einreichen   |   Kontakt   |  
  


physik artikel (Interpretation und charakterisierung)

Wie funktioniert mp3?


1. Atom
2. Motor

Allgemein hat man zwei Möglichkeiten, um die erfordeliche Datenmenge zu reduzieren. Entweder man sampelt
weniger oft, oder sampelt mit einer geringeren Auflösung (als 16bit/sample). Um die Qualität zu erhalten, kann man an der Samplefrequenz nichts ändern. Das hat folgenden Grund: Das menschliche Ohr hört Frequenzen im Bereich von 20Hz bis 20kHz (Mittelwert); und nach der sogenannten Nyquist-Theorie muß die Sample-Frequenz doppelt so groß sein, wie die die höchste Frequenz, die man speichern will. Da diese Theorie allgemein anerkannt wird, läßt man die Samplefrequenz wie sie ist, und reduziert die Auflösung der Sampels.

Nun, da wir das wissen, müssen wir auf die Auflösung der Sampels genauer eingehen:
Der Grund, warum die Sampels 16bit groß sind, ist folgender: Man will eine ausreichend große
Signal-to-noise-Ratio (Signalrauschabstand, \'s/n\') erhalten. Das Rauschen, um welches es hier geht, entsteht
gezwungenermassen beim Digitalisieren der Sounddaten und wird im Fachjargon Quantisierungsrauschen
(quantisation noise) genannt. Für jedes Bit, welches man dem Sampel hinzufügt erhält man eine um 6dB
bessere s/n (+6dB entspricht etwa einer Verdopplung der Lautstärke, oder einer Vervierfachung der
Watt-Leistung). Eine Audio-CD hat eine s/n von etwa 90dB, was ausreicht, um dem menschlichen Ohr ein
rauschfreies Signal zu bieten.

Was passiert nun, wenn man die Grösse der Sampels auf 8bit reduziert ? Die Sounddaten werden mit einem
hörbaren Hintergrundrauschen (noise floor) unterlegt, den man in leisen Passagen deutlich hört. Aber eben nur
in leisen Passagen !! Laute Töne überlagern den noise floor, was man masking effect nennt, und genau das
ist der Schlüssel zur MPEG Audio Komprimierung. Effekte, wie dieser, gehören zu einer Wissenschaft, die sich
psyco-acustics nennt, und sich damit beschäftigt, wie das menschliche Gehirn und Gehöhr Töne verarbeiten.

Nun kommen wir endlich dazu, darauf einzugehen, wie die MPEG Audio Komprimierung diesen Effekt nutzt:
Am besten lässt sich das an einem Beispiel erklären. Nehmen wir mal an, wir haben zwei Töne, einen bei
1000Hz und den zweiten bei 1100Hz. Letzterer ist 18dB leiser, als der erste. Der Ton bei 1100Hz würde
vollkommen von dem bei 1000Hz überdeckt/maskiert werden, und somit unhörbar. Ein dritter Ton bei 2000Hz
mit -18dB relativ zum 1000Hz Ton wäre wieder hörbar, wenn man den Pegel dieses Tones auf -45dB absenkt,
würde er wieder maskiert werden. Eine direkte Folge davon ist, daß um den (lauten) 1000Hz Ton auch der
noise floor maskiert wird, deshalb können wir in diesem Bereich die Größe der Sampels reduzieren, was
weniger Daten/Sample entspricht, somit also eine Kompression ist.
Was sich hier mit drei Tönen noch recht einfach anhört, verlangt in einem komplexen Audio-Signal natürlich
einigen frequenzanalytischen und mathematischen Aufwand.

\"Wie macht das nun ein MPEG Audio-coder ?\" ist die nächste Frage, die man hier stellt. Er unterteilt das
Frequenzspektrum eines Audio-Signals (20Hz bis 20kHz) in 32 sog. Sub-Bands. Nehmen wir nun mal an, im
oberen Bereich von Sub-Band 8 liegt unser 1000Hz Ton mit einer Lautstärke von 60dB. Der Coder berechnet
nun den masking effect und stellt fest, daß der masking treshold (Maskierungs Schwellenwert, frei übersetzt)
für das komplette 8. Sub-Band 35dB unter diesem Ton liegt. Daraus resultiert eine benötigte S/N-Ratio von
60dB-35dB = 25dB, was einer Sampelgröße von 4 bit entspricht. Zusätzlich treten natürlich noch in allen neben
dem Sub-Band 8 liegenden Bändern Maskierungseffekte auf, die mit dem Abstand zum Ursprungsband
abnehmen. Diese Beeinflussung der Bänder untereinander, wird von den Coding-Routinen ebenfalls
berücksichtigt, was die Berechnungen noch komplexer macht.
Die Aufteilung der Sub-Bands ist ebenfalls eine wichtige Komponente der Kodierung. Waren in Layer II noch
alle 32 Sub-Bands gleich groß (625Hz), so sind sie in Layer III an die Eigenschaften des Ohres angepasst,
also kleiner in den empfindlicheren Bereichen, die (logischerweise) im Bereich der menschlichen Stimme
liegen (2 bis 4 kHz), was auch wieder komplexere Filter erfordert. In diesem Punkt hat man auf eine bereits
bestehende Filtertechnik zurückgegriffen, die DCT-Filter (Discrete Cosinus Transformation), auf die ich

hier nicht weiter eingehen möchte.

Der nächste, vom Coder berücksichtigte Effekt, ist das sogenannte Pre- & Postmasking. Findet in einem
Soundsignal ein großer Sprung in der Lautstärke statt (mind. 30dB), so tritt ein Premasking Effekt auf, der um
2-5 Millisekunden maskiert, sowie ein Postmasking Effekt, der bis zu 100ms abdecken kann. Man glaubt, daß
dieser Effekt daraus resultiert, daß das Gehirn eine gewisse Zeit braucht, um eine solche Dynamik

umzusetzen.

Der letzte Schritt vor der Formatierung der Daten, ist ein sog. Huffman-coding, welches folgendermaßen
arbeitet: Es ersetzt lange, häuftiger vorkommende Datenketten, durch kürzere, und speichert für den
Decodiervorgang diese Zuweisung einmal ab. Diese Art der Kodierung arbeitet verlustfrei, und ist u.a. auch
die Basis für Kompressionsalgorithmen für Computerdaten (wie ZIP, LHA, RAR usw.).

Alle diese masking effects und Kodierungen werden in einem iterativen Prozess berücksichtigt/berechnet,
welcher bei Layer II mit 23ms time-windows arbeitet, was bei sehr dynamikreichem Klangmaterial noch zu
Problemen führen kann. Im Layer III Format hat man sich dieses Problems angenommen, vermutlich durch eine

Verkleinerung der time-windows.

Übersicht der Komprimierungsfaktoren bei MPEG:


1:4
für Layer 1 (entspricht 384 kbps für ein stereo signal),
1:6...1:8 für Layer 2 (entspricht 256..192 kbps für ein stereo signal),
1:10...1:12 für Layer 3 (entspricht 128..112 kbps für ein stereo signal),

Durch Auslassen des Stereo Effekts u/o Verringern der Bandbreite (Frequenzumfang des Signals) lassen sich noch höhere Kompressionsraten bei geringeren Bitraten erreichen. Die folgende Tabelle stellt bekannte Soundqualitäten den entsprechenden Layer-3 Kompressionsfaktoren gegenüber:

Klangqualität
Bandbreite Modus Bitrate Kompressionsfaktor
Telefon 2.5 kHz mono 8 kbps 96:1
besser als Kurzwelle 4.5 kHz mono 16 kbps 48:1
besser als Mittelwelle 7.5 kHz mono 32 kbps 24:1
ähnlich wie UKW 11 kHz stereo 56...64 kbps 26...24:1
fast CD 15 kHz stereo 96 kbps 16:1

CD >15 kHz stereo 112..128kbps 14..12:1

Viele Leute wollen erstmal nicht glauben, daß, trotz einer prinzipbedingt verlustbehafteten Kompression, die Qualität erhalten bleibt.Deshalb ist hier eine Grafik dargestellt:Es wurde von einer Audiocd ein Stück digital ausgelesen.Das resultierende Wav-File wurde einmal mit 128kbit/s und einmal mit 96kbit/s gepackt, und die beiden mp3-Files wieder in wav-Files zurückgewandelt. Dann wurden alle drei Files in einen Wave-Editor geladen und die Wellenformdarstellungen einer Passage auf das Sample genau übereinandergelegt.

 
 

Datenschutz
Top Themen / Analyse
indicator Energieverbrauch in Deutschland
indicator Schrödingers Katze
indicator DER VIERTAKT-OTTOMOTOR
indicator Marie Curie
indicator Lasergravur
indicator Warum glauben die Wissenschaftler, daß es einen Urknall gegeben hat?
indicator Was passiert wenn man in ein Schwarzes Loch fällt?
indicator Festigkeitslehre
indicator Kern-Hülle-Model:
indicator Gezeitenkraftwerke


Datenschutz
Zum selben thema
icon Transistor
icon Energie
icon Schall
icon Einstein
icon Kernfusion
icon Bomben
icon Strahlung
icon Magnet
icon Kohäsion
icon Welle
icon Diamant
icon Newton
icon Blitz
icon Adhäsion
icon Biomasse
icon Gleitreibung
icon Dichte
icon Watt
icon Entwicklung
icon Otto
icon Laser
icon Reaktor
icon Widerstand
icon Kraft
icon Mikroskope
icon Dynamik
icon Turbine
icon Herstellung
icon Elektrizität
icon Gesetz
icon Strahlung
icon Theorie
icon Kapazität
icon Haftreibung
icon Transformator
icon Wirkung
icon Mechanik
A-Z physik artikel:
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z #

Copyright © 2008 - : ARTIKEL32 | Alle rechte vorbehalten.
Vervielfältigung im Ganzen oder teilweise das Material auf dieser Website gegen das Urheberrecht und wird bestraft, nach dem Gesetz.
dsolution