Die sog. Psychoakustik untersucht und beschreibt - in Ergänzung der physikalisch geprägten Akustik - die subjektive Wahrnehmung von Schallsignalen. Psychoakustik
Frequenz und empfundene Tonhöhe unterscheiden sich. Diese
Verhältnistonhöhe wird mit der Bark-Skala beschrieben. Tonhöhe,
Tonheit und die Bedeutung der FrequenzgruppenTöne mit gleichem Schalldruckpegel, aber unterschiedlicher Frequenz, werden meistens auch als unterschiedlich laut wahrgenommen. Die Definition der Lautstärke beruht auf dem subjektiven Vergleich zweier Schallvorgänge. Lautstärke und SchalldruckpegelDie Lautstärke hängt nicht nur von der Tonhöhe, sondern auch von der Art des Schallereignisses ab. Lautstärkeempfindung
Zwei gleichzeitig gespielte Einzeltöne werden je nach Frequenzunterschied
als nur ein Ton, als Schwebung, als Rauhigkeit oder dann als zwei Töne
empfunden. Massgebend ist der Frequenzunterschied der beiden Einzeltöne.
Frequenzunterschiede und das Zweitonempfinden
Das frequenzmässige Auflösungsvermögen des Gehörs
ist zwar ausserordentlich gut, jedoch nicht unbegrenzt. Reine Töne,
deren Frequenzen genug nahe beieinander liegen, werden als ein und
derselbe Ton empfunden. Tonhöhenunterscheidung
Wir hören in Frequenzverhältnissen, nicht in absoluten
Frequenzen. Pythagoras hat erkannt, dass angenehme Klänge entstehen,
wenn man Saiten anschlägt, deren Längen in ganzzahligen Verhältnissen
zueinander stehen. Je komplizierter das Verhältnis der Saitenlängen,
desto dissonanter (misstönender) klingt das Intervall. Tonintervalle
Die Kurven gleicher Lautstärke stellen mit der Hörschwelle und der Schmerzgrenze den maximalen Umfang des hörbaren Bereichs dar. Die alltägliche Geräuschumgebung ist normalerweise in einem kleineren Bereich zu finden. Die Hörflächen
Die Mithörschwelle ist definiert als die Wahrnehmbarkeitsschwelle
für einen Testschall bei (gleichzeitiger) Anwesenheit eines Störschalls
(Maskierer) und wird meist in dB angegeben. Mithörschwelle
Ganz allgemein bezieht sich die Maskierung auf einen Prozess, bei dem ein Schallsignal aufgrund der Anwesenheit eines anderen Schallsignals nicht hörbar ist. Maskierungseffekte tauchen sowohl im Frequenz- als auch im Zeitbereich auf Verdeckung von Signalen - die Maskierung
Heutige Verfahren zur Verkleinerung der Dateigrösse von Audiodateien
(sog. Encoder) benutzen das Wissen aus der Psychoakustik. Sie funktionieren
alle nach dem gleichen Prinzip: Was das Gehör nicht wahrnehmen
kann, muss auch nicht gespeichert werden. MP3 - eine technische Anwendung des Wissens aus der Psychoakustik
Psychoakustik
Die Psychoakustik befasst sich mit der subjektiven Wahrnehmung von Schall (Musik, Klang, Lärm etc.) und der Informations-Verarbeitung des Gehörs. Dabei werden eine Reihe akustischer Täuschungen beobachtet, vergleichbar mit den bekannteren optischen Täuschungen beim Sehen. Die Hörempfindungen sind also ein Teilgebiet der Psychoakustik.
Tonhöhe, Tonheit und die Bedeutung der Frequenzgruppen
Die Tonhöhe wird durch die
Frequenz des Schallereignisses bestimmt. Will man den Zusammenhang
zwischen den physikalischen Grössen
und der Gehörempfindung noch genauer darstellen, muss die Frequenz
durch die empfundene (subjektive) Tonhöhe, die sogenannte "Verhältnistonhöhe
oder Tonheit", ersetzt werden. Die Einheit für die Verhältinistonhöhe
ist [Mel], für die Tonheit ist es [Bark] (1Bark = 100 Mel). Diese
Grössen werden jedoch nur in sehr speziellen Anwendungen der Psychoakustik
benutzt.
Wahrnehmungsexperimente zeigen, dass das Gehör offensichtlich
in eng begrenzten Frequenzbereichen Intensitäten (und damit "Lautstärken")
von verschiedenen Schallreizen zusammenfasst. Diese Frequenzbereiche
werden als Frequenzgruppen (engl. critical bands) bezeichnet.
Einteilung der Frequenzen von 0
bis 16 kHz in die 24 Frequenzgruppen (critical bands) nach E. Zwicker,
mit der Einheit Bark (benannt nach dem Dresdner Akustiker Barkhausen).
Reiht man über den gesamten
Hörbereich alle Frequenzgruppen auf, so ergibt sich eine gehörorientierte
Frequenzskala, die als Tonheit bezeichnet wird und die Einheit [Bark]
besitzt. Sie umfasst im Frequenzbereich von 0 bis 16 kHz insgesamt
24 Frequenzgruppen. Der eben wahrnehmbare Frequenzunterschied von Sinustönen
beträgt etwa 1/25 bis 1/50 der Frequenzgruppenbreite, also ca.
0.03 Bark.
Quelle: Thiede, Thilo (TU Berlin): "Gehörrichtige Qualitätsbewertung von Audiosignalen - Übersicht und Einschätzung der gegenwärtigen Verfahren"
Skalenvergleich von Frequenz auf
Tonheit. Oben mit einer linearen Frequenz-Skala, unten mit einer logarithmischen
Skala.
Wegen der Art der Tonhöhenempfindung
wird die Frequenz in [Hz] generell in einem logarithmischen Massstab
dargestellt. Die Lautstärke wird in [phon] angegeben und ist grundsätzlich eine subjektive, nicht messbare Grösse. Gemessen werden kann hingegen der Schalldruckpegel in [dB]. Dabei bezeichnet 0 dB die Hörschwelle, also die Untergrenze des gerade noch hörbaren Schalls. Die Obergrenze stellt eine Art Sättigung im Bereich des maximal verarbeitbaren Reizes dar. Diese Limite liegt bei ca. 130 dB.
Lautstärke und Schalldruckpegel
Zwei Töne mit gleichem Schalldruckpegel, aber unterschiedlicher Frequenz, werden oft auch als unterschiedlich laut wahrgenommen. Die Definition der Lautstärke beruht auf dem subjektiven Vergleich zweier Schallvorgänge. Für diesen Vergleich wurde der 1 kHz Ton als Referenzton gewählt. Die Lautstärkeskala entspricht daher bei 1 kHz genau der Dezibelskala. Um die Lautstärke eines bestimmten Schallereignisses zu bestimmen, vergleicht man das vorhandene Signal mit dem 1000 Hz Referenzton. Die Intensität des Referenztons wird darauf solange verändert, bis er als gleichlaut empfunden wird, wie das vorhandene Signal. Der beim Referenzton ablesbare Schallpegel entspricht dann der Lautstärke des erzeugten Schallvorganges in phon.
Quelle: ISO-Norm 226 (ergänzt)
International genormte Kurven gleicher Lautstärke reiner Töne. Die orange Linie kennzeichnet die Referenzfrequenz von 1000 Hz, wo Dezibel und phon gleich gross sind. Ein 20 Hz Ton mit 110 dB wird als gleich laut empfunden wie ein 4 kHz Ton mit 70 dB, beidesmal sind es 80 phon.
Die Kurven gleich empfundener Lautstärke von reinen Tönen wurden anhand zahlreicher Untersuchungen mit normal hörenden Personen im Alter zwischen 18 und 25 Jahren bestimmt. Mehr zu Dezibel, phon und Co. ist unter Akustik erläutert.
Lautstärkeempfindung
Die Lautstärke hängt nicht nur von der Tonhöhe, sondern zusätzlich auch von der Art des Schallereignisses ab. Länger dauernde Töne werden lauter empfunden als impulsartige Schallvorgänge. Dies lässt sich am Beispiel von sogenannten Tonbursts zeigen:
Auslenkungen eines kurzen Schallsignals und resultierende Bewegungen im Innenohr. Die Ein- und Ausschwingzeit des Signals im Ohr haben Einfluss auf den Lautstärke-Eindruck.
Wegen der Trägheit der Basilarmembran (vgl. Anatomie des Ohres) führen Einschwing- und Ausschwingvorgänge zu einer abgerundeten Auslenkung und damit zu einem schwächeren Reiz.
Frequenzunterschiede und Zweitonempfinden
Wenn zwei verschiedenfarbige, transparente Folien übereinander gelegt werden, entsteht eine dritte Farbe, nämlich deren Mischfarbe. Werden zwei Töne verschiedener Frequenz gleichzeitig abgespielt und damit "gemischt", so entsteht kein dritter Ton mit einer Mischfrequenz. Bei genauem Hinhören lassen sich die einzelnen Töne klar erkennen.
Modell der subtraktiven Farbmischung, das beispielsweise
beim Tintenstrahldrucker eingesetzt wird. Die aufgetragene Farbe absorbiert
alles Licht ausser z.B. Cyan. Dieser Farbton wird reflektiert und von
unserem Auge wahrgenommen.
Ein Spezialfall besteht dann, wenn
die Frequenzen der Töne gleich
oder sehr ähnlich sind. Zwei gleichzeitig gespielte Einzeltöne
werden je nach Frequenzunterschied als nur ein Ton, als Schwebung,
als Rauhigkeit oder dann als zwei Töne empfunden. Massgebend ist
der Frequenzunterschied der beiden Einzeltöne.
Quelle: SuvaPro AUDIO DEMO 3
Schwebung aus zwei ähnlichen
Frequenzen. Die Schwebung schwingt mit der Differenz der beiden Frequenzen.
Im Audiobeispiel werden Paare von Sinustönen auf dem linken und
rechten Kanal abgespielt. Die Frequenzen der beiden Töne weichen
immer mehr voneinander ab.
Tonhöhenunterscheidung
Das frequenzmässige Auflösungsvermögen
des Gehörs ist zwar ausserordentlich gut, jedoch nicht unbegrenzt.
Reine Töne, deren Frequenzen genug nahe beieinander liegen, werden
als ein und derselbe Ton empfunden.
Teste selbst, ab welchem Frequenzunterschied zwei nacheinander gespielte
Töne als verschieden empfunden werden.
Quelle: SuvaPro AUDIO DEMO 3
Der erste der beiden Töne hat immer eine Frequenz von 750 Hz. Die Frequenz des zweiten Tones steigt mit jedem Durchgang um ein Hertz. Startfrequenz des zweiten Tones: 750 Hz, Ende: 765 Hz.
Tonintervalle
Pythagoras hat erkannt, dass angenehme Klänge
entstehen, wenn man Saiten anschlägt, deren Längen in ganzzahligen
Verhältnissen zueinander stehen. Je komplizierter das Verhältnis
der Saitenlängen, desto dissonanter (misstönender) klingt
das Intervall. Es sind also die Frequenzverhältnisse entscheidend,
ob ein Tonintervall harmonisch klingt, nicht die absoluten Frequenzen.
Quelle: The Granger Collection, New York City; Audio-Quelle: SuvaPro AUDIO DEMO 3
Die Töne in diesem Beispiel wurden mit
einem Computer erzeugt. Die Grundfrequenz beträgt 440 Hz. Ein
um eine Oktave höher liegender Ton hat also eine Frequenz von
880 Hz.
Eine Oktave entspricht einer Frequenzverdoppelung, egal ob die Grundfrequenz 200 Hz oder 3390 Hz beträgt. Wir hören in Frequenzverhältnissen, nicht in absoluten Frequenzen! Aus diesem Grund werden benachbarte Frequenzen in der Akustik oft in Klassen mit der Breite einer Oktave oder einer grossen Terz zusammengefasst. Diese Klassen heissen Oktavbänder resp. Terzbänder. Dies hat zur Folge, dass das Terzband mit den Frequenzen von 89.1 Hz bis 112 Hz und der Mittelfrequenz 100 Hz gleiches Gewicht hat wie das Terzband von 4467 Hz bis 5623 Hz und der Mittelfrequenz von 5000 Hz. In absoluten Zahlen enthält das zweite Terzband aber 50 mal mehr Frequenzen als das 100 Hz Band!
Die Hörflächen
Die international genormten Kurven gleicher Lautstärke stellen mit der Hörschwelle (Wahrnehmungsgrenze) und der Schmerzgrenze den maximalen Umfang des hörbaren Bereichs dar. Die alltägliche Geräuschumgebung ist normalerweise in einem kleineren Bereich zu finden. Bezüglich Frequenz- und Lautstärkenumfang lassen sich daher Hörflächen für verschiedene Aktivitäten aufzeichnen.
Quelle: "Energieoptimierung für Gebäude", Dr.-Ing. Jürgen Blumenberg, Dr.-Ing. Markus Spinnler, TU München, Fakultät für Architektur, Fakultät für Maschinenwesen
Frequenz- und Lautstärkenumfang von Musik und Sprache, sog. Hörflächen.
Mithörschwelle
Die Mithörschwelle ist definiert als die Wahrnehmbarkeitsschwelle für einen Testschall bei (gleichzeitiger) Anwesenheit eines Störschalls (Maskierer) und wird meist in dB angegeben. Mithörschwellen lassen sich für die verschiedensten Konstellationen von Stör- und Testschall messen.
Maskierung - Verdeckung von Signalen
Ganz allgemein bezieht sich die Maskierung
auf einen Prozess, bei dem ein Schallsignal aufgrund der Anwesenheit
eines anderen Schallsignals
nicht hörbar ist, es ist also "verdeckt". Nachfolgend
werden jeweils die Maskierungseffekte im Frequenz- und Zeitbereich
aufgeführt.
Maskierung im Frequenzbereich
Innerhalb der Frequenzbänder stellt man
die Simultanverdeckung im Frequenzbereich fest.
Quelle: E. Zwicker (1982). "Psychoakustik", Springer-Verlag, Berlin.
Beispiel für die Mithörschwellen
(blau) bei einem Schmalbandrauschen mit Mittenfrequenz 1 kHz und verschiedenen
Pegeln LG als Maskierer. Ein Testton mit der Frequenz fT ist erst hörbar,
wenn dessen Pegel LT oberhalb der blauen Linie liegt. Gestrichelt eingezeichnet
ist die Ruhehörschwelle.
Der Mechanismus, der Maskierungseffekten
zugrunde liegt, kann wie folgt beschrieben werden: Die Anwesenheit
eines starken Geräusch- oder Tonmaskierers erzeugt eine ausreichend
starke Anregung der Basilarmembran am Ort der kritischen Frequenzgruppe.
Dadurch wird die Übertragung eines schwächeren Signals auf
effektive Art und Weise blockiert. Genauso wird auch die Zwischengruppenmaskierung
festgestellt, d.h., dass ein Maskierer, der sich innerhalb eines kritischen
Frequenzbandes befindet, einen Effekt auf die Mithörschwellen
in anderen kritischen Bändern hat.
Maskierung im Zeitbereich
Nach dem Abschalten eines Maskierers sinkt die Hörschwelle nicht sofort auf die Ruhehörschwelle ab, sondern erreicht diese erst nach etwa 200 ms (Millisekunden). Dieser Effekt wird Nachverdeckung genannt. Stellt man sich die Bewegung einer Schallwelle auf der Basilarmembran vor, die vom Signal aus der Ruhelage ausgelenkt wird, so kann man sich vorstellen, dass es eine kurze Zeitspanne braucht, bis die Basilarmembran wieder in ihrer Grundposition ist. Während dieser Zeit, der Nachverdeckung, können leisere Signale nicht wahrgenommen werden.
Verblüffend ist, dass ein Maskierer den Testton sogar bereits verdeckt, bevor der Maskierer überhaupt eingeschaltet wird. Dies wird als Vorverdeckung bezeichnet. Die Vorverdeckung ist mit einer Dauer von 5 ms allerdings weit geringer ausgeprägt, als die Nachverdeckung.
Quelle: E. Zwicker (1982). "Psychoakustik", Springer-Verlag, Berlin.
Vor- und Nachverdeckung mit breitbandigem Rauschen als Maskierer und kurzen Tonimpulsen als Testsignale. Die Zeit nach einschalten des Maskierers ist tE, die Zeit nach dem Abschalten tA. Die blaue Linie stellt die Mithörschwelle über der Ruhehörschwelle (0 dB) dar.
Die genaue Dauer der Vor- und Nachverdeckung hängt von der Stärke und Dauer des Maskierers ab.
Eine Erklärung für die unterschiedlichen Maskierungsdauern besteht darin, dass eine Hörempfindung nicht sofort mit Einschalten des Reizes einsetzt, sondern eine gewisse Zeit benötigt, um sich aufzubauen. Dabei kann die Hörempfindung des Testtones von der später einsetzenden, aber stärkeren Hörempfindung des Maskierers verdeckt werden. Auch nach dem Abschalten des Maskierers klingt sie nicht sofort ab. Die hierfür massgebliche Zeitgrösse liegt offensichtlich bei etwa 200 ms. Sie fällt damit in die Grössenordnung der Dauer von Sprechlauten und ist somit für die Sprachwahrnehmung von Bedeutung.
MP3 - eine technische Anwendung des Wissens aus der Psychoakustik
Heutige Verfahren zur Verkleinerung der Dateigrösse
von Audiodateien (sog. Encoder) benutzen das Wissen aus der Psychoakustik.
Sie funktionieren alle nach dem gleichen Prinzip: Was das Gehör
nicht wahrnehmen kann, muss auch nicht gespeichert werden. Effekte
wie die Maskierung im Frequenz- resp. Zeitbereich, können in mathematischen
Formeln wiedergegeben werden. Daraus lassen sich Programme entwickeln,
welche die unhörbaren Teile herausfiltern und nur die notwendigen
Audiodaten verwerten. Aus dem Hörflächendiagramm ist ausserdem
ersichtlich, dass Frequenzen oberhalb 16 kHz bei normaler Lautstärke
nur schlecht gehört werden. In einigen Verfahren werden die hohen
Frequenzen deshalb weggelassen. Unter Berücksichtigung dieser
Effekte und weiterer herkömmlicher Komprimierungsmethoden, kann
so eine Musikdatei um etwa das 10-fache verkleinert werden - ohne grosse
Einbussen in der Hörqualität! Der Erfolg des mp3-Formats
spricht dafür. Und es werden ständig neue, bessere und schnellere
Codierprogramme entwickelt, die das mp3-Format Qualitativ übertreffen.
Mehr zu dieser Technik findet man in der freien online Enzyklopädie Wikipedia.
Die
Psychoakustik multimedial erläutert von ars auditus.