声学发展史之——心理声学(Psychoacoustics)

终于找出时间来写下部了。过完年回来上班就开始赶一个conference deadline，仿佛又找到了读博时候那种焦头烂额的感觉——好亲切呢 ==！发现以后如果有上下集的话不要拖得间隔时间太长，毕竟思路的惯性是有限的。

言归正传，我们接着上回书继续聊。

上部看这里：

声学发展史之——心理声学(Psychoacoustics) · 上

Blindness separates us from things but deafness from people.

—— 康德

声学发展史之——心理声学(Psychoacoustics) · 下

正如我在之前文章中说过的，声学是物理学的分支学科，是实打实的自然科学。心理声学作为声学的分支，为物理和人之间的桥梁，通过耳朵这个精密传感器，把声音送给大脑。因为物理，所里客观；因为人脑，故而主观。所以，这篇文章也是从主客观两个大方向展开。

一、物理世界——客观评价

有这样的一种强硬的对应关系：

声学——声压级

心理声学——A计权声压级

我们都知道用声压级dB（分贝）衡量声音大小，这是声学领域的共识。那么放到心理声学，由于有人的存在，考虑到人耳对于低频不敏感，所以对低频部分进行衰减，得到A计权声压级，用dB(A)表示。最早提出A计权的是我们在心理声学上部里面提到的Fletcher。

声学发展史之——心理声学(Psychoacoustics) · 下

A/B/C/D计权曲线 [https://en.wikipedia.org/wiki/A-weighting]

除了A计权声压级，其他常用的心理声学参数有：

响度 (Loudness)，尖锐度 (Sharpness)，粗糙度 (Roughness)和抖动强度 (Fluctuation strength)。那么问题来了：这都是什么鬼？

声学发展史之——心理声学(Psychoacoustics) · 下 — —— My face after first hearing about these shit.

响度

顾名思义，响度为衡量人对声音强度（Sound intensity）大小感知的心理声学参数[1]。注意是声强 (Sound intensity)，而不是维基百科上说的声压 (Sound pressure) [Loudness – Wikipedia]。

维基百科很逗，中文说的是声强，英文就直接是声压sound pressure。

简单说，声强 = 声压 x 质点振速，所以说的不是一个东西。我们往往更加熟悉声压，对质点振速和声强了解甚少——这两个物理量在理论上和现实应用中意义重大。我会在以后的文章里面详细说 (promised)。

由于我们人耳的特殊构造，导致了我们听同等强度，不同频率的声音，感知到的强弱不一样。请看下图10-1000Hz之间的所有红色曲线（x轴是频率，单位赫兹Hz）：频率越低，想达到同样响度需要的声压级越高。Threshold对应的那条线，20Hz和1000Hz对应的声压级差可以达到70dB左右。意思是，在这个频段，频率越低，人的感知越不敏感。

因为人耳的听觉特性，所以响度和频率相关。推导响度之前，要先知道响度级。

在声波为平面波，并且从人耳前方入射时（注意这是个非常严苛的条件！当不满足这个条件的时候，上述等响曲线不再适用），响度级以1kHz的纯音声压级为参考，假如一个500Hz的纯音信号经过人的主观感受之后，和50dB的1kHz纯音听起来强度一样，那么这个500Hz纯音的响度级就为50phon，phon为响度级的单位。见上图：把频率拓展到全频，就有了一根完整的曲线；拓展1kHz纯音到不同的声压级，因此就有了纵轴上的各条曲线。40dB的1kHz纯音的响度定义为1sone。当频域在bark scale表示的时候，响度不止和频率有关，还和时域包络 (temperal envelope)有关。

看图中的红线竖线。50Hz的纯音信号，当它50dB的时候，它的响度级为20phon，0.15sone（对应1kHz的20dB）；而当它110dB的时候，响度级就变成了100phon，64sone。

过多关于响度计算不再赘述，详情参考心理声学Bible 第八章[1] 。

2. 其他的心理声学参数：

尖锐度，描述纯音色彩的量，也就是尖锐程度，基于响度计算；

粗糙度，可以被描述为声音时域掩蔽模式的参数，和信号时间变换快慢有关。汽车工业中，可以用来判断一个声音是否“sporty”；

抖动强度，和粗糙度定义类似，主要区别在于，抖动强度在调制频率在4Hz的时候达到最大（粗糙度为70Hz），和人说话时候声音波形的抖动相似。4Hz也是人每秒发出的音节个数相当，因此人的听力系统对这个4Hz的调制频率也最敏感[2]。

二、人的世界——主观评价

心理声学参数都是从人的主观评价中获取的，也就是通过作主观评价实验。在做实验之前，都需要做一下检测人耳听力能力的实验——Audiometry。简单说，就是播放不同频率的纯音信号，信号强度从小到大（或者从大到小），当刚刚听到信号（或者刚刚听不到信号）的时候，按下按钮，记录下此时的声压级。下图为我在刚上博士的时候测得Audiometry。可以看出来，4kHz以下，左耳（蓝色）需要比右耳（红色）更大的声压级——左耳更聋一些。而水平的两条线，黄线以下，黄牌警告；红线以下，红牌警告。也就是说，我的左耳在500-1500Hz区间，听力很差，尤其是1500Hz时，30dB以下的声音完全听不见！看了之后很郁闷，心想我年纪轻轻，怎么就……转身看和我一起做实验的小伙伴的曲线，再看看我的——not too bad! 这位C. Hell先生的听力曲线简直是灾难。后来知道了，他是摇滚乐队的吉他手……

不过Audiometry测的时候误差率比较大，可能隔一天测会得到完全不同的结果。所以测出来结果不好的小伙伴也不用着急，只要摇滚玩的别太狠 😉

测完Audiometry后，被试者被要求进到听力实验室（或者安静的房间）。可以看到下图里面有音响回放被听信号，当然也可以用耳机。

通常，主观评价的方法可以分成以下几类 [2]：

1. 随机评价 (Random access)

被试者被要求听从A到F六段声音，然后按照声品质从好到坏1-6，把对应的声音拽到相应的数字下面。被试者可以重复听每一个声音样本。

2. 语义差异 (Semantic differential)

被试者根据听到的声音，选择和自己感觉对应的词汇。

3. Category scaling（没找到合适的翻译）

通过听声音样本，根据给定的词语和其对应的一定范围之内的数值，给所听声音打分。

4. 幅值估计 (Magnitude estimation)

给出参考信号的幅值，估算另一个声音信号的幅值。

其他常用的还有Yes-No, 2AFC, 3AFC等 [3]。柏林工大开发了听力实验的MATLAB工具箱WhisPER，常见的听力实验方法都能找到 [4]。

那，做完听力实验之后呢？怎么看数据？恭喜你进入了统计学的幸福之门！正所谓，一入统计深似海，从此声学是路人！欢迎收看别人关于统计学的专栏，因为我不会 =_=。

三、声品质

顾名思义，声音的品质。康健老师在他的书里这样定义 [5]：

…the term sound quality describes the perception of the adequacy (Blauert and Jekosch, 1997), suitability (Guski, 1997), or desirability (Västfjäll and Kleiner, 2002) of a sound attached to the technical object emitting it.
声品质描述人对于一个科技产品产生的声音的适当性、合理性或者期望性的感知。

近些年来，当噪声的声压级降到比较低的时候，人们发现听起来还是很心烦。故而有了我们上面的从主观和客观因素对心理声学的讨论。在当今制造业发展到瓶颈期，声品质逐渐被推到了消费者可见区。在汽车行业，声品质是一项非常重要的产品特性。汽车的声品质细到什么程度呢？我一个朋友在奔驰总部，专门做倒车的哔哔声的设计。除了汽车工业，建筑业、城市规划、白色家电行业等都涉及到声品质的问题和研究。声品质工程中，往往有个预设目标，通过调节声音的物理属性达到这个目标。

评价声品质，主观评价是不可或缺的一环。主观评价，我们当然要以人作为实验的主体。但是，很多情况下我们不能很方便地叫人去听要评价的声音。一方面，作人的听力实验耗时耗力；另一方面，人听完就是听完了，没有记录下来，没有办法作下一步客观计算和评价。这个问题，可以被双耳技术解决。通过双耳录音，可以方便地进行计算，任何物理量或者心理声学参数。而通过录制多个待评价的声音事件，再组织人去做听力实验室做听力实验，可以利用这一组人作多个听力实验，同时实验室的条件更加可控，可以让所有人在同样的安静环境下去听去评价。

通过下面的内容，我们了解一下双耳听觉 (Binaural hearing)。

四、连接物理和人的桥梁——双耳听觉

在上一篇心理声学的文章里面我提到了双耳听觉，其在1960年以来得到了快速发展。其中首当其冲的功臣就是今天的封面人物——人工头，英文叫dummy head，也叫artificial head，或者Head and Torso Simulator，德语名为Kunstkopf。通过人工头录制声音样本，供后续计算或者听力实验。其原理并不复杂。外形上，一个人头加上耳朵（懒的话其他五官都可以省了），再加上上半身；耳道的尽头是两个麦克风，从而模拟人的双耳听觉。声音在上半身、头、耳廓、耳道中发生一系列的反射、衍射、共振后，传到麦克风。因为有两只耳朵和这一系列声音传播过程中的现象，人才能得以定位和感知声音。当然，感知还要考后台的大boss——大脑来搞定。这一系列的现象，可以体现在一个神奇函数中，也就是心理声学领域大名鼎鼎的HRTF——Head-related transfer function，头部相关传递函数。自由场的HRTF计算如下：

再看一下，当把音响放到人工头的左侧，采集到的声音是什么样的：

试想，当你的手中只有一个单通道麦克风采集的声音，如何给被试者听到空间感？进一步，如何把采集的声音放到被试者左前方30°的地方？这个时候，HRTF的作用就体现出来了。把一个左前方30°测的一套HRTF和这个单通道信号作卷积，再用耳机听，你会惊奇的发现，这个声音仿佛就在预设的那个位置左右。HRTF有几个比较大的database：

RWTH (Institute of Technical Acoustics)
LISTEN HRTF DATABASE
interface.cipic.ucdavis.edu
FIU Dsp Lab Anthropometric Measurements of HRTF’s
Odeon, HRTF – Odeon
MIT, HRTF Measurements of a KEMAR Dummy-Head Microphone

HRTF一般采集于人工头周围的各个角度，有不同的分辨率（1-5°）。HRTF和人工头的出现，极大地方便了心理声学的主观和客观评价。然而他们各自有局限性。人工头的尺寸为人类头部的“平均”构造，既然平均，所以不能代表每一个个体。带来的弊端就是，用人工头测得的HRTF，里面记录的声音在人头部处的反射、衍射和共振并不是和发生在个体身上的完全一致，所以并不准确，导致空间感的感知会出现偏差。因此近年也开始了indivisualized HRTF的研究，比如RWTH的Janina Fels教授。

双耳技术的实际应用很广，下面举几个例子。

回到汽车行业，人工头可以用来作双耳传递路径 (Binaural TPA) 的研究。比如下图展示的是轮胎噪声传递到驾驶员双耳的传递路径，可以用来作声音设计，减少传入人耳声音的烦躁度。

和Auralization结合，用来作室内声环境/声品质的评价。

盲人的回声定位 (Ecolocation)。回声定位本来是一些动物的本能，发出声音，通过接收的回声来定位物体。

声学发展史之——心理声学(Psychoacoustics) · 下

动物的回声定位 [https://en.wikipedia.org/wiki/Animal_echolocation]

最近有学者研究如何结合虚拟现实和双耳技术，通过用舌头打响的反射声，来帮助盲人定位和辨别障碍物。

通过回声感知不同的障碍物 [https://acoustics.org/2669-2/]

对于双耳回放过程中涉及到的技术，我会以后在Auralization的系列文章里面单独讲。

后记

终于写完了，长出一口气。写了三天，每天至少三个小时高强度的查文献、搜图（还有P图）和码字，不知不觉就是周日的晚上八点半了。收拾收拾，准备迎接万恶的周一！

最近看到了声学界两大巨兽之间的互动。瑞利发表了他的《声学理论》(The Theory of Sound)之后，亥姆霍兹写了两篇读后感（没错，读后感也可以发Nature的——所以看完我这篇文章的还不去写读后感！）。其中第二篇的最后一句话看了特别有感触：

“…Lord Rayleigh certainly deserves the thanks of all physicists and students of physics. He has rendered them a great service by what he has done hitherto. But I believe I am speaking in the name of all of them if I express the hope, that the difficulties of that which yet remains still incite him to crown his work by completing it.”
Lord Rayleight’s Theory of Sound [A review by Herman von Helmholtz, Nature 19, 117-118 (Dec.12, 1878)]

这几句话也总结了亥姆霍兹读完这本书之后的感想，总结下来就两点：

认可和感谢。

是的，仅此而已。从一个科学家的角度，不掺杂任何复杂个人情感。感慨大科学家身上对于科学工作的客观和纯粹，也正是这种态度和胸怀，让二位大师的成果广为流传，让后人受益至今，推动声学不断地向前发展。

参考

[1] Zwicker, Eberhard, and Hugo Fastl.Psychoacoustics: Facts and models. Vol. 22. Springer Science & Business Media, 2013.

[2] Blauert, Jens, ed.Communication acoustics. Vol. 2. New York:: Springer, 2005.

[3] Otto, Stefanie, and Stefan Weinzierl. “Comparative simulations of adaptive psychometric procedures.”Jahrestagung der Deutschen Gesellschaft für Akustik(2009): 1276-1279.

[4] WhisPER. A MATLAB toolbox for performing quantitative and qualitative listening tests.

[5] Kang, Jian, and Brigitte Schulte-Fortkamp, eds.Soundscape and the built environment. CRC press, 2018.

[6] Janina Fels. RWTH Course: Medical Acoustics.

[7] Vorländer, Michael.Auralization: fundamentals of acoustics, modelling, simulation, algorithms and acoustic virtual reality. Springer Science & Business Media, 2007.

封面图片来自亚琛工大的声学技术研究所

本文首发于我的知乎专栏

扫码关注公众号

子鱼说声学

声学发展史之——心理声学(Psychoacoustics) · 下

一、物理世界——客观评价

二、人的世界——主观评价

三、声品质

四、连接物理和人的桥梁——双耳听觉

参考

为频谱而生、小产品、大匠心

主营业务

联系我们

广东·深圳·龙华

13510604275

sales@puseng.cn

声学发展史之——心理声学(Psychoacoustics) · 下

一、物理世界——客观评价

二、人的世界——主观评价

三、声品质

四、连接物理和人的桥梁——双耳听觉

参考

在线留言

相关推荐

主营业务

业务咨询

联系我们

广东·深圳·龙华

13510604275

sales@puseng.cn