回声消除的技术实现｜牛人说

类别：: 技术道场
发布时间：: 2022年7月22日

本文从回声产生的原因、回声消除的技术挑战、回声消除算法介绍等方面入手，分享七牛云在 AEC 技术方面的实践经验。

导读： 回声消除作为 3A（AEC、ANS、AGC）算法之一，是音频前处理的重要环节。回声一般出现在同时有音频的采集和播放的场景，比如：连麦互动、混音返听等等，采集到的音频通过扬声器又播放出来，同时又被采集进去，从而产生了回声或者啸叫声。

在业界，回声消除技术是公认的难题，它本质上并不是一个简单的算法问题，而是一个系统性的问题，涉及到设备、使用场景、空间环境等。

本文从回声产生的原因、回声消除的技术挑战、回声消除算法介绍等方面入手，分享七牛云在 AEC 技术方面的实践经验。

一、回声是如何产生的？

谈到回声，大多数人能想到的场景：你对着一个空旷的山谷喊叫时，会有回声传来。这种回声是由空间反射，语音信号碰到阻碍，返回到说话人，从而听到回声。

而在我们音视频系统中所说的回声，则通常是因为，麦克风和喇叭距离较近，麦克风直接采集到喇叭播放的声音，并发送给对方，从而导致对方听到自己的回声。

对于回声的影响，麦克风直接采集到的喇叭声音，是最重要的因素，空间反射造成的回声被麦克风采集，其强度通常要弱于麦克风直接采集的回声，可能形成多个不同的延迟的回声信号。

并且，由于设备的扬声器和麦克风性能各不相同，很多情况下，都可能导致失真，也即麦克风采集的扬声器的声音，与播放的声音并不完全一致，里面有很多的非线性变化。

二、回声消除的技术挑战？

要做到消除回声，我们首先需要让系统能识别出什么是回声，才能将回声消除，而不会影响对方的正常通话。人耳可以很轻易地判别出听到的声音是自己的回声，还是对方的声音。但系统不行，对于麦克风来说，无论是回声还是本地端的人员说话，从声学特征上来说，都没有区别。

所以这时候回声消除系统需要知道刚才播放了什么声音，专业术语叫远端声音，或者参考声源，基于参考声源，我们就可以知道扬声器播放了什么声音，从而可以通过算法来估计麦克风采集的声音是否是回声。有了参考声音，以及本地端麦克风采集的声音，我们就可以考虑从麦克风采集的声音中，将回声给消除。

回声消除的性能取决于以下几个因素：

1）参考声音和本地声音的时延对齐速度和准确性

2）用来通过参考声音来估计回声的线性滤波器性能

3）残留回声的估计准确性

回声消除的时延，对于同一类型终端来说，变化不大，如果只有一种硬件设备，我们可以将该时延预置，只做较小的调整，从而可以大大加速时延对齐的速度，提高回声消除算法的性能和稳定性。对于硬件也自行研发的厂家来说，底层的播放和采集的时延基本上可固定。

但对于音视频 SDK 来说，软件可能运行在各种不同的终端上，并且拿到的参考声音并不真正是底层喇叭播放的数据，可能因为网络，硬件不同等原因，导致时延并不相同。因此，需要由算法来估计时延。

估计时延的算法，通常主要是基于时域的 NLMS 算法（即归一化最小均方算法）和基于频域或者时域的相关算法。两者都能快速跟踪时延变化。时延估计并不需要特别精准，只要能大体对齐，消除算法就可以生效。

对回声消除性能影响更大的还是线性处理和非线性处理，这两大块也是难点。

在对齐时延后，就需要通过线性滤波器模拟回声路径，根据参考声音，模拟出回声，并从采集的声音中将回声消除。

目前业内比较常见的线性滤波器算法代表为卡尔曼滤波器，开源代码 Speex 所用的 MDF（Multidelayblock frequency domain adaptive filter）算法，WebRTC 所采用的 PBFDAF 算法（Partitioned Block Frequency Domain Adaptive Filter)。

从鲁棒性来说，卡尔曼滤波器算法更高，但收敛较慢。Speex 的 MDF 算法对滤波器系数的计算方法进行了优化，试图提高算法收敛速度。但这些算法经测试，大多数线性性能也只有十几 dB 的线性回声消除性能，且滤波器的收敛速度都较慢。而线性回声消除性能的好坏，将决定双讲性能的优劣。

在线性回声消除之后，就进入到回声的非线性处理阶段，以进一步消除残留回声。就像前文所说，如果线性处理的性能不佳，残留回声较多，为了消除回声，必然对可能存在残留回声的声音进行更多的抑制，从而导致本地讲话人的声音也被抑制，影响双讲感知。

比如，如果麦克风采集到的回声有-20dB，那么线性消除后，回声为-35dB，要达到人耳听不到回声的效果，可能需要在非线性阶段施加接近 40~45dB 的抑制，本地声音如果也在-30dB 左右，就会导致本地声音也近似被完全抑制。

在非线性处理阶段，并没有统一的方法，各个厂家各显神通，依据设备的非线性失真情况，估算的混响情况，以及线性滤波器性能，会进行不同的非线性处理操作，从而体现出不同的回声消除性能。

三、回声消除算法介绍？

七牛云作为一站式智能视频云服务商，在考虑软件的鲁棒性和普适性基础上，为了提高回声消除的性能，并未采用业界的传统的线性滤波器算法，而是依据回声消除的基本原理，独辟蹊径地采用不同的线性滤波器算法，从而在线性滤波器收敛速度和线性消除性能上，明显领先于业内的通用算法。

1、线性滤波器的收敛速度比较

如下图，依次为“近端语音信号 ”，“参考信号”，“开源算法 WebRTC 的线性滤波器处理结果”， “开源算法 Speex 线性滤波器处理结果”，以及“七牛云自研回声消除算法线性滤波器处理结果”。

从下图，我们可以看到，当存在回声时，WebRTC 和 Speex 的开源算法，都存在明显的一个收敛时间，大约 1~2 秒钟之后，线性滤波器的输出回声才逐渐减小，并相对稳定。

而七牛云的自研算法，在回声出现的一瞬间，线性滤波器就达到最大的回声抑制效果，几乎没有收敛时间，就进入了稳态的回声抑制阶段，而且线性消除效果明显优于其他两个开源算法。

2、线性滤波器的增益比较

七牛云的线性滤波器在内部的测试集中，80% 以上可以稳定在 20dB 以上，部分场景甚至可以达到 37dB 左右的回声线性抑制效果。而两个开源算法在多数场景中都只能获得十几个 dB 的线性增益。

比如下图，频域的音频图，依次为“近端语音信号 ”，“参考信号”，“开源算法 WebRTC 的线性滤波器处理结果”， “开源算法 Speex 线性滤波器处理结果”，以及“七牛云自研回声消除算法线性滤波器处理结果” 。

从下图，我们可以看到，对于 WebRTC 和 Speex 两个开源算法而言，其线性滤波器的输出，都存在大量的回声，而七牛云的线性滤波器的输出，回声已经基本得到抑制，仅存在少数残留。七牛云的回声抑制算法，明显优于两大开源算法。

3、AEC 算法在啸叫抑制上的应用

得益于七牛云的回声抑制算法，我们的终端在近端通信场景下，取得了良好效果。比如，我们使用两个测试终端：华为 Mate3，小米 11。

测试方法：开启 70% 外放音量，相距 1 米，平置桌面，办公室内开放场景，两者同时接入同一会议 ID。

1）开启 Qiniu 自研 AEC 算法测试对比：

在开启 Qiniu 音频算法后，正常进行对话，华为 Mate3 和小米 11 都可以清晰地听到声音，无啸叫，无重音。

2）只开启硬件回声消除算法或者两大开源的回声消除算法：

则几乎无法进行正常业务，会发生此起彼伏的啸叫。在尚未说话时，一个轻微的噪声就会诱发啸叫，并且说话时有重音，声音震荡，诱发长时间啸叫。

正如前文所述，由于回声问题的复杂性，回声消除技术一直是业界公认的难题。虽然七牛云回声抑制算法综合比较下来具有一定的优势，但要想完美解决回声问题，除了要有强大的算法，还需要在实际应用场景中不断地进行优化训练。七牛云也将持续打磨回声消除技术，为用户提供最佳的通话效果。