在本文中,我们专注于为现实世界的应用开发一个基于深度学习的语音增强模型,该模型符合以下标准:1。一个小而快速的模型,可以尽可能减少单帧实时因子(RTF),同时保持与最先进的深度学习网络的竞争性能,2。一个可以同时执行去噪和去混响的模型。为了解决第一个问题,我们的目标是改进一种流行的神经架构U-Net[1],该架构已被证明在语音增强任务上具有优越的性能[2,3,4]。先前在源分离应用中使用U-Net的方法不仅在频率轴上而且在时间轴上应用卷积核。U-Net的这种非因果性质增加了计算复杂性,因为需要对过去和未来的帧进行额外的计算来推断当前帧。因此,它不适合于需要实时处理当前帧的在线推理场景。此外,时间轴核使网络计算效率低下,因为在U-Net的编码和解码路径中,相邻帧之间存在冗余计算。为了解决这个问题,我们提出了一种新的神经结构,即微小递归U-Net(TRU-Net),它适用于在线语音增强。该架构旨在实现频率轴和时间轴计算的有效解耦,这使得网络足够快,可以实时处理单个帧。所提出的网络的参数数量仅为0.38(M),足够小,不仅可以在笔记本电脑上,还可以在移动设备上,甚至可以在结合量化技术的嵌入式设备上部署模型[5]。TRU-Net的详细信息将在第2节中详细介绍。接下来,为了同时抑制噪声和混响,我们提出了一种相位感知的β-S形掩模(PHM)。所提出的PHM在没有先前poi的情况下使用标准卷积运算,其灵感来自[6],其中作者提出通过从三角角度重用估计的幅度掩码值来估计相位。PHM与[6]中的方法之间的主要区别在于,PHM被设计为尊重混合物、目标源和剩余部分之间的三角关系,因此估计的目标源和其余部分的总和总是等于混合物。我们通过同时产生两个不同的PHM,将这一性质扩展到四边形,这使我们能够有效地处理去噪和去混响。我们将在第3节中进一步详细讨论PHM。




声谱图可能是许多语音增强模型中最流行的输入特征。每通道能量归一化(PCEN)[7]将动态范围压缩和自动增益控制结合在一起,当应用于频谱图时,这降低了前景响度的变化并抑制了背景噪声[8]。PCEN也适用于在线推理场景,因为它包括时间积分步骤,该步骤本质上是一个仅依赖于先前输入帧的一阶无限脉冲响应滤波器。在这项工作中,我们使用了PCEN的可训练版本。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。