京东智联云4篇论文入选国际语音顶级大会Interspeech 2020

时间 2021-06-07 标签网络神经网络计算机视觉机器学习人工智能

近日，受到新冠疫情的影响，原计划于2020年10月25日至10月29日期间，在中国上海+线上同步举行的国际语音顶级会议Interspeech 2020最终改为线上举行。京东人工智能研究院有4篇论文脱颖而出，成功入选本次大会。分别在声音事件定位与检测、语音去混响、语音验证系统、神经网络声码器等领域取得突破。同时，京东智联云作为本届会议的钻石级赞助商，致力于加强工业界和学术界的技术协作，支持会议顺利进行。

Interspeech 2020是由国际语音通信协会ISCA组织的语音研究领域的顶级会议之一，是全球最大的综合性语音信号处理领域的科技盛会。该会议每年举办一次，今年大会是第21届INTERSPEECH会议，也是第二次在中国举办。本届会议以“Cognitive Intelligence for Speech Processing”为主题，内容涵盖信号处理、语音识别、自然语言处理、神经机器翻译等领域。

京东人工智能研究院专注于持续性的算法创新，80%的研究都由京东实际的业务场景需求为驱动，聚焦NLP语音、计算机视觉、机器学习（包括深度学习和强化学习）等领域。在Interspeech 2020中，京东人工智能研究院提交的多篇论文经过重重审核，最终被大会收录。本文将向大家分享京东人工智能研究院入选的4篇论文主要思路与创新点。

（Sound Event Localization and Detection Based on Multiple DOA Beamforming and Multi-task Learning）

声音事件检测和定位在智能家居、智能安防等领域具有重要的应用价值，而环境中的噪声、混响、多声源混叠等给该任务带来了巨大挑战。声音事件检测和定位通常基于麦克风阵列，更广泛而言，如何有效利用多通道麦克风信号，提高基于深度神经网络的语音相关任务的性能，也是仍需解决的问题。

本文提出了一种基于多方位波束形成和多任务学习的声音事件检测和定位方法，主要特点为利用传统声学信号处理为神经网络提供更为丰富的信息。具体而言，通过指向不同预定方位的固定波束形成，可提取各个方位的声源信号，并抑制该方位之外的干扰信号。该方法无需预先进行声源定位或掩蔽估计，即可获得差异化多样化的空间表示。

本文推导了采用训练数据基于互功率谱的导向矢量计算方法，以消除对麦克风阵列几何信息的依赖。进一步，本文分别设计了声源定位网络和基于多任务学习的声音事件检测网络。我们在DCASE2019声音事件检测和定位数据集上进行了评估，结果表明所提算法取得了最好的综合性能。

（Skip Convolutional Neural Network for Speech Dereverberation using Optimally Smoothed Spectral Mapping）

本文所述研究为京东人工智能研究院和德克萨斯大学达拉斯分校的合作研究项目。全卷积神经网络的有效性已经在众多语音应用中得到展现。该网络的一个重要变体是“ UNet”，即包含跨层连接的encoder-decoder的卷积网络。

本研究提出了基于“ SkipConvNet”的降混响算法，该算法用多个卷积网络替换UNet的每个跨层连接，为decoder提供更为直观的信息表示，以提高网络性能。本文还提出了基于最优平滑功率谱估计的预处理步骤，这有助于进一步提高网络的学习能力。采用REVERB Challenge语料库的实验结果表明，所提方法在客观质量评估上显著优于基线系统，并明显改善混响条件下的语音识别及说话人识别性能。

（The JD AI Speaker Verification System for the FFSVC 2020 Challenge）

远场声纹识别系统中，声学环境的复杂性以及多变性对声纹识别及验证的性能带来巨大挑战。本文基于FFSVC2020远场声纹验证竞赛，主要探索了数据扩充、模型结构以及打分策略对远场声纹验证性能的影响。

FFSVC2020比赛提供了约1100小时共计120位说话人的数据，如何利用大量的开源近场数据进行数据扩充是本文探讨的主要方向之一。我们采用的策略包括：

1）采用beamforming, voice channel switching和dereverberation等技术将远场数据变换到近场；

2）通过计算FFSVC2020远场数据和近场数据之间的房间冲激相应函数（RIR，room impulse response）以及采用模拟仿真生成大量的RIR，在近场数据上增加卷积噪声；

3）利用录制的大量的环境噪声在近场数据上增加加性噪声；

4）将data augmentation技术用于训练集或者用于测试集增加数据的多样性。实验结果表明，data augmentation能够大幅提升系统的性能。

此外，本文还探索了TDNN，TDNNF，ResNet, Transformer等模型结构在声纹验证里的应用。结合得分规整技术和两级打分策略，相比于官方基线系统，minDCF 绝对降低0.2393，EER绝对降低3.16%。

（WaveGlow: An Improved WaveGlow Vocoder with Enhanced Speed）

在高质量的语音合成系统中，像WaveGlow这种神经网络声码器已经成为了必不可少的一部分。Efficient WaveGlow是我们提出的一个基于归一化流的高效的神经网络声码器。

和WaveGlow一样，Efficient WaveGlow采用归一化流作为网络框架，每一个流操作由一个affine coupling layer和可逆的1x1卷积层构成。为了减少模型的参数量，提升推理速度，Efficient WaveGlow在以下3个方面对WaveGlow进行了改进：

1）把基于WaveNet网络结构的仿射变换网络改为了基于FFTNet网络结构的放射变换网络，FFTNet网络结构比WaveNet更简单高效，拥有更少的参数量；

2）采用分组卷积进一步减少模型的参数量，提升模型效率；

3）我们尝试了在仿射变换网络中的每一个卷积层中共享local condition，用以减少冗余特征，减少模型的参数量。

Efficient WaveGlow与WaveGlow相比，合成同样长度的音频的计算量降低了12倍以上。同样，模型的参数量也降低了12倍以上。实验结果表明，Efficient WaveGlow并没有明显的声音质量下降，但是却能实现CPU上推理速度6倍的提升以及P40上推理速度5倍的提升。

关于京东AI研究院

京东AI研究院专注于持续性的算法创新，多数研究将由京东实际的业务场景需求为驱动。研究院的聚焦领域为：计算机视觉、自然语言理解、对话、语音、语义、机器学习等实验室，已逐步在北京、南京、成都、硅谷等全球各地设立办公室。