首页 资讯 面向语音辅助唇语识别的知识蒸馏

面向语音辅助唇语识别的知识蒸馏

来源:泰然健康网 时间:2024年12月20日 21:11

面向语音辅助唇语识别的知识蒸馏

【摘要】: 唇语识别在日常生活中有着广阔的应用场景,例如在嘈杂的声学环境中辅助语音识别,方便聋哑人等残障人士进行交流,为黑白默片生成字幕等等。近年来,随着深度学习的蓬勃发展,唇语识别领域取得了许多重要的突破,但同时也蕴含着一些困难与挑战,例如相对于图像分类、神经机器翻译等任务,唇语识别的训练样本数量较少;唇部运动存在着固有的视觉模糊性,增加了模型提取鉴别性特征的难度。针对上述问题,本文提出了面向语音辅助唇语识别的知识蒸馏方法,以更好地提升唇语识别模型的性能。本文从三个方面的角度进行分析:第一,视频信号和音频信号具有关联性。对于同一段文字序列,两种不同模态的信号包含有相同部分的信息。第二,现有的语音识别数据集规模较大,且模型性能较好。第三,知识蒸馏方法可以将老师模型所学的知识传递给学生模型。因此,本文在输出空间上提出了3种不同粒度级别的知识蒸馏方法。具体的,在字符级别中,通过引入求解最长公共子序列的方式,有效缓解了语音识别模型解码序列与真实目标输出序列长度不一致的问题;在序列级别中,利用波束搜索解码的结果,将语音识别模型所学的上下文知识传递给唇语识别模型;在字符—序列混合级别中,将语音识别模型波束搜索解码的结果与真实目标输出序列结合起来,辅助唇语识别模型进行训练。此外,本文还考虑到对于相同的文字序列,视频信号和音频信号可以提供互补的信息。因此,本文在特征空间上提出了利用已训练好的语音识别模型,辅助唇语识别模型进行训练的知识蒸馏方法。特别的,本文分析了已有的LIBS方法的局限性,并提出了相应的优化方案——添加一项视频特征级别的知识蒸馏损失函数,从而增强了对于视频特征提取模块的约束。通过使用类似于注意力机制的对齐方式,解决了视频信号和音频信号长度不相等的问题,并且建立起两者之间的对应关系。通过一系列在英文唇语识别LRS2-BBC数据集上的实验结果分析,有效验证了本文所提出的面向语音辅助唇语识别的知识蒸馏方法,模型性能相对于基准的WAS方法均有所提升。

【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2020


精品图书 安睡有方:失眠防治一本通《安睡有方——失眠防治一本通》通过有趣的语言来向读者介绍睡眠的方方面面,如睡眠的常识、做梦的一些小知识,并告诉读者失眠是什么、哪些原因可以导致失眠、怎样面对失眠问题等,希望能对被睡眠问题困扰的读者有所帮助。更多 >

相关知识

语音识别
语音识别:如何识别鼾声
【Android语音合成与语音识别】
眼部按摩仪语音控制方案:NRK3301语音识别芯片
ai语音识别声音防沉迷
电话语音识别/114查号
CTI论坛: 认准语音识别的“内核”
R56 语音识别系统.pdf
win7语音识别安装包
u3d语音识别实现之

网址: 面向语音辅助唇语识别的知识蒸馏 https://www.trfsz.com/newsview681920.html

推荐资讯