1 声纹识别技术
声纹识别是指能够将声信号转换成电信号,该电信号是电声学仪器上显示的携带语言信息的声波频谱。同时我们可将人语音中所含特征的集合视作声纹,不同的个体间的声纹具有相对稳定性和个体之间的差异性,所有声纹可用来进行个体识别和同一认定。
2 声纹识别技术流程
声纹识别包含声纹预处理、声纹特征提取和识别方法三个阶段。
(1)声纹预处理
当人表达时,无可避免的周围会带有噪声的语音,声纹预处理的功能是从嘈杂的语音环境中提取干净的没有杂质的语音,这是声纹识别中的关键步骤。具体声纹预处理方法可分为:数字信号处理和机器学习两类。
(2)声纹特征提取
声纹特征是指能体现说话人个性的特征信息,并用数学方法表达声学特征、词法特征、韵律特征、方言信息、通道信息等。采用深度学习算法训练海量语音数据,过程中综合采用分类和对比能量损失函数,自动抽象、归纳、总结语音信号中描述身份的特征。研究中较多使用线性预测系数,数据降维则多考虑线性判别分析降维(LDA)。特征提取技术具有较强的泛化能力,在跨信道、不同信噪比、较长时间跨度的情况下,声纹特征仍然表现出较好的稳定性。
(3)声纹识别
声纹识别技术的最后步骤是进行声纹识别,该流程通过高斯混合通用背景模型(GMM-UBM)、联合因子分析(JFA)、神经网络等常用模型来判定说话人的身份。
3 声纹识别的特点和优势
声纹特征以声音为载体,与指纹、虹膜等其他生物识别技术相比较,声纹识别技术在采集便利性和识别迅捷性上具备显著优势,其仅需监控摄像头或执法记录仪等具备麦克风功能的设备,极大提高了远程采集的成功率及识别的准确性。
(1)声纹识别的特点
1)交互性。声音是唯一可双向传递信号的生物特征,既可以接收信息,也可以发出信息,实现交互。
2)便捷性。声音是唯一周边无死角的生物特征,可以实现非接触式采集,方便使用。
3)丰富性。声音有“形简意丰”的特点,它虽然只是一个一维信号,但是蕴含着丰富的信息。在相同一段语音中,除了包含说话人信息外,还包含内容、语种、性别、情绪、年龄,甚至包含出生地、身体健康状况等丰富的信息。
4)变化性。声音是高可变性与唯一性的完美统一。没有两个声音是完全一样的,但里面所蕴含的信息,比如你是谁、你的年龄、你的情感等信息却都是唯一确定的。这种高可变性和唯一性的完美统一使得语音信号自身就具备了很强的防攻击能力。
(2)声纹识别的优势
1)不易丢失。不同于指纹、虹膜、人脸等静态的生理特征,声纹作为一种动态的行为特征,不容易丢失,可以做到“失声(音)不失身(份)”。
2)伪造困难。声纹蕴含于人的语音当中,而语音是千变万化的。即便人两次读相同的内容,也不可能发出完全相同的声音。正是声纹这种“蕴不变于千变万化之中”的特性,使得声纹特征更加深层、难以琢磨,伪造起来也更为困难,因而认证强度更高、更安全。
3)隐私性弱。相比在公众场合下拍照或按手印,采集声纹可能更容易获取人们在很多场合下往往不愿意被拍照或者按手印,但采集一段随机跟读的声音,对于大众更加容易接受。
推荐阅读:
《AIIA:2019中国声纹识别产业发展白皮书(44页).pdf》
《AIIA:中国声纹识别产业发展白皮书2.0(39页).pdf》
来源:互联网 / 发布时间:2023-12-18 10:41:00