发布时间:2021-4-11 分类: 电商动态
它属于生物识别技术。与流行的人脸识别相比,声纹识别非常低调。但是,这并不影响这种黑色技术魅力的分布。本文将向您介绍声音黑技术 - 语音识别。让你知道真正的“说话的人”。
本文将逐一向您解释:
什么是声纹?
声纹识别原理
声纹识别算法技术指标
影响声纹识别水平的因素
声纹识别的应用过程
声纹识别的应用
1.什么是声纹?
声纹是一种声谱,电声乐器显示语音信息。它是一种生物学特征,由超过100个特征维度组成,如波长,频率和强度。它具有稳定性,可测量性和独特性。 。
人类语言的产生是人类语言中心和发声器官之间复杂的生理和物理过程。发声器官–舌头,牙齿,喉咙,肺部和鼻腔的大小和形状差异很大,所以任何两个人的声纹图都不同。
每个人的语音声学特征都具有相对稳定性和可变性,并且不是静态的。这种变化可能来自生理学,病理学,心理学,模拟,伪装,也与环境干扰有关。
然而,由于每个人的发声器官不同,一般来说,人们仍然可以区分不同人的声音或判断他们是否是同一个人的声音。
语音不像图像那么直观,在实际分析中,它们可以用波形和光谱表示,如下所示:
二,声纹识别原理
人们在言语中使用的发声器官的大小和形状差异很大。因此,任何两个人的声纹都不同,主要表现在以下几个方面:
共振特征:咽部共振,鼻腔共振和口腔共振
声音的纯净:不同人的声音,纯度一般不同,大致分为高纯度(亮),低纯度(哈士奇)和中等纯度三个层次
平均音高特性:平均音高是语音的高低级别。
范围的特征:声音的水平通常被认为是饱满或干燥的。
不同人的声音在频谱图中具有不同的共振峰分布。声纹识别是通过比较同一音素的两个扬声器的话语来判断它是否是同一个人,从而实现“声音”人的功能。
三,声纹识别算法的技术指标
语音识别可以在算法级别通过以下基本技术指标来判断,除了其他指标,例如:信道稳健性,时变稳健性,假冒攻击的鲁棒性,以及适应性等人口指标,这部分将被解释稍后详细说明。
错误拒绝率(FRR):在分类问题中,如果两个样本属于同一类型(同一个人)但被系统错误识别为异构(不是同一个人),则属于错误拒绝案例。错误拒绝率是所有类似匹配情况下的错误拒绝案例的比例。
错误接受率(FAR):在分类问题中,如果两个样本是异构的(不是同一个人)但被系统误认为是同一类型(同一个人),那么这是一个错误的接受案例。错误接受率是所有异构匹配情况下错误接受案例的比例。
等错误率(EER):调整阈值,使错误拒绝率(FRR)等于错误接受率(FAR)。此时FAR和FRR的值称为相等错误率。 。
精度(ACC):调整阈值以使FAR + FRR最小。 1减去此值是识别准确度,即ACC=1–分钟(FAR + FRR)
速度:(提取速度:提取声纹速度和音频持续时间,验证比较速度):实时因子实时比(测量提取时间和音频持续时间之间的关系,例如:1秒可以处理80秒的音频,则实时比率为1: 80)。比较速度的验证是指每秒可以执行的声纹比较的平均数量。
ROC曲线:描述FAR和FRR之间关系的曲线,X轴是FAR的值,Y轴是FRR的值。从左到右,在阈值生长期间,每个时刻都有一对FAR和FRR值,这些值连接到图表上的曲线,即ROC曲线。
阈值:在接受/拒绝二进制分类系统中,通常设置阈值,并且当分数超过该值时进行接受决定。调整阈值可以根据业务需求平衡FAR和FRR。当设置高阈值时,接受决定的系统的分数更严格,FAR降低,并且FRR增加。当设置低阈值时,系统接受决定的分数要求更宽松,FAR增加,FRR降低。在不同的应用场景中,调整不同的阈值可以平衡安全性和便利性,如下图所示:
四,影响声纹识别水平的因素
训练数据和算法是影响声纹识别水平的两个重要因素。在着陆过程中,它们也受到许多因素的影响。
声源采样率
人类语音的频带集中在50Hz和8KHz之间,特别是在4KHz以下的频带中
离散信号覆盖范围是信号采样率的一半(奈奎斯特采样定理)
采样率越高,信息量越大
通用采样率:8KHz(即0~4KHz频段),16KHz(即0~8KHz频段)
信噪比(SNR)
信噪比测量音频中语音信号与噪声的能量比,即语音的清洁度
15dB或更高(基本上干净),6dB(噪声),0dB(非常嘈杂)
信道
不同的采集设备以及通信过程会引入不同的失真
声纹识别算法和模型需要覆盖尽可能多的通道
手机麦克风,桌面麦克风,固定电话,移动通信(CDMA,TD-LTE等),微信… …
语音持续时间
语音持续时间(包括已注册语音的数量)会影响声纹识别的准确性
有效语音持续时间越长,算法获得的数据越多,准确度越高。
短语声音(1~3s)
长篇大论(20s +)
文字内容
通俗地说,声纹识别系统通过将两个扬声器的声音与同一音素进行比较来判断它是否是同一个人。
固定文本:注册和验证相同
半固定文本:内容相同但顺序不同; text是固定的集合
自由文本
五,声纹识别的应用过程
声纹识别(VPR)是一种生物识别技术,也称为说话人识别,是从扬声器发出的语音信号中提取声纹信息。从应用的角度来看,它可以分为:
说话人识别:用于确定一定数量的人说出的语音段,是“多种选择”;
说话人验证:用于确认被指定的某人是否说出某种声音,并且是一对一的歧视问题。
声纹识别在应用中分为两个主要过程。根据不同的应用,一些处理过程可能不同。一般声纹识别应用程序如下:
六,声纹识别的应用场景
声纹识别作为一种生物识别技术,具有许多优秀的应用场景。根据声音的特点,从公共安全,金融,社会保障和智能硬件四个领域引入声纹识别的应用。
1.公共安全领域
作为一种生物学特征,声纹首先成功应用于刑事调查和法医学领域。
近年来,由于互联网的发展,语音案例也呈现出井喷的趋势。在这些语音案例中,声纹识别已经成为通过声纹识别和声纹大数据技术进行技术检测的唯一有效手段。重点人员监督,反电信诈骗,反恐,刑事案件侦查,身份查询和核查等有助于公安有效遏制和打击犯罪,建立和加强安全的公共环境。
2.财务
对于银行,互联网金融和其他金融服务机构,通过声纹识别技术,提供用户注册,远程验证和金融生物识别解决方案,大大提高金融机构风险防范系统的安全性,加强风险控制能力,增加用户防止身份欺诈的安全性。
另外,在电话客户服务系统中,通过声纹识别技术,可以实时识别用户的身份,从而提供个性化的客户服务。
3.社会保障
对于中国的退休人员,每年至少需要进行一次生存状态验证,并在此基础上发放养老金。目前,生存验证可以通过指定的社会保障大厅或自助终端进行。对于一些行动不便的老年人来说,这种方法也很不方便。声纹识别技术在远程验证方面具有天然的优势。它只需要一部电话(手机或固定电话)即可完成生存验证,为投保人员提供便利,同时也为国家节省了大量费用,避免了养老金损失。
4.智能硬件
在智能硬件产品中,声纹识别解决了当前智能产品只能识别用户所说内容但无法区分扬声器身份的问题,使智能产品能够区分不同角色,实现“倾听人”。 。 。
让系统为每个人提供不同的内容和服务,使机器交互更容易,让用户享受更轻松,个性化和更安全的产品体验。
七,总结
作为最先进的生物识别技术,随着技术的成熟,声纹识别将在越来越多的应用场景中出现。我们相信,在不久的将来,声纹将成为第三代身份证。指纹和肖像后的新公民身份证。声音将在我们未来的技术生活中发挥越来越重要的作用。
作者:Micos,昵称:不知道,助长了人工智能产品经理的浪潮,致力于人与机器最自然的智能语音互动方式。
本文最初由@Micos出版。未经许可,禁止复制。
该地图来自unsplash,基于CC0协议