发布时间:2021-4-24 分类: 电商动态
自从唇识别技术出现以来,人们就有一种声音认为唇语识别是语言交互的高级战斗,甚至可能带来一场革命。然而,从这篇文章中,唇部识别尚未普及。
在今年的乌镇世界互联网大会上,搜狗展出了一项黑色技术 - —嘴唇语言识别。 12月14日,搜狗在北京公开展示了这项技术。作为业界领先的唇语识别系统,搜狗在非特定开放式口语测试中的通用识别准确率超过60%,在汽车和智能家居等垂直场景中实现了90%的准确率。
尽管搜狗是中国第一家公开展示这项技术的公司,但早在2017年3月,海云数据创始人兼首席执行官冯一存就在亚洲大数据视觉分析峰会上发布了重庆公安研究。与海云数据共同开发的唇语识别技术,其中文识别模型的准确率达到70%。
Google DeepMind团队在2016年使用BBC视频培训他们的人工智能系统5000小时。正确的唇部识别率为46.8%。
这不是一个人的表演,唇语的定义是什么?未来会有什么样的想象空间?
唇识别只是语言识别的演变
虽然唇语识别最近才进入公众视野,但唇语识别技术的发展可以追溯到20世纪80年代。
当时,语音识别技术发展迅速,出现了许多实用的语音识别系统。然而,这些系统的抗干扰能力不强,并且在存在背景噪声和串扰的情况下它们的性能将大大降低。在自然应用环境中,噪声现象非常普遍。为了解决上述缺陷,研究人员使用降噪技术来减少干扰,另一方面寻求其他解决方案。
唇部识别技术是如何发展的?语音识别研究人员突然发现,人类语言识别系统由两个感知过程组成。虽然声音是人类语言认知过程中最重要的方式,但是,在日常交流中,我们还会看对方的嘴巴形状,对方的表情等,以便更准确地理解对方所说的话。受此启发,研究人员开始研究唇语识别。由于唇部识别完全不受噪声影响,因此可以在多人对话中有效区分,这有望解决语音识别的缺点。实际上,唇识别和语音识别的结合可以大大提高系统的正确性和抗干扰能力,因此唇语识别具有更大的发挥空间。
汤没有更换换药。在过去30年的发展中,核心步骤仍然是三个步骤
在研究了各种类型的数据之后,从相机向理解输出输入唇识别技术。最重要的是三个单位— —视觉前沿,视觉特征提取和唇部运动识别。
(图为:唇部识别的步骤)
其中,视觉前段包括面部检测和唇部检测和定位。早期检测方法很笨拙,不允许脸部自由移动。有些人会手动添加特定标志来跟踪嘴唇运动。目前的检测方法主要是基于一种算法,首先使用人脸检测算法获取人脸,然后有针对性地定位嘴唇运动;或者使用最佳阈值二值化算法,唇缘是平滑的,左右形状是对称的作为条件,作为二值化闽值选择的约束,得到平滑对称的唇形图像。
视觉特征提取是处理获取的唇部图像以获得相应的特征。特征提取方法主要分为两类:基于像素的方法和基于模型的方法。所谓的基于像素的方法是使用包含通过预处理获得的嘴或特征向量的灰度图像的方法。这种方法的缺点是它对二维或三维缩放,旋转,平移,光照变化和扬声器变化很敏感,这可能导致在提取过程中丢失特征,并且无法获得完整的特征信息。 。搜狗使用的基于模型的方法是建立唇部轮廓模型,包括模型中的特征信息,并用小参数描述模型中特征信息的变化。这种方法的优点是重要特征表示为二维参数,其不会因照明,缩放,旋转和平移而改变。缺点是忽略了细微的三维信息,这可能影响随后的识别过程。
目前,唇部识别中使用的大部分技术都是隐马尔可夫模型。这种技术的基本思想是唇信号在很短的时间内是线性的,可以用线性参数模型表示,然后许多线性模型在时间上连接在一起形成马尔可夫链。马尔可夫链可以用来描述统计特征信息的变化,这个变化过程与人类唇部过程一致,因此隐马尔可夫模型可以识别唇部运动并将其与相应的句子匹配转换成单词。
似乎有很多应用方向,最重要的是辅助语音识别
唇语识别技术有很多应用,如手语和听力障碍患者的辅助教育,国防反恐的情报获取,个人识别和公共安全等。但目前,最大的应用是辅助语音识别。毕竟,它是在一开始就开发出来解决语音识别的噪声问题,这也将使语音交互更加完美。
说到这里,我不得不提到智能扬声器。事实上,除了搜狗,许多大公司也在部署语音互动。中国有阿里巴巴,百度和科技大学,还有苹果,谷歌,微软和亚马逊。今年7月,阿里巴巴发布了智能立体天猫小精灵,它可以接受各种语音命令,配备中文人机通信系统AliGenie,有望成为家庭助手。 11月16日,百度还推出了第一款使用19次的智能音频乌鸦H; 19点阵触摸屏,内置DuerOS 2.0语音交互系统,具有语音和控制器交互功能。其余是京东的智能音响,小米的小爱同学,喜马拉雅小雅音响等智能音响产品。对于这些公司来说,似乎没有一个智能立体声很尴尬地说他们在人工智能领域是混合的。
智能音频与唇语识别有关系。大厂商推出智能音响的原因是看到新的互动方式的趋势,但智能声音的场景较少,以满足需求,智能音频存在两个主要问题。 ——抗噪声能力和低场相互作用能力低。
根据声学在线测试,即使是市场上最主流的智能音响,抗噪能力和远场交互能力的表现也不尽如人意,短距离5米有很多错误。
(图为:5m距离智能声音唤醒故障统计)
此外,传统的语音交互需要高输入音频,并且当背景噪声很大时很容易失败。如果此人离机器较远,则故障会更严重。但唇部识别可以解决这两个问题。
还有两个问题需要解决才能迅速采用
自从唇识别技术出现以来,人们就有一种声音认为唇语识别是语言交互的高级战斗,甚至可能带来一场革命。然而,根据观察,唇语识别尚未普及。主要问题是:
1,摄像头入门有很大的限制,不能完全满足日常互动需求
在目前的唇语识别系统中,获得的唇部视觉特征信息是正面的,这意味着当你与它进行交互时,你必须始终面对它,并且第一个视角被它牢牢占据。在现场很难实现。为了能够应用更多场景,人们应该能够在侧面说话时被检测和识别。这需要更强的定位和跟踪算法,用于人脸识别,唇部检测和定位,并改进算法。适当性使其适用于非特定姿势和位置的识别和定位,并且还应该改进唇部运动识别技术,以便它可以处理非正面和不太完整的视觉特征信息。
2,识别的准确性也是一个关键问题,在安全性的背景下,准确性是不能容忍的
然而,我们知道唇形和拼音序列是一对多的关系。例如,对应于zhi,chi和shi的音节序列是相同的。仅使用视觉特征很难区分,这将导致信息识别错误并处理该问题。技术方法是基于语法的语言模型,基于人工编译的语言语法,通常用于分析特定领域的句子,不能处理大规模的真实文本。目前,许多识别系统是人工定义的框架,并且可以在特定场景中进行许多设置,这就是搜狗唇识别系统在垂直场景(例如汽车)中表现良好的原因。这也是它无法大规模应用于其他场景的原因,因为几乎不可能设置所有场景。
但是,我们仍然要充满信心。随着人类社会的发展,越来越多的真实信息,以及越来越多的数据处理手段,基于语料库的统计语言模型在统计语言模型的概率参数的帮助下迅速发展。它可以估计自然语言中每个句子的可能性,并通过语料库的深度处理,统计和学习,获得自然语言的语言知识,从而可以处理大规模的真实文本并识别语言中的微妙之处。区别。目前,一般识别场景的准确率仅为60%至70%。虽然略有不足,但可以预见,随着大数据和人工智能的发展,未来的识别准确性会更高。
看来我们正在迎来一个新时代。
作者:Xiating,微信公众号工作:智能相对论(aixdlun)
本文最初由@潇湘发表。未经许可,禁止复制。
该地图来自unsplash,基于CC0协议