前不久,中文版Bixby开始公测,虽然这并不是Bixby的首次发布,但却意味着新的语音巨头开始打入中国市场。在我们的测试中发现,Bixby拥有优良的识别率,可以实现语音开锁、语音文本转换,并且用户可以通过语音对进行电话短信、控制、第三方内容接入等各种各样的操作。从某种意义上来说,手机已经实现听懂人的语音。
当我们看到科幻电影中能与人类对话的人工智能时还会感到十分高科技,其实早已悄无声息的进入了我们的生活,以至于当你看到现在优秀的语音产品时并不会感到陌生。在我们大多数人的印象中,语音助手仍是比较“弱智”的存在,其实这点也并不能否认。因为机器没有智慧,它不能像人一样思考,或者说它还没有一个足以令它思考的庞大体系。但同样不可否认的是,语音识别方面的人工智能已经拥有相当大的规模。
举个非常常见的例子,现在的大多都支持语音搜索功能,这给电视的使用带来了极大的便利。因为电池的输入设备仍旧是遥控,其输入效率无法与键盘匹敌,但支持语音的话,只要对电视输入语音命令,就可以完成交互,十分便利。另外,语音识别交互也为盲人的设备使用带来了福音。其作用不可小觑。
相信有不少没关注过语音识别功能的读者都有这样的疑问:兄弟,你开玩笑呢吧?无聊时唤出Siri扯两句,还有家里的智能音箱,就普普通通的语音助手嘛,真有你说得怎么玄乎?而且智能音箱的售价都不贵嘛,高科技的话怎么会这么便宜?还别说,开发语音助手还真不是个小工程。而且通常来说,语音助手难以靠本身变现,至少在你用语音听写时,厂商并没向你收费。所以没有雄厚的资金支持是很难坚持到营收的那一天的。
现在我们去看语音助手的厂商宣传,都在说我们的准确率达到了百分之多少。目前来说,准确率达到90%以上已经相当不错。虽然现在已经有了这么高的准确率,但我们还是感觉语音助手有些鸡肋,这与语言的复杂性、第三方接口的完善性有很大关系。本期发烧学堂,我们就来聊一聊语音识别的实现原理,以及语音识别的现状和未来发展,设想一下人工智能什么时候会统治世界。
实现原理:数据库
概括的说,语音识别的原理其实并不难理解,大面上和指纹识别的原理相同:设备收集目标语音,然后对收集到的语音进行一系列处理,得到目标语音的特征信息,然后让特征信息与数据库中已存数据进行相似度搜索比对,评分高者即为识别结果。然后通过其他系统的接入来完成设备的语音识别功能。
如果你对语音识别的兴趣不高,那么知道这样的大致原理已经足够。事实上,语音识别的过程是相当复杂的。最直接的原因就在于语音的复杂性。指纹识别只要录入的指纹信息与数据库中的已存信息匹配就可以完成识别,这个数据库包含的数据只有几个指纹信息而已。但语音就完全不同了。
《康熙字典》容纳了汉字47035个,由当时的三十多位著名学者历时六年编撰而成。而汉语可不仅仅是孤立的汉字,语言中有升降调,有断句情感,有不同语义的不同理解。同时,全国各地可都不是说普通话的,方言也有很多种,想要建造一个完善的语言数据库难度可想而知。汉语的复杂性正是Bixby中文版要晚于英文版发布的原因。
庞大的语言数据库难以放置于移动端,这也是几乎所有使用时需要联网的原因。语音识别发展到现在也不是没有离线版,但我们不难发现,离线版的准确率是要远远低于在线版的。另外,刚才我们提到不少语音厂商都宣称准确率达到90%以上,这可以说是十分了不起的,不夸张的说,这时候每提升1个百分比的准确率,都是质的飞跃。这不仅要相当完善的数据库,满足这样的准确率还得效率较高的识别提取算法和自学习系统。
当然这样的数据我们要以辨证的眼光来看,俗话说,一句话百样说,汉语言可谓博大精深;而且厂商给出的准确率数据的测试很难具备广泛性,所以有些用户在使用语音识别功能时发现它还很“弱智”,实属正常。
实现原理:算法和自学习
刚才我们提到了识别提取算法和自学习系统,在这里我们不妨简单了解一下它们的工作过程:首先语音识别系统对收集到的目标语音进行预处理,这个过程就已经十分复杂,包含语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等等。之后对处理的语音进行特征提取。
我们知道,声音的本质是震动,它可以由波形表示,识别则需要对波进行分帧,多个帧构成一个状态,三个状态构成一个音素。英语常用音素集是卡内基梅隆大学的一套由39个音素构成的音素集,汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调。之后通过音素系统合成单词或者汉字。当然,之后的匹配和后期内容处理也需要相应算法来完成。
自学习系统则更多的是针对数据库来说。将语音转换成文本的语音识别系统要有两个数据库,一是可与提取出的信息进行匹配的声学模型数据库,二是可与之匹配的文本语言数据库。这两个数据库需要提前对大量数据机型训练分析,也就是所说的自学习系统,从而提取出有用的数据模型构成数据库;另外,在识别过程中,自学习系统会归纳用户的使用习惯和识别方式,然后将数据归纳到数据库,从而让识别系统对该用户来说更智能。
更进一步总结一下整个识别过程:对采集的目标语音进行处理,获取包含关键信息的语音部分——提取关键信息——识别最小单元字词,分析规定语法排列——分析整句语义,将关键内容断句排列,调整文字构成——根据整体信息修改出现轻微偏差的内容。
现状和未来
人工智能能在这两年爆发并不是一朝一夕的事,语音识别也不例外。从最初的语音识别雏形,到现在高达90%以上准确率,已经有大约100年的历史。Radio Rex玩具狗生产于上个世纪20年代,这款玩具狗在被呼叫时可以弹出来,被视为语音识别的鼻祖。真正意义上的语音识别研究始于上个世纪50年代,AT&T Bell实验室打造的Audry系统实现了十个英文数字的语音识别。
而最近大热的NPU神经网络,早在60年代就已经用于语音识别了。将大词汇量、连续语音、非特定人三大特性基于一身的Sphinx系统诞生于80年代末。90年代以来则是语音识别发展的绝佳时期,政府机构对语音识别技术开始重视,许多著名公司都开始在这方面投入巨资,一大批高水平研究机构都加入了语音识别的研究领域,一时间成绩显著。
时至今日,语音识别已经有了突破性进展。2017年8月20日,微软语音识别系统错误率由5.9%降低到5.1%,可达到专业速记员的水平;国内语音识别行业的佼佼者科大讯飞的语音听写准确率则达到了95%,表现强悍。国内诸如阿里、百度、腾讯等大公司,也纷纷发力语音识别,前景一片看好。
并且,语音识别系统也不会只仅仅用于之前提到的交互、智能音箱命令,在玩具、家具家居、汽车、司法、医疗、教育、工业等诸多领域,语音识别系统将发挥不可忽视的作用。毕竟在当下人工智能刚刚起步的时代,在设备无法便捷的探知人类想法之前,语音交互都是最高效的人机交互方式。
写在最后
看到这里,相信大家已经对语音识别有了一个大致的了解。我们在手机、智能音箱上看到的语音识别,只是语音识别领域表现出的冰山一角,而我们在未来也将会看到有更多形式的语音识别用于日常生活的各个方面,比如语音识别系统配合无人驾驶汽车,只要你跟汽车说去哪,汽车就可以自动载你达到目的地。