在2009年,"一键通"在后装导航市场开始火热的时候,也许就有不少人在思考让车内操作更简便的方法。让用户在操作时更简单傻瓜,获得更快捷方便的服务体验,这是自乔布斯推出IPOD以来,整个消费电子行业的潮流趋势。当乔布斯被当做神一样的存在,苹果史无前例的获得成功后,苹果的成功经验被积极的借鉴和复制。
在Telematics领域,行业最先看中的是苹果软件商店--App store,建立在庞大用户量和开放式开发平台上的开发者生态链,但时至今日,依然没有一个成功的复制者,因为缺少一个杀手级的终端产品。于是在2011年的上海T论坛上,已经很少有人提及软件商店了,但这个模式大多已经融入到T服务整个体系里面了。软件商店被放下了,没有乔布斯,但苹果依然吸引着全世界的目光,这次的主角是--SIRI,搭载在苹果手机上的智能语音控制技术。
SIRI的神奇,点燃了国内T行业以及导航领域对语音识别技术的关注,在2011的T论坛上,车音网的一声达和上汽的IVOKA一同成为主角。
也许车音网应该感谢SIRI的出现,为其推出一声达2.0节省了大量的推广费用和时间,一声达可以做什么,用一句类似苹果的SIRI,对方就基本明白了。当然,一声达2.0目前的智能水平还只能被称之为起步,即便专注在车载领域,也仍需要时间和资金来填充后台的知识库,完善知识搜索技术,智能匹配等等。
现在让我们来了解下车音网的一声达2.0,也许她将成为国内T领域的SIRI,一个更为通用的语音控制技术产品。
技术背景和原理
车音网将自己的核心技术称之为自然语言识别。简单的说,自然语言识别就是让人与机器之间的沟通交流更加智能化,用户可以像与人说话一样,用自然化的人类语言操作语音控制系统,从而实现语音控制系统的人机交互由人说机器听得懂的语言到机器听得懂人说的语言的质的转变,从而在智能化、友好性、效率性上极大地提高了语音交互的用户体验。
自然语言识别要求计算机通过对用户提问所使用日常语言的形音义等各信息进行识别和处理,使得计算机懂得该语言的含义,并通过人机对话的方式,对提出的问题和要求用自然语言进行回答。具体来说,这一过程即是计算机对字词句进行输入、输出、识别、分析、理解和生成等一系列操作和加工,从而建立起一种人与机器之间的密切而友好的关系,加快人类的信息传递与认知活动。
语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。 语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
语音识别系统构建过程整体上包括两大部分:训练和识别。训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的"声学模型"和"语言模型";而识别过程通常是在线完成的,对用户实时的语音进行自动识别。识别过程通常又可以分为"前端"和"后端"两大模块:"前端"模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;"后端"模块的作用是利用训练好的"声学模型"和"语言模型"对用户说话的特征向量进行统计模式识别(又称"解码"),得到其包含的文字信息,然后通过智能检索得到最终的输出结果。此外,后端模块还存在一个"自适应"的反馈模块,可以对用户的语音进行自学习,从而对"语言模型"和"语音模型"进行必要的"校正",进一步提高识别的准确率。
车音网语音识别技术大致可分为:语音信号的预处理与特征提取、声学模型与模式匹配、语言模型与语言处理、智能检索四部分。
制约与优势
制约语音识别技术的第一个障碍是识别率,在行驶的车内这样复杂条件下的语音识别远比在室内和手机语音识别要困难,降噪必不可少。在车辆使用过程中,发送机发动机的运转声、胎噪、风噪、空调噪音、和窗外环境的噪声和风噪等各类噪音声音会对车内的语音识别效果形成一定的影响。
有人在网上发文称,一般情况下,人们在使用手机时,通常都会嘴巴对着话筒进行通话,此时手机和嘴巴之间的距离保持在10厘米以内,声控在这个距离下功能可以发挥出最佳效果,但是随着声源距离的不断增加,语音识别率会明显降低,尤其在操作的环境中,更不能令人满意。由此可见,在车内,车载主机和声源之间的距离一般在60厘米左右,如何解决这个距离带来的音频在传输过程中的能量损耗,从而导致声控设备不能识别是个大问题。
车音网推出的语音导航服务依靠多年积累的语料库以及先进的语音识别技术将噪音的影响降到最低,即使在嘈杂的环境中依然保持极高的正确识别率。车音网目前在软件、硬件两方面均有降噪处理,其中硬件抗噪主要是通过麦克的指向性信号接收实现,软件抗噪主要是通过声波分析技术实现的,是通过双重降噪,有效的提高了在行车环境下的语音识别准确率。当然,识别率永远也无法达到百分之百,如何接近并保持在不过车音网接近90%以上的识别率仍有不少的提高空间,是车音网日后依然需要努力的一个方向。
第二个影响因素归结于声源的属性。所谓声源的属性应该是用户说话的方言、语音、语调以及语速等,不同的属性会对声控功能产生不同的影响。在语言方面,由于车主地域特征比较明显,通常有标准普通话和方言普通话之分,在标准普通话下手机的语音识别率将会有较高的稳定性,而方言普通话语音识别率相对要差得多。当然在语速、语调方面,不同厂商的声控技术在这些方面的影响也是不一样的。车音网自2008年开始在车载语音识别技术发力以来,已经能够识别除普通话、英语之外的粤语和闽南语。
第三个制约是智能化水平。语音识别只能作为一个工具,使之智能化才能满足和方便最终用户的实际需求,比如现阶段的任务就是达到类似SIRI的智能水平。这不仅需要识别较为口语化的语音命令,更需要对用户的需求实现智能应答,协助用户安全驾驶。从车音网目前公布的资料来看,一声达2.0在车内可提供的语音应答种类并不多,智能检索需完善。
此外,车音网语音导航服务覆盖全国362个地级区和2862个县级以上行政区划单位,整合了超过1600万个兴趣点信息,配合对位置信息正确识别率高达87%的车音网语音识别技术,为用户提供更加精准的导航服务。
从平台切入
从2012年市场热点看,语音控制技术将成为新一轮热点之一,市场需要新技术、新概念重拾增长势头。在这种背景下,车载主机行业和相关的产业的整合、融合趋势也开始显现,如基于云计算的各种数据交换服务、Android等开放平台的应用共享等等。回归技术本身,其能否成为推动车载主机车联网的关键一环,还存在诸多不确定因素,尽管有很多声控相关产品及项目获得了成功,但更多线下线上的配套服务需要完善。
车音网曾单枪匹马的去开拓终端用户市场,难度可想而知,于于是在09年以后,车音网的方向转为企业用户,特别是车厂。在与车厂实现合作之后 ,车音网获得了风投的青睐,继续烧钱之旅。因而一声达平台目前也是以企业用户为主,一声达作为一个平台级的产品,以先进的语音识别技术为核心,支持互联网和移动互联网的多种扩展应用,如通讯、娱乐、位置、行车等服务,同时不仅不仅支持企业级用户的自建站,也支持个人用户的定制化服务还支持个人用户的定制化服务。
更详细的说,一声达2.0即车音网智能语音综合管理平台是一个集公司管理、服务管理、会员管理、网站管理以及报表统计于一体的综合性智能语音服务平台。系统平台以企业管理为核心,实现了向车厂或经销商客户提供基于语音识别技术和3G网络的企业级的语音服务及其它数据增值服务业务平台。该平台适用于车载或移动终端环境,车厂或经销商通过该平台能够为自己的会员提供通过语音触发的通讯服务、位置服务、行车服务、信息服务等其它数据增值业务。实现提升用户实际体验及服务质量,满足企业用户个性化需求及定制。
在单独面向终端用户时,车音网则以智驾精灵这一品牌出现,当然这一服务都建立在一声达的平台基础上。
与SIRI不同,一声达支持多种操作系统,而不是只是一个系统的专属,因而在可见的未来会变得越通用。当然,也因为不专属与于某一系统或者某一终端,一声达的合作伙伴会很多元,前装,后装甚至便携导航,也许一声达可能缺乏一个杀手级的产品来迅速扩大自己的用户基础一个强势和充满吸引力的合作伙伴和产品将是一声达在语音江湖扬名立万的最佳选择。。市
场从不等待但市场从不等待,开放的一声达热切的想要拥抱行业,谁会第一个热烈的回应?但我们期待着车音网的成功。