首页 > 新闻中心 > 厂商要闻 > 正文

科大讯飞完成角色转型:帮助奇瑞开发一款深度定制语音技术车载系统
2016-07-13 14:09:12   来源:车云   作者:巢艳君     评论:0

  车内人机交互原则之一,是尽量减少达成目标的交互次数。

  从这一点看,语音交互赚足了优势。因为语音是扁平化的,一句话包含多种信息。但只要表达得足够清晰,产品足够智能,就可以直接为用户推送最需要的结果。与按键和触摸操控执行复杂命令时的层层定义相比,语音可以更好满足开头的原则。

  奇瑞和科大讯飞联合开发的Cloudrive2.0,就是一款搭载了深度定制语音技术的车载系统,整套软硬数服都由科大讯飞操刀,更是标志了科大讯飞从语音技术提供商向语音服务提供商转型。

  两天前,车云菌在奇瑞总部所在地芜湖体验了这款车载系统,并在科大讯飞就车载产品转型问题进行了深入沟通。

  Cloudrive2.0初体验

  6个月时间完成了Cloudrive2.0的正向开发,软硬数服一体都由科大讯飞来做。在这之前,讯飞并没有车载系统的整合经验。科大讯飞汽车事业部总经理刘俊峰在介绍整款产品时,做了上述说明。

  系统在奇瑞新款艾瑞泽5上是首次搭载,车云菌在芜湖进行了短暂体验。在整个系统操作的过程中,都可以在车内用方向盘或中控台上的物理按钮唤醒语音命令。不过这个操作,常常被“小艾你好”这条语音唤醒指令代替。

  目前语音适用于系统的三类功能,第一是信息搜索,包括天气、音乐、股票、酒店等生活资讯查询。第二是动态文本输入,比如在通过蓝牙将手机车机连接导入通讯录后,可以语音指令发送短信。还有一块是文本播读,可以阅读一些新闻等长文本。

  因为语音指令在整个系统内被打通,因此可以在任意页面唤醒语音识别功能,在发布指令上也可使用更加随意的自然语音。诸如“来首摇滚”、“我饿了”这种口语表达,系统也能识别。准确表达“王菲的红豆”之后,可以直接调出准确结果,免去二级页面再操作。下达“我饿了”这类模糊指令之后,给出的数个选项也可以直接口头回复“第二个”实现选择。

  对行车环境而言,除了准确识别,降噪技术也是一个难点。在硬件上,Cloudrive2.0使用麦克风阵列定位人声,两颗面向驾驶和副驾驶位置的麦克风位于中控台的物理按钮附近,定位准确的音源位置。在路上行驶至60公里/小时,车云菌开窗测试了两次风噪较大时的识别表现,系统成功向我们推送了附近美食和崔健的摇滚。

  手机车机互联方案艾智驾

  目前系统内的APP不多,大多整合的是POI等服务应用。如果要客观寻找一些进步空间,应该是各类功能的丰富与本身细化。比如手机车机互联功能,在测试安卓手机时已经完成了手机车机间的双向操控,但还不能很好支持视频播放之外的车端自适应显示。不过科大讯飞对艾瑞泽5这款系统的定位是定制化自然语音交互系统的样本级产品,从这个角度来看,Cloudrive2.0的自然语音表现应该能让大多数人满意。

  交互如何更智能?

  与以往语音产品相比,Cloudrive2.0自然语音识别表现是最大亮点。车云菌询问了效果背后的具体工作,得到的两点答案:在资源上与不同应用的垂直打通,让语音在功能和应用层面的深度结合;依靠讯飞云的大数据分析,不断优化交互效果。

  以地图搜索为例。传统地图搜索时大多数入口是店名和门牌号等命令搜索,而不是兴趣点,这对自然语言检索来说会受到限制。科大讯飞的自然语音交互首先会进行语音转写文字,然后从语义理解层面上提取用户话中包含的需求和倾向,然后将需求(“饿”)与(“餐馆”)关联,对接到生活美食应用输出结果。

  当然收集倾向化标签是一个漫长而耗费成本的积累。据科大讯飞工作人员介绍,后台会对当时无法分析的语音进行再分析,这些原本无法识别的口令在半自动预处理后,会由人工进一步标定正确的倾向。而且随着当时的流行趋势,歌曲餐厅等做一些推荐上的选择调整。

  Cloudrive2.0的语音识别采用的“端+云”的方案。诞生于2010年的讯飞语音云平台,不单单承载汽车相关的业务。这种本地与云端的打通,可以为一些本地无法完全识别的内容提供联网识别,并且由云端下载小更新包完善离线识别的效果。

  因此这款在使用中逐渐完善的产品,依赖大数据,也需要一个不断维护和优化的云端数据库支撑。作为一家老牌语音企业,目前科大讯飞可以给到的语音实时数据是:日服务次数超过20亿。车辆高速行驶时,识别率在90%以上。

  在产品介绍现场,科大讯飞还带来了今年年底要亮相的迭代产品,是将语音与应用的定制做进一步垂直细分后的升级版。当地图检索返回多个结果时,对结果的选择可以更加模糊,进而接近说话习惯。比如面对一排筛选出的烤鸭店,你可以瞟一眼后报出更加随意的选定方式,“朝阳北路上的”,“大悦城隔壁的”,而不受限于“第n个”这样增加交互时间的反馈,而越快就意味着越安全。

  不过很多人都在期待更加智能的版本。

  2015年,科大讯飞在年度大会上,推出了人机交互的产品AIUI,目的是解决自然语音交互。AIUI包括全双工技术、麦克风阵列技术、声纹识别技术、方言识别、语义理解技术和内容服务等技术。产品面向消费级电子产品企业,把整个麦克风阵列、语音唤醒、语音合成、语义交互和其他辅助交互打包成一个模块销售。而当时科大讯飞提到的“也可深度化定制化开发”,就让人们把想象空间留给了极其复杂的智能硬件——汽车。

  本次采访交流中,科大讯飞依然不愿在还未推出产品以前谈论太多,刘俊峰只是透露了些许信息。比如基于AIUI的语音交互,或许不再需要语音唤醒。行车手册功能也正在优化,如果未来能和汽车部分打通,新车车主只要按下车内功能按钮,向系统提问,就可以听到按钮具体功能的语音播报。

  角色转型

  很显然,科大讯飞在Cloudrive2.0中扮演的角色,已经不再是一家单纯的语音技术提供商。从做语音技术,到做车机系统集成,公司在汽车领域的业务正在向语音服务提商转型。

  这种转型可以归结为商业策略,毕竟纯技术供应商在激烈竞争中面对的是薄利市场,集成整合服务的打包方案已经成为大势所趋。当然这也是技术驱动,更深层次的功能定制由一名整合方案提供商来做,才能实现效率上的最大化和功能强大化。

   或许我们可以提取另一个观点。正如科大讯飞执行总裁吴晓如所言,目前车联网服务提供商只是帮助汽车厂商完成了数据基础采集工作,真正将大数据运用并发现延伸价值的并不多。语音交互因大数据兴起,未来也可以成为驱动数据应用的入口,甚至减少落地服务的中间环节,促进数据转化。

  一个典型例子就是,当我们对一个驾驶者提取了足够多的倾向标签,个性化的主动推送也不再是难点。

  要实现这一点,科大讯飞面临的技术之外的任务是资源整合。为了把语音和地图做更好的耦合,科大讯飞去年投资了一家地图引擎公司——美行科技。而作为科大讯飞的股东之一,中国移动的流量和咪咕音乐,都是未来可以用上的资源。除了喜马拉雅、考拉FM1000+网络电台,咪咕音乐中300万首歌曲在数量上做足功课,作为语音直接调用的后方资源库,这些内容还要足够新,足够好。

  而且落地到前装车载产品不是一项简单工作。试新Cloudrive2.0,与科大讯飞牵手的主机厂是奇瑞。刘俊峰强调了科大讯飞目前只做娱乐信息功能,不碰安全功能。在与主机厂合作中,配合沟通尤为,这也是与科大讯飞相隔不远的奇瑞,成为首家应用Cloudrive2.0的主机厂主因。现在首个样板亮相,进一步的细化版也将在年底揭晓。如何快速复制,但又兼顾个性化,是未来从1到n中,科大讯飞要继续操心的事。

  车云小结

  吴晓如在接受采访时,提到了互联网女王玛丽·米克尔2016年的最新报告,报告中讲到“假如语音识别准确率从95%上升到99%后,语音交互将迅速普及,甚至将改变现有的游戏规则。”很多人把报告解读为语音交互公司迎来新一波热潮,但真正参与竞赛的各家公司心里应该都门清:最先被推上风口,一定是把识别率从95%提升到99%的那家。

分享到: 收藏

相关热词搜索:科大讯飞 奇瑞

上一篇:锐明物流行业解决方案干货分享
下一篇:斑马线系列产品广受好评 天象智能与上海宝康再谋合作