欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

语音:人机交互的新革命

程序员文章站 2022-10-16 22:49:26
    语言的创造是人类的一个拐点,最初,语言是控制杆,它将我们的思想转化为工具。后来,我们适应工具,把我们的表达转化成TA的语言。今天,我们正在让工具生命化,变成耳...

    语言的创造是人类的一个拐点,最初,语言是控制杆,它将我们的思想转化为工具。后来,我们适应工具,把我们的表达转化成TA的语言。今天,我们正在让工具生命化,变成耳提面命的助手。这个漫长故事的核心在于:我们与工具如何互动。苹果iPhone 4S的发布着实让Siri火了一把,人机交互的革命史又翻开了新的篇章,但是Siri并不完美,尤其对于国人来说,不支持中文是最大的不足,不过这也给其他厂商留下了机会,其中科大讯飞的语音技术最为抢眼,也使其成为了这场人机交互新革命有力的推动者之一。

   前谷歌中国的高级研究员、《浪潮之巅》的作者吴军老师在微博里半开玩笑半地说:“语音识别(在产品上)忽悠人从90年代开始,大约每十年一个周期,最后的结果相同,就是大家发现这是个玩具,而不是工具。第一波人长大了,走了,对科技不敏感了,第二波人当时还在上中小学,没上过当,现在赶着来试一试。如此反复。不过我相信最后有一次不再是忽悠人,但是不是现在这一次?”

    语音技术+移动终端=?

语音:人机交互的新革命

    换个角度,在PC时代,为什么语音就从来没有成为过主流的人机交互方式?

    虽然代表性的产品如IBM的ViaVoice已经达到了很高的识别水平。中文识别的准确率达到了95%以上,还能识别多种方言,每分钟输入150字。但它并没有能成为一款打动大众消费者的产品。

   中国最大的语音技术厂商科大讯飞,长期只能在一个几十亿规模的B2B市场里打拼。在机器合成语音市场,讯飞流畅、达到播音员水准的语音产品已经占到了70%以上的份额。今天大多数企业客户服务中心的人工语音服务,都是采用科大讯飞的技术。

   但这又怎样?PC是一个固定的环境,人们早已经习惯了键盘+鼠标的交互方式。大多数人已经习惯于键盘打字而不是讲话,因此,语音控制面临Dvorak键盘布局同样的应用障碍。当简单的老式QWERTY键盘供货充足并且工作的很好的时候,为什么要学习使用Dvorak键盘呢?

   更要命的是,任何一款语音识别软件都需要大量的训练以便识别用户的语音特征,来提高准确性。有多少人会天天对着一台电脑喃喃自语呢?

   语音技术更广泛的普及需要两件事情:更好更方便的应用和主要使用语音的生活场景。而移动互联网的勃兴正好满足了这些条件:

   第一, 智能终端屏幕较小,手指输入的准确率和速度都要低于PC,这是移动互联网必须要面对的物理局限。

   第二, 移动互联网终端有众多的传感器,就像人的感官,为人机交互和生活化应用创造了条件。

   第三, 移动互联网使得语音识别公司采集海量语料成为可能,通过应用可以让交互更频繁,加快机器学习速度,改进用户体验。

   所以,当siri遇到iPhone,奇妙的化学作用发生了,一个沉寂几十年的鸡肋技术活了。

   用户到底要什么?

语音:人机交互的新革命

   我老妈从来没有理解过智能手机,她只会打电话,不会发短信,更不用说其它应用。直到我的安卓手机装上了讯飞语音输入法。当我对着手机说出“吃葡萄不吐皮”的绕口令,并发出短信之时,她拿着自己500块钱的诺基亚问我:“我这个上面能用吗?”

   这就是用户的需求,当然是最原始的那一种。

   你如果看过好莱坞大导演斯皮尔伯格的电影《A I》,相信会对人工智能有一定了解,通过人工智能技术,机器人可以把“对话、自然语言理解、视觉、演说、机器学习、制定计划、理性思考、服务代表全部融合到一起”。Siri的技术正源自人工智能。事实上,Siri让我们看到了人机互动的一种全新可能。语言,从来都被看做是人类特有的技能,而一夕之间,一部手机拥有了这样的能力,科幻变成现实的日子呼之欲出。

   更重要的是,当机器有一天能够真正理解人类的语言,并做出回应,世界打开了无限的想象空间。

   说一个人名,手机就会从冗长的通讯录中找到他;语音操控汽车、语音搜索地图、语音寻找酒店;未来,在办公室里对手机说一句话,家里的厨房就开始烹饪……

   好吧,我承认我的想象力还不够丰富。

   “移动互联网融入了人们的生活,人们可以在任何时间任何地点接入互联网,也可以享受互联网辅助的各种生活服务。在移动互联网时代,互联网服务和生活服务的界限在消失。”名叫采铜的专业人士在知乎网站上回答“Siri会不会是一个革命?”时认为:“在服务互联网化的时代,语音将解放人们的双手,降低了移动互联网的使用门槛,让输入更便捷,服务效率更高,从而成为“移动互联网发展的一个里程碑”。

   下这样的结论也许还为时略早。但看看中国大公司们的动作吧。腾讯在微信中推出语音消息、搜狐和新浪在微博中嵌入语音微博服务,百度发布语音搜素、大众点评的语音订餐……

   这说明什么?只有一种可能:趋势。

   想想我们人类自己吧,我们能够克服自己基因中的惰性吗?每一次科技进步,不都是让人更加免于肉体的劳作吗?能用嘴说,我们未来还会抓狂地动大拇指吗?

   谁更懂中文?

语音:人机交互的新革命

   我们有理由着迷于Siri,无论是因为调戏它的乐趣,还是因为对苹果的崇拜。

   但创新工厂的创始人李开复老师坦言:“分析苹果Siri:1)语音识别够精确,但语义理解困难,2)语义理解靠自然语言分析不够,需要海量语料和反馈自动学习,3)Siri可用度不足,苹果利用“调戏”获取语料,学习后可提升可用度,4)防噪仍是问题,苹果靠4S特殊硬件,5)应用结合困难,适合苹果封闭系统,6)用户对助手有“人智慧”的过高期望。”

   所以,新iPad上还只有语音输入技术,没有Siri。

   更何况,我们还不得不面对一个绕不开的问题:它目前不会讲中文。

   不要忘记了那些美国互联网巨头在中国的失败,亚马逊、谷歌、Groupon,还有根本进不来的“非死不可”(Facebook)和推特。只有懂中国话,才有成功的可能,这是中国留给骄傲巨头们的教训,语言更是如此。

   算算中文里仅一个“我”有多少种说法吧。这样的段子在网上很容易找到。面对全世界最复杂的语言——中文,您相信一家美国公司能在短时间内攻克吗?反正我是不信的。

   Siri代表了语音交互技术的一个方向,但它不一定是中文语音识别的未来。

   那么我们现在创业做一家中国的Siri怎么样?创新工厂的李开复老师在微博上提出了四点质疑:1)智能手机主界面是手触,语音助手解决了什么真正用户需求和痛处?2)如何克服后台海量数据学习技术门槛?全球只有一个公司有这个技术。3)应用谁开发?自己开发难扩张,用别人的应用整合不佳影响体验,4)语音服务器和带宽成本较大,如何克服?

   你能接住他这又一盆冷水吗?

   “语音技术是一个典型的交叉科学,涉及到很多方面,不是说有钱就能做的,是有相当高的门槛。你可以去APP下载一个我们的软件体验一下”。科大讯飞副总江涛坦言。

   作为A股上市公司,讯飞起家于商业应用。而更多普通人认识讯飞,还是从讯飞语音输入法开始的。在没有大规模推广的情况下,安卓版讯飞输入法的下载量已经突破千万次,达到了与QQ输入法、百度输入法相同的数量级。在苹果主导的iOS平台上,用语音发短信的讯飞口讯也一直名列APP排行榜前列。

   讯飞凭什么?

语音:人机交互的新革命

   语音识别技术的核心竞争力在于识别率,这是毋庸置疑的事情。讯飞有效利用了自己在国内的先发优势,率先推出了语音云服务,将数据的上下行打通。在推出讯飞语音输入法的同时,与腾讯、新浪、点评等第三方公司展开技术合作,积累了2500万以上的用户。

   用户体验语音服务的最初动力是好玩儿,而非实用。Siri的调戏其实同样意在快速扩充语音数据库,提高机器识别率。据科大讯飞副总裁江涛介绍,在语音云推出的一年时间里,讯飞的系统识别率从60%提高到了85%,日常用语识别率超过95%。这也是移动互联网带来的改变。

   科大讯飞目前通过两种方式来培育语音识别业务,一是开发自身的产品讯飞口讯和讯飞语音输入法,发展语音云、丰富数据库,公司语音输入法目前对标准普通话的识别正确率已提升到95%以上;二是向应用软件开发商们开放语音云平台接入,目前包括挖财在内的理财记账软件、凯立德在内的地图软件,都已内置了科大讯飞的语音识别功能。

   经过一年半的低调完善,现在讯飞即将发布新的语音云系统。更重要的是,讯飞要免费打开自己的云接口,让更多开发者来免费使用开发应用。本次发布的新系统加入了大量个性化服务,比如方言识别、注册用户的个性化语言识别等。

   新一代的语音产品不可能仅仅满足于简单的搜索和语音识别。它能够自主分析用户发出的口语指令,并给出确切的回应和指导,完全不需要用户预选学习使用方法。换句话说,它将是具有“人智慧”的语音助手。

   从一家B2B的产品公司,到一家提供云服务的B2C产品公司,这是科大讯飞的一次质变。

   回到李开复四问中的第二问,他也许错了。世界上迈过了后台海量数据学习技术门槛的公司并非只有一家。所以,有没有必要去做一家中国的Siri其实是一个假问题,一定意义上说,Siri才是美国的讯飞(讯飞成立于1999年,而Siri不过是苹果收购的产物)。

   2012年,对TA说?