现在的位置: 首页杂谈>正文
浅谈中文语音人机交互
发表于5年前 杂谈 评论数 8

浅谈中文语音人机交互

苹果上面有个siri,但是我身边的苹果用户并没有每天跟科幻电影一样冲着手机喊,“AI,帮我发短信给我哥们阿抽,叫他赶紧还钱”,苹果手机也没像电影里的智能主机一样回答,“遵命,指挥官”。所以siri对中文语音的识别能力有多强大,我是没有见过的。不知道从什么时候开始有一款游戏叫《会说话的汤姆猫》出现了,我开始看见有人冲着他的手机说话,并且有一个蠢猫的声音在回答,好吧,这一点也不酷,而且汤姆猫的回答有时候也挺牛头不对马嘴,不过白痴的回答倒是让女生挺开心。

siri

其实采用语音进行人机交互早就不是什么很新鲜的技术,语音拨号,语音指令这些已经有很久了,就连山寨机也鼓吹自己有多强的语音交互能力,但实际上用起来根本不可能有广告里那么牛逼,就算现在还是达不到那样的效果。我的塞班诺基亚也有语音命令功能,但是得先进行录音,比如关机,你就得先录关机命令的语音进去,之后你执行可以得按住热键,并重复这句话,印象当中windows7的语音指令也差不多,得先读一读预留的文字,让语音系统适应和学习你的发音,并且微软称该语音系统会自动的学习并习惯你的发型,用越久效果越明显,但是我觉得功能都还太烂,而且反应速度很差。

siri

前不久谷歌也推出了安卓上的语音搜索google now,毕竟ios上有,安卓自然也得有,感觉这个年代,同个行业里,别人有什么,自己也得有,不然给人感觉有缺陷似的。所以,谷歌搞了google now,百度自然不能坐视不理,百度也在着手于语音方面。

百度之前成立的多媒体部门包括图像处理和语音方面,图像处理方面公开表明说是要干掉美图秀秀,据说还收购了一个创业团队,至于语音方面外界知之甚少,今天36氪的博文里提到了这个语音部门,该部门负责人余凯在昨天的一个小沟通会上透露并演示了百度在语音方面的一些成果,现场演示的人员对着手机说了一句“我想听‘月亮代表我的心’”,手机就自动跳到了百度mp3的网页界面,百度方面表示功能上虽然与siri相似,但是会做出自己的特色,并且余凯还称,在语音方面国内除了科大讯飞就属他们做得最好。科大讯飞估计大家都略有耳闻,因为该公司在国内上市,中文语音方面全球第一,基本上使用比较广泛的中文语音设备都是采用科大讯飞的技术,比如山寨机,当然,现在谷歌已经超越科大讯飞了,毕竟安卓系统的机子激活量高达四亿。

中文这东西本身就比英文难(有人试图把神曲《忐忑》翻译成英文失败),中文语音的人机交互方式发展比较晚(技术都是别人发明,等轮到中文的时候英文语音技术已经成熟了),其实语音人机交互过程很简单,使用者说话,机器理解并执行,然后反馈给使用者,那么中文语音人机交互的技术有啥关键点呢,我稍微归纳了一下。

一、智能降噪。虽然打手机要到私密的地方进行这是礼貌,但是很多时候难免在公共场合进行,周围嘈嘈杂杂的再说难免,如果要跟设备进行语音交互,难度就很大,毕竟太吵的时候跟人说话都很困难,何况跟机器。降噪技术一般是根据音源的距离来过滤的(或者说根据分贝量来过滤),比如超过一米的声音就过滤掉。

二、声纹识别。每个人的声音都很特别,跟指纹一样,作为一个智能的语音系统,起码要能分辨我的声音吧,这就确保了手机被盗别人也用不了。说到这个我就觉得中文语音真的很难,机器一般都是根据标准发音进行识别的,中国那么多方言,各地口音不一,像我这种普通话说得半桶水的,稍微外地点的人都不太听得懂我说什么,别说机器了。不过听说科大讯飞在方言的识别能力方面技术也很厉害,看来这也不是什么难题了。

三、智能理解。文言文学习里面最基础的就是断句,因为文言文本身是没有标点符号的,要正确理解必须学会断句,语音其实跟文言文是一样的,我们说话的时候是不带标点符号的,光靠语气停顿不太准确,比如说“你好啊”,“你好坏啊”,要能明白后一句不能从你好哪里断开。除了这个,还是方言的问题,方言也有自己的语法规则,还有固定搭配,比如“干什么”,可以说成“干啥”,“搞么子”,“搞咩也”等等。还有不同语气表达的意思也可能有不一样的意思。

四、智能学习。智能语音系统要不断的根据使用者的说话习惯来调节识别能力,并且不断吸取使用者个性化词汇,以达到语音系统服务贴身化。可以的话最好联网学习点词汇,或者自动连接官方升级词库。

五、要具备娱乐功能。这点其实是废话,这念头啥不得跟娱乐沾点边。我个人希望有这样的功能,比如“AI,用周杰伦的声音给我唱个《我依然爱你》”,然后他就用周杰伦的声音唱,然后还可以自定义语音系统发出的声音,比如明星或者喜欢的人,我希望设定成井上喜久子的,哎,听着舒服,这世界上的声音控其实很多。

以上就是我个人认为一个好的中文语音人机交互系统应该具备的“素质”。九十年代英文的语音输入已经接近完美,识别正确率高达百分之九十八(印象当中是李开复开发的),《达芬奇的密码》作者丹布朗就是采用语音输入来写小说,他说读出来比较有感觉,并且这样思路流畅。其实语音人机交互最最重要的功能就是闲聊,没事跟机器人聊聊天也挺不错。

目前有 8 条留言 其中:访客: 2条, 博主: 2条

  1. 脚气好啦 : 2012年08月17日11:26:19 回复

    真的是乱吃芭蕉呢,什么内容都有

    • saintsky : 2012年08月21日09:45:00 回复

      恩,比较杂,哈哈

  2. 比分直播 : 2012年08月17日14:43:36 回复

    沙发

    • saintsky : 2012年08月21日09:46:01 回复

      沙发你好

给我留言