设为首页 - 加入收藏
您的当前位置:主页 > 方言翻译 > 正文

智能语音将成下一代人机交互新入口

来源:中国方言 编辑:方言翻译 时间:2018-01-13

智能语音将成下一代人机交互新入口

  2017广州《财富》全球论坛晚宴上,小女孩用一口流利的英语和科大讯飞机器人“晓曼”交流,“晓曼”“听懂”后立即用中文回应。

智能语音将成下一代人机交互新入口

  “Hello,我是林志玲,祝您一路好心情哦”、“我是罗永浩,请镇定一下,我要开始导航了”,对于某些地图导航的用户来说,这样的语音一定不陌生。但你可能不知道,这并不是一字一句录制,而是借助了科大讯飞的语音识别功能。只需要3小时的声音素材,就可以合成所需要的声音。

  2017年11月,国家科技部宣布科大讯飞以智能语音成为国家新一代人工智能开放创新平台之一。包括BAT在内的互联网巨头也纷纷抢滩智能语音领域。

  智能语音为何能成为人工智能领域的重点项目?站在第三次人工智能浪潮的当口,智能语音的应用又将如何改变我们的生活?

  商业一线

  智能语音在多个领域广泛应用

  智能语音设备之外,中国企业在语音转写技术、语音输入法方面也走在了商业应用前沿

  当你回到家,说声“叮咚叮咚,我回来了”:灯自动打开,窗帘自动闭合,空调启动,电视自动打开并跳转到你平时最常看的频道,客厅里响起你喜欢的音乐——京东和科大讯飞合作推出的叮咚智能音箱就是这个智能家居场景的“总导演”。

  近几年,国外微软、苹果、亚马逊,国内科大讯飞、腾讯、百度、阿里等企业,无一不在紧锣密鼓地推进智能语音的商业应用落地。

  2011年,苹果Siri语音助手正式亮相。正是以Siri的发布为引爆点,智能语音应用领域由传统行业向移动互联网等新兴领域延伸。在2017年苹果WWDC开发者大会上,Siri的智能化进一步提升,加入了实时翻译功能、支持上下文的预测,用户甚至可以用Siri作为Apple TV的遥控器。

  中国智能语音交互系统的另一家领军企业百度在智能语音领域深耕多年。去年,百度推出DuerOS系统,广泛应用于音箱、电视、冰箱、手机、车载多个场景。在1月9日举行的2018年CES(国际消费类电子产品展览会)上,百度发布了DuerOS 2.0 的三款硬件产品——智能视频音箱、智能音箱灯和智能投影吸顶灯。

  百度度秘事业部总经理景鲲表示,根据IDC的报告,在2020年前,27%的智能家庭将会拥有智能语音设备,51%的智能汽车和68%的智能手机和智能穿戴设备也会具备语音对话功能。“DuerOS是一个活跃的对话式AI生态体系,不仅有设备合作商,还有芯片制造商、系统整合商、内容开发者等等。”

  智能语音设备之外,中国企业在语音转写技术、语音输入法方面也走在了商业应用前沿。

  在2017年的全国两会上,科大讯飞的产品“讯飞听见”利用人工智能实时语音转写技术,首次在政府工作报告网络直播中实现同步字幕直播。此外,智能语音输入应用让讯飞输入法用户突破5亿,截至目前已支持22种方言语音输入,方言识别准确率达90%以上。

  2017年11月,国家科技部宣布科大讯飞以智能语音成为国家新一代人工智能开放创新平台之一。

  对此,科大讯飞股份有限公司品牌管理部总经理、华南公司副总裁吴骏华向记者表示,智能语音之所以成为新时代人工智能应用发展的重点方向之一,一方面来自于语音技术的成熟,另外一方面则是在万物互联的时代,语音成为了人机交互的新入口。

  据吴骏华介绍,作为平台企业,科大讯飞会把人工智能核心技术开放出来,构建持续闭环迭代的生态体系。“我们将平台对广大的创客团队开放,截至2017年12月,讯飞开放平台的累计终端数已经达到15亿,日均交互次数达到40亿,创业团队数已经达到了50万。”

  技术前沿

  智能语音五年内将像水和电一样无处不在

  除了语音识别之外,语义理解是目前各大企业需要攻克的技术难关

  智能语音是人工智能技术的重要组成部分,包括语音识别、语义理解、自然语言处理、语音交互等。

  目前,在语音识别方面,科大讯飞、百度、苹果、谷歌等主流平台识别准确率均在96%以上,稳定的识别能力为智能语音技术的落地提供了可能。

  “科大讯飞在语音识别上已经做到98%了。”吴骏华表示,在国际语音合成大赛(Blizzard Challenge)中,科大讯飞连续十二年蝉联第一名。在2016年CHiME Challenge国际多通道语音分离和识别大赛中,科大讯飞包揽全部三个测试项目的冠军,并大比分刷新历史纪录。吴骏华告诉记者,接下来,科大讯飞还要做多方言语音识别。目前,讯飞已经做到了22种方言。

  百度在2017年宣布ALL IN AI之后,除了发力自动驾驶之外,也在语音智能方面持续发力。

  景鲲表示,百度人工智能技术的方向包括语音识别Deep Speech、视觉识别“智能读图”、自然语言与智能语义等。凭借PaddlePaddle深度学习平台、亿万级大数据训练处理能力和超高速异构AI计算集群三大核心技术,可模拟低龄人脑思维,拥有语音、图像、自然语言处理、用户画像四大能力。“其中,语音识别准确率达97%,支持27种语言互译。”

  除了语音识别之外,语义理解是目前各大企业需要攻克的技术难关。吴骏华坦言,按照目前实现的语音合成和语音识别技术,科大讯飞可以完成在固定的范围内回答问题,但是在逻辑推理上机器今天还是没有办法实现突破。在语音理解没有重大技术突破的前提下,机器在语义理解方面还存在不小挑战。

  微软亚洲研究院院长洪小文博士也指出,要做到百分之百的语义理解,是一个AI complete问题,只有解决了其他AI的问题才可能有解。“比如,你去参加一个鸡尾酒会,周围非常嘈杂,你讲的话里面十个有九个字我都没有听清,可是因为你讲的内容我大概知道,所以即使我听不清还是能够猜出你讲的是什么。但如果用语音识别和语义理解,可能会失败。在具体的应用场景,除了语音,还包括视觉、知识的综合使用,这是语音人工智能未来的挑战。”

  国家政策层面,也在大力推动智能语音的发展。去年12月14日,科技部印发《促进新一代人工智能产业发展三年行动计划(2018—2020年)》,明确对智能语音的发展做出展望,“到2020年,实现多场景下中文语音识别平均准确率达到96%,5米远场识别率超过92%,用户对话意图识别准确率超过90%。”

  对于未来智能语音的普及推广,吴骏华表示,在政策和行业的双重推动下,预计未来五年内,智能语音会像水和电一样无处不在。”

  行业格局

  智能音箱背后是语音交互技术的竞争

  智能语音技术的普及,让智能音箱、智能家居客厅重回大众视野,成为科技巨头的“新宠”

栏目分类

主页

Copyright © 2002-2011 主页 版权所有

Top