全国服务热线:400-028-2145
新闻动态 NEWS CATEGORY
新闻动态 news
联系我们 contact us
手机:
13625381238
电话:
8741656@qq.com
邮箱:
8741656@qq.com
地址:
北京市大兴区荣华南路26号(918博天堂大厦)
新闻动态
当前位置:918博天堂 > 新闻动态 >
搜狗目前的AI同传、搜狗翻译宝、录音翻译笔等产
添加时间:2018-11-18
 

  近日,国际顶级口语机器翻译评测大赛(International Workshop on Spoken Language Translation,以下简称IWSLT)落下帷幕。搜狗击败讯飞、阿里巴巴, APPTEK(美国应用科技公司)、AFRL(美国空军研究实验室)以及KIT(德国卡尔斯鲁厄理工学院)等国际国内多个强劲对手,一举夺得了2018年IWSLT大赛Baseline Model(基线模型)赛道冠军。

  IWSLT的口语机器翻译指的是从语音信号翻译成目标语言文本,正是搜狗已经落地应用的“AI同传”、“旅行翻译宝”等多款产品的核心技术,并不是我们熟悉的文本到文本的翻译。口语机器翻译领域是一个新兴领域,搜狗则一直走在前沿,此次摘得大赛冠军,也是实力的印证。

  据雷锋网了解,IWSLT是国际上最具影响力的口语机器翻译评测比赛,每年举办一次,至今已经是第15届,大赛吸引全世界顶尖机构参加。IWSLT针对语音翻译实际应用面临的难题,每年会设定一些研究任务,并向外界提供公开的数据集合和评测交流机会。

  今年的比赛包括两个主要任务,一是英语到德语演讲场景下的语音翻译任务,二是巴斯克语到英语的低资源文本翻译任务。其中,英语到德语演讲场景下的语音翻译任务又分为Baseline Model(基线模型赛道)和End-to-End(端到端赛道)两个赛道。

  由于必须使用大赛提供的数据重新训练语音识别模型和机器翻译模型,搜狗语音团队也花费了不少时间和心力。大赛提供的语音数据大概有500小时,搜狗语音团队首先是做了数据增广,调整语速、降噪、增强之类,最终把数据大小提高了3倍。团队用单机多卡机器做语音识别模型训练,训练一个模型需要两到三天的时间。在翻译方面,大赛提供了大概有六千万到七千万序列的双语平行数据,搜狗投入了10-15台八卡机器做模型训练,每训练一个模型需要花4-5天时间,一共做了多轮的模型迭代更新才得到最佳的效果。

  虽然是第一次参加一个“命题”的国际赛事,但是搜狗团队早已经驾轻就熟,因为这样的人员配置和技术流程与他们做业务时完全一致。

  据雷锋网了解,搜狗目前的AI同传、搜狗翻译宝、录音翻译笔等产品都采用了Baseline Model解决方案。搜狗也认为Baseline是业内最主流、效果最好的语音翻译解决方案,市场上商用机器同传、翻译机等语音翻译类产品几乎都采用了类似的方法。

  本次IWSLT大赛还增设了End-to-End赛道,其采用基于神经网络的端到端语音翻译解决方案,输入语音后基于深度神经网络模型直接输出译文。目前业内有观点认为End-to-End代表着更前沿的探索,是语音翻译的新思路和新方向。

  对于这一现象,陈伟告诉雷锋网目前End-to-End需要的语音-文本平行预料难以大规模采集、算法研究也不成熟。虽然目前End-to-End技术在语音识别和机器翻译这种单个环节中取得了不错的效果,但是其应用于口语机器翻译还尚未成熟,距离商业化落地还需要大概5年的时间。

  End-to-End赛道尚未成熟,目前还没有出现大家都能认可的技术方案,因此在这个领域夺得第一并不能真正证明实力。当然,陈伟也承认,End-to-End确实是未来的方向之一,搜狗也已经进行了接近半年的尝试。

  近两年,搜狗已经建立起以语言为核心的长远AI战略,核心产品围绕输入法、搜索、同传和翻译。2016年,搜狗将语音识别与机器翻译技术相结合,推出了全球首款商用AI同传系统-搜狗同传,引领了语音翻译技术的普及与应用。

  在语音识别领域,与一些老牌厂商比,搜狗是后来者。但是从目前已经取得的成绩来看,搜狗已经抹平了时间上的差距,搜狗是如何做到的呢?

  陈伟谈到:从80年代一直到2010年的这二三十年时间,语音识别的流水线很长,老牌语音识别公司在调节参数、模型训练方面有很强的壁垒,然而深度学习技术应用后,相当于推倒重开,在这样的情况下,整个行业后入者有很好的机会,大家可以快速地弯道超车。搜狗在数据和人才储备上都不输给老牌语音公司,搜狗也是一家C端公司,很注重技术与产品的结合,细节可以做到很极致。有数据、有场景,有技术,搜狗就没有理由做不好语音识别和翻译。

  在AI同传取得成功之后,搜狗也推出了一系列的智能硬件,例如具备离线翻译和拍照翻译功能的搜狗旅行翻译宝;搜狗录音翻译笔,提供录音转写、对话翻译、同声传译等功能,把AI同传落地到了消费级产品之中,开拓了语音翻译的新航道。搜狗也正在跟VIVO、OPPO等手机厂商合作语音翻译的技术合作,将在线和离线的翻译能力在智能手机上上线。

  除此之外,搜狗语音团队也在致力于多模态语音语义技术的探索。在近两天的乌镇世界互联网大会上,搜狗与新华社合作开发的全球第一个“AI合成主播”正式亮相,只用输入新闻文本,AI合成主播就能用和真人一样的声音进行播报,而在播报的过程中唇形、面部表情等也能与真人主播完全吻合,效果惟妙惟肖。

  据雷锋网了解,AI合成主播的技术被称为“搜狗分身”,该技术能通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,并结合语音、图像等多模态信息进行联合建模训练后,生成与真人无异的AI分身模型。这项技术让机器首次做到逼真的模拟人类说话时的声音、嘴唇动作和表情,并且将三者自然匹配,与真人几乎一致。

  从IWSLT大赛到“AI同传”再到“搜狗分身”,我们看到搜狗语音团队在基础技术与应用落地两方面的优异成绩,期待这样一个稳扎稳打的团队带给我们更多的惊喜。