语音识别还没飞起来,谷歌“唇语识别”又来了

发布时间:2016-11-29 阅读量:630 来源: 我爱方案网 作者: cywen

人工智能技术近年来突飞猛进,微软等硅谷巨头甚至宣称其语音识别系统已经能媲美人类。现在谷歌的AI在语言理解能力上更上一层楼,不仅可以通过更好的唇语识别来帮助听力障碍人士,多语言神经机器翻译(Multilingual Neural Machine Translation)也将显著提高翻译质量。


谷歌母公司Alphabet下属的DeepMind部门和牛津大学的研究者使用新闻视频对其AI系统进行训练。用于训练的视频总长超过5000小时,语句超过118,000句。视频取材自BBC电视台自2010年至2015年间播出的节目。训练完毕后,研究人员使用该系统对今年3月~9月间播出的口语节目进行测试。测试结果发现,系统通过“观看”说话者嘴部动作便可以准确识别出整个句子。比如“我们知道这里也会有数百位记者”。(We know there will be hundreds of journalists here as well)

给予相同的视频素材,专业的唇语识别专家能够达到12.4%的正确率。而AI系统识别正确率是46.8%。

前不久谷歌开始在“谷歌翻译”中运用神经机器翻译技术,能够识别准确地识别句子而不再仅仅是单词翻译。现在谷歌宣称使用多语言神经机器翻译技术后,谷歌翻译的翻译效果将再上一层楼。

谷歌在博客中称:“我们提出的结构无需改变基本的GNMT系统,而是在开头使用一个额外的‘token’来指定所需的目标语言翻译。”除了能够提高翻译质量,新的方法还支持“Zero-Shot Translation”,即在没有已知数据的情况下,能够对没有见过的语言进行翻译。

但是这些研究成果产生实际影响还有待时日,现在盛行的语言识别技术还是由语音识别技术占主导,而且就连语音识别技术也还积极拓展市场。
相关资讯
YXC可编程振荡器,频点100MHz,工作电压3.3V,应用于笔记本电脑

在笔记本电脑中,晶振通常用于控制中央处理器(CPU)和其他重要组件的时钟频率

YXC可编程晶振,频点10.48576MHz,封装5032,应用于光端机

在光端机中,晶振主要用于控制和同步数据传输、处理和调度

YXC可编程振荡器,频点22.578MHz,工作电压3.3V,应用于游戏机

晶振在游戏机中扮演着的角色是为CPU、GPU、音频处理器等各个组件提供稳定的时钟信号

永磁同步电机的工作原理及优势解析

永磁同步电动机具有结构简单,体积小、效率高、功率因数高等优点。永磁同步电动机已经在冶金行业(炼铁厂和烧结厂等)、陶瓷行业(球磨机)、橡胶行业(密炼机)、石油行业(抽油机)、纺织行业(倍捻机、细纱机)等行业的中、低压电动机中获得业绩,并逐步积累设计和运行经验。

超声波流量计设计要点及应用案例

超声波技术探测流速,测量点在机体前方,不破坏流场;测量精度高,测流线性,可测瞬时流速,也可测平均流速