逐字听写,还能离线!RNN-T语音识别进入Gboard输入法

逐字听写,还能离线!RNN-T语音识别进入Gboard输入法新模型尺寸小,可以在手机端本地使用,解决了过去语音识别云端方案的延迟问题。文|光谱很多时候,我们会发现打字聊天太累,发语音又不太礼貌。

大家好,欢迎来到IT知识分享网。

逐字听写,还能离线!RNN-T语音识别进入Gboard输入法

新模型尺寸小,可以在手机端本地使用,解决了过去语音识别云端方案的延迟问题。

文 | 光谱

很多时候,我们会发现打字聊天太累,发语音又不太礼貌。所以像 Gboard 这样的输入法就有语音听写的功能,很适合懒得打字的朋友。

但是在过去,这个功能往往需要联网才可以使用,因为识别的能力在云端。语音上传到服务器,训练好的模型进行语音识别,再传回手机。

但是情况正在改善。前不久,今天发布了一个基于 RNN-T(递归神经网络变换器)的模型。其主要特色在于体积很小,可以放在手机 app 里。

今天,Google 正式宣布将这项技术投入到 Gboard 手机输入法当中。也就是说,今后使用 Gboard 的用户,在离线状态下也可以进行语音输入了。

逐字听写,还能离线!RNN-T语音识别进入Gboard输入法

但不是所有用户都能第一时间感受到新功能。目前,这项技术仅支持 Google Pixel 系列手机,语种只有美国英语。

Google AI 语音识别团队的 Johan Schalkwyk 在博客中写道,自从2012年深度学习在语音识别上展现能力后,每年都会有新的深度学习模型开发出来,如深度神经网络 DNN、递归神经网络 RNN、长短时记忆网络 LSTM、卷积神经网络 CNN 等。

但是因为这些模型本身较大,需要联网使用,所以在语音识别的典型使用场景下,延迟的问题一直没有解决。

去年12月,Google 发表了一篇名为《串流移动设备端到端语音识别》的论文,提出了一种采用 RNN-T 训练,尺寸小到可以放到手机本地上使用的语音识别模型。

1)因为可以在本地离线使用,这个新模型解决了过去的技术(大模型)需要联网的延迟问题;

2)”串流“(streaming)两个字的意思是随说随听随写,也就是支持逐字识别,所以给用户的延迟感觉更低,就像一个实时的听写装置。

下面是 Google AI 播客的翻译,读者可以对这个手机端离线语音识别功能的技术有更多的了解。

1

RNN-T 的出现背景

在过去,语音识别系统由很多组件拼装而成:一个声学模型,将音频片段映射到音素;一个发音模型,将音素连接在一起形成单词;一个语言模型,用来表达给定短语的可能性。每一个组件都是一个模型,各自优化,一个模型更好不一定代表整体效果提升。

后来,研究者开始研究设计一个序列到序列 (seq2seq) 的神经网络模型,能够直接将音频波形映射到输出语句。这方面取得了一些进展,出现了所谓的”基于注意力“ (attention based) 等新的模型机制。然而它仍然有缺陷,主要体现在必须听完整句话才能建模,体验不佳。

后来,在语音识别领域,又出现了一种基于 RNN 的新方法名叫 CTC。它和之前最好的方法相比,对于数据对其和标注的要求更低,最终延迟降了一半。CTC 就是 RNN-T 的由来,也是这次 Gboard 输入法离线语音识别功能的底层。

2

具体解释 RNN-T

简单来说,RNN-Ts是一种不采用注意力机制的 seq2seq 模型。如前述,传统的 seq2seq 类模型需要对整个句子的波形进行处理,才能产生结果,也就是句子。而 RNN-T 可以连续处理输入样本并输出符号,也就是逐字输出字符,并在正确的地方加入空白,从而让字符转化成单词,非常适合语音识别。

逐字听写,还能离线!RNN-T语音识别进入Gboard输入法

当然,训练这样一个模型,并且降低错误率到用户可以接受的范围,对计算量要求是可观的。不过这难不倒坐拥第二代 Cloud TPU 服务器的 Google。采用 TPU 集群训练的速度提升到了三倍。

3

如何做到手机端离线翻译?

前面提到,传统的语音识别模型是由声学、发音和语言模型拼装起来的。最后的体量非常大。以 Google 语音搜索、Gboard 等产品之前采用的那个云端语音识别模型为例,最后模型的大小超过了2GB。

而采用 RNN-T 训练的模型,和前面那个 2GB 的模型达到了同样的准确度,尺寸缩小到了450MB。但是这样仍然太大,事实上它比 Facebook.app 还大。

在 Google 2016年发布的 TensorFlow Lite 框架库里,有专门的模型优化工具。用这个工具优化过后,新的 RNN-T 模型尺寸显著缩小,只有80MB,运行速度也快了许多。现在,终于可以在智能手机上运行了。

虽然现在 Google 这边仅支持了一种语言,这个项目的研究者相信,通过其他业界参与者的努力,这一技术将很快支持其它语言,以及语音识别之外更多不同的使用场景。

逐字听写,还能离线!RNN-T语音识别进入Gboard输入法

逐字听写,还能离线!RNN-T语音识别进入Gboard输入法

喜欢这篇文章?

1)点击右下角的“好看”,让更多人看到这篇文章

2)分享到你的朋友圈和群里

3)赶快关注硅星人吧!

硅星人:(ID:guixingren123)

从科技到文化,从深度到段子,硅星人为你讲述关于硅谷的一切。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/76288.html

(0)

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

关注微信