逐字听写，还能离线！RNN-T语音识别进入Gboard输入法

大家好，欢迎来到IT知识分享网。

新模型尺寸小，可以在手机端本地使用，解决了过去语音识别云端方案的延迟问题。

文 | 光谱

很多时候，我们会发现打字聊天太累，发语音又不太礼貌。所以像 Gboard 这样的输入法就有语音听写的功能，很适合懒得打字的朋友。

但是在过去，这个功能往往需要联网才可以使用，因为识别的能力在云端。语音上传到服务器，训练好的模型进行语音识别，再传回手机。

但是情况正在改善。前不久，今天发布了一个基于 RNN-T（递归神经网络变换器）的模型。其主要特色在于体积很小，可以放在手机 app 里。

今天，Google 正式宣布将这项技术投入到 Gboard 手机输入法当中。也就是说，今后使用 Gboard 的用户，在离线状态下也可以进行语音输入了。

但不是所有用户都能第一时间感受到新功能。目前，这项技术仅支持 Google Pixel 系列手机，语种只有美国英语。

Google AI 语音识别团队的 Johan Schalkwyk 在博客中写道，自从2012年深度学习在语音识别上展现能力后，每年都会有新的深度学习模型开发出来，如深度神经网络 DNN、递归神经网络 RNN、长短时记忆网络 LSTM、卷积神经网络 CNN 等。

但是因为这些模型本身较大，需要联网使用，所以在语音识别的典型使用场景下，延迟的问题一直没有解决。

去年12月，Google 发表了一篇名为《串流移动设备端到端语音识别》的论文，提出了一种采用 RNN-T 训练，尺寸小到可以放到手机本地上使用的语音识别模型。

1）因为可以在本地离线使用，这个新模型解决了过去的技术（大模型）需要联网的延迟问题；

2）”串流“(streaming)两个字的意思是随说随听随写，也就是支持逐字识别，所以给用户的延迟感觉更低，就像一个实时的听写装置。

下面是 Google AI 播客的翻译，读者可以对这个手机端离线语音识别功能的技术有更多的了解。

RNN-T 的出现背景

在过去，语音识别系统由很多组件拼装而成：一个声学模型，将音频片段映射到音素；一个发音模型，将音素连接在一起形成单词；一个语言模型，用来表达给定短语的可能性。每一个组件都是一个模型，各自优化，一个模型更好不一定代表整体效果提升。

后来，研究者开始研究设计一个序列到序列 (seq2seq) 的神经网络模型，能够直接将音频波形映射到输出语句。这方面取得了一些进展，出现了所谓的”基于注意力“ (attention based) 等新的模型机制。然而它仍然有缺陷，主要体现在必须听完整句话才能建模，体验不佳。

后来，在语音识别领域，又出现了一种基于 RNN 的新方法名叫 CTC。它和之前最好的方法相比，对于数据对其和标注的要求更低，最终延迟降了一半。CTC 就是 RNN-T 的由来，也是这次 Gboard 输入法离线语音识别功能的底层。

具体解释 RNN-T

简单来说，RNN-Ts是一种不采用注意力机制的 seq2seq 模型。如前述，传统的 seq2seq 类模型需要对整个句子的波形进行处理，才能产生结果，也就是句子。而 RNN-T 可以连续处理输入样本并输出符号，也就是逐字输出字符，并在正确的地方加入空白，从而让字符转化成单词，非常适合语音识别。

当然，训练这样一个模型，并且降低错误率到用户可以接受的范围，对计算量要求是可观的。不过这难不倒坐拥第二代 Cloud TPU 服务器的 Google。采用 TPU 集群训练的速度提升到了三倍。

如何做到手机端离线翻译？

前面提到，传统的语音识别模型是由声学、发音和语言模型拼装起来的。最后的体量非常大。以 Google 语音搜索、Gboard 等产品之前采用的那个云端语音识别模型为例，最后模型的大小超过了2GB。

而采用 RNN-T 训练的模型，和前面那个 2GB 的模型达到了同样的准确度，尺寸缩小到了450MB。但是这样仍然太大，事实上它比 Facebook.app 还大。

在 Google 2016年发布的 TensorFlow Lite 框架库里，有专门的模型优化工具。用这个工具优化过后，新的 RNN-T 模型尺寸显著缩小，只有80MB，运行速度也快了许多。现在，终于可以在智能手机上运行了。

虽然现在 Google 这边仅支持了一种语言，这个项目的研究者相信，通过其他业界参与者的努力，这一技术将很快支持其它语言，以及语音识别之外更多不同的使用场景。

喜欢这篇文章？

1）点击右下角的“好看”，让更多人看到这篇文章

2）分享到你的朋友圈和群里

3）赶快关注硅星人吧！

硅星人：（ID：guixingren123）

从科技到文化，从深度到段子，硅星人为你讲述关于硅谷的一切。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/76288.html

逐字听写，还能离线！RNN-T语音识别进入Gboard输入法

相关推荐

发表回复