NLP领域新起之星TCN

NLP领域新起之星TCN1、TCN概念时间卷积网络以CNN网络为基础,添加了一维卷积,扩张卷积,因果卷积,残差卷积等结构。 因果卷积:可以看到每一层t时刻的值只依赖于上

大家好,欢迎来到IT知识分享网。

1、TCN概念

时间卷积网络(Temporal Convolutional Nets, TCNs)以CNN网络为基础,添加了一维卷积,扩张卷积,因果卷积,残差卷积等结构。

NLP领域新起之星TCN

(1)扩张卷积:首先来看下扩张卷积如何工作的,上图就是不同空洞系数下的扩张卷积示意图。d=1、2、4代表的是空洞系数的不同取值,三条蓝色线代表卷积核的大小为3(k),输入的是从X0到XT的一维向量,输出与输入维度一致。( 当 d = 1时,空洞卷积退化为普通卷积 )

因果卷积:可以看到每一层 t 时刻的值只依赖于上一层t ,t-1,..时刻的值,体现了因果卷积的特性;

而每一层对上一层信息的提取,都是跳跃式的,且逐层 dilated rate 以 2 的指数增长,体现了空洞卷积的特性。

由于采用了空洞卷积,因此每一层都要做 padding(通常情况下补 0),padding 的大小为 (k-1)d ,因此上图padding分别为:2、4、8。

NLP领域新起之星TCN

(2)残差模块:TCN 的残差模块内有两层扩张卷积(Dilated Causal Conv)和 ReLU 非线性函数,且卷积核的权重都经过了权重归一化(WeightNorm)。此外TCN 在残差模块内的每个空洞卷积后都添加了 Dropout 以实现正则化,如上图所示。

2、TCN优缺点

TCN包含以下优点:

  1. 并行 RNN模型某一时刻的计算需依赖于上一层的计算结束,但是由于卷积核一致,CNN中卷积操作可以并行计算。因此,无论是在训练还是评估中,TCN都能够保存更加长期的记忆。
  2. 感受野的大小灵活 TCN可以通过叠加更多的扩张卷积层、使用更大的扩张因子或者使用更大的卷积核来增加感受野,所以TCN能够更加灵活的控制模型的内存大小,并且容易迁移到其它领域中。
  3. 梯度稳定 TCN具有不同于序列时间方向的反向传播路径,避免了RNN中的梯度爆炸和梯度消失问题。
  4. 训练时内存需求低 输入序列非常长的情况下,LSTM和GRU需要使用大量的内存来存储门结构的结果。而TCN中卷积核是跨层贡献的,反向传播的路径仅仅依赖于网络的深度。
  5. 可变长度的输入 与RNN一样,TCN也可以通过滑动一维卷积核来接收任意长度的输入

TCN也有以下缺点:

  • TCN需要将原始序列保留到有效历史长度,因此在评估时可能需要更多的内存。
  • 为进行预测,不同的领域可能对模型所需的历史记忆有不同的需求。所以,当其记忆长度由短变长时,TCN可能表现不好,因为没有足够大的感知域。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/64567.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信