时间序列模型(一)—Temporal Fusion Transformers

时间序列模型(一)—Temporal Fusion Transformerss 用作时间序列的 external contex 作为架构图中 LSTM encoder decoder 的初始化输入 e 用作下面一层中 static enrichment 层的输入

大家好,欢迎来到IT知识分享网。

从今天开始总结一下最近工作中使用到的时间序列模型,TFT(Temporal Fusion Transformers) 模型。

时间序列模型(一)—Temporal Fusion Transformers

TFT 模型架构图

TFT 算法和其他时间序列处理算法的独特之处在于TFT 考虑到时间序列处理中众多复杂的因素,将这些影响因子进行了划分,具体思路如下:

1) Static Variable 静态特征(不随着时间变化的信息),在酒店产量预测问题中如hotel_id, region_id; 酒店所处的city_id 等位置信息.

2) 时变变量(Time-dependent Inputs):随时间会发生变化的变量, 时间类型变量又分为两种:

● 过去观测的时变变量(past-observed inputs):过去可知,但未来不可知,例如历史点击量,曝光量; 这里再往下细分又分为连续数值型特征、离散枚举类别型特征

● 先验已知未来的时变变量(known future inputs):过去和未来都可知,例如节假日, dayofweek(未来每天是一周的第几天)这些特征; 同样这里分为连续数值型特征、离散枚举类别型特征

TFT 算法对类别这种离散特征进行embedding 处理; embedding 技术是处理离散特征的标配,但是较少在时间序列算法中进行设计实践.TFT 对离散特征进行embedding 到一个d 维度的空间,然后对数值变量进行一个线性变换到d 维空间,这样能达到一个统一,接下来都会进入到一个特征选择网络。

TFT Architecture:input(static, past input, know future input) —> Variable Selection Net(GRN) —> Skip-LSTM (encode/decoder) —> GRN(static Enrichment) —> Skip-Masked Interpretable Mutil-head Attention(Temporal self-attention) —> GRN;

依据论文,静态特征会衍生计算出四个上下文向量 s、c、h、e ; s 用作时间序列的external contex,(c, h) 作为架构图中LSTM encoder/ decoder 的初始化输入,e 用作下面一层中static enrichment 层的输入;

值得注意的是past 和know future 变量 经过 Variable Selection 结构Skip-LSTM 之后concat 进入到GRN(static Enrichment), 然后进入attention 层,最后进入FF 层,这个架构图中有三处虚线部分都使用到了残差连接,架构图中颜色相同部分是权重参数共享机制。,

TFT 模型相比xgboost 这类树模型在时间序列预测上,有细微效果提升,这是因为TFT 结合了自回归模型特性,和相关时间序列影响因子特征,而xgboost 为代表的树模型,并没能结合历史的序列特征进行建模,这是其缺陷所在。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/98352.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信