大家好,欢迎来到IT知识分享网。
尽管传感器技术和网络飞速发展,但在获取真实时序数据时,由于人为失误或设备故障等原因,仍存在大量缺失值、噪音等异常,脏数据使算法模型难以训练。因此时序数据预处理是必要过程。
时序数据预处理旨在对各种脏数据进行处理,得到干净、标准和连续的数据,达到数据质量评价指标,提供给数据挖掘和数据预测等任务使用。时序数据预处理的主要步骤分为:时序数据清洗、时序数据整合、时序数据规约和时序数据变换,以此形成可用的时序数据集。
时序数据清洗
时序数据清洗的目的是解决缺失、异常和噪声造成的数据不准确和不一致问题[,原始时序数据中的异常具有误导性,会妨碍信息提取并导致时序预测结果,因此需要在时序数据预处理阶段解决这些异常。例如有学者根据数据相关性补全后,结合改进的模糊 C-均值聚类完成物联网时序大数据异常检测;有学者采用基于异常体征模式的清洗弱标签心电数据方法,实现心脏异常监测。
时序数据集成
时序数据集成是将多个传感器中的时序数据合并存放在同一个数据存储的过程。由于行业繁多,获取到时序数据是多源且无序的,因此时序数据集成是必要过程。有学者采用时空聚类的多源异构时序数据集成方法,将时序不同步的混乱数据进行协调处理,同步后通过时空集合标定、时空聚类矩阵和集成函数实现时序数据集成;有学者利用光学和合成孔径雷达传感器融合生成地表水时间序列,用于地表水动态监测。
时序数据归约
由于在海量时序数据上进行数据分析会造成不必要消耗,因此需要时序数据规约降低数据规模,在保证有用信息不减少情况下,尽可能减少数据分析量,而又不影响分析结果。有学者采用离散余弦变换进行维归约;有学者采用基于 Shap 方法对风电功率特征变量进行可解释降维分析。
时序数据变换
时序数据变换的作用是将时序数据变换成适合分析的形式,其中最主要的是非平稳时间序列变换。例如可以将时间序列转换为数据序列并计算全局统计属性,专门用于非平稳时间序列。
此外,关于时间序列数据增强方法
几何变换是最简单和常用的数据增强方法,如变换取值维度的翻转、缩放或变换时间维度的窗口规整等,分别如图(b)~(d)所示。
图中蓝色虚线是原始序列,红色实线是变换序列。类似“翻转”方法也可以应用在时间维度上,被称作时间镜像操作。窗口规整、下采样等操作会改变序列长度,可能需要引入额外操作来保持整体长度不变。
应用不同几何变换会产生不同的结果。例如,对于异常检测任务,缩放操作可能会将异常值缩放到正常范围内,窗口规整就不会;窗口规整或下采样操作可能会丢失异常点;翻转操作不适合预测任务,因为操作彻底改变了原序列的趋势。总而言之,几何变换方法相对简单、直观,易于结合具体任务分析不同操作的合理性,但每次只对一个序列进行操作,没有考虑数据集整体的分布特点。
此外,再说一下窗口裁剪。对序列数据进行裁剪,被称为窗口裁剪或窗口切片,通过一个滑动窗口在序列上不断滑动取样,生成多个长度更短的新序列。可将新序列拉长到与原序列长度相同,如图(e)所示;或在采样过程中引入随机性,只保留部分新序列。将这种方法应用在异常检测任务时要小心异常点是否被裁去。
对于自然语言文本,类似的做法是随机删除。针对文本数据的很多数据增强方法会改变文本长度,但自然语言模型对于文本长度并不敏感,长度的变化不影响数据进入后续的训练流程。
还有添加噪声等
比如在训练数据中添加噪声被认为是防止机器学习模型过拟合的有效手段。对于数值型序列数据,可以对每一个取值随机地添加一定的噪声来生成新的序列,且不影响序列的整体性质和标签信息,如图(f)所示,最常被用来添加的噪声是高斯噪声。
除时间域外,频率域也可实现类似操作。时间域上的序列经过傅里叶变换后可以得到其在频率域的振幅谱和相位谱。在振幅谱上随机选择区间,用基于原始振幅的统计参数重新生成一段信号替换,如下图所示。
在相位谱上随机选择区间并添加白噪声,如下图所示。
在时间域对比用这种方法的前后效果如下图所示,这种方法不改变序列的整体性质。
时频变换是常见的信号分析思路,同样可用于数据增强。在频率域添加噪声是方法之一。比如可以对传感器信号应用短时傅里叶变换STFT得到具有时序关系的谱特征,再在谱特征上应用两种数据增强方法。一是对每一个属性做局部平均,将局部平均序列拼接在原始序列的后面;二是打乱时序顺序,以增加数据的方差,这种方法会使得数据尺寸发生变化。由于STFT 变换得到的谱特征仍然具有时序关系,这种数据增强方法也被认为是在时间-频率域上进行的。
赋值调整傅里叶变换AAF及由其衍生的IAAFT可实现只在频率域进行数据增强,这类方法很好地保留了时域和频域特征,但不适合短周期信号。
对于音频数据,SpecAugment是一种在时间-频率域上做数据增强的方法,在信号的对数梅尔频谱上操作。下图a展示了一段信号的对数梅尔频谱,频谱图的横轴是时间轴,纵轴是频率大小。在时间轴上,可以进行时间规整或时间掩蔽,分别如图(b)和图(c)。
时间规整是在序列中随机选择一个时间点,拉伸该点之前(之后)的信号,压缩该点之后(之前)的信号,保证序列的长度不发生改变;时间掩蔽是在整个序列中用指定值填充一随机片段。在频率轴也可以进行类似的掩蔽操作,形成图(d)的效果,被称为频率掩蔽。实验证明该方法在语音识别任务上可以显著降低字错误率。上述方法都是针对单个序列做数据增强,生成的效率更高,但只利用序列本身的性质,没有考虑数据集整体的分布。
知乎学术咨询:
https://www.zhihu.com/consult/people/?isMe=1
担任《Mechanical System and Signal Processing》《中国电机工程学报》等期刊审稿专家,擅长领域:信号滤波/降噪,机器学习/深度学习,时间序列预分析/预测,设备故障诊断/缺陷检测/异常检测。
分割线分割线分割线分割线分割线分割线分割线分割线
基于Transformer和时间嵌入的外汇股价预测(Python)
基于门控卷积单元增强的Transformer编码器NASA涡扇发动机退化仿真数据集剩余使用寿命RUL预测(Python)
基于Arima模型和Transformer模型的能源消耗预测(Python)
基于Savitzky-Golay滤波和Transformer优化网络的multi-step水质预测模型
完整代码通过知乎学术咨询获得:
https://www.zhihu.com/consult/people/?isMe=1
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/95875.html