处理缺失数据的全面回顾:探索特殊的缺失机制

处理缺失数据的全面回顾:探索特殊的缺失机制缺失数据在数据科学中构成重要挑战 影响决策过程和结果

大家好,欢迎来到IT知识分享网。

论文名称:A Comprehensive Review of Handling Missing Data: Exploring Special Missing Mechanisms

论文地址:https://arxiv.org/pdf/2404.04905

摘要

缺失数据在数据科学中构成重要挑战,影响决策过程和结果。了解缺失数据的概念、发生原因以及为何适当处理缺失数据至关重要,尤其是在处理实际数据时,尤其是在表格数据中,这是现实世界中最常用的数据类型之一。文献中定义了三种缺失机制:完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR),每种机制在插补中都提出了独特的挑战。大多数现有工作都集中在相对容易处理的MCAR上。MNAR和MAR的特殊缺失机制较少被探讨和理解。本文回顾了处理缺失值的现有文献。它比较和对比了现有方法在处理不同缺失机制和数据类型方面的能力。它确定了现有文献中的研究空白,并提出了未来研究的潜在方向。本综述的信息将帮助数据分析师和研究人员在处理现实世界问题中的缺失数据时采用和推广良好的实践。

关键词:缺失数据、处理表格数据中的缺失值、数据插补、缺失机制、MCAR、MAR、MNAR

1. 引言

缺失数据指的是数据集中特定字段或属性中数值或信息的缺失。换句话说,当某些变量或观测中的数据点不可用或未记录时,就会出现缺失数据。在数据收集、存储或处理过程中,缺失数据可能由于各种原因而产生。例如,在调查或问卷调查中,参与者可能选择不回答特定问题,导致这些特定项目的数据缺失。同样,在科学实验中收集的传感器数据中,如果传感器发生故障或未能准确记录数据,就会出现缺失数据。

处理缺失数据在数据科学中至关重要,因为它对决策过程和研究结果产生重大挑战。在处理现实世界数据时,处理缺失值成为遇到的众多障碍之一。数据分析任务的准确性和效率严重依赖数据质量,这使得对处理缺失值的问题对于处理表格数据的数据分析师和研究人员至关重要。处理不当的缺失值可能导致偏见结论、发现的普适性受损以及阻碍健壮模型的发展。因此,探索和实施适当的策略来处理缺失值对于确保数据驱动分析和决策过程中的准确和可靠结果至关重要。

缺失数据的发生可以归因于各种机制,每种机制都与数据的特定假设相关。在常见的机制中,有完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR)。虽然每种机制都带来挑战,但需要特别关注MAR和MNAR,因为它们代表了最复杂且最不为人了解的情况,没有明确的假设或定义。我们将这些机制称为特殊缺失机制,由于它们与敏感数据隐私问题的关联以及可能提供隐藏信息的潜力,因此尤为重要。它们在准确插补缺失值方面引入了额外的复杂性和挑战,对数据分析和决策过程具有重要影响。因此,探索管理这些不同缺失机制的相关技术变得更加迫切。

现有文献中包含大量关于缺失数据插补的研究。Little & Rubin [54] 广泛研究了不完整数据的普遍性,强调了需要健壮的统计方法来有效解决这个问题。已经发表了几篇关于缺失数据主题的综述文章、调查和书籍。例如,[56] 讨论了医疗保健中的缺失数据插补方法。Norazian等人 [83] 特别关注处理时间序列数据集中缺失数据的插补方法和软件。Garcia等人 [22] 分析了模式分类任务中的缺失数据问题,比较了不同方法,包括集成和模糊方法。其他研究,如Velasco等人 [102],深入探讨了海洋系统传感器数据中的缺失值。Emmanuel等人 [17] 和Jegadeeswari等人 [37] 讨论了处理缺失数据的机器学习方法,但没有专门探讨深度学习方法。Adhikari等人 [1] 关注物联网中的缺失数据,尽管没有明确讨论特殊缺失机制。Liu等人和Sun等人Ma等人 [63] 提出了一种基于贝叶斯的插补方法调查论文,而Graham等人 [26] 研究了正态模型多重插补的利用。Dong等人 [16] 比较了多重插补、完全信息最大似然和期望最大化算法。Sun等人 [95] 进行了关于深度学习和传统机器学习方法的综述和比较研究。还有一些综述关注其他领域 [ 77 , 2 , 53 , 87 ] [77,2,53,87] [77,2,53,87]

然而,值得注意的是,大多数这些研究主要集中在最常见的MCAR情况上,而较少涉及更复杂的MAR和MNAR情况。图1显示,处理具有特殊缺失机制的缺失数据方法非常有限。此外,即使对于处理特殊缺失机制的方法,不同实验中生成缺失数据的标准化方法的缺乏阻碍了我们对方法之间进行有意义比较的能力。因此,迫切需要进行全面调查,考虑各种缺失机制,特别是针对表格数据 – 最常见的数据类型。

1.1. 贡献

我们的研究对该领域做出了几项重要贡献:

  1. 对表格数据中特殊缺失机制的全面回顾:我们提供了对处理缺失数据的各种方法的全面总结和深入讨论,特别侧重于表格数据中的特殊缺失机制。我们的回顾涵盖了传统技术,如删除和插补,以及基于表示学习的新兴方法。我们主要关注基于插补的方法,随着现代数据集的规模和复杂性不断增长,传统的统计和机器学习方法可能会显得不够。通过强调基于深度学习的策略,我们的工作旨在为研究人员和实践者提供一个有价值的资源,以有效应对缺失数据挑战。
  2. 对缺失数据生成方法的彻底检查:在我们的回顾中,我们详细记录了用于生成缺失数据的不同方法,特别是针对较少涉及的随机缺失(MAR)和非随机缺失(MNAR)机制。尽管先前的研究主要集中在MCAR上,但我们意识到对MAR和MNAR给予的关注有限。我们的目标是提高对特殊缺失机制的重要性和多样性的认识,并鼓励未来研究更全面地探索这些机制。
  3. 未来研究方向的指导:为了进一步推动插补技术领域的发展,我们提出了未来研究方向,旨在克服现有方法的局限性,并促进先进技术在实际环境中的应用。通过确定文献中的研究空白并提出插补方案的新应用,我们的研究为研究人员和实践者提供了一份路线图。我们旨在促进在不同类型数据上实施插补方法,最终促进缺失数据处理领域的发展。

本文的其余部分组织如下:第2节介绍了关于缺失数据的关键特征的背景,包括缺失数据、缺失模式和缺失机制,以及处理缺失数据的常见方法。第4节介绍了处理缺失数据技术的分类法。第5、6、7节主要介绍了处理缺失数据的方法。第8节列出了文献中用于特殊缺失机制的常用缺失数据生成方法。第9节回顾了用于衡量其性能的评估指标。此外,第10节提出了工作的挑战和未来方向。

处理缺失数据的全面回顾:探索特殊的缺失机制

图1:根据关键字搜索检索的处理缺失数据文章数量,包括MAR或MNAR特殊机制关键字

2. 背景和初步

让我们考虑一个完整的数据矩阵,具有 k k k个变量和 n n n个实例,

X = ( x 1 , … , x n ) T ∈ X k \boldsymbol{X}=\left(\boldsymbol{x}_{1}, \ldots, \boldsymbol{x}_{n}\right)^{T} \in \mathcal{X}^{k} X=(x1,,xn)TXk
在缺失数据的背景下,每个样本可以分为两部分:观察部分和缺失部分,表示为 X = ( X o , X m ) X=\left(X^{o}, X^{m}\right) X=(Xo,Xm)。这里, X o X^{o} Xo 表示没有任何缺失值的部分,而 X m X^{m} Xm 包含缺失值。另外,对于 X \boldsymbol{X} X,还有一个 n × k n \times k n×k 的缺失数据指示器矩阵(掩码),用 M \boldsymbol{M} M 表示,其中个体 i i i 在变量 j j j 上的元素 m i j m_{i j} mij M i j = 0 \boldsymbol{M}_{\boldsymbol{i j}}=0 Mij=0 表示缺失值, M i j = 1 \boldsymbol{M}_{\boldsymbol{i j}}=1 Mij=1 表示观察值。符号 Ψ \Psi Ψ 表示缺失参数。缺失参数描述了缺失值是如何根据缺失的条件分布生成的。这个分布可以表示为:

f ( M ∣ X , Ψ ) f(\boldsymbol{M} \mid \boldsymbol{X}, \Psi) f(MX,Ψ)

这意味着掩码 M \boldsymbol{M} M 的条件分布取决于数据值 X \boldsymbol{X} X 和缺失参数 Ψ \Psi Ψ。由缺失参数 Ψ \Psi Ψ 控制的三个方面包括:缺失率、缺失模式和缺失机制。

2.1. 缺失率

缺失率指的是整个数据集中缺失数据的比例。它在确定解决缺失数据问题的难度方面起着至关重要的作用。较高的缺失率表示数据中有较大比例的缺失,导致算法分析的信息较少,从而使任务变得更具挑战性。然而,缺失数据对算法的影响取决于问题设置和数据分布。在某些情况下,缺失数据可能包含异常值或提供较不重要的信息,从而对算法性能的影响较小。

处理缺失数据的全面回顾:探索特殊的缺失机制

图2:不同特征中缺失率的比较。左图展示了均匀分布的缺失数据,每个特征的缺失率相似。右图展示了不均匀分布的缺失数据,各个特征的缺失率不同。这种可视化呈现了数据集中缺失数据模式的多样性。

缺失率可以在数据集中均匀分布或不均匀分布。例如,在表格数据集中,缺失数据可能出现在多个列中,每个列的缺失率可能相同,或者某些列的缺失率可能高于其他列(见图2)。在图像数据集中,一些图像可能会随机出现少量缺失像素,而其他图像可能会有大部分图像缺失。同样,在多模式传感器数据集中,一些传感器可能长时间发生故障,导致大量信息缺失,而其他传感器可能只丢失一两个信号读数。缺失数据的严重程度可能会对模型和分析的性能产生重大影响。因此,了解缺失率及其影响也是研究和分析的关键方面之一。

2.2. 缺失模式

在现有文献中 [5],观察到由于各种原因,多变量数据集中经常出现缺失模式(见图3)。多变量数据中的这些缺失模式可以归类为不同类型:

单变量和多变量模式:

处理缺失数据的全面回顾:探索特殊的缺失机制

图3:多变量数据中的缺失数据模式。蓝色为观察 X o X^{o} Xo,绿色为缺失部分 X m X^{m} Xm。从左到右的缺失模式分别为:单变量、单调、文件匹配和一般

在单变量模式中,数据集中仅一个变量或列中存在缺失值。例如,在包含有关年龄、收入和教育信息的数据集中,当其中一个变量存在缺失值,而其他变量具有完整数据时,就会出现单变量缺失模式(见图3 单变量)。

单调和非单调模式:

在单调缺失模式中,数据集中的缺失值在一个方向上系统地出现。这意味着一旦一个值缺失,数据集中后续的值也会缺失。单调缺失模式可以分为“完全随机单调缺失(MCAR)”或“非随机单调缺失(MNAR)”(见图3 单调)。

连接和非连接模式:

图3 文件匹配展示了一个连接模式,可以通过水平或垂直移动到所有蓝色单元格。然而,如果移除第一列,这种模式就会变为非连接。

缺失模式的问题是普遍存在的,出现在各种数据类型中,如表格数据、时间序列数据、图像数据、传感器数据、调查数据和生物医学数据中。虽然这些缺失模式在数据分析和建模中带来挑战,但我们的审查专注于表格数据集,因为它们在各个领域中具有普遍性和重要性。在承认其他数据类型中缺失模式的复杂性的同时,我们优先对表格数据中的缺失机制进行详细调查,而不是缺失模式。

!Enders提出的示例

表1:Enders [18] 提出的示例

缺失机制指的是在数据集中生成缺失值的潜在过程。缺失机制本质上描述了 X o X^{o} Xo X m X^{m} Xm 之间的规则或关系。理解缺失机制至关重要,因为它揭示了潜在的复杂性,并提供了洞察力,帮助我们理解数据中的统计关系。表1展示了 [18] 提出的一个缺失机制示例。这个表包含两个变量:智商和工作绩效评分。按智商排序的完整数据在左两列。不同机制下工作绩效评分的缺失值显示在右三列。符号 ‘?’ 表示每个单元格中的缺失值。对于完全随机缺失(MCAR)数据,缺失了随机评分值(即,没有特定的缺失机制)。对于随机缺失(MAR)数据,所有具有缺失工作绩效评分的案例都属于智商较低的参与者(即,智商值决定了评分的缺失性)。对于非随机缺失(MNAR)数据,所有小于9的评分值都缺失(即,一些特定的评分值缺失,它们不依赖于智商值,而是依赖于评分本身的某些条件)。

2.3.1. 完全随机缺失(MCAR)

MCAR 机制中的缺失数据意味着缺失与研究中的特定观察或数据集中的任何其他变量无关。换句话说,具有缺失数据和没有缺失数据的观察之间没有系统性差异。

从数学上讲,我们可以表达为:

f ( M ∣ Ψ ) ∀ X , Ψ f(\boldsymbol{M} \mid \Psi) \forall \boldsymbol{X}, \Psi f(MΨ)X,Ψ

这个表达表示缺失仅仅取决于参数 Ψ \Psi Ψ,与观察或缺失数据本身没有关系。

为了说明这个概念,让我们考虑一个记录公司员工各种特征的表格。由于存储空间不足,一些信息在所有特征中都是随机缺失的。在这种情况下,缺失值与薪水、性别或任何其他信息无关。缺失是纯随机的,不显示任何系统模式或与数据集中的观察数据或其他变量的关联。

2.3.2. 随机缺失(MAR)

在 MAR 机制中,数据的缺失性可以根据研究中的其他变量进行预测,但不能直接从缺失数据本身预测。换句话说,缺失性的概率取决于观察数据,但不取决于具体的缺失值。

从数学上讲,我们可以表达为:

f ( M ∣ X o , Ψ ) ∀ X m , Ψ f\left(\boldsymbol{M} \mid X^{o}, \Psi\right) \forall X^{m}, \Psi f(MXo,Ψ)Xm,Ψ

这个表达表示数据的缺失性,由 M \boldsymbol{M} M 表示,条件依赖于观察部分 X o X^{o} Xo 和参数 Ψ \Psi Ψ,而不依赖于具体的缺失值 X m X^{m} Xm

回到员工记录的例子,假设薪水特征中存在缺失值。进一步分析发现,所有缺失的薪水值对应于女性员工。这表明薪水变量 X m X^{m} Xm 的缺失与观察到的性别变量 X o X^{o} Xo 有关。在这种情况下,缺失机制被分类为 MAR,因为可以根据观察到的性别信息预测薪水特征中的缺失性。

2.3.3. 非随机缺失(MNAR)

与完全随机缺失(MCAR)和随机缺失(MAR)相反,MNAR(非随机缺失)的数据表明缺失性直接与缺失观察本身的值相关,即 X m \boldsymbol{X}^{m} Xm,即使在观察部分 X o \boldsymbol{X}^{o} Xo 的条件下也是如此。这种内在联系表明数据缺失的原因与缺失的值相关,给数据分析增加了复杂性。
举例来说,考虑一项关于敏感健康状况的医学研究,患者可能不愿透露那些带有污名或极其个人的信息。如果症状更严重的患者不太可能报告他们的状况,那么缺失的数据(症状的严重程度)与未报告的数值直接相关。这种情况就是MNAR的一个例子:缺失(未报告)并非随机发生,而是与疾病严重程度相关,这是研究中的一个关键信息。

处理MNAR数据具有挑战性,因为标准方法,如删除或简单插补,可能导致结果出现偏差。在给定的例子中,忽略或错误地插补缺失数据可能导致低估疾病的严重程度,因为那些症状更严重的患者在数据中被低估。处理MNAR需要复杂的技术,通常涉及对缺失数据机制本身进行建模,以确保统计分析和研究结果的完整性和准确性。

我们已经概述了MNAR缺失机制的一般定义。然而,值得注意的是,MNAR下的具体缺失机制可能因情况而异,每种情况都具有不同的缺失模式。为了更好地分类,最近的研究提出了两种明显的亚型,以进一步将MNAR细分为更细粒度的类别。在这一小节中,我们深入探讨这些亚型,并提供示例来说明它们的基本机制。

集中型MNAR

集中型MNAR指的是缺失过程仅取决于缺失值 X m X^{m} Xm,而不取决于观测值 X o X^{o} Xo 的情形。从数学上讲,可以表示为:

f ( M ∣ X i o , Ψ ) ∀ X i m , Ψ f\left(\boldsymbol{M} \mid X_{i}^{o}, \Psi\right) \forall X_{i}^{m}, \Psi f(MXio,Ψ)Xim,Ψ

在前面的例子中,让我们考虑这样一种情况:一名薪水较高的员工不愿透露他们的收入,故意隐藏他们的薪水信息,导致出现缺失值。在这种情况下,缺失与 X m X^{m} Xm 的数值直接相关。

扩散型MNAR

扩散型MNAR发生在缺失过程涉及缺失值和观测值的情况。从数学上讲,可以表示为:

f ( M ∣ X i m , X i o , Ψ ) ∀ X i m , Ψ f\left(\boldsymbol{M} \mid X_{i}^{m}, X_{i}^{o}, \Psi\right) \forall X_{i}^{m}, \Psi f(MXim,Xio,Ψ)Xim,Ψ

在扩散型MNAR的情况下,没有统计方法可以仅通过观测数据识别缺失模式。研究人员必须依靠自己的判断和领域知识来理解和处理扩散型MNAR。

举例来说,考虑一项包括有关收入、教育水平和年龄的调查。收入较高的参与者可能不太愿意回答与收入有关的问题,尤其是如果他们属于年龄较大的一代。另一方面,年轻参与者可能不会因为收入水平而表现出同样的回避回答与收入相关问题的倾向。在这种情况下,缺失过程涉及观测到的年龄值和未观测到的收入值,即使在给定年龄的情况下。

此外,在气象学等领域,缺失数据可能源自过时的风速传感器或设备故障。例如,无法记录异常高风速的风速传感器可能导致在强烈飓风期间出现缺失数据。然而,即使是更新的风速传感器也可能在极端风速下损坏。在这种情况下,缺失过程取决于未观测到的风速和设备的观测年龄。

3. 相关工作

在数据分析领域,不完整数据集是一个普遍存在的问题,其潜在原因各异。这些缺失数据可能源自数据收集的限制、数据采集设备的故障或不响应的调查参与者。Little & Rubin [54] 对不完整数据的普遍性进行了广泛研究,强调了需要健壮的统计方法来有效解决这一问题。

已经发表了许多关于缺失数据主题的综述文章、调查和书籍。例如,文章如 [56] 讨论了在医疗领域中的插补方法。Norazian 等人 [83] 专注于处理时间序列数据中缺失数据的插补方法和软件。Garcia 等人 [22] 分析了模式分类任务中的缺失数据问题,比较了包括集成和模糊方法在内的不同方法。其他研究,如 Velasco 等人 [102],深入探讨了海洋系统传感器数据中的缺失值。Emmanuel 等人 [17] 和 Jegadeeswari 等人 [37] 讨论了处理缺失数据的机器学习方法,但没有专门探讨深度学习方法。Adhikari 等人 [1] 关注物联网中的缺失数据,尽管特殊的缺失机制并未明确讨论。Liu 等人 [55] 和 Sun 等人在医疗保健领域提供了缺失值处理综述。Ma 等人 [63] 提出了一种基于贝叶斯的插补方法综述文章,而 Graham 等人 [26] 研究了正态模型多重插补的应用。Dong 等人 [16] 比较了多重插补、完全信息最大似然和期望最大化算法。Sun 等人 [95] 进行了关于深度学习和传统机器学习方法的综述和比较研究。Pereira 等人 [76] 提出了使用自动编码器进行缺失数据插补的综述。还有其他关于其他领域的综述,如 [ 77 , 2 , 53 , 87 ] [77,2,53,87] [77,2,53,87]

尽管存在大量文献,但目前还没有专门研究调查不同特殊缺失机制下插补方法的实用性。本调查旨在填补这一空白,通过全面分析插补方法、计算平台和处理缺失数据的新视角,来比较这些特殊缺失机制在实际应用中的实用性。

3.1. 贡献

在本综述中,我们的主要贡献可以总结如下:

  1. 我们总结和讨论了处理具有特殊缺失机制的缺失数据的各种方法。随着数据集变得越来越大和复杂,传统的基于统计和机器学习的方法可能无法足够强大地解决这些挑战。通过专注于基于深度学习的方法,我们旨在为研究人员和从业者提供一个有价值的资源,以有效处理不同领域中的缺失数据。
  2. 我们总结了现有文献中不同的缺失数据生成方法。正如前面提到的,大多数方法仅利用MCAR缺失机制,只有少部分方法提到了MAR和MNAR。对于考虑MAR和MNAR的方法,它们通常使用不同的生成方法,这使我们很难进行比较。
  3. 我们提出了未来研究方向,以克服现有插补技术的局限性,并增强先进方法在实际环境中的应用。通过识别文献中的空白并突出插补方案的新应用,我们旨在指导研究人员和从业者在不同类型数据的插补方法上的实施,并推动缺失数据处理领域的发展。

总的来说,本综述作为处理缺失数据领域的研究人员和从业者的全面资源。通过整合关于生成具有特殊缺失机制的缺失数据的知识,并总结基于深度学习的插补方法,我们旨在促进在各种领域中处理缺失数据的更有效和可靠的技术的发展。

4. 处理缺失数据的现有方法

4.1. 分类法

在这项工作中,我们将研究一些可以处理所有类型缺失机制并将它们的能力扩展到特殊缺失机制的典型方法。表2和图4展示了用于处理缺失数据的主要方法及其引用的主要分类法。这些方法可以大致分为三类:删除方法、插补方法和表示学习方法。

  • 删除

删除方法是处理缺失数据最直接的方法,即包含缺失值的行或列简单地从数据集中删除。虽然删除方法易于理解和实施,但在处理遵循特殊缺失机制的缺失数据时可能会导致偏见结果。数据的无差别删除可能导致有价值信息的丢失,并可能在后续分析中引入偏见。

  • 插补

为了解决删除方法的局限性,插补方法在处理缺失数据中发挥着至关重要的作用。插补技术旨在恢复缺失值,同时保持完整数据集的完整性。当可用数据样本有限或处理具有特殊缺失机制的缺失数据时,插补方法非常宝贵。插补方法涉及使用各种策略填补缺失值,如均值插补、回归插补和机器学习技术。通过利用观测数据的信息,插补确保更全面的分析,并减少数据删除引入的潜在偏见。在本综述中,我们主要关注插补方法。图5显示了 Scopus 数据库中关于不同插补方法的关键字搜索结果(时间跨度为2000年至2023年)。我们调查的关键方面在于基于神经网络的插补方法。图6展示了网络插补在所有数据类型中的趋势。

  • 表示学习
    表征学习,或特征学习,是机器学习中的一种强大方法,可以自动从原始数据中学习有意义的表征或特征。这些学习到的表征通过捕捉数据中的潜在结构和模式,使得下游任务更加有效。表征学习方法可用于通过利用学习到的表征来处理缺失数据,从而填补缺失值。与仅依赖原始数据进行填补不同,利用学习到的表征可以提高填补数值的质量和准确性。表征学习的优势在于其揭示数据中复杂关系和依赖性的能力,这可以增强填补过程,并导致更健壮和可靠的结果。因此,表征学习为解决缺失数据挑战提供了一个有前途的途径。有时,表征学习会与其他填补技术结合使用,或作为一种全面的填补策略。

5. 删除法处理缺失数据

5.1. 整体删除法

整体删除法,也称为完全案例分析,是数据分析中常用的方法。它涉及从数据集中删除任何一个或多个缺失值的案例。例如,如果第一个实例在第 j j j 列中有一个缺失值,整个第一个实例将被从分析中移除。

5.2. 配对删除法

配对删除法,也称为可用案例分析,通过仅在受影响特征用于分析时删除包含缺失值的案例来处理缺失值。例如,如果第一个实例在第 j j j 列中有一个缺失值,该第一个实例将仅在分析第 j j j 特征时被排除。但是,在涉及其他特征的分析中,它将被包括在内。

当缺失数据符合MCAR假设时,整体删除和配对删除方法均表现良好,其中缺失与观察和未观察变量无关。在MCAR情况下,完整数据可以被视为原始目标人群的简单随机样本。然而,当缺失数据遵循特殊的缺失机制,如MNAR时,删除方法可能导致参数估计的偏差,并损害分析的有效性。

例如,假设所有缺失数据发生在高收入群体中的个体,并删除这些实例。那么,结果数据集将仅代表低收入群体的个体,引入偏差并可能导致误导性结果。此外,使用删除方法会减少充足的样本量,可能导致统计功效和精度下降。

在使用删除方法时要谨慎,并考虑其局限性。这些方法丢弃了缺失值中的有价值信息,可能导致丢失重要见解。可以探索替代方法,如填补方法,以更有效地处理缺失数据并减轻与删除方法相关的限制。

6. 填补法处理缺失数据

填补方法包括各种技术。在本节中,我们将填补方法分为几个子部分,包括基于统计的方法、基于机器学习的方法、基于深度学习的方法和优化方法。这些技术用于填补数据集中的缺失值。

处理缺失数据的全面回顾:探索特殊的缺失机制

表2:处理缺失数据的不同方法概述及其引用。MI和SI分别表示多重填补和单一填补。

处理缺失数据的全面回顾:探索特殊的缺失机制

图4:处理缺失数据的方法分类

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图5:从Scopus数据库中针对MNAR和MAR数据填补(所有数据类型)方法按年份(2000-2023)的关键词搜索

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图6:从Scopus数据库中针对基于神经网络的数据填补(所有数据类型)方法按年份的关键词搜索

我们将介绍处理缺失数据的填补方法,同时分析它们处理特殊缺失机制的能力。

6.1. 基于统计的填补法

统计填补法分为单一填补(SI)和多重填补(MI)两种类型。

6.1.1. 单一填补

单一填补涉及使用单个估计值替换缺失值。在这种方法中,每个缺失值都使用一个单个值进行填补,利用特定的假设或统计方法。这个过程确保每个缺失值被分配一个单一的填补值,从而进行一次性填补。

  • 均值、中位数和众数填补

均值、中位数和众数填补方法涉及计算每列非缺失值的均值、中位数或众数,并使用这些值来填补缺失值。均值和中位数填补适用于数值数据,而众数填补更适用于分类或二元数据,因为它们没有均值或中位数值。这些方法不仅适用于表格数据集,还适用于其他格式,如图像数据和时间序列数据,因为它们可以用数值格式表示。然而,值得注意的是,由于这些方法依赖于简单计算,可能无法捕捉数据分布的复杂底层结构。

虽然均值、中位数和众数填补方法易于实施,但它们有一定的局限性。只有在缺失机制遵循MCAR假设时才有效。均值填补可能导致样本量的过度估计、方差的低估和负偏相关。尽管存在这些缺点,在某些数据集和场景中,均值填补仍可能优于其他填补技术。

然而,值得注意的是,均值、中位数和众数填补方法可能不适合处理具有特殊缺失机制的缺失数据,因为它们不考虑与这些机制相关的独特模式和复杂性。这些方法提供了简单的解决方案,但可能无法完全捕捉缺失数据问题的复杂性。因此,在这种情况下应考虑专门设计用于处理特殊缺失机制的替代填补方法。

  • LOCF和NOCB

最近观察值前推(LOCF)和最近观察值后推(NOCB)方法涉及使用缺失值前后最近的观察值来填补缺失值。这些方法通常用于纵向和时间序列数据集,并且与缺失模式问题相关,其中变量在一系列时间点上重复测量或观察与最近点相关。LOCF使用上次观察测量的值来填补缺失值,而NOCB使用下次观察测量的值来填补缺失值。

值得注意的是,这些方法适用于实例或观察具有时间或顺序关系的情况。然而,如果实例或观察相互独立,例如在横断面数据集中,以及处理特殊缺失机制时,这些方法可能不合适。

6.1.2. 多重填补

多重填补是一种广泛认可的处理缺失数据的方法,最初由Rubin提出。它涉及使用多个可能值替换缺失值,通常使用统计模型和算法。多重填补生成多个完成数据集,每个数据集包含缺失数据的填补值。然后,使用标准统计方法分析这些填补数据集,并将结果合并以获得有效的推断和估计。

  • 期望最大化(EM)算法

MLI中的一种技术是期望最大化(EM)算法,由Dempster [13]引入。EM算法是一种迭代算法,旨在找到最大似然估计并适应缺失数据问题的模型。EM不直接插补缺失值,而是基于两个步骤估计数据-期望步骤(E-Step)和最大化步骤。这个过程重复进行,直到获得MLI估计。参数序列收敛到MLI估计,隐含地平均了缺失值的分布。EM可用于估计感兴趣的均值、标准差和相关性。然而,EM也有一些局限性。它需要大样本量,并假设缺失机制是MAR [27]。在MAR下收敛是有保证的,但收敛速度取决于缺失数据的比例。缺失较少会导致快速收敛,而缺失较多会导致收敛缓慢。此外,EM是一种复杂的方法,其收敛可能较慢,并可能产生次优结果。因此,EM是一种可以解决MAR数据但无法解决MNAR数据的良好算法。

  • 矩阵补全方法

矩阵补全是一种用于填补整理数据中缺失条目的方法。这种方法通常用于推荐系统。然而,当处理多样化的数据格式时,这种方法可能面临限制。例如,不规则或非结构化数据可能无法使用固定大小的矩阵充分表示。同样,长度不同的时间序列数据可能在将它们适配到矩阵中时带来挑战。此外,具有大量缺失值的矩阵会变得稀疏,使处理严重缺失数据变得困难。尽管存在这些限制,矩阵补全仍然是一种有价值的数据插补方法。它包括常见方法,如主成分分析(PCA)、概率主成分分析(PPCA)和概率矩阵分解(PMF)。这些方法旨在对数据矩阵进行假设,以创建一个良好定义的问题,如最大化行列式、正定性或低秩。通过假设低秩结构,即条目之间存在相关性,当有足够的观察条目时,可以使用凸优化来恢复缺失条目。

  • 主成分分析

主成分分析(PCA)是一种在多元统计和机器学习中使用的降维技术。其主要目标是将高维数据集转换为一个保留尽可能多原始数据方差的低维表示。在Philip等人的研究中,采用的PCA方法类似于引入的模型平面投影。在从可用数据构建初始PCA模型之前,估计适当数量的主成分以确保最佳的降维。对于处理缺失数据,他们采用了受PCA启发的方法,涉及开发一种称为偏最小二乘(PLS)的回归模型。这种基于PLS的回归模型用于插补缺失值,有效地增强了数据集的完整性。插补过程通过迭代地用更新后的数据矩阵中的回归载荷生成的插补值替换缺失值,确保了对缺失数据的稳健和准确的完成。

基于PCA的缺失数据插补方法通常根植于坚实的理论框架,从而在应用于混合数据集时提高算法性能。然而,这种方法面临挑战,如高计算复杂性、潜在的收敛问题和过拟合的风险。处理包含大量缺失值的数据集时,插补结果可能不稳定。尽管具有优点,但单独使用PCA对于缺失数据插补也存在一些限制。PCA已通过各种方法进行了扩展,如PPCA和贝叶斯主成分分析(BPCA),以解决这些限制并增强插补过程。PPCA结合了EM和PCA技术,而BPCA则结合了贝叶斯估计和PCA。

  • 概率主成分分析

基于概率主成分分析(PPCA)的缺失数据插补方法结合了两种关键技术,即PCA和最大似然估计(MLE)。这种方法利用PCA区分交通流的重要和主导成分,有效地将其与琐碎和无法建模的元素分离。另一方面,MLE用于基于识别的主要成分估计缺失值。

从潜在变量分析的角度来看,PPCA捕捉已知数据的统计特征,间接构建一个潜在的滑动回归模型。这种策略利用流数据中的冗余性来建立观察时间序列的较低内在维度。随着缺失值逐渐恢复,潜在模型同时构建。这个过程在周期性、局部可预测性和交通流的其他统计特性之间取得了良好的平衡,使其在胜过传统方法时特别有效,尤其是在处理相对高的缺失数据比例时。

通过结合PCA和MLE的优势,基于PPCA的方法为处理缺失数据提供了强大可靠的解决方案。它允许在交通流数据集中高效地插补缺失值,从而提高数据完整性并改善与传统方法相比的性能。

  • 概率矩阵分解

概率矩阵分解(PMF) [ 38 , 30 ] [38,30] [38,30]是一种广泛用于缺失数据插补的矩阵分解技术。它将数据矩阵分解为两个较低维度的矩阵,从而有效地表示大型数据集。PMF提供了可扩展性和抗过拟合性,适用于各种数据类型,如连续、二元或有序数据。该方法利用随机推断方法处理大型数据集,通过随机子采样缺失矩阵条目来增强计算效率。然而,PMF的一个关键缺点是其假设缺失数据是MAR的,这意味着PMF无法解决所有具有特殊缺失机制的缺失数据。

  • 贝叶斯方法

在基于贝叶斯的缺失数据插补模型中,缺失值被视为从适当概率分布中随机抽取的未知参数。贝叶斯范式通过估计给定观察数据和任何可用先验知识的情况下后验分布来对缺失值周围的不确定性建模。贝叶斯插补的过程涉及指定一个捕捉观察数据和缺失值之间关系的概率模型。该模型可以整合各种信息源,如对缺失值或基础数据生成过程的先验信念。通过将观察数据与概率模型结合起来,贝叶斯方法通过后验估计推断缺失数据的可能值及其不确定性。

  • 链式方程多重插补(MICE)

6.2. 基于机器学习的插补

基于机器学习的插补方法利用无监督或监督学习来估计数据集中的缺失值,利用非缺失数据中的可用信息进行精确预测。机器学习的优势在于其预测能力,能够捕捉数据中的复杂关系和模式。此外,这些方法灵活,对噪声和异常值具有鲁棒性,并且可以处理各种数据类型,适应不同的缺失数据模式。它们在减少偏差和处理大型数据集方面的有效性使其成为增强涉及不完整数据的分析准确性和可靠性的强大且多功能的解决方案。在后续部分,我们将介绍常见的方法,如回归、分类和聚类。

6.2.1. 基于回归的插补

回归是一种监督学习方法。基于回归的缺失数据插补方法使用回归模型来估计表格数据集中的缺失值。这些方法使用观察到的数据创建模型,将具有缺失值的变量视为因变量,并使用其他完整变量作为预测变量 [ 92 , 89 , 33 ] [92,89,33] [92,89,33]。然后利用回归模型根据预测变量的值来预测缺失值。假设我们将 X i k X_{i k} Xik表示第 i i i个实例的第 k k k列的缺失值。线性回归插补模型如下所示:

X i k = β 0 + β 1 X i 1 + β 2 X i 2 + β 3 X i 3 + , … , β K X i K X_{i k}=\beta_{0}+\beta_{1} X_{i 1}+\beta_{2} X_{i 2}+\beta_{3} X_{i 3}+, \ldots, \beta_{K} X_{i K} Xik=β0+β1Xi1+β2Xi2+β3Xi3+,,βKXiK

标准的基于回归的插补技术包括均值/众数插补、简单线性回归、多重插补和非线性回归。虽然线性和逻辑回归适用于变量之间呈线性关系的数据集,并且可以处理连续和分类数据,但对于具有复杂或非线性模式的数据集可能不够理想。插补值的准确性取决于预测变量的选择和回归模型的性能,因此需要仔细考虑以获得可靠的插补。然而,在某些情况下,基于回归的模型效率不高,因为基于回归的模型应始终重新拟合模型,这是由于不同输入的缺失数据和观察到的数据部分。

6.2.2. 基于K最近邻的插补

K最近邻(K-NN)插补是一种流行的监督学习方法,也可以在数据集中插补缺失值。通过根据选择的距离函数选择最近邻居,K-NN使用最接近邻居的值来插补缺失值[51, 15]。这种方法的灵活性允许使用各种距离函数和邻居的数量,从而影响插补结果[14]。K-NN在数据类型和维度方面优于LOCF和NOCB方法。在缺失数据遵循MAR机制且没有关于其分布的先验知识的情况下,但可以从观察到的数据中获取信息,K-NN插补成为一种合适的选择。然而,在缺失性与观察数据无关的MNAR情况下,K-NN可能不是最合适的方法。

6.2.3. 基于树的插补

基于树的方法,如决策树[100, 93]和随机森林[97],是广泛用于分类和回归任务的监督学习模型。这些模型利用分区策略构建单个树或多个树,其中数据集根据输入特征被分割为不同的叶子,最关键的特征充当根节点。基于树的方法利用信息熵、信息增益和基尼指数等特征选择度量来确定最佳的分裂标准。基于树的方法通过在构建树时自然地将缺失值纳入其分裂规则来处理缺失数据插补。这些方法可以为具有缺失值和完整数据的观测创建单独的分支,从而能够根据可用信息进行插补。此外,随机森林是多个决策树的集成技术,通过减少过拟合和处理嘈杂数据来提高预测准确性和鲁棒性。基于树的方法在处理MCAR和MAR值方面表现良好,它们也可以在一定程度上处理MNAR值。此外,缺失数据和异常值对决策树算法的影响很小。

6.2.4. 基于支持向量机的插补

支持向量机(SVM)是一种广泛采用的机器学习算法,用于处理缺失数据 [ 32 , 73 , 94 , 8 ] [32,73,94,8] [32,73,94,8]。它旨在在标记的训练样本中识别最佳的分隔超平面,最大化超平面与最近数据点之间的距离[94]。[32]使用SVM回归器进行缺失数据插补。相反,Chechik等人[8]提出了一种新颖的方法,使用最大间隔学习框架来处理缺失值。他们的创新方法涉及制定一个目标函数,以最大化每个样本在其特定子空间内的边界,从而实现高效的插补。他们的方法节省了计算时间,并展示了对MAR缺失机制的稳健性。然而,基于SVM的插补缺乏对MNAR缺失机制的扩展,并且其插补准确性受数据类型和分布的影响。

6.2.5. 基于聚类的插补

聚类是一种无监督学习技术,根据相似性或距离函数将相似项分组在一起。常见的聚类方法,如k均值聚类,已被用于各种研究中处理缺失数据。k均值方法涉及随机分配质心,并迭代地将数据点重新分配到最接近的质心以形成簇。这个过程持续进行直到分配稳定,然后使用簇信息来处理缺失值 [ 20 , 109 , 110 , 108 ] [20, 109, 110, 108] [20,109,110,108]。然而,聚类结果受距离函数的选择、簇的数量(k)和初始质心位置的影响。Gajawada等人[20]最初提出使用k均值进行缺失数据插补,但他们的方法可能会将早期插补的错误传播到后续插补。另一方面,Zhang等人[109]提出了一种基于聚类的非参数核插补技术,用于处理目标特征中的缺失值。该方法在聚类后创建方差和分布函数的推断方面表现出有效性。然而,它没有考虑条件特征和类特征中的缺失值。在应用聚类进行插补时,仔细考虑聚类方法及其参数的选择至关重要,因为结果在很大程度上取决于这些选择。

表3总结了各种基于统计和基于机器学习的插补方法,以及每种方法适用的数据类型和缺失机制。然而,随着数据集的规模和维度迅速增长,传统的基于统计和基于机器学习的插补方法可能在处理大规模和高维数据方面遇到挑战。此外,数据格式和类型的不断增加的复杂性和多样性也可能限制这些方法的适用性。

6.3. 基于神经网络的插补方法

基于神经网络的方法利用神经网络的强大能力来自动学习复杂模式并自动插补缺失值。这些技术对于解决大型和复杂数据集中具有特殊机制的缺失数据的可扩展性挑战和提供高效解决方案具有潜力。

6.3.1. 人工神经网络

人工神经网络(ANN)是受生物神经网络启发的计算系统。在处理ANN中的缺失数据领域中,主要有两种不同的方法。第一种更类似于监督学习,在[90]和[10]的研究中有所体现。在文章[90]中,提出了一种新颖的概率方法来进行ANN中的插补。该方法不是使用单一的插补来完成缺失值,而是利用概率密度函数,如高斯混合模型(GMM),来为每个缺失属性建模不确定性。然后,这种概率视角被纳入到神经网络的处理中,特别是在第一个隐藏层中神经元的响应中。

处理缺失数据的全面回顾:探索特殊的缺失机制

表3:基于统计和基于机器学习的插补方法总结

与此相辅相成的是,Chen等人的研究[10]提出了一个具有15个隐藏层的深度神经网络框架,使用多层感知器(MLP)来插补缺失数据。然后,他们使用支持向量机(SVM)分类器评估插补后的数据集。值得注意的是,他们的方法达到了 89 % 89\% 89%的准确率,与使用完整数据集相当,表明他们的深度学习插补方法在处理缺失值时最小化了引入偏差。

第二种方法侧重于使用不完整数据集训练网络,在研究[7]中有详细介绍。这种方法不同于传统的插补技术。它不是试图填补缺失数据,而是提出了适应缺失数据集的强大训练策略。该过程涉及将数据集分成在某些特征簇中完整的子集。然后使用这些子集训练一组基础网络。最后一步涉及合并这些基础网络并微调组合模型。这种创新方法允许在仅包含不完整样本的数据集上有效地训练神经网络,而无需在训练阶段完全可观察到数据。

这两种方法在ANN训练和部署中处理缺失数据方面都取得了重大进展。然而,重要的是要注意,这两种方法都没有专门针对缺失数据的不同机制进行处理,这可能限制它们处理某些类型缺失数据情况的适用性。

6.3.2. 基于流的方法

基于流的生成模型是复杂数据分布的强大机器学习模型。这些模型通过一系列可逆变换构建,使它们特别适用于诸如图像、音频、视频和序列生成等各种任务 [ 44 , 45 , 80 ] [44,45,80] [44,45,80]。基于流的生成模型背后的核心概念是将简单概率分布(通常是高斯分布)转换为更接近数据分布的复杂分布。通过可逆变换或流,可以有效地将数据从简单分布映射到复杂分布,并且可以在正向和反向方向上计算。

在最近的研究中,基于流的生成模型在生成高质量样本和处理缺失数据插补任务方面展现出了有希望的结果。MCFlow [85]是一个专门设计用于数据插补的新型深度框架。它通过利用归一化流生成模型和蒙特卡罗抽样来解决缺失数据挑战。该框架采用迭代学习方法,交替更新训练数据中的密度估计和缺失数据值。这种迭代学习方法使MCFlow能够明确学习复杂的高维数据分布,增强其处理缺失数据的能力。迭代学习方案根据插补值的完整数据有效地更新密度估计,并且在潜在流空间中使用新颖的非迭代方法进行最大似然抽样,以找到缺失数据的最佳值。

类似地,EMFlow [62]是另一种方法,它将期望最大化(EM)算法与归一化流(NF)生成模型结合起来。这种整合允许在潜在空间中进行准确的插补,同时利用EM的可解释性和数值稳定性以及NF的高效数据抽样和表示能力。EMFlow的迭代学习策略涉及交替更新完整数据的密度估计和潜在空间参数,通过改进初始的朴素插补步骤直至收敛。通过在参数更新期间对数据进行批处理,该方法相对于竞争方法具有更快的收敛速度。

尽管这些方法有益,基于流的插补方法在处理大型数据集和复杂变换时可能会产生较高的计算成本。在将这些方法应用于真实数据分析任务时,应考虑这种计算成本。

6.3.3. 变分自动编码器

变分自动编码器(VAE)是一种强大的生成深度学习模型,结合了变分推断和自动编码器。其主要目标是通过将数据映射到低维潜在空间来学习和生成复杂数据。模型的编码器部分将输入数据转换为潜在空间中的概率分布,捕获有意义的特征。解码器然后利用这些信息生成具有相似特征的新样本,使VAE不仅在数据生成方面有用,而且在数据插补方面也有用。VAE可以处理各种数据类型,包括图像、表格数据、视频、音频,甚至物联网数据,使其在生成和插补任务中广泛应用 [ 84 , 74 , 103 , 67 , 35 , 104 , 47 , 4 , 58 , 61 , 69 , 75 , 19 ] [84, 74, 103, 67, 35, 104, 47, 4, 58, 61, 69, 75, 19] [84,74,103,67,35,104,47,4,58,61,69,75,19]

在Mattei等人的工作[67]中,他们介绍了MIWAE,这是一种专门设计用于处理深度潜在变量模型中缺失数据的方法,特别是在数据为MAR的情况下。MIWAE基于重要加权自动编码器(IWAE)[60],旨在最大化观察数据对数似然的严格下界。值得注意的是,与原始IWAE相比,MIWAE在处理缺失数据时不会引入任何额外的计算开销。研究人员开发了有效的蒙特卡洛技术,使用在不完整数据集上训练的VAE进行单一和多重插补。他们通过在MNIST数据集的不完整静态二值化上训练卷积VAE展示了MIWAE的有效性。

Ipsen等人[35]提出了Not-MIWAE,以解决数值、分类和图像数据的MNAR数据挑战。作者对模型的结构和原则进行了详细的数学公式化和推导,确保读者理解清晰。通过加入额外的先验,Not-MIWAE将MIWAE模型扩展到通过添加伯努利解码器来学习掩码的MNAR假设。该研究在合成和真实数据集上进行了实验,提供了处理MNAR数据的可复制方法。全面的实验设置包括表格数据(数值和分类)和图像数据。然而,尽管Not-MIWAE在MNIST图像和表格数据上表现优于现有方法,但其适用性可能受到限制。该模型严重依赖高斯分布假设,这在名义数据等经常偏离实际场景中观察到的高斯假设的情况下可能并不总是成立。因此,Not-MIWAE可能不适用于处理通常偏离实际场景中观察到的高斯假设的名义数据。此外,在应用MNAR缺失机制时,实验中使用的缺失规则相对简单,不完全代表真实场景。尽管存在这些限制,Not-MIWAE在测试数据集上展示了有希望的结果,为不同数据类型的插补性能提供了宝贵的见解。

Ma和Zhang[61]提出的GINA解决了现实数据集中MNAR数据带来的挑战。虽然有一些方法考虑了MNAR情况,但它们的模型在MNAR下的可识别性并不保证。可识别性问题意味着即使有无限的数据样本,模型参数也无法被唯一确定,进一步导致插补过程中潜在的偏差。现代深度生成模型主要忽视了可识别性问题。在他们的研究中,他们通过系统分析在MNAR下生成模型的可识别性来弥合这一差距。此外,他们提出了一个实用的深度生成模型,可以在较温和的假设下提供可识别性保证,适应各种MNAR机制。

总的来说,研究人员在VAE方法中特殊缺失机制方面付出了很多努力。然而,大多数方法仍然集中在单一缺失机制上,没有一种方法可以处理所有特殊机制。

6.3.4. 生成对抗网络

生成对抗网络(GAN)最初由 Goodfellow 等人提出[25]。它是一种创新的深度学习模型,由生成器和判别器两个神经网络组成。生成器创建类似于训练过程中看到的真实数据的新数据,如图像或文本。另一方面,判别器充当“评论家”,试图区分真实数据和生成数据。在训练过程中,这两个网络进行竞争性游戏。生成器的目标是产生如此逼真的数据,以至于判别器无法将其与真实数据区分开来。判别器的目标是更好地检测生成器的伪造数据。类似于 VAE 模型,GAN 模型也在各种数据类型的生成和插补方面有许多应用,例如图像生成、时间序列数据生成、视频段落生成 [ 29 , 91 , 50 , 57 , 103 , 105 , 48 , 59 , 49 ] [29,91,50,57,103,105,48,59,49] [29,91,50,57,103,105,48,59,49]

Yoon 等人[105]提出了一种新方法,使用 GAN 框架进行缺失数据插补,称为生成对抗插补网络(GAIN)。在 GAIN 中,生成器(G)利用实际数据向量的观察组件来插补缺失组件并生成完整的向量。判别器(D)用于区分观察到的组件和插补的组件,由提示向量引导,该向量提供有关缺失模式的附加信息。提示有助于使 D 的注意力集中在特定组件的插补质量上,确保 G G G 学会生成符合真实数据分布的数据。

GAMIN [106] 是由 Yoon 提出的基于 GAN 的多重插补方法。它旨在处理缺失率超过 80 % 80\% 80% 的高度缺失数据。虽然现有的插补方法主要关注中等缺失率,但 GAMIN 还利用 GAN 框架生成插补,并结合置信度预测方法,以确保可靠的多重插补。在 MNIST 和 CelebA 数据集上进行的实验中,该方法在高缺失率下表现优于基线方法,展示了其在解决高度缺失数据这一具有挑战性问题上的有效性。GAMIN 的创新插补架构、置信度预测和专门的学习和推断技术使其成为插补领域的宝贵贡献。

Li 等人[49]提出了 MisGAN,这是一种基于 GAN 的框架,专为从高维度不完整数据中学习而设计。他们的方法集成了一个完成数据生成器和一个建模缺失数据分布的掩码生成器。利用辅助 GAN 学习捕获缺失模式的掩码分布,使得生成数据的“掩码化”成为可能。随后对完成数据生成器进行训练,以生成与真实不完整数据无法区分的掩码数据。与先前方法不同,他们的框架不需要对测量过程有先验知识,适用于广泛的缺失数据挑战。实证结果展示了他们的方法在从极不完整数据中学习复杂数据分布和生成高质量插补方面的能力。这使其成为解决真实环境中缺失数据的有前景解决方案。上述基于 GAN 的插补方法无疑对处理缺失数据非常强大有效。然而,它们忽视了明确考虑缺失机制的重要性。特殊的缺失机制需要理解表格数据的观察部分和缺失部分之间的具体关系,这对于 GAN 可能并不直接,因为它们不依赖于明确的数学推导。因此,它们可能无法充分探索和捕捉观察部分和缺失数据之间的潜在关系,可能导致次优的插补。为了解决这一局限性,未来的研究可以探索将额外机制或约束纳入基于 GAN 的插补框架,以增强其有效处理具有不同缺失机制的缺失数据的能力。

6.3.5. 扩散模型

扩散模型在生成建模方面取得了显著的成就,涵盖了图像、文本、音频和多模态任务等各个领域[79, 98, 112, 78, 9, 99]。然而,它们在表格数据的缺失值插补方面的潜力仍然相对未被探索。最近基于得分的扩散模型的进展在时间序列数据插补方面展现出卓越的性能。

条件得分扩散模型插补(CSDI)[98],由田代等人提出,代表了针对时间序列数据插补量身定制的得分扩散模型。利用观察数据,CSDI 利用得分扩散模型有效地插补缺失值。通过对医疗保健和环境数据集的广泛评估,它在 RMSE 指标上取得了高达 40 − 65 % 40-65\% 4065% 的显著优势,超过了现有的概率插补方法。CSDI 不仅适用于时间序列数据,还适用于其他插补任务,如插值和概率预测,同时与现有基线方法保持竞争力。然而,CSDI 的局限性在于其适用于混合类型表格数据集,包括分类和数值变量。

为弥补这一差距,郑等人提出了 TabCSDI[112],在 CSDI 的基础上探索了三种有效处理分类和数值变量的技术:独热编码、模拟位编码和特征标记化。在基准数据集上的实证评估显示了 TabCSDI 相对于现有方法的有效性,强调了在表格数据插补中采用适当的分类嵌入技术的重要性。值得注意的是,虽然 CSDI 和 TabCSDI 在各种插补场景中表现出色,但它们并未明确解决特定的缺失机制,为进一步探索和改进提供了一个领域。

6.4. 优化算法插补

优化算法是缺失数据插补中宝贵的工具,因为它们可以增强现有的插补方法并提高其性能。优化算法不是作为独立的插补框架,而是与插补器一起工作,对其结果进行微调。这些算法可以优化插补模型或精炼插补数据集,从而更准确有效地处理缺失值。通过利用优化技术,插补过程变得更加稳健,产生更好的插补数据,并在各种应用中实现更可靠的分析。

6.4.1. 数据增强

遗传算法(GA)是一种受生物进化启发的数据增强优化技术[40, 31]。它通过初始化一组潜在解决方案(字符串/染色体表示)并应用选择、突变和交叉操作来运行,模拟自然选择。选择最适合的解决方案,组合并迭代地优化以创建新一代解决方案,直到达到满意的结果或达到预定义的代数。例如,Shahzad 等人提出了一种将 GA 与信息增益(IG)结合的新颖插补方法。GA 用于在数据集中生成最佳的缺失值集,而 IG 用于评估每个插补解决方案的性能。这种方法特别适用于具有大搜索空间和较高缺失值率的数据集,增强了数据集选择过程。GA 插补方法在文献中得到广泛探讨,以解决所有三种缺失数据机制和各种类型的变量。

6.4.2. 训练增强

最优输运(OT)方法是一种训练增强的插补方法,它在训练过程中修改损失函数。它确保数据集中随机提取的两个批次具有相同的分布,使其成为适合插补缺失值的损失函数。广泛的实验表明,基于 OT 的方法在最小化这些损失的同时,即使在高比例的缺失值情况下,也优于最先进的插补技术。OT 提供有意义的距离来比较分布,使其非常适合缺失数据插补。该论文提出了两种算法,一种是非参数的,另一种是参数化的,用于基于这种损失函数插补缺失值。OT 的灵活性使其能够与简单的插补器(如 MICE)和其他迭代插补方法结合,有效提高它们在处理各种缺失机制的缺失数据方面的性能。

6.4.3. 超参数增强

表4显示了基于深度学习和基于优化的方法的总结。由于它们固有的优势,这些方法被优先选择用于缺失数据插补。首先,它们的稳健性源于它们捕捉数据内部复杂关系和模式的能力,即使在存在复杂缺失机制的情况下,也能实现准确的插补。其次,这些方法高效,可以快速计算和在大型数据集上训练,这对于实际应用至关重要。第三,它们适用于各种数据类型,包括数值、分类和图像。以后它们可以扩展到更多数据类型。

7. 用于处理缺失数据的表示学习

表示学习涉及通过揭示原始数据的潜在结构和模式来从原始数据中提取有意义的特征。这些学习到的表示增强了后续任务的有效性。在涉及缺失值的任务中,重点不仅仅是填补空白,而是利用学习到的表示直接处理使用不完整数据的下游挑战。此外,这些表示可以与其他插补技术结合以增强性能。图神经网络(GNNs)和自动编码器(AEs)是两种常见的表示学习方法。GNNs 通常用于多模态插补,而 AEs 适用于处理复杂数据集,如语音、视频和时间序列。

7.1. 图神经网络

GRAPE [107] 是一种旨在解决缺失数据挑战的表示学习方法。与现有方法通常做出强烈假设不同,GRAPE 使用标签预测方法。该方法旨在直接完成下游任务,如分类或回归,同时处理输入数据中的缺失值。GRAPE 的独特之处在于采用了基于图的表示范式。它将观测和特征视为双部图中的节点,其中边表示观测到的特征值。这种创新性框架将特征插补视为边级预测任务,将标签预测视为节点级预测任务。利用图神经网络(GNNs),GRAPE 引入了几项架构创新。在消息传递过程中,它结合了边嵌入和增强节点特征,有效增强了其表示能力。此外,采用边丢弃技术来减轻过拟合挑战,从而提高了 GRAPE 方法的整体性能。

处理缺失数据的全面回顾:探索特殊的缺失机制

表4:基于深度学习和基于优化的方法总结 Vis 2 ^{2} 2:可视化图

Malone 等人[64] 使用图神经网络(GNN)解决了电子健康记录(EHRs)中的缺失数据挑战。鉴于患者中经常存在缺失数据、多样的数据模态以及识别关键患者关系的复杂任务,该研究引入了一种基于消息传递的表示学习方法。该方法在预测重要医疗结果(如住院死亡率、住院时间和出院目的)方面始终优于现有方法或具有竞争力。为了处理缺失数据,作者扩展了嵌入传播框架。他们为每个患者引入了双重表示:初始表示编码了观察数据的信息,而第二个表示则专门用于容纳缺失数据。在基于图的学习框架中引入专门的缺失数据表示,可以在整个图中传播这些表示,受到相邻患者表示的影响。合并这些特征表示会产生一个全面的表示,极大地有利于下游任务。

文章[65]提出了一种将缺失多变量时间序列建模为动态图上的时间信号的新方法。该方法涉及自回归图神经网络,用于在每个时间点和空间上递归学习表示。他们引入了一个基于注意力的架构,利用与插补任务一致的时空传播,有效地重建缺失数据点。该架构利用神经消息传递框架内的节点间稀疏时空注意机制,确保准确重建同时考虑缺失数据。

7.2. 自动编码器

自动编码器是另一种表示学习方法[23, 3, 12]。它们包括一个编码器,将输入数据压缩到一个低维空间,以及一个解码器,用于重构原始数据。自动编码器通过在训练过程中最小化输入和重构输出之间的差异来捕获关键特征并减少噪音。

在 TKAE [3] 的情况下,重点是学习多变量时间序列(MTS)数据的压缩表示,通过处理噪音、冗余以及处理大量变量和时间步骤来增强数据分析。传统的降维方法不适用于 MTS,因为它们无法处理缺失值。研究人员提出了一种基于循环神经网络的新型自动编码器架构,以克服这一限制。这种自动编码器专为 MTS 而设计,适应变长并有效处理缺失数据。该模型学习固定长度的向量表示,利用在输入空间中运行的核函数来调整它们的成对相似性,并管理缺失值。通过分类任务验证了这种方法的有效性,包括医疗数据,并与其他降维技术进行了比较。

处理缺失数据的全面回顾:探索特殊的缺失机制

表5:基于表示学习的方法总结

8. 现有缺失数据生成方法

研究人员在真实数据中面临着特殊缺失机制模式的挑战,大多数统计方法无法识别这些模式。在这种情况下,研究人员严重依赖他们的判断和领域知识。在实验研究中,研究人员通常手动模拟 MNAR 和 MAR 数据,以研究其特征。在本节中,我们探讨了用于表格数据的常见 MNAR 和 MAR 生成方法,为处理缺失数据的研究人员提供了宝贵的见解。

8.1. MAR 生成方法

回顾第2.3.2节中的定义,随机缺失(MAR)机制出现在缺失部分 X m X^{m} Xm 依赖于观察部分 X o X^{o} Xo 的情况下。这种关系可以用以下公式表示:MAR 生成方法有两种不同的子类型:

f ( M ∣ X o , Ψ ) ∀ X m , Ψ f\left(\boldsymbol{M} \mid X^{o}, \Psi\right) \forall X^{m}, \Psi f(MXo,Ψ)Xm,Ψ

MAR 生成方法有两个子类型:

  • 阈值方法

MAR 数据的生成涉及一个基于 X o X^{o} Xo 定义的阈值以及一个规则。例如,通过使用 X o X^{o} Xo 的列均值作为阈值和一个特定规则,超过阈值的任何值将被排除在 X m X^{m} Xm 之外。

  • 概率方法

该方法使用概率函数来确定缺失的概率。通常,观察部分 X o X^{o} Xo 被输入到概率函数中,生成一个概率值,决定数据 x i m x_{i}^{m} xim 是否缺失。用于此目的的常用函数包括 Sigmoid 函数 [ 85 , 67 ] [85,67] [85,67] 和逻辑模型 [49, 36]。

8.2. MNAR 生成方法

缺失非随机(MNAR)机制是各种缺失机制中最复杂的。第2.3.3节介绍了 MNAR 的概念及其子类型。许多学术作品探讨了生成 MNAR 数据的各种方法。Gomer 和 Yuan [24] 提供了关于 MNAR 数据生成研究的全面汇编。

8.2.1. 专注的 MNAR 生成方法

在 MNAR 生成方法领域,已经确定了几种子类型,每种子类型都具有不同的特征:

  • 分位数方法

分位数方法 [ 111 , 35 ] [111,35] [111,35] 根据 X m X^{m} Xm 的百分位数生成缺失值。具体来说, X m X^{m} Xm 值高于或低于 X m X^{m} Xm 的 c 分位数更有可能表现出缺失。

  • 阈值方法 [24]

该方法根据预定的阈值为变量 X m X^{m} Xm 生成缺失值。使用与 X m X^{m} Xm 相关的辅助变量 Z Z Z。当 Z Z Z 超过阈值时, X m X^{m} Xm 值的缺失可能性增加。

  • 相关的辅助变量 [111]

根据 X m X^{m} Xm 和辅助变量 Z Z Z 之间的相关性生成缺失值。 X m X^{m} Xm 上的缺失值的概率随着 Z Z Z 值的增加而增加。

  • 概率方法 [70]
    类似于 MAR 概率方法,对于 MNAR 的概率方法需要将 X m X^{m} Xm 本身输入概率模型以获取概率值。值得注意的是,诸如 MIWAE[67] 和 HyperImputer 等方法利用 logistic 模型来实现这一目的。
  • Bursty 方法 [95]

该方法适用于缺失数据似乎在特定组、顺序或时间点内聚集的情况。请参考图 7 以获得一个说明性示例。在这种方法中,相应数量的突发数据被随机选择以使数据失效,模拟数据集中所需的损伤水平。例如,当数据集大小为 20 且希望达到 30 % 30\% 30% 的损伤率时,突发大小为 3(导致在 2 个大小为 3 的突发中共有 6 个数据单元失效),则相应地调整数据集。

处理缺失数据的全面回顾:探索特殊的缺失机制

图 7:Bursty 缺失示例,蓝色表示存在数据,绿色表示缺失数据

8.2.2. 模糊 MNAR 生成方法

本节重点介绍了模糊缺失非随机(MNAR)生成方法,包括以下子类型:

  • 与变量 Z Z Z 的线性组合 [111]

在这种方法中, Z Z Z 是通过 X o X^{o} Xo X m X^{m} Xm 的线性组合生成的。 X m X^{m} Xm 中的缺失取决于 Z Z Z 是否超过预定义阈值。

处理缺失数据的全面回顾:探索特殊的缺失机制

图 8:相关辅助的模糊 MNAR 和 MAR

  • 与辅助变量 Z Z Z 的相关性 [11]

该方法根据辅助变量 Z Z Z X o X^{o} Xo 之间的相关性定义 X m X^{m} Xm 的缺失。此外, Z Z Z X m X^{m} Xm 具有相关性。该过程涉及将数据分组并计算每个组内 X o X^{o} Xo Z Z Z 之间的样本相关性。具有高相关性的组中的 X m X^{m} Xm 值更有可能表现出缺失,而低相关性组中的值则不太可能。

对于这两种方法,排除 Z Z Z 会导致模糊的 MNAR。如果在分析中省略 Z Z Z,则生成的缺失值也会遵循模糊的 MNAR 模式。相反,如果包含 Z Z Z,则缺失将符合 MAR 标准。请参考图 8 进行可视化表示。

前面的章节介绍了许多在各种实验中使用的生成方法。然而,这些方法的实际实施可能会根据缺失机制 ( Ψ ) (\Psi) (Ψ) 的选择参数、辅助变量 ( Z ) (Z) (Z) 的参与以及 X m X^{m} Xm X o X^{o} Xo 之间的区分而显著不同。实施上的这些变化导致了生成的缺失数据和随后的插补程序之间的差异。

9. 实验和评估指标

在本节中,我们将概述缺失数据插补任务的标准实验过程和常用的评估指标。

9.1. 实验过程

  1. 数据集选择:实验过程始于从各个领域选择多样化的真实世界数据集,包括医疗保健、传感器数据、图像和合成数据集。对于跨不同领域的任务,研究人员通常使用公开可用的数据集。表格数据可以从 UCI 机器学习库 1 { }^{1} 1 获取,而图像数据集如 MNIST 2 { }^{2} 2、CelebA 3 { }^{3} 3 和 CIFAR- 1 0 4 10^{4} 104 是常见选择。
  2. 缺失值生成和数据拆分:如第 2 节所介绍,缺失数据的三个参数 – 缺失率、缺失模式和缺失机制 – 是重要考虑因素。研究人员必须将这些缺失策略应用于所选数据集,并利用掩码 M \boldsymbol{M} M 跟踪缺失值的位置。然后将数据集拆分为训练、验证和测试集,同时保留相应的掩码以供评估。值得注意的是,在单个数据集中涉及多种缺失策略或在训练和测试集之间应用不同策略的情况取决于研究问题。
  3. 数据集标准化:应用标准化技术可确保统一变量缩放并减少偏差。常见的标准化方法包括最小-最大缩放和标准缩放。在使用缩放器时,必须使用适当的掩码来考虑缺失值。这可以防止缩放器获取数据集的先验知识,从而导致误导性结果。
  4. 训练和参数调整:训练过程根据模型架构的不同而变化,训练集用于模型训练,验证集用于参数调整。
  5. 评估:使用测试集测试模型的效用。评估指标取决于具体的研究任务,将在随后的部分详细介绍。

9.2. 评估指标

9.2.1. 可视化

可视化在评估插补缺失数据质量中起着至关重要的作用。散点图通常用于比较插补值与真实值,将它们视觉上呈现为具有不同颜色的点。可靠的插补方法应该展现出与原始数据类似的模式,如图 9 所示,GINA[61] 使用散点图和等高线图来展示一个 2D 合成数据集,便于比较不同的插补方法。然而,散点图对于低维数据或具有强内部相关性的数据最为有效。相反,高维数据需要使用其他可视化技术来有效评估插补性能。对于像不完整的 MNIST 数据和其插补结果所示的图 10 中的图像数据集,可视化对于检查插补质量尤为有用。然而,重点已转向表格数据集,使得绘制结果图像变得不那么必要。相反,列密度图提供了一种可行的选择。然而,值得注意的是,复杂的缺失机制可能需要对混合列效应进行全面分析,而不仅仅集中在单个列上。由于大多数现有方法都是针对高维表格数据进行工作,因此可视化通常不是评估的最佳选择。

处理缺失数据的全面回顾:探索特殊的缺失机制

图 9:GINA[61] 的散点图和等高线图

9.2.2. 定量分析

定量分析涉及使用基于距离的方法来评估插补技术的性能与原始数据的比较。这些距离度量量化了插补值与其对应真实值之间的差异。为了确保公正评估,仅针对缺失值及其插补对应值计算距离。

  • 均方根误差(RMSE)

RMSE 在许多研究中被广泛应用作为评估指标。由于 RMSE 能够更严厉地惩罚较大的错误,相较于较小的错误,因此更能够准确评估插补质量。RMSE 的公式如下:

 均方根误差  = 1 n m ∑ i n m ( X i m − X ˉ i m ) 2 \text { 均方根误差 }=\sqrt{\frac{1}{n_{m}} \sum_{i}^{n_{m}}\left(X_{i}^{m}-\bar{X}_{i}^{m}\right)^{2}}  均方根误差 =nm1inm(XimXˉim)2

其中 X i m X_{i}^{m} Xim 表示缺失部分的真实值, X ˉ i m \bar{X}_{i}^{m} Xˉim 表示插补值, n m n_{m} nm 表示缺失值的数量。更低的 RMSE 值更好,表示更好的插补性能。然而,需要注意的是,RMSE 对数据中的异常值敏感。因此,研究人员通常会将 RMSE 与其他评估指标结合使用,以更全面地了解插补方法的有效性。

  • 均方误差(MSE)

MSE 也是常用的评估指标,

 均方误差  = 1 n m ∑ i n m ( X i m − X ˉ i m ) 2 \text { 均方误差 }=\frac{1}{n_{m}} \sum_{i}^{n_{m}}\left(X_{i}^{m}-\bar{X}_{i}^{m}\right)^{2}  均方误差 =nm1inm(XimXˉim)2

其中 X i m X_{i}^{m} Xim 表示缺失部分的真实值, X ˉ i m \bar{X}_{i}^{m} Xˉim 表示插补值, n m n_{m} nm。MSE 的单位阶数比错误单位高,这是由于误差的平方。

  • 平均绝对误差(MAE)

MAE 也被认为是最直观的评估指标之一,因为它计算了实际值和插补值之间的平均绝对差异:

 平均绝对误差  = 1 n m ∑ i n m ∣ X i m − X ˉ i m ∣ \text { 平均绝对误差 }=\frac{1}{n_{m}} \sum_{i}^{n_{m}}\left|X_{i}^{m}-\bar{X}_{i}^{m}\right|  平均绝对误差 =nm1inm
XimXˉim

MAE 由于使用绝对值,不区分插补模型的过度表现或不足表现,使其对极端错误更具鲁棒性。这种特性在评估插补准确性时尤为有价值,特别是在大误差可能不会被不成比例地惩罚的情况下。MAE 提供了更平衡和易于解释的插补性能度量。研究人员通常会将 MAE 与其他评估指标如 RMSE 结合使用,以更全面地了解插补方法的优势和劣势。

  • Fréchet inception distance(FID)

FID 是用于评估生成模型生成图像质量的度量标准,特别是在图像合成领域。该度量标准提供了真实图像分布与生成模型生成的图像分布之间相似性的定量测量。值得注意的是,在涉及图像的插补任务中,研究人员经常使用 FID 来评估插补图像的有效性。
FID ⁡ ( P real  , P generated  ) = ∥ μ real  − μ generated  ∥ 2 + Tr ⁡ ( Σ real  + Σ generated  − 2 Σ real  Σ generated  ) \operatorname{FID}\left(P_{\text {real }}, P_{\text {generated }}\right)=\left\|\mu_{\text {real }}-\mu_{\text {generated }}\right\|^{2}+\operatorname{Tr}\left(\Sigma_{\text {real }}+\Sigma_{\text {generated }}-2 \sqrt{\Sigma_{\text {real }} \Sigma_{\text {generated }}}\right) FID(Preal ,Pgenerated )=μreal μgenerated 2+Tr(Σreal +Σgenerated 2Σreal Σgenerated 
)

其中 P P P 代表分布, μ \mu μ 是特征表示的均值数据, Σ \Sigma Σ 是特征表示的协方差矩阵,Tr 表示矩阵的迹。

  • 对数似然

对数似然通常用作概率生成模型的评估指标。这些模型旨在学习真实数据的概率分布,然后从该分布生成新数据点。一些常用对数似然作为评估指标的概率生成模型,例如 VAE、概率矩阵分解和概率主成分分析 [35, 30]。

9.2.3. 下游任务

评估填补数据的效用是评估填补方法有效性的关键步骤。研究人员经常比较使用填补值和原始完整数据执行特定任务的性能,以识别任何差异。这种方法不仅有助于了解数据集的潜在分布,还揭示了隐藏的潜在空间。通过评估填补数据在各种下游任务(如机器学习模型或预测任务)中的性能,研究人员可以深入了解填补方法的有效性和实用性。这种综合方法允许全面评估填补数据的质量,并提供对数据集潜在结构和特征的更深入理解。

在实际应用或填补数据将用于下游任务的场景中,研究人员使用机器学习模型来评估填补方法。如图 11 所示,原始完整数据集和填补数据集用于训练两个具有完全相同参数设置、模型架构和训练大小的机器学习模型。然后,两个模型都应用于相同的测试数据集,并比较预测的性能。理想情况下,目标是确保填补数据的效用和预测能力与完整数据集相似。因此,如果真实效用和填补效用相似,则表明填补方法有效。例如,在 [10] 的研究中,使用支持向量机分类器评估了深度学习填补方法在包含 799 名患有注意力缺陷多动障碍和 421 名无此障碍的青少年数据集上的性能。结果显示,分类器在填补数据集上达到了 89 % 89\% 89% 的准确率,与在没有任何缺失值的原始数据集上获得的准确率相当。这表明填补方法在保留数据效用方面取得了成功。

研究人员通常还利用推荐系统作为下游任务来评估填补方法的有效性 [ 61 , 35 , 66 ] [61,35,66] [61,35,66]。在这种方法中,填补任务被视为一个推荐问题,填补值被视为要与实际缺失值进行比较的推荐。为了评估推荐系统所做的推荐,采用各种指标,如准确率(ACC)、精确度、召回率、F1 分数、平均精度均值(MAP)或 AUC。这些指标衡量填补值作为推荐的准确性和相关性。通过使用推荐系统进行评估,研究人员可以深入了解填补方法在为缺失值提供有意义和准确推荐方面的表现。这种评估方法为填补方法的性能提供了实际和现实世界的视角,特别是在填补数据将用于基于推荐的应用或决策过程的场景中。

处理缺失数据的全面回顾:探索特殊的缺失机制

图 11:下游任务评估流程图

10. 限制和未来方向

尽管各种填补方法取得了进展和优势,但仍需承认存在一些限制。这些限制为未来研究和改进提供了机会,以提高缺失数据填补领域的水平。

10.1. 限制

  • 复杂的特殊缺失机制:

特殊缺失机制的景观以复杂性为特征,涵盖了广泛的假设和多样的数据生成方法。因此,目前缺乏一种标准化和简单的处理这些机制的方法。特殊缺失机制的复杂性通常涉及各种情景和假设,导致了许多生成缺失数据的方法。这种多样性在建立研究人员可以遵循的普遍适用方法方面提出了挑战。

当前的缺失数据填补模型通常对复杂的特殊缺失机制考虑不足。特别是在处理真实世界数据集时,识别特定的缺失机制可能是一项艰巨的任务,需要对领域有深入的了解。在实践中,这些机制的复杂性使得它们难以识别,通常需要领域专业知识才能有效识别。因此,现有模型可能忽视特殊缺失机制的细微差别,限制了它们提供准确填补的能力。

虽然一些研究人员已经尝试通过填补技术解决特殊缺失机制,但他们用于生成缺失数据的方法存在相当大的变异性。生成缺失数据的这种不一致性进一步复杂了模型性能的比较。每种方法可能根据对缺失机制的特定假设采用不同的策略,导致不同的结果。因此,由于用于生成缺失数据的方法不一致,对这些模型真实能力的比较变得具有挑战性。

  • 传统方法的非鲁棒性:

传统的机器学习和基于统计的填补方法也可以用于处理某些特殊缺失机制。然而,随着现代数据集的复杂性和规模不断增加,这些方法的有效性可能会降低,通常需要更多的计算资源才能进行准确的填补。因此,传统方法的整体效率可能会降低,导致这些方法在当代数据分析中日益不受欢迎。虽然这些方法可能保留了可解释性,但它们处理大规模数据的能力受到影响。因此,在涉及特殊缺失机制的情况下,必须在选择传统方法时权衡可解释性和模型效用。

  • 数据类型的限制:

某些填补技术本质上是为处理数值数据而设计的,当面对分类或混合数据类型时可能会遇到困难。真实世界数据集的多样性,涵盖各种数据格式,暴露了这些方法的局限性。虽然一些传统的机器学习和基于统计的填补模型可以处理混合数据类型,但是在神经网络模型中考虑混合数据类型相对较少。这往往是因为处理分类数据的不同方法可能会显著影响模型的结果。然而,即使是对于二进制和有序数据类型,解决特殊缺失机制的重要性仍然保持一致,强调了需要跨各种数据格式提供全面解决方案的重要性。

10.2. 未来方向

随着缺失数据填补领域的不断发展,几个有前途的方向可以结合起来增强现有方法的能力和适用性。这些未来方向共同旨在解决复杂缺失机制带来的挑战,提高模型的鲁棒性,将填补范围扩展到各种数据类型和模态,并利用领域知识提升填补结果。以下几点概述了集成未来研究的关键领域:

  • 扩展到特殊缺失机制:特殊缺失机制引入了多样和各异的复杂性和假设。未来研究可以扩展现有的填补方法,以处理更广泛的特殊缺失机制,包括基于生成对抗网络(GANs)、基于流的模型和基于扩散的技术。确保填补方法能够处理各种缺失机制,增强它们在不同情景下的实用性。
  • 处理多机制缺失数据:在涉及不同缺失机制共存的情况下,填补模型需要处理这些机制的复杂组合。未来研究可以探索有效处理多机制缺失数据的方法,为具有复杂缺失模式的真实数据集提供准确的填补。
  • 基准测试和标准化:为了实现对填补方法的公平比较和评估,标准化的基准缺失数据生成方法和常见评估指标至关重要。这种方法促进了对方法优势和劣势的全面理解,并促进了对填补模型性能的一致评估。
  • 领域知识整合:将领域知识融入到填补模型中,提供了处理复杂缺失机制的实用方法。使用知识蒸馏模型进行预研究或包含领域特定信息可以引导填补过程,从而改善结果。探索将领域知识无缝整合到填补模型中的方法可以进一步提升它们的性能。

通过结合这些整合的未来方向,研究人员可以共同促进缺失数据填补方法的进步,解决复杂的缺失机制,增强鲁棒性,适应多样的数据类型和模态,以及利用领域知识。这种整合方法提供了一个全面的视角,以解决该领域不断发展的挑战,并推动更有效和全面的填补解决方案。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/158984.html

(0)
上一篇 2024-11-27 14:15
下一篇 2024-11-27 14:26

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信