通过高阶多项式展开解读神经网络

大家好，欢迎来到IT知识分享网。

2024年5月10日，来自Jinli Suo研究团队的Tingxiong Xiao、Weihang Zhang和Yuxiao Cheng在 IEEE Transactions on Pattern Analysis and Machine Intelligence 期刊上发表了一篇题为“ HOPE: High-Order Polynomial Expansion of Black-Box Neural Networks ”的研究文章。 该论文介绍了一种名为HOPE的方法，用于将神经网络展开为高阶泰勒多项式，以提供关于网络局部行为的显式数学表达 。通过这种方式，研究团队不仅提高了对神经网络决策过程的透明度，还能有效地提升网络的解释能力和理解深度。HOPE方法在多个实际应用场景中展示了其广泛的应用前景，包括函数发现、快速推理和特征选择等，展现了解释型人工智能(XAI)在深度学习中的重要价值和潜力。

引言

深度神经网络由于其在多个领域展现出的强大通用近似能力而广泛被采用，但它们在实际应用中往往被视为“黑盒”，这阻碍了它们的广泛应用。因此，理解神经网络输出背后的逻辑对于基于网络输出做出逻辑决策或决定是否部署新模型至关重要。这种对理解的需求在诸如临床决策制定、药物发现和物理定律识别等领域尤为重要，因此人们往往会优先选择与直觉一致而非只有高准确度的模型。因此，存在对解释型人工智能（XAI）方法的日益增长的需求，以使深度学习更加透明和令人信服。

XAI可以分为五大类：特征归因、基于实例的方法、基于图卷积的方法、自解释模型和不确定性估计，其中特征归因方法计算每个输入特征对最终预测的相关性，是近年来最广泛使用的XAI方法。用于识别特征归因的实现可以进一步分为三类。基于梯度的特征归因方法通过测量输入邻域内的变化对输出变化的影响来衡量，这些方法主要受到反向传播的启发，其中一些著名的方法包括Saliency Map、Integrated Gradients、SmoothGrad、Local Explanation Vectors、Grad-CAM、Guided Backpropagation、LRP和Deep Taylor Decomposition。这些基于梯度的方法计算模型的一阶导数作为特征归因，但忽略了非线性函数中重要的高阶项。

代理模型特征归因旨在开发一个代理解释模型来模仿原始模型的计算逻辑。代表性的代理模型包括LIME、DeepLIFT、Shapley value、LRP、SHAP和BETA。然而，这些代理模型大多是线性的，并且近似精度不足。

基于扰动的特征归因通过修改或移除部分输入来测量模型输出的相应变化，从而反映神经网络输入的特征重要性。这类方法包括Feature Masking、Perturbation Analysis、Response Randomization和Conditional Multivariate Models。尽管直观，但当输入特征数量增加时，基于扰动的方法在计算上较慢，并且最终结果往往受扰动特征数量的强烈影响。

总之，需要一种能够以高准确性、低成本和良好解释性近似一般深度神经网络的方法。因此，研究团队提出了一种将深度神经网络展开为基于参考输入的高阶泰勒多项式的方法HOPE。泰勒展开是基于计算目标神经网络的导数构建的，这本质上是一个非线性函数。我们首先推导了复合函数的高阶导数规则，并将其扩展到神经网络上，以快速准确地获得高阶导数。我们的方法兼具梯度基方法和代理模型的功能，因为它集成了高阶导数并使用非线性多项式在局部近似神经网络。我们的展开具有高近似精度，且计算成本远低于基于扰动的方法，因为我们可以通过一次反向传播获得所有导数。

关键字： 多项式方法、基于梯度的方法、代理模型特征归因、基于扰动的特征归因

复合函数的高阶导数规则

考虑一个复合函数

它是两个函数 z = f1(x) 和 y = f2(z) 的组合，将输入 x ∈ R ^p 映射到中间状态变量 z ∈ R ^s ，然后顺序映射到最终输出 y ∈ R ^o 。假设两个函数 f1(·) 和 f2(·) 分别在 ˜x 和 ˜z = f1(˜x) 处可进行 n 阶导数计算，本节将推导复合函数 y = f2 ◦ f1(x) 在三种逐渐增加复杂性的系统中的高阶导数规则：单输入单状态单输出（SISSSO）是最简单的系统，包括 x ∈ R, z ∈ R, 和 y ∈ R。对于多输入多状态单输出（MIMSSO），输入和中间状态变量的维度增加，分别为 x ∈ R ^p , z ∈ R ^s , 和 y ∈ R。多输入多状态多输出（MIMSMO）是最一般的情况，其中 x ∈ R ^p , z ∈ R ^s 和 y ∈ R ^o 。这三种系统分别对应一个单输出神经网络，隐藏层只有一个节点；一个单输出神经网络，隐藏层包含多个神经元；以及一个多输出神经网络，隐藏层包含多个节点。

这一节中，研究团队将按步骤推导高阶导数公式，从 SISSSO 到 MIMSSO，最后到 MIMSMO。推导的公式将直接应用于神经网络的高阶导数规则。

SISSSO

对于一个 SISSSO 系统，x, z, y ∈ R。根据链式法则，y = f2 ◦ f1(x) 的前三个导数可以计算为：

对于更多项，可以将 ∂ ^k y/∂z ^(k-1) ∂x 转换为 ∂z/∂x * ∂ ^k y/∂z ^k ，并计算 ∂ ⁿ y/∂x ⁿ ，从集合 {∂ ^k y/∂z ^k , k = 1, …, n} 和 {∂ ^k z/∂x ^k , k = 1, …, n} 中。因此，方程 (2) 转换为以下矩阵形式：

这可以进一步简化为

在这个方程中，v ^y,x 和 v ^y,z ∈ R ⁿ 分别是导数向量 {∂ ^k y/∂x ^k } 和 {∂ ^k y/∂z ^k }；M ^z,x ∈ R ^(n×n) 是由 ∂ ^k z/∂x ^k 组成的变换矩阵，并采取下三角形式。到目前为止，f2(f1(x)) 的 n 阶导数的计算转变为 M ^z,x 的计算。

从方程 (3) 中，第 i 和 (i + 1) 项 (i < n) 分别是

和

通过对方程 (5) 的两边进行导数运算，得到：

因为 M ^z,x _i,0 = 0 且 M ^z,x _i,n = 0 (i < n)，方程 (7) 可以简化为

比较方程 (6) 和方程 (8)，可以得到 M ^z,x 的递归公式为

这显式地构成了方程 (4) 中 n 阶变换矩阵 M ^z,x 。

MIMSSO

未混合偏导数。对于一个具有 p 维输入和 s 个中间状态的 MIMSSO 系统，即 x ∈ R ^p , z ∈ R ^s , y ∈ R, 可以得到 y = f2 ◦ f1(x) 的前三个未混合偏导数为：

为了便于推导，定义一个操作符 β 以保存其 k 阶未混合偏导数的信息

并且以下方程成立

基于以上定义，方程 (10) 可以改写为

其中 ⊙ 是哈达玛积，(A ⊙ B) _i,j = A _i,j * B _i,j ，◦k 是哈达玛幂，(A ^◦k ) _i,j = (A _i,j ) ^k 。

类似于方程 (3)，将方程 (13) 转换为矩阵形式

这与方程 (3) 形式一致，只是将标量元素替换为矩阵，幂和乘法转变为哈达玛幂 ◦k 和哈达玛积 ⊙。进一步简化以上方程为

混合偏导数。神经网络的第一个模块大多是线性层，例如全连接层或卷积层，满足

根据方程 (11)(12) 的定义，以上方程转换为

其中 ⊗ 是克罗内克积，1_p ∈ R^p 是一个全 1 列向量，β^⊗ky * βx^k 定义为

其中 ⊗ 是克罗内克积，1 ^p ∈ R ^p 是一个全 1 列向量，β⊗ ^k y /βx ^k 定义为

这包含了所有 k 阶偏导数。类似于方程 (3)(14)，将方程 (18) 重写为矩阵形式

请注意，此公式是在方程 (16) 的限制下推导出来的，这意味着只有线性模块可以应用它。

进一步简化方程 (20) 为

MIMSMO

对于一个 MIMSMO 系统，x ∈ R ^p , z ∈ R ^s , y ∈ R ^o ，

只需要将 MIMSSO 的导数计算公式应用于每个输出项，并且未混合公式和混合公式是

神经网络的高阶导数规则

这节主要介绍深度神经网络的高阶导数规则。由于多输出网络可以视为多个单输出网络，研究团队只考虑单输出情况。在不失一般性的前提下，研究团队将推导最常见模块的高阶导数的反向传播，网络结构如图 1 所示。

在进行详细推导之前，研究团队定义了以下符号。输入表示为 x，第 m 个模块的输出表示为 y ^(m) ，y ^(m) 的长度为 o _m ，最终输出为 y。为了简化表达，研究团队分别省略了 v ^y ^,y(m) 和 M ^y(m) ,y ^(m-1) 的上标，简写为 v _m 和 M _m 。

神经网络可以被视为一个复合函数 y = f ^(d) ◦f ^(d-1) ◦…◦f ⁽¹⁾ (x)，其中 f ^(m) 是第 m 个模块。第 m 个模块的输出 y ^(m) ，第 (m+1) 个模块的输出 y ^(m+1) ，以及最终输出 y 可以被描述为复合函数 y = (f ^(d) ◦…◦f ^(m+2) )◦f ^(m+1) (y ^(m) ) 的输入、中间变量和输出。

如果研究团队知道 v _m+1 和 M _m+1 ，根据研究团队推导的公式，可以直接得到 v _m 。通过从输出层到中间层，最后到输入层迭代应用这一过程，研究团队可以快速准确地获得输出对输入的高阶导数。

图1：用于计算HOPE高阶导数的框架

输出单元

对于最终输出 y = y ⁽⁷⁾ ∈ R，根据方程 (12) 中的定义，其 k 阶导数可以计算为：

根据方程 (15) 的定义，研究团队可以获得初始导数的向量形式

全连接层

对于全连接层，其输入输出关系定义为

第 i 个节点的 y ^(m+1) 关于第 j 个节点的 y ^(m) 的 k 阶导数是

结合方程 (12) 的定义，研究团队得到

一方面，通过计算

变换矩阵 M _m+1 在方程 (14) 中重写为一个块对角矩阵

另一方面，研究团队可以通过计算

在这个方程中，变换矩阵 M⋆m+1 在方程 (20) 中定义，也可以重写为块对角矩阵

卷积层

卷积层的输入输出关系可以描述为

其中 F ^(m+1) 是一个卷积核，* 表示卷积操作。尽管卷积层可以被视为一个具有稀疏权重矩阵和零偏置的全连接层，如果转换成全连接层，进行导数计算既耗时又占内存。因此，研究团队在卷积表示上推导高阶导数规则。

第 u 个输出是 y ^(m) 中一些元素与 F ^(m+1) 中所有元素的乘积的总和，

其中 F ^(m+1) _u,v 是 y ^(m+1) _u 和 y ^(m) _v 之间的权重。研究团队可以计算导数为

高阶导数是

取矩阵形式，方程 (34) 变为

其中 ↑(·) 表示数据上采样，rot180(·) 表示将卷积核旋转 180 度。

比较方程 (34) 和方程 (35)，研究团队还可以得到高阶导数的矩阵形式

由于卷积层的输入通常是类似图像的数据，研究团队只计算未混合偏导数为

研究团队还可以通过将卷积层转换为全连接层，然后直接应用方程 (30) 来计算混合偏导数。

非线性激活层和池化层

考虑一个非线性激活层 y ^(m+1) = σ(y ^(m) )，其中 y _i ^(m+1) = σ(y _i ^(m) )，有

其中 σ ^(k) (·) 是这个激活函数的第 k 阶导数。根据方程 (12) 的定义，研究团队可以得到

研究团队可以从方程 (14) 中进一步获得变换矩阵 M _m+1 和未混合偏导数向量 v _m 从方程 (28) 中得到。唯一剩下的问题是如何计算 σ ^(k) (x) 的值，x ∈ R。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/70380.html

通过高阶多项式展开解读神经网络

相关推荐

发表回复