L1 和 L2 正则化：从权重衰减的角度理解

大家好，欢迎来到IT知识分享网。

引言

上一次我们从拉格朗日乘数法的角度去理解了 L1 和 L2 正则化，这一次我们将继续从权重的衰减角度来重新理解这个问题。

深入探讨权重衰减

拉格朗日乘数法本质上是控制权重到原点的距离，通过这种方式约束权重的取值。L1 和 L2 正则化也叫做权重衰减。虽然从拉格朗日乘数法的角度看，可能不太容易发现衰减的过程，但既然术语中包含了“衰减”，那么一定存在某个地方体现了这个过程。这次我们就一起来看一下这个过程。

在机器学习中，权重衰减实际上是指增加一个惩罚项，以防止权重变得过大。每次更新权重时，都会施加一点惩罚，使得权重不至于取得过大的值。这有助于模型不会过分拟合训练数据中的噪声或异常值，从而提高模型的泛化能力。

三个角度理解 L1 和 L2 正则化

L1 和 L2 正则化可以从拉格朗日乘数法、权重衰减和贝叶斯概率这三个角度去理解。每个角度都能帮助我们了解什么是 L1 和 L2 正则化，以及为什么它们能减少过拟合。尽管如此，我们为何要理解全部三个角度呢？因为 L1 和 L2 正则化本身是一个较为复杂的问题，很难一眼看清其全貌，而理解它的三个侧面可以帮助我们还原出 L1 和 L2 正则化的完整图像，这很像量子力学中的不同理论模型共同解释复杂的量子世界。

权重衰减的作用机制

权重衰减实际上增加了对权重的惩罚，每次学习都会施加一点惩罚，以确保权重不会取得过大。这一机制有助于避免过拟合。神经网络的本质是用简单的感知机进行嵌套，从而拟合我们需要的任何函数或曲线。

如果简化问题只考虑输出层的一个分类，感知机将根据输入绘制一条线，以此区分不同的类别，例如是否为猫或狗。在更复杂的网络中，隐藏层之前的处理最终会得到一个线性的划分结果，当把隐藏部分拿掉后，直接使用原始输入（如x1, x2, x3, x4）作为新的输入，每个点代表一个样本。

解释权重衰减如何防止过拟合

现在回到最初的问题：为什么增加惩罚项可以避免过拟合？答案在于，通过引入惩罚项，我们可以限制模型参数的大小，从而避免模型过度适应训练数据中的噪声或异常值。这样做可以使模型更加泛化，提高它在未见过的数据上的表现。换句话说，权重衰减鼓励模型选择较小的权重值，使得决策边界更加平滑，而不是过于弯曲以适应训练集中的每一个细节。这种做法减少了模型的复杂度，进而降低了过拟合的风险。

动态调整权重衰减率

对于超参数C来说，它相当于是我们已经提前知道了W应该在什么范围内取值是比较好的。而对于超参数α，则是我们不确定在什么范围内取值比较好，而是规定了一个类似学习率的衰减率，在衰减的过程中逐步学习，最后找到一个合适的范围。这是一个动态的过程，随着学习的推进，权重逐渐调整到一个适当的范围，直到达到最值点。

权重衰减的实际应用

在实际应用中，权重衰减并不意味着必须到达0才算结束。即使衰减的程度不是很高，权重还比较大的时候，如果已经达到了最值点，那么此时就不需要继续再学习了。也就是说，只要达到了路径上的任何一个点，都算是达到了最值点。因此，在毒圈缩小的过程中，有可能原本的最值点被括到了毒圈外面，即最后取值到的最值与原来的最值不一样。这种情况发生的概率并不是很大，但我们仍然需要了解这一点，以便更好地调整超参数。

理解偏差

最后，正则化后的最值与原来的最值之间确实会有一定的偏差，但这个偏差通常不会太大。花书对此有详细的分析，不过有时教材的表述可能会让人难以理解。例如，L1 正则化能够带来稀疏性，当损失函数的最小值在这个特定范围之内时，不论取任何值，都会被拉到零这个点上，从而实现稀疏性。这种定量的解释补充了我们之前定性的理解。

以上是基于王木头视频内容整理而成的博客。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/166627.html