L1 和 L2 正则化:从权重衰减的角度理解

L1 和 L2 正则化:从权重衰减的角度理解引言上一次我们从拉格朗日乘数法的角度去理解了 L1 和 L2 正则化 这一次我们将继续从权重的衰减角度来重新理解这个问题 深入探讨权重衰减拉格朗日乘数法本质上是控制权重到原点的距离 通过这种方式约束权重的取值 L1 和 L2 正则化也叫做权

大家好,欢迎来到IT知识分享网。

引言

上一次我们从拉格朗日乘数法的角度去理解了 L1 和 L2 正则化,这一次我们将继续从权重的衰减角度来重新理解这个问题。

深入探讨权重衰减

L1 和 L2 正则化:从权重衰减的角度理解

拉格朗日乘数法本质上是控制权重到原点的距离,通过这种方式约束权重的取值。L1 和 L2 正则化也叫做权重衰减。虽然从拉格朗日乘数法的角度看,可能不太容易发现衰减的过程,但既然术语中包含了“衰减”,那么一定存在某个地方体现了这个过程。这次我们就一起来看一下这个过程。

L1 和 L2 正则化:从权重衰减的角度理解

在机器学习中,权重衰减实际上是指增加一个惩罚项,以防止权重变得过大。每次更新权重时,都会施加一点惩罚,使得权重不至于取得过大的值。这有助于模型不会过分拟合训练数据中的噪声或异常值,从而提高模型的泛化能力。

三个角度理解 L1 和 L2 正则化

L1 和 L2 正则化可以从拉格朗日乘数法、权重衰减和贝叶斯概率这三个角度去理解。每个角度都能帮助我们了解什么是 L1 和 L2 正则化,以及为什么它们能减少过拟合。尽管如此,我们为何要理解全部三个角度呢?因为 L1 和 L2 正则化本身是一个较为复杂的问题,很难一眼看清其全貌,而理解它的三个侧面可以帮助我们还原出 L1 和 L2 正则化的完整图像,这很像量子力学中的不同理论模型共同解释复杂的量子世界。

L1 和 L2 正则化:从权重衰减的角度理解

L1 和 L2 正则化:从权重衰减的角度理解

L1 和 L2 正则化:从权重衰减的角度理解

L1 和 L2 正则化:从权重衰减的角度理解

L1 和 L2 正则化:从权重衰减的角度理解

L1 和 L2 正则化:从权重衰减的角度理解

L1 和 L2 正则化:从权重衰减的角度理解

L1 和 L2 正则化:从权重衰减的角度理解

L1 和 L2 正则化:从权重衰减的角度理解

L1 和 L2 正则化:从权重衰减的角度理解

权重衰减的作用机制

L1 和 L2 正则化:从权重衰减的角度理解

权重衰减实际上增加了对权重的惩罚,每次学习都会施加一点惩罚,以确保权重不会取得过大。这一机制有助于避免过拟合。神经网络的本质是用简单的感知机进行嵌套,从而拟合我们需要的任何函数或曲线。

L1 和 L2 正则化:从权重衰减的角度理解

如果简化问题只考虑输出层的一个分类,感知机将根据输入绘制一条线,以此区分不同的类别,例如是否为猫或狗。在更复杂的网络中,隐藏层之前的处理最终会得到一个线性的划分结果,当把隐藏部分拿掉后,直接使用原始输入(如x1, x2, x3, x4)作为新的输入,每个点代表一个样本。

解释权重衰减如何防止过拟合

L1 和 L2 正则化:从权重衰减的角度理解

现在回到最初的问题:为什么增加惩罚项可以避免过拟合?答案在于,通过引入惩罚项,我们可以限制模型参数的大小,从而避免模型过度适应训练数据中的噪声或异常值。这样做可以使模型更加泛化,提高它在未见过的数据上的表现。换句话说,权重衰减鼓励模型选择较小的权重值,使得决策边界更加平滑,而不是过于弯曲以适应训练集中的每一个细节。这种做法减少了模型的复杂度,进而降低了过拟合的风险。

动态调整权重衰减率

对于超参数C来说,它相当于是我们已经提前知道了W应该在什么范围内取值是比较好的。而对于超参数α,则是我们不确定在什么范围内取值比较好,而是规定了一个类似学习率的衰减率,在衰减的过程中逐步学习,最后找到一个合适的范围。这是一个动态的过程,随着学习的推进,权重逐渐调整到一个适当的范围,直到达到最值点。

权重衰减的实际应用

在实际应用中,权重衰减并不意味着必须到达0才算结束。即使衰减的程度不是很高,权重还比较大的时候,如果已经达到了最值点,那么此时就不需要继续再学习了。也就是说,只要达到了路径上的任何一个点,都算是达到了最值点。因此,在毒圈缩小的过程中,有可能原本的最值点被括到了毒圈外面,即最后取值到的最值与原来的最值不一样。这种情况发生的概率并不是很大,但我们仍然需要了解这一点,以便更好地调整超参数。

理解偏差

最后,正则化后的最值与原来的最值之间确实会有一定的偏差,但这个偏差通常不会太大。花书对此有详细的分析,不过有时教材的表述可能会让人难以理解。例如,L1 正则化能够带来稀疏性,当损失函数的最小值在这个特定范围之内时,不论取任何值,都会被拉到零这个点上,从而实现稀疏性。这种定量的解释补充了我们之前定性的理解。


以上是基于王木头视频内容整理而成的博客。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/166627.html

(0)
上一篇 2025-01-08 18:00
下一篇 2025-01-08 18:26

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信