大家好,欢迎来到IT知识分享网。
引言
上一次我们从拉格朗日乘数法的角度去理解了 L1 和 L2 正则化,这一次我们将继续从权重的衰减角度来重新理解这个问题。
深入探讨权重衰减
拉格朗日乘数法本质上是控制权重到原点的距离,通过这种方式约束权重的取值。L1 和 L2 正则化也叫做权重衰减。虽然从拉格朗日乘数法的角度看,可能不太容易发现衰减的过程,但既然术语中包含了“衰减”,那么一定存在某个地方体现了这个过程。这次我们就一起来看一下这个过程。
在机器学习中,权重衰减实际上是指增加一个惩罚项,以防止权重变得过大。每次更新权重时,都会施加一点惩罚,使得权重不至于取得过大的值。这有助于模型不会过分拟合训练数据中的噪声或异常值,从而提高模型的泛化能力。
三个角度理解 L1 和 L2 正则化
L1 和 L2 正则化可以从拉格朗日乘数法、权重衰减和贝叶斯概率这三个角度去理解。每个角度都能帮助我们了解什么是 L1 和 L2 正则化,以及为什么它们能减少过拟合。尽管如此,我们为何要理解全部三个角度呢?因为 L1 和 L2 正则化本身是一个较为复杂的问题,很难一眼看清其全貌,而理解它的三个侧面可以帮助我们还原出 L1 和 L2 正则化的完整图像,这很像量子力学中的不同理论模型共同解释复杂的量子世界。
权重衰减的作用机制
权重衰减实际上增加了对权重的惩罚,每次学习都会施加一点惩罚,以确保权重不会取得过大。这一机制有助于避免过拟合。神经网络的本质是用简单的感知机进行嵌套,从而拟合我们需要的任何函数或曲线。
如果简化问题只考虑输出层的一个分类,感知机将根据输入绘制一条线,以此区分不同的类别,例如是否为猫或狗。在更复杂的网络中,隐藏层之前的处理最终会得到一个线性的划分结果,当把隐藏部分拿掉后,直接使用原始输入(如x1, x2, x3, x4)作为新的输入,每个点代表一个样本。
解释权重衰减如何防止过拟合
现在回到最初的问题:为什么增加惩罚项可以避免过拟合?答案在于,通过引入惩罚项,我们可以限制模型参数的大小,从而避免模型过度适应训练数据中的噪声或异常值。这样做可以使模型更加泛化,提高它在未见过的数据上的表现。换句话说,权重衰减鼓励模型选择较小的权重值,使得决策边界更加平滑,而不是过于弯曲以适应训练集中的每一个细节。这种做法减少了模型的复杂度,进而降低了过拟合的风险。
动态调整权重衰减率
对于超参数C来说,它相当于是我们已经提前知道了W应该在什么范围内取值是比较好的。而对于超参数α,则是我们不确定在什么范围内取值比较好,而是规定了一个类似学习率的衰减率,在衰减的过程中逐步学习,最后找到一个合适的范围。这是一个动态的过程,随着学习的推进,权重逐渐调整到一个适当的范围,直到达到最值点。
权重衰减的实际应用
在实际应用中,权重衰减并不意味着必须到达0才算结束。即使衰减的程度不是很高,权重还比较大的时候,如果已经达到了最值点,那么此时就不需要继续再学习了。也就是说,只要达到了路径上的任何一个点,都算是达到了最值点。因此,在毒圈缩小的过程中,有可能原本的最值点被括到了毒圈外面,即最后取值到的最值与原来的最值不一样。这种情况发生的概率并不是很大,但我们仍然需要了解这一点,以便更好地调整超参数。
理解偏差
最后,正则化后的最值与原来的最值之间确实会有一定的偏差,但这个偏差通常不会太大。花书对此有详细的分析,不过有时教材的表述可能会让人难以理解。例如,L1 正则化能够带来稀疏性,当损失函数的最小值在这个特定范围之内时,不论取任何值,都会被拉到零这个点上,从而实现稀疏性。这种定量的解释补充了我们之前定性的理解。
以上是基于王木头视频内容整理而成的博客。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/166627.html