大家好,欢迎来到IT知识分享网。
论文题目:
Structured Probabilistic Coding
论文链接:
https://arxiv.org/abs/2312.13933
代码链接:
https://github.com/zerohd4869/SPC
作者主页:
https://hudou95.github.io/
一、摘要
概率编码
(Probabilistic Coding)技术,将信息编码和任务预测结合到一个模块中。通过在输出空间中使用变分推断,可以更好地控制和利用数据的随机性和不确定性。该方法学习到的紧凑表示可以充分捕获数据的潜在结构,并保留与目标任务相关的有效信息。这有助于提高模型的泛化性能,特别是在面对有限数据或带噪标签时。
结构化正则
(Structured Regularization)可以帮助模型学习与目标任务相关的更多信息,从而提高模型在新数据上的预测准确性。
结构化概率编码
(Structured Probabilistic Coding, SPC)是一种新的监督表示学习框架。该框架是一种仅含编码器的概率编码技术,并结合来自目标标签空间的结构化正则。通过从输入中提取紧凑且任务信息丰富的概率表示,SPC 可以增强预训练语言模型的泛化能力,以实现更好的语言理解。其中,概率编码技术通过变分近似,将输入编码为高斯分布空间下的随机输出表示,同时最小化给定表示下目标标签的条件熵。同时,结构化正则项鼓励多元高斯分布下潜在空间内的类级均匀性,使潜在空间分布更好地反映目标任务空间的结构信息,这有利于任务预测。在结合正则项的概率编码框架下,SPC 可以保持输入空间中邻域的高斯结构,同时在潜在空间实现保持类级均匀性的最佳覆盖。
表情预测、仇恨言论检测、讽刺检测、攻击性语言检测、情感分析、立场检测、不同领域的情绪检测
等)和 2 个回归任务(包括
语义相似度预测和合理澄清排序
)。结果表明,提出的 SPC 方法有效地提高了预训练语言模型在分类和回归任务上的性能。以使用 RoBERTa 作为网络骨架为例,与传统的 CE/MSE 学习目标相比,SPC 将分类和回归任务的平均性能分别提高了约
+4.0% 和 +1.5%
。与对比方法相比,包括确定性嵌入技术(即 CE/MSE、CE/MSE+CP、CE+AT 和 CE+SCL)和概率嵌入技术(即 VIB、MINE-IB 和 MEIB),SPC 框架在不同的基础骨架(如 BERT 和 RoBERTa)下始终取得了最佳的平均性能。广泛的实验表明,SPC 可以增强模型的泛化能力(包括数据受限和分布外场景),对标签噪声的鲁棒性,以及输出表示的聚类质量。
-
我们提出了一种仅含编码器的概率编码方法,将信息编码和任务预测集成到一个模块中,从输入中最大限度地保留了与目标任务相关的有效信息。
-
我们设计了一个结构化正则项来促进潜在空间中类级的一致性,以增强概率嵌入方法的任务预测能力。
-
我们提出了一个监督表示学习框架 SPC,从输入中学习紧凑且任务信息丰富的概率表示。它可以增强预训练语言模型的泛化能力,以实现更好的语言理解。
-
12个基准测试的实验表明,在不同的网络骨架下,SPC 在分类和回归任务上均实现了最先进的性能。扩展实验表明 SPC 可以增强预训练模型的泛化能力、对标签噪声的鲁棒性,以及输出表示的聚类质量。
三、方法
(Structured Probabilistic Coding, SPC)是一种监督式表示学习框架,旨在从输入中学习紧凑且任务信息丰富的概率表示。如图1(c)所示,SPC 是一种只包含编码器的结构化概率编码技术,并结合了来自目标任务空间的结构化正则。
的约束前提下,有
。我们的目标是最小化输入
和潜在表示
之间的互信息以及最大化表示
与目标标签
之间的信息。具体而言,我们使用变分近似将每个输入
编码成输出空间
中的高斯分布表示
,即
。此外,我们通过估计表示
给定目标标签
的条件熵,最大化
的下限。概率编码的目标函数可以表示为:
是一个非参数操作,即 argmax 函数。
是
的先验
的估计。
是
的后验概率的变分估计,并由随机编码器
学习。
表示 KL 散度项,用于迫使
的后验概率近似于先验
。
是控制
对
预测能力和
从
中的压缩程度之间的权衡超参数。
是各向同性高斯分布。变分近似后验
是一个具有对角协方差结构的多元高斯分布,即
,其中
和
分别代表均值和对角协方差,它们的参数都是依赖于输入的,并由一个多层感知机(MLP,具有单隐藏层的全连接神经网络)预测。由于
的采样是一个随机过程,我们应用重参数化技巧来确保模型的梯度无偏。
可以是
的参数近似,即压缩表示
可以从分布
中采样,这意味着噪声的特定模式被添加到
的输入中。这种噪声可能会削弱
传达的信息,并可能导致解码器
在学习过程中丢失关键的任务相关信息。不同于它们,我们的概率编码将概率编码和任务预测功能整合到了一个编码器模块中,并应用非参数操作得到预测输出。它可以有效地避免传统概率嵌入方法中随机性和不确定性带来的负面影响。
的学习不能直接依赖于目标标签
,这意味着对
的学习未能充分利用任务空间的信息。因此,所学得的表示不能充分代表目标任务的真实分布,在从有限或有偏数据中学习时会导致泛化能力差。因此,我们设计了一种新的结构化正则(Structured Regularization)来探索标签空间的潜在模式。
在标签空间上的先验熵:
,并应用 Jensen 不等式和蒙特卡洛方法估计其下界:
个目标标签变量的平均预测概率。这样,我们可以通过计算批次熵
估计
,其度量了在标签空间中预测概率分布的不确定性或多样性。这种正则化项促进了潜在空间中不同类别之间的均匀性学习过程,防止模型过度强调训练数据中部分难以准确代表真实数据分布的特征。
是控制正则化强度的超参数。前两项将信息编码和任务预测整合到了一个编码器模块中。第三项是结构化正则项,促进了潜在空间中的类别均匀性。SPC 的目标是在输入空间中保持邻域的高斯结构,并在潜在空间中实现类均匀性的最佳覆盖。
的下限可以相当于经典的交叉熵损失。同样地,对于回归任务,
的下限可以等同于经典的均方误差损失。
4.1 任务测评
+3.1%
和
+4.0%
。结果表明我们的方法对未见过的测试集具有良好的泛化能力,并显示出在分类任务上的优越性。
+1.5%
的绝对提升。这证明了 SPC 对于回归任务中未见过的测试集的优越性和泛化性。
表2 在2个回归基准任务上的性能评估。网络架构以 RoBERTa 为例,下同。
表3 消融实验结果。
图2 在不同训练集大小下的泛化性评估。
表4 在OOD场景下的泛化性评估。
+2.0%
、
+2.1%
和
+1.7%
。结果证明 SPC 能够更好地控制和利用数据的随机性和不确定性。
表5 不同标签噪声下的鲁棒性评估。
五、总结
[1] Pereyra, G.; Tucker, G.; Chorowski, J.; Kaiser, L.; and Hinton, G. E. 2017. Regularizing Neural Networks by Penalizing Confident Output Distributions. In ICLR (Workshop).
[2] Miyato, T.; Dai, A. M.; and Goodfellow, I. J. 2017. Adversarial Training Methods for Semi-Supervised Text Classification. In ICLR (Poster).
[3] Gunel, B.; Du, J.; Conneau, A.; and Stoyanov, V. 2021. Supervised Contrastive Learning for Pre-trained Language Model Fine-tuning. In ICLR.
[4] Vilnis, L.; and McCallum, A. 2015. Word Representations via Gaussian Embedding. In ICLR.
[5] Kingma, D. P.; and Welling, M. 2014. Auto-Encoding Variational Bayes. In ICLR.
[6] Higgins, I.; Matthey, L.; Pal, A.; Burgess, C. P.; Glorot, X.; Botvinick, M. M.; Mohamed, S.; and Lerchner, A. 2017. beta-VAE: Learning Basic Visual Concepts with a Constrained Variational Framework. In ICLR (Poster).
[7] Alemi, A. A.; Fischer, I.; Dillon, J. V.; and Murphy, K. 2017. Deep Variational Information Bottleneck. In ICLR (Poster).
[8] Fischer, I. S. 2020. The Conditional Entropy Bottleneck. Entropy, 22(9): 999.
[9] Mahabadi, R. K.; Belinkov, Y.; and Henderson, J. 2021. Variational Information Bottleneck for Effective Low-Resource Fine-Tuning. In ICLR.
[10] An, S.; Jammalamadaka, N.; and Chong, E. 2023. Maximum Entropy Information Bottleneck for Uncertainty-aware Stochastic Embedding. In CVPR Workshops, 3809–3818.
[11] Belghazi, M. I.; Baratin, A.; Rajeswar, S.; Ozair, S.; Bengio, Y.; Hjelm, R. D.; and Courville, A. C. 2018. Mutual Information Neural Estimation. In ICML, volume 80, 530–539.
Illustration From IconScout By Delesign Graphics
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
>>> 添加小编微信!
公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/109230.html