大家好,欢迎来到IT知识分享网。
文献链接:
https://doi.org/10.1287/opre.2018.1832
01 研究背景
我们考虑一个动态分类选择问题,其中零售商在每一轮中提供N种可替代产品的子集(分类)给消费者,消费者根据多项式logit (MNL)选择模型从这些产品中选择一种。零售商观察这种选择,目标是动态学习模型参数,同时优化长度为T的销售范围内的累积收入。我们将这种探索-利用公式称为MNL-Bandit问题。
本文中,我们给出了一种新的有效的算法,可以同时探索和利用任何问题参数,而无需先验知识。此外,该算法是自适应的,在“良好分离”的情况下,它的性能接近最优,在这种分离不需要保持的一般参数设置中。
02 模型建立
1.购买概率:
零售商有N个产品, : ∈{1,2,⋯ , },在 t 时刻选择提供产品组合S_t⊂{1,2,⋯ , }。消费者在 t 时刻的购买选择c_t∈ S_t∪{0}。消费者的购买概率p_i (S)为
2.预期利润:
产品 i 被消费者购买后零售商获得的利润为r_i,零售商在 t 时刻提供给消费者产品组合 S 获得的预期利润为(,):
3.目标函数:
目标是设计策略π=(π_1,π_2, ⋯ ,π_T )使累计预期收益最大化:
也可以通过遗憾来衡量策略π的性能表现:
03 算法框架
04 实验设置
我们考虑参数化MNL设置,对于所有i, 设置n=10, k=4, ri=1和效用参数v0=1,对于i=1,…N
其中ϵ={0.05, 0.1, 0.15, 0.25}
文献中所绘制的遗憾图如下:
05 代码复现
复现结果:
对于不同的ϵ值,随着进行迭代,累计遗憾的增长逐渐趋于平缓。其中ϵ代表的是最优产品组合与次优产品组合之间的分离程度,可以看出,ϵ越小,即最优与次优之间不易被算法区分,即使这样,本篇文献设计的算法的性能依然可以呈次线性增长。而随着ϵ的增大,算法的性能表现越好。
链接: https://pan.baidu.com/s/1NMuMNglvCImJ-nepAGlA2g
提取码: 0527
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/123452.html