协同过滤之item embedding 达观介绍算法成功

  • 电脑网络维修
  • 2024-11-14

介绍系统实质是在用户需求不明白的状况下,处置消息过载的疑问,咨询用户和消息,一方面协助用户发现对自己有价值的消息,另一方面让消息能够展如今对它感兴味的用户背地,从而成功消息消费者和消息消费者的双赢(这里的消息的含意可以十分宽泛,比如咨询、电影和商品等,下文中统称为item)。达观数据相关介绍是达观介绍系统中的关键组成局部,其价值在于,在没有用户画像消息的状况下,也能给用户以好的介绍体验,比如资讯类,经过达观相关介绍算法找到item相关的其余item,可以提供对某一类或许针对某一事情多角度多正面的深度阅读。本文关键先便捷引见相关介绍的一些罕用算法,而后引见一下基于itemembedding的协同过滤。

基于内容的介绍普通依赖于一套好的标签系统,经过计算item之间tag汇合的相似性来权衡item之间的相似性,一套好的标签系统须要各方面的打磨,一方面须要好的编辑,一方面也依赖于产品的设计,疏导用户在经常使用产品的环节中,对item提供优质的tag。

协同过滤关键分为基于畛域以及基于隐语义模型。

基于畛域的算法中,ItemCF是目前业界运行最多的算法,其关键思维为“喜欢item A的用户大都喜欢用户 itemB”,经过开掘用户历史的操作日志,应用个体智慧,生成item的候选介绍列表。关键统计2个item的共现频率,加以期间的考量,以及抢手用户以及抢手item的过滤以及降权。

LFM(latent factormodel)隐语义模型是最近几年介绍系统畛域最为抢手的钻研话题,该算法最早在文本开掘畛域被提出,用于找到文本隐含的语义,在介绍畛域中,其外围现实是经过隐含特色咨询用户和东西的兴味。关键的算法有pLSA、LDA、matrixfactorization(SVD,SVD++)等,这些技术和方法在实质上是相通的,以LFM为例,经过如下公式计算用户u对东西i的兴味:

公式中pu,k和qi,k是模型的参数,其中pu,k度量了用户u的兴味和第k个隐类的相关,而qi,k度量了第k个隐类和东西i之间的相关。而其中的qi,k可视为将item投射到隐类组成的空间中去,item的相似度也由此转换为在隐空间中的距离。

2. item2vec:NEURAL ITEM EMBEDDING

2.1 word2vec

因为item2vec基本上是参照了google的word2vec方法,运行到介绍场景中的item2item相似度计算上,所以首先便捷引见word2vec的基本原理。

Word2vec关键用于开掘词的向量示意,向量中的数值能够建模一个词在句子中,和高低文消息之间的相关,关键包含2个模型:CBOW(continuousbag-of-word)和SG(skip-gram),从一个便捷版本的CBOW模型引见,高低文只思索一个词的情景,如图1所示,

假定只要一个隐层的神经网络,输入层以及输入层均为词的one-hot编码示意,词表大小假定为V,隐层神经元个数为N,相邻层的神经元为全衔接,层间的权重用V*N的矩阵W示意,隐层到输入层的activationfunction驳回softmax函数,

其中wI,wj为词表中不同的词,yj为输入层第j个神经元的输入,uj为输入层经过权重矩阵W到隐层的score,uj’为隐层经过权重矩阵W’到输入层的score。训练这个神经网络,用反向流传算法,先计算网络输入和实在值的差,而后用梯度降低反向降级层间的权重矩阵,失掉降级公式:

其中,η为降级的步长,ej为模型预测以及实在值之间的误差,h为隐层向量。

图2为高低文为多个词时的状况,两边的隐层h计算由

改为

即输入向量为多个高低文向量相加求平均,后续的参数学习与上文的单个词的高低文状况相似。遍历整个训练集context-target词对,经过屡次迭代降级模型参数,对模型中的向量的影响将会累积,最终学到对词的向量示意。

Skip-gram跟CBOW的输入层和输入层正好对调,区别就是CBOW是高低文,经过模型预测词,而skip-gram是经过词来预测高低文。

目前为止,对词表中的每个词,有两种向量示意:input vector和outputvector,对应输入层到隐层权重矩阵W的行向量和隐层到输入层权重矩阵W'的列向量,从等式4、5可以看出,对每一个训练样本,都须要遍历词表中的每一个词,因此,学习outputvector的计算量是十分大的,假设训练集或许词表的规模大的话,在实践运行中训练不具可操作性。为处置这个疑问,直觉的做法是限度每个训练样本须要降级的outputvectors,google提出了两个方法:hierarchical softmax和negativesampling,放慢了模型训练的速度,再次不做开展探讨。

2.2 item2vec

词的高低文即为临近词的序列,很容易想到,词的序列其实等价于一系列延续操作的item序列,因此,训练语料只要将句子改为延续操作的item序列即可,item间的共现为正样本,并依照item的频率散布启动负样本采样。

Oren Barkan and NoamKoenigstein以SVD作为baseline,SVD的隐类以及item2vec的维度都取40,用Microsoft Xbox Musicservice搜集的user-artists数据集,对结果启动聚类,如图3所示,图a是item2vec的聚合效果,图b是SVD合成的聚合效果,看起来item2vec的聚合效果要更好些。

范雄雄,达观数据共性化介绍引擎工程师,上班包含介绍系统的架构设计和开发、介绍效果优化等,所在团队开发的共性化介绍系统曾发明上线后效果优化300%的记载。复旦大学计算机迷信与技术专业硕士,曾在爱奇艺开发多款大数据产品,对共性化介绍、数据开掘和剖析、用户行为建模、大数据处置有较深化的了解和通常阅历。

戳这里,看该作者更多好文

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/4299.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号