最专业的八方代购网站源码!

资讯热点
操作过程中的通用推荐算法

发布时间:2019-1-2 分类: 行业资讯

在本文中,作者主要介绍了通用推荐算法的基本原理。

0.从余弦公式开始

首先考虑一个问题。我们如何量化两件事之间的相似性?当然,这也是推荐系统需要多次面对的问题。

我们知道矢量的概念,可以将其视为带箭头的线段。二维空间矢量表示方法是将多维空间矢量表示为,并且矢量是用于描述事物的良好模型。

例如,假设用户有5个维度:

服装偏好程度(1~5分)

家庭偏好程度(1~5分)

3C的偏好度(1~5分)

书籍的偏好程度(1~5分)

化妆品的偏好程度(1~5分)

一个用户A:服装3的相似度,家庭的偏好程度1,3C的偏好程度,书籍的偏好程度5,化妆品的偏好程度0,用户A可以表示为向量

一个用户B:服装3的偏好程度,家庭的偏好程度4,3 3C的偏好程度,书籍的偏好程度0,化妆品2的偏好程度,用户B可表示为矢量

两个用户之间的相似程度有多相似?由于我们将这两个用户表示为向量,我们可以考虑向量如何判断相似性。那是对的,看看两个向量之间的角度。如果角度小,则相似性更大。

对于矢量和,可以使用矢量余弦公式计算它们在多维空间中的角度:

余弦相似度的值本身是0~1的值,0表示完全正交,1表示完全一致。就用户A和用户B的示例而言,我们可以知道它们的相似性是:

余弦配方本身具有广泛的应用。定量相似性是搜索推荐和业务策略中的常见问题。余弦公式是一个很好的解决方案。就推荐本身而言,计算内容的相似度,计算用户的相似度,计算用户类型的相似度,并计算内容类型的相似度,这些都是适用的场景。

1.建议的性质是什么?

推荐与搜索的性质之间存在相似性。搜索满足用户从属于用户的海量数据中快速找到感兴趣内容的需要。建议是系统基于获得的用户数据猜测来自用户的感兴趣的内容,并将其推荐给属于系统并被推荐给用户的用户。从本质上讲,为了帮助用户在这个信息超载的时代找到他们感兴趣的东西。

有许多形式的推荐系统。操作或编辑过滤掉他们认为在主页上最好的内容,这也是广义上的推荐。但是,这不在我们当前文章的范围内,这个问题主要是讨论系统级建议。以下是四个常见建议:

基于内容的建议

基于内容的协同过滤

基于用户的协同过滤

基于标签的建议

2.基于内容的建议

基于内容的推荐是基本的推荐策略。如果您浏览或购买了某种类型的内容,建议您使用此类型的其他内容。

以电影推荐为例。例如,如果您之前看过《盗梦空间》,系统会将被盗梦想空间的信息关联到数据库中。该系统将推荐Christopher·的其他作品;诺兰,如《致命魔术》;系统将推荐Leonardo主演的其他作品,如《第十一小时》。

如果该电影系统的数据被很好地分类,则推荐系统还将向该用户推荐该类别下的其他作品。如果梦想空间被归类为科幻小说,那么可能会推荐其他科幻作品,如《星际迷航》。

基于内容的建议的好处很容易理解,但缺点是推荐方法更多地依赖于建立完整的内容存储库。如果内容格式不佳,则无法实现基于内容的建议。同时,如果用户留下的数据较少,则建议较差,因为无法扩展。

3.基于内容的协同过滤

协作过滤不同于基于内容直接分析的传统内容过滤。协同过滤分析系统的现有数据,并组合用户表达的数据,以预测指定用户对此信息的偏好。

基于内容的CF,通过对用户的不同内容进行评级来评估内容之间的相似性,并基于内容之间的相似性进行推荐;最典型的例子是着名的“啤酒加”尿布“,通过分析,知道啤酒和尿布经常与美国父亲一起购买,因此建议在尿布一侧使用啤酒,增加啤酒销量。

需要计算用户对项目j的兴趣,公式如下:

这里N(u)代表用户关联的项目集合,wji代表项目j和i的相似性,rui代表用户u对项目i的分数,如下所示:

还有两个问题没有在这里描述,如何评分,以及如何计算相似度。

如果你得分,你需要根据业务计算。如果存在评分系统,如果没有评分系统,则需要根据用户在此项目上的行为得分。

除了我们之前提到的余弦公式之外,计算相似度可以基于其他业务数据。例如,对于网易云音乐,两首歌曲中添加的歌曲越多,可以考虑的两首歌曲越相似。对于亚马逊,同时购买的两件商品相同,这两件商品被认为是相似的。实际上,有必要根据产品的具体情况进行调整。

4.基于用户的协同过滤

基于基于用户的CF,用户对不同内容的行为用于评估用户之间的相似性,并且基于用户之间的相似性做出推荐。推荐的这一部分主要是向其他用户推荐类似的内容,用一句话:像你这样的人也喜欢以下内容。

需要计算用户对项目i的兴趣,公式如下(可以仔细比较基于项目的协同过滤):

这里N(i)表示对项目i起作用的用户集合,wuf使用用户u和用户v的相似性,rvi表示用户v对项目i的评分,如下所示:

同样,如果您使用余弦公式计算相似度,最重要的是选择维度。对于音乐,可能每首歌都是一个维度。对于电子商务,每种商品都是一个维度。当然,也可以使用一些可理解的用户标签作为尺寸。

5.基于标签的建议

标签系统相对于先前用户维度和产品维度的建议在结构上更容易理解并且更容易直接干预结果。关于标签和分类,基本上是互联网自信息架构以来的经典设计结构。内容包含标签,用户标记用户行为。通过标签链接内容。

需要计算用户对项目i的兴趣,公式如下(可以仔细比较基于项目的协同过滤):

这里N(u。,i)表示用户u和项目i共享的标签,wuk使用用户u和标签k的关联度,rki表示标签k和项目i的相关性得分,如下:

标签查找方法有很多空间可以发挥作用,例如,通过知识库进行处理或语义分析。对于一些在设计开始时具有标签概念的代购源码网站,它更容易,例如豆瓣和知道。为了便于了解,公共编辑器的标签是自然标签内容,对于知道的用户,浏览答案和注意力的行为是自然用户标签材料。

6.总结

对于该建议,这些基本方法在应用场景之前存在一些差异:例如,基于知识的推荐,这是一种较旧的推荐方法,但对于具有更好内容的系统和结构而言成本低且效率高。 。例如,基于内容的协同过滤适用于内容有限但用户数量特别大的情况,例如电子商务公司。例如,基于基于用户的协同过滤,基于用户的兴趣点(例如新闻门户)更容易找到热门内容。对于基于标签的建议,标记系统很便宜,它们在灵活性和可控性方面更好,但很难做到。

本期主要介绍通用推荐算法的基本原理。那么在推荐系统策略设计时,有哪些特殊注意事项?我们如何衡量推荐系统的优缺点?推荐系统的典型应用场景是什么?欢迎阅读专栏并继续阅读下一期。

专栏

潘一鸣,每个人都是产品经理专栏作家,THU/PM,知道专栏:产品逻辑之美

« 从产品和操作的角度,分析白吉江小白的成功 | 渠道运营的存在是什么? »