互联网推荐系统漫谈.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
互联网推荐系统漫谈.pdf

互联网推荐系统漫谈 [核心提示] 化。网络就是社会,其实算法和人之间早已不那么泾渭分明了。 推荐系统这个东西其实在我们的生活中无处不在,比如我早上买包子的时候,老 系统的应用:亚马逊的商品推荐,Facebook 的好友推荐,Digg 的文章推荐,豆瓣的豆瓣猜, 音乐推荐,Gmail 里的广告 决这两个难题。 推荐系统的评判标准 首先我们得明确什么是好的推荐系统。可以通过如下几个标准来判定。 用户满意度 测用户线上行为数据获得。 预测准确度 合率来计算。重合率越大则准确率越高。 覆盖率 率分布来计算。比例越大,概率分布越均匀则覆盖率越大。 多样性 描述推荐系统中推荐结果能否覆盖用户不同 来计算,物品之间越不相似则多样性越好。 新颖性 的平均流行度和对用户进行问卷来获得。 惊喜度 以定性地通过推荐结果与用户历史兴趣的相似度和用户满意度来衡量。 简而言之,一个好的推荐系统就是在推荐准确的基础上,给所有用户推荐的物品尽量广泛( 个用户推荐的物品尽量 种「相见恨晚」的感觉。 推荐系统的分类 手。 1.利用用户行为数据 互联网上的用户行为千千万万,从简单的网页浏览到复杂的评价,下单 「协同过滤算法」也分两种,基于用户(UserCF)和基于物品(ItemCF) 的书有A,B,C,D;老王喜欢看的书有A,B,C,E 给老张推荐E 这本书,同时给老王推荐D 有喜好类似的物品就成。举例来说,我们发现喜欢看《从一到无穷 你刚津津有味地看完《从一到无穷大》,我们就可以立马给你推荐《什么是数学》。 至于什么时候用UserCF,什么时候用ItemCF,这都要视情况而定。一般来说,UserCF 适用于用户少,物品多,时效性较强的场合,比如Digg 的文章推荐;而ItemCF 多,物品少的场合,比如豆瓣的豆瓣猜、豆瓣FM,同时ItemCF OO 的人也喜欢XX」和亚马逊的「买了XX 的人也买了OO」。 然,这不科学!要避免这种情况就得从物品的内容数据入手了,后文提到的 除了协同过滤算法,还有隐语义模型(LFM) 指标上优于协同过滤,但性能上不太给力,一般可以先通过其他算法得出推荐列表,再由LFM 2.利用用户标签数据 博客的标签云,豆瓣书影音的标签。这些标签本身就是用户 有效的。 推荐合适的标签。 给用户。这里要注意两个问题,一个是要保证新颖性和多样性,可以用TF-IDF 个则是需要清除某些同义重复标签和没有意义的标签。 的标签」和「常用标签」两类,而在「我的标签」里也考虑了物品的因素。 基于标签的推荐有很多优点,一方面可以给用户提供比较准确的推荐理由; 3.利用上下文信息 心情,商品的季节性等等。 这里主要以时间为例说说,在很多新闻资讯类网站中,时效 的思想也可以用在基于用户行为的推荐中,这里有很多可以优化的地方。对于ItemCF UserCF 着重推荐口味相近的用户最近喜欢的物品。我们可以给相似度和用户的行为 低,经过这种改进的「协同过滤算法」往往能得到用户更满意的结果。 类似的,在LBS 谱的地点推荐。 4.利用社交网络数据 如今以Facebook,Twitter 任的作用,来自好友的推荐往往能获取更高的点击率,鉴于此,亚马逊就利用了Facebook 喜欢的商品。此种推荐类似于UserCF 友个数),这样一来,你的闺蜜们和基友们喜欢的物品很可能就会被推荐给你。 属性(例如人人的找同学),共同兴趣(如Twitter 中转发的信息),好友关系(共同好友数量,N 信息流(Timeline)推荐,这其中以Facebook 的EdgeRank 为代表,大致思想就是:如果一个会话 图谱的精准广告投放也是推荐系统的关键应用,它决定着社交网站的变现能力。 推荐系统的冷启动问题 用户做个性化推荐,如何将新物品推荐给用户,新网站在数据稀少的情况下如何做个性化推荐。 等。另外也可以在新用户注册后为其提供一些内容,让他们反馈对这些内容的兴趣,再根据这 得出物品之间的相似度,从而进行推荐。这种内容过滤算法在物品(内容) 闻资讯类的个性化推荐。 人工编辑热门榜单,高级一点的,人工分类标注。国外的个性化音乐电台Pandora 善,打造出了不一样的个性化电台。 除了这些,利用社交网络平台已有的大量数据也是一个不错的方法,尤其是那些依托于其他 服务。 算法vs 人 的一个观点: 那么懒的。

文档评论(0)

suijiazhuang1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档