- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
深度丨从零搭建推荐体系: 推荐体系和评估体系(下).pdf
深度 丨从零搭建推荐体系 : 推荐体系和评估体系 (下 )
本文阐述整个推荐体系从0搭建的全流程 ,也是 近以来一直深入研究的成果展现 ,因原文
太长 ,故此切分成3部分发送 ,每天发送1篇 ,全文结构为 :上篇 :第零章概述 ,第一章标签
体系搭建 ;中篇 :第三章用户体系 ,第四章项目体系 ,下篇 :第五章推荐体系 ,第六章评估
体系 ,第七章全文总结 ,第八章参考资料。
内容相对全而深入 ,希望有推荐体系搭建意愿的平台或者产品经理 ,能够给予一定的帮助就好。另
,求工作。
深度 丨从零搭建推荐体系 :概述及标签体系搭建 (上 )
深度 丨从零搭建推荐体系 :用户体系、项目体系和推荐体系 (中 )
5 . 推荐体系
5.1 推荐方法
很明显 ,推荐方法和推荐算法是整个推荐系统中 核心、 关键的部分 ,很大程度上决定了推荐系
统性能的优劣。目前 ,主要的推荐方法包括 :基于内容推荐、协同过滤推荐、基于关联规则推荐、
基于效用推荐、基于知识推荐和组合推荐。详细的方法介绍也放置在附录4 当中以供参考 ,下面梳
理出各方法的优劣 :
在除去场景外 ,也要结合性能因素来进行考量 ,不同数据量级的情况下不同方法配合不同算法产生
的性能压力也是不同的 ,需要结合公司自身承受情况进行选择。可以看出 ,以上方法均有不同程度
的优势和劣势 ,所以目前主流推荐方法也几乎均采用混合推荐的方法 ,利用两种或多种方法之间的
优势 ,规避劣势从而达成尽量完美的方法 ,这其中也一定是基于不同的使用场景和产品具体情况具
体分析了。
5.2 推荐算法
这是整个推荐系统的核心区域 ,之前做的许多的工作其实都是在给推荐算法提供所谓的相关系数
条件 ,当系数越多的时候 ,计算出的结果一定是更准确的。
从数学角度来说是计算用户与内容之间的相似度和距离 ,相似度越高 ,距离越近的 ,自然越容易达
成转化 ,所以常见算法也就是向量里面的夹角余弦算法、皮尔逊系数 ,从距离来说会有欧几里得空
间距离算法、曼哈顿距离算法等等 ,包括还有许多新进研究的算法例如基于图摘要和内容相似混合
聚类的推荐算法GCCR。
简单介绍下GCCR ,该算法可以极端稀疏的数据集上具有较高的准确度 ,同时在冷启动的场景下能
够提供多样性的推荐结果 ,从而避免推荐结果收敛过快的问题。
首先 ,选取用户节点中关注数量较高的节点 ,从而抽取出稀疏数据中的一个密集子集 ,利用图摘要
的方法 ,对此密集子集形成关注兴趣相似的核心聚类。
然后 ,提取种子聚类的内容特征和整个数据集中其它用户的内容特征 ,基于内容相似度对整个用户
群进行聚类 , 后将聚类结果用于主题推荐。通过对密集数据子集和全数据集的两阶段聚类过程 ,
提高对极端稀疏数据集的聚类效果。同时 ,由于图摘要聚类中的类模糊性 ,可以在对用户兴趣聚类
的过程中保留一定的多样性 ,从而避免冷启动时收敛过快。
所以当前算法非常的多 ,结合不同场景和产品选择 优算法 ,才是 好的 ,在 附录5当中也列举了
常规的一些距离算法以供参考。
5.3 运用思路
当运用于实际情况时 ,一定要结合产品自身情况考量 ,例如产品冷启动期间数据过少 ,用哪种方法
,在数据量级充分上来的时候 ,减轻计算压力应该用哪种 ,长期需要修正的时候需要用哪种 ,都是
需要我们综合考量的 ,下面也将自己梳理的整体推荐思路进行分享。
千人一面
在产品上线初期 ,无论使用人数 ,还是内容 ,都相对较少 ,还未有足够数据支撑用户相关行为以及
趋势 ,所以在此阶段 ,以收集用户行为、属性为 高目的 ,先达成 粗略的推荐行为 ,也就是判断
哪些用户是疑似某一细化方向的目标用户 ,仅此即可。应该分为两个方向来考虑这个问题 ,新用户
和老用户 ,对于新用户只能从环境熟悉和可能的物理属性进行判断 ,老用户可以全方位多维度判断
,详见第二章 ,这里不多做叙述。
所以在当前阶段 ,主要目标就是收集用户行为 ,一切行为均不能遗漏 ,这也就是前文所说的 ,先围
绕每个人建立一套粗略喜好标签模型 ,此阶段希望的是实时调整 ,根据用户使用频次和动作来决定
,一定要快 ,因为刚刚上线 ,用户随时有可能离开。在用户随手点击内容以后回到首页的时候发现
已经有较为感兴趣的内容了 ,那种好感度是不一样的。
千人十面
在这个阶段 ,已然有之前的用户行为的基础数据作为支持了 ,所以我们首先要做的就是将用户分组
,将有相似喜好的用户找到 ,方法就是用 经典的向量算法里的夹角余弦 ,每个用户直接都要分别
计算 ,不过好再现阶段用户量级不多 ,可以大量计算。计算依据也就是根据之前用户的相关操
您可能关注的文档
最近下载
- 必威体育精装版西师版三年级数学上册教案全册 .pdf VIP
- 送达地址确认书(确认送达地址用)(2016民事诉讼文书样式).pdf VIP
- 语文阅读理解万能答题模板.pdf VIP
- 《下肢静脉曲张护理》课件.ppt VIP
- 2024企业临时工劳动合同【临时工劳动合同】.docx VIP
- TSG T7007—2022《电梯型式试验规则》条款介绍(整梯部分).pdf VIP
- 黄金-代码评审的智能化革命:基于大语言模型的 CodeReview.pdf VIP
- 临时工劳动合同临时司机.docx VIP
- 七年级语文下册第五单元大单元教学设计.docx VIP
- 定制衣柜竞品研究分析好莱客索菲亚-1.ppt VIP
文档评论(0)