信息协同过滤-coremail邮件系统.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息协同过滤-coremail邮件系统

信息协同过滤* 蔡登,卢增祥,李衍达 清华大学 自动化系 北京100084 caideng00@ luzx@ 摘要: Internet 的迅速发展使得信息过载日益严重,如何帮助用户有效的发掘、过滤、利用信 息这一问题亟待解决。在各种信息过滤算法中,协同过滤以其独有的特点得以迅速发展。本 文试图描述协同过滤的本质,分析阐述实际中和实验中的一些算法,探讨协同过滤的发展方 向。 关键词:信息过滤 协同过滤 社会过滤 1. 简介 网络的迅速发展、信息的日益丰富使得信息过滤越来越重要。在网络发展初期发挥了重 大作用的有哪些信誉好的足球投注网站引擎正面临着困境:网络资源的众多和低组织性使得有哪些信誉好的足球投注网站引擎无法准确的根据 用户提交的查询返回用户需要的内容。单一的关键词提供的信息量太少,难以据此准确判断 用户的需求。而传统的基于内容(关键词匹配)的过滤技术在人工智能自然语言理解没有重 大突破之前已很难再有较大的发展,难以满足用户的进一步需求。 在这种背景下,协同过滤(Collaborative Filtering )的出现为进一步提高信息服务质 量提供了一个新的思路。协同过滤,又称社会过滤(Social Filtering),其基本思想十分直观: 在日常生活中,人们往往会根据亲朋好友的推荐来做出一些选择(购物、阅读、音乐……)。 协同过滤系统就是将这一思想运用到网络信息服务(信息推荐)中,基于其他用户对某一信 息的评价来向某一用户进行推荐。通常,系统选取与指定用户有相似兴趣的用户作为参考对 象。而如何定义用户相似性以及如何选取参考用户群正是协同过滤算法研究的重点。 与传统文本过滤相比,协同过滤有下列优点: 1.能够过滤难以进行机器自动内容分析(Content_based )的信息。像艺术品、音乐。 2 .共享其他人的经验,避免了内容分析的不完全和不精确,并且能够基于一些复杂的, 难以表述的概念(如信息质量、品味)进行过滤。 3 .可以有效的使用其他相似用户的反馈信息,减少用户的反馈量,加快个性化学习的 速度。 4 .具有推荐新信息的能力 (serendipitous recommendations )。 正因为此,在Goldberg 等人[1]在其设计的邮件过滤系统中初步应用了协同过滤的思想 *基金项目:国家自然科学基金)。蔡登,硕士生,研究方向为网络信息服务,人工智能,MAS 。 卢增祥,博士,讲师,研究方向为网络信息服务,人工智能,MAS 。李衍达,教授,博士生导师,中国科 学院院士,研究方向为网络信息服务,生物信息学,智能信号处理等。 1 (这可以说是最早的协同过滤系统)之后,各种研究协同过滤的实验系统纷纷出现。像 GroupLens[2-4] :过滤网上新闻的系统;Ringo[5] :推荐音乐的系统;Video Recommender[6] 和MovieLens[7] :推荐电影的系统;Jester[8] :推荐笑话的系统。 越来越多的在线商家,包括A 、CDN 和L ,都使用了协同过 滤技术向顾客推荐产品[9]。由微软研究院开发的协同过滤工具已被集成在微软的Commerce Server1产品中,并被许多站点使用了。 当然,协同过滤还有很大的不足,这是由协同过滤的本质决定:要获得满意的效果,必 须得到准确的用户信息,一般而言,这需要建立在拥有大量的用户信息数据的基础上,所以 很难做到。这使得协同过滤技术应用领域较为狭窄(几乎都集中在娱乐方面:音乐、电 影……),在更广的领域(如在基于内容过滤相当成功的文本相关性领域)的应用还很不够。 解决的途径不外乎两条: 1. 发展信息获取技术:利用各种途径,合理有效的获得、使用更多的用户信息。 2. 发展信息挖掘技术:在有限的原始数据中最大程度的找出有用的信息。 本文以这两条思路为线索,试图通过回顾协同过滤发展的历程,分析阐述实际中和实验 中的一些算法,来揭示协同过滤的本质,并探讨协同过滤的发展方向。 2. 协同过滤的实现 协同过滤的基本出发点是: 1. 用户是可以按兴趣分类的; 2. 用户对不同的

文档评论(0)

ailuojue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档