- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1000-9825/2002/13(01)0136-06 ©2002 Journal of Software 软 件 学 报 Vol.13, No.1 基于Web-Log Mining 的N 元预测模型 1,2 1,2 3 4 苏 中 , 马少平 , 杨 强 , 张宏江 1(清华大学 计算机科学与技术系,北京 100084); 2(清华大学 智能技术与系统国家重点实验室,北京 100084); 3(Simon Fraser 大学,加拿大); 4(微软中国研究院,北京 100080) E-mail: suzhong_bj@ 摘要: 随着Web 上用户访问信息的不断增加,特别是Web 服务器可提供大量的日志文件,使得有可能对这些大 数据集进行知识挖掘,例如,对用户未来的访问进行预测.提出了一种利用服务器日志文件,运用 N 元(N-gram)预 测模型对用户未来可能进行的 Web 访问请求进行预测.这种模型会选择性地对用户可预测的请求进行预测,从 而大大提高了预测精度.实验证明,在自然语言中普遍适用的N 元预测模型同样适用于网页预测. 同时,采用了一 种有效的简化手段, 大大压缩了模型的大小,使得5 元模型和传统的2 元模型大小基本相同, 而预测精度提高 了1 倍.该结果可以广泛地运用到Web 上,包括网页的预发送、预取、推荐以及Web 上的caching 机制.试验是 建立在真实的Web 日志上的,该算法无论在预测精度上还是在可适用度上都优于以往的算法. 关 键 词: Web mining;数据挖掘;预测 中图法分类号: TP393 文献标识码: A Internet 是一个全球的、分布的、动态的信息仓库,它存储着大量的数字化信息.在今天,它已经成为大众获 得日常信息的重要来源.可是, 由于庞大的信息量,对于每一个用户来说,如何能够及时地发现有用的信息则变 得越来越困难.一种有效的解决方案是通过预测用户未来的网页请求来对该用户进行预发送、预取或者给该用 户推荐他有可能感兴趣的网页. 由于Web 服务器日志文件中记录了该服务器被外部访问的所有过程信息,通过 对这些过程信息的分析,可以客观地反映服务器的内部结构、组成、内容、访问频度等有关该服务器的重要信 息. 同时,在任何一个服务器上都可以很方便地得到它的日志文件,数据的来源很方便,所以对它进行分析是可 行的,而且也是有效的. 受自然语言中 n 元语言模型的启发[1],本文提出了一种 n 元的概率预测模型.试验表明,这种模型同样适用 于 Web 预测,而且模型的元数越高,其预测精度就越高.通过对大量的真实服务器日志文件的统计,我们发现了 一种有效的模型简化手段,大大降低了模型的复杂程度,而对预测精度几乎没有影响,很多时候精度还可以提 高. 同时,我们比较了不同元数的模型的预测精度和可适用度(将在第2 节中定义),运用4 元以上的混合预测模型 可以得到精度和可适用度综合指标最优的预测结果.与其他已有方法相比,本文所述方法无须知道用户的喜好 信息,只需要服务器的访问日志文件.而对用户来说,不需要增加任何额外的使用负担. 本文第 1 节介绍一些相关的工作,第2 节对模型的构造算法进行描述,第3 节讲述模型的预测算法,第4 节 收稿日期: 2000-04-03; 修改日期: 2000-07-20 基金项目: 国家重点基础研究发展规划973 资助项目(G 1998030509) 作者简介: 苏中(1976 -), 男,上海人,博士生,主要研究领域为基于内容图像检索,模式识别, 网络数据挖掘;马少平(1961 -), 男, 河北唐山人,博士,教授,博士生导师,主要研究领域为模式识别,信息检索, 网络数据挖掘;杨强(196 1-),男,北京人,博士,教授,主要研究 领域为机器学习,数据挖掘,知识系统;张宏江(1960 -),男,黑龙江哈尔滨人,博士,研究员,主要研究领域为视频和图像内容分析与检索, 计算机视觉,信息系统. 苏中 等:基于Web-Log Mining 的N 元预测模型 137 是实验描述,最后一节是本文内容的总结和对未来工作的一些探讨. 1 相关工作 由于Web 的成长速度和相关信息的膨胀,对Web 用户行为的预测逐渐成为研究的热点.Web 推荐系统,就是
文档评论(0)