基于网页主题重要性的专题有哪些信誉好的足球投注网站策略研究.ppt

基于网页主题重要性的专题有哪些信誉好的足球投注网站策略研究.ppt

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于网页主题重要性的专题有哪些信誉好的足球投注网站策略研究

基于网页主题重要性的专题有哪些信誉好的足球投注网站策略研究 魏本洁 weibj@scut.edu.cn 目录 背景 主题重要性 主题相关性 实验结果 总结 背景 通用有哪些信誉好的足球投注网站引擎存在的弊端: 索引更新比较慢 返回不相关结果过多 不能区分不同领域的检索需求 面向特定领域、信息分类精确、数据全面、更新及时的主题有哪些信誉好的足球投注网站引擎成为研究重点 主题爬行器的研究主要集中在有哪些信誉好的足球投注网站策略上 目录 背景 主题重要性 主题相关性 实验结果 总结 主题重要性和主题相关性 主题重要性:是指链接所指向的网页在某个主题的所有网页中的重要程度,相当于通用采集系统中的PageRank值 主题相关性:根据链接的上下文,来判定该链接是否主题相关的一个度量 主题重要性—PageRank 通用信息采集系统通常采用PageRank来表示网页在整个Web中的重要程度 , PageRank的计算公式: 表示页面u存在链接指向v; 表示页面的出度;N表示整个Web的网页总数;d表示以该概率随机跳转到Web中的任一页面 主题重要性—TSPR Haveliwala提出TSPR来表示网页在不同主题 的重要程度,网页在每个主题的TSPR值(Topical Sensitive PageRank)的计算公式 : 表示类别; 表示页面u存在链接指向v; 表示页面的出度;表示类别的网页总数;d表示以该概率随机跳转到本主题的任一页面 主题重要性—PageRank和TSPR的不足 PageRank是主题无关的一个衡量尺度,它不适用于专题信息采集系统 专题信息采集系统中可能存在多个主题 在某主题中很重要的网页,在另一个主题中则很有可能是不重要的 TSPR没充分考虑网页本身的主题相关度 主题重要性—TopicalRank 将网页本身的主题相关程度融合到主题重要性TopicalRank的计算中,网页在某主题的主题重要性的计算方法: 表示网页与专题的主题相关程度; 表示网页的出度。和 分别代表链接结构和链接主题相关性的权重系数 目录 背景 主题重要性 主题相关性 实验结果 总结 主题相关性—链接上下文的提取 用HTML文档的标签树或者文档对象模型(DOM)结构来获取链接上下文 html head titleHello World!title /head body h3Hello!h3 ul li ahref=1.htmlitem1/aHello/li li a href=2.htmlitem2/a World/li li a href=3.htmlitem3/a Contact/li /ul /body /html html title head text body text h3 ul li a text text 主题相关性—链接上下文的提取 传统:以链接标签为根的子树下的所有文本,作为链接上下文 扩展:以链接标签的祖先为根的子树中所包含的所有文本,作为一个链接的上下文。该根结点为聚合节点,即链接及相应上下文都在其子树下 当聚合节点为链接节点的父节点时,相关信息足够并且质量高 主题相关性—链接特征的表示 文本分类中,文档的特征用特征项以及特征项的权重表示 在本链接分类器中,也将超链接的上下文文本经过特征项提取之后,采用相同方式表示:即 。其中,tj为特征项,wj为该特征项的权重。 链接分类器一旦训练完成,就可以对新产生的链接进行主题相关度分析。 主题相关性—链接分类器的训练过程 抓取网页并解析,得到新增链接集合 及对应链接特征集合 种子页面集合 采集 中的网页 ,若属于类别 将其对应的链接特征 作为类别的一个样本 链接分类器进行训练 目录 背景 主题重要性 主题相关性 实验结果 总结 实验结果—链接分类器的准确性 实验设计 链接分类器采用不同的链接信息提取方式: 基于标签树的链接上下文信息提取 基于锚文本的链接信息提取 实验方式 采集新浪、搜狐和163三个门户网站“体育”和“其他”两个类别的网页,并提取网页内的链接信息(采用不同的提取方法),共获取两个类别的链接信息各12000个,进行4分集的交叉测试 实验结果—链接分类器的准确性 评价标准 通过 宏平均查准率Precision、宏平均查全率Recall和宏平均F1值来比较不同链接信息提取方式的分类效果 评价结果 实验结果—主题网页召回率 实验设计 评价标准 排在前n位的网页中第j类网页的召回率 其中,当排在第i位的网页属于第j类时, =1,否则 =0; 为第j类网页的总数。 采集到体育、新闻、其他三个类别的网页12

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档