- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
需求驱动主题爬行技术研究
需求驱动的主题爬行技术研究 [摘要]主题爬行技术的应用领域不断扩大,但对主题的界定并无统一的标准。从需求的角度将现有主题爬行技术分为三种基本类型:面向内容的、面向类型的和面向网站的,分别论述它们的关键技术和典型案例。最后提出一种将各需求统一在一个框架内的组合爬行技术简称DDCFC,简要描述其定义和逻辑架构。 [关键词]主题爬行技术 需求驱动 主题爬行器 组合爬行技术 [分类号]G250.73 1 引言 主题爬行技术和主题爬行器是专门用于从互联网上大规模收集特定主题信息的技术和软件系统。它是构成垂直有哪些信誉好的足球投注网站引擎或Web信息采集系统的关键技术和组件。主题爬行技术弥补了通用爬行技术缺乏针对性和专业性的缺点,在实际应用中与通用有哪些信誉好的足球投注网站引擎互为补充。 Soumen Chakrabarti等人将主题爬行的概念描述为稳定地搜集相关网络资源并能识别相关链接指导自已爬行的技术,其强调主题爬行的特性之一是面向“Web Content”,即面向网页内容的主题需求。但随着主题爬行应用范围的扩大,人们对主题的认识和需求范畴也不断扩展,从网页内容反映出的主题扩展到了一群网页的共同主题或特定类型网页的主题特征甚至是对多种主题含义的交叉需求,如搜集“人工智能领域的论文”、“体育类的专题频道”或“计算机领域的研究人员的个人网站”等。 因此对特定文档类型、特定网站的搜集也应属于主题爬行技术的范畴。与关注网页内容的主题特征不同,这两类主题爬行技术分别关注网页的类型特征、网站整体的主题特征。主题爬行技术以需求为驱动意味着某一类需求就代表了一类主题。而需求是多样的、具体的,表述也并不统一,本文将主题爬行技术按抽象后的需求进行了重新分类和定义并举例说明。 2 按需求分类的主题爬行技术 综合考虑主题的多样性,主题爬行需求可分为三类:面向内容的、面向类型的和面向网站的需求(见图1)。三类需求分别对应三种基本的主题爬行技术。 2.1 面向内容需求的主题爬行技术 2.1.1 定义面向内容需求的主题爬行技术是以网页内容的主题相关性作为网页相关性判断依据的一类主题爬行技术。 2.1.2 特征包括:①面向用户对网页内容的主题相关性需求,用户比较关注网页内容所属的学科领域;②一般采用关键词、分类体系,如分类法或开放目录体系(ODP)中的分类概念或本体中的实体作为主题建模的基础;③网页相关性的推理技术一般采用训练网页分类器的方法,综合利用网页内容特征、Web拓扑特征来计算网页相关度和未知链接访问优先级。 2.1.3 用途 面向内容需求的主题爬行技术通常用来搜集主题资源特别是学科资源,主要应用于各种门户、数字图书馆的主题资源自动构建。抓取的网页按一定分类体系来分类,如分类法、ODP或特定领域的本体等。目前它是用途最广的一类主题爬行技术。 2.1.4 典型案例 按照一定分类体系抓取相关网页。SoumenChakrabarti等人研发的Nalanda Focused Crawler,以LCC/LCSH(美国国会图书馆分类法/主题词表)作为分类依据。该系统已成功构建了加州大学的虚拟图书馆中的互联网学术资源,并作为美国NSDL进行资源收割的工具之一。目前该项目已发展为iVia and Data Fountains资源发现系统。针对不同主题需求,其包含了三个独立的主题爬行器:Expert(or Manually)Guided Crawler、Targeted Link Crawler和Nalanda iVia Focused Crawler,分别用来进行主题网站下载、采集相关网络文档并进行元数据抽取等。这种将多种爬行器捆绑在一起做法不仅增加了开发成本而且加大了用户负担。 德国卡尔斯鲁厄FZI研究所和卡尔斯鲁厄大学AIFB研究所的M.Ehrig开发的基于本体的主题爬行器CATYRPEL在本体的指导下抓取相关网页并用于KAON本体系统的构建。 限定在特定学科领域抓取相关网页。Chen Y.在其博士论文中设计了一个主题爬行器主要用于CITIDEL和NDLTD项目的计算机领域学术资源的搜集工作。作者提出的最主要的方法是将基因工程方法与元有哪些信誉好的足球投注网站技术相结合,将属于Globe算法的宽度优先与属于Local算法的最好优先算法相结合提高了召回率。该案例反应出在目标学科领域相对单一的情况下,作者重点解决爬行器的全局最优有哪些信誉好的足球投注网站算法。 专门抓取特定语言的网页。Somboonviwat K等人与Azimzadeh M等人均提出一种专门抓取特定语言的主题爬行技术,分别抓取泰语和波斯语网页。网页相关或不相关主要取决于网页的语种是否是目标语种。利用html meta tags来判断语种是两者共用
有哪些信誉好的足球投注网站
文档评论(0)