基于网页特征的特征词提取技术-西南民族大学学报(自然科学版).PDF

基于网页特征的特征词提取技术-西南民族大学学报(自然科学版).PDF

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于网页特征的特征词提取技术-西南民族大学学报(自然科学版)

第40 卷第1 期 西南民族大学学报·自然科学版 Jan. 2014 Journal of Southwest University for NationalitiesNatural Science Edition ___________________________________________________________________ doi: 10.3969/j.issn.1003-4271.2014.01.28 基于网页特征的特征词提取技术 庞宁 (太原科技大学应用科学学院, 山西 太原 030024) 摘 要: 特征词提取是一项提炼整个web 页面内容的实用技术, 同时也为文本分类, 信息抽取应用提供了技术支持. 在 web 页面内容上, 利用段落间语义关系划分出网页内容的篇章结构, 并以此为基础使用网页的元数据和特殊标签, 设计 了一个特征词的加权函数, 综合考虑了词频、词长和位置因子, 最后, 实验对比了各类位置因子对系统的贡献度. 实验 结果表明, 改进方法的F 值比传统的TFIDF 提取技术提高了 15.5%, 其中, 位置因子中的标题, 关键词和摘要因素对系 1 统的贡献最大. 关键字: 特征词提取; 网页; 元数据; 加权函数 中图分类号: TP391.1 文献标识码: A 文章编号: 1003-4271(2014)0 1-0137-05 由于计算机技术与网络的快速发展, 各种信息以前所未有的速度每天在不断的生产更新, 知识爆炸已经成 为人类新的困惑. 如何从海量信息中提取出我们所需要的内容是自然语言处理技术中的新的焦点, 因此能够有 [1] 效反映文本内容的特征词提取技术受到了众多研究人员的重视, 在各种相关领域中, 例如, 自动分类 、文本聚 [2] [3] 类 、文本过滤 等, 都会看到该技术的应用. 1 相关研究 特征词可以认为是代表某类文本的类别领域词, 是为了满足文献标引或检索工作的需要而从文章中萃取出 [4] 来的、表示全文主题内容信息条目的单词或术语. 目前特征词提取技术大致可以分为三种: 基于规则方法 , 基 [5-6] [7-9] 于算法模型 和基于统计方法 . 随着网络技术的发展, 基于网页特征词提取开始受到关注. 为了尽量减少在提取过程中对文本内容结构的 过分依赖, 本文提出一种特征词抽取算法, 除了考虑传统的词频、词长、位臵等提取特征因子, 还特别引入了网 页元数据特征. 2 Web 文档的元数据 元数据在数据库领域和图书馆自动化系统中有着广泛应用. 随着对网络信息使用需求的不断增长, 元数据 逐渐开始用于描述Web 文档. 目前, 有些Web 信息检索系统(如Altavista 等0 已经开始支持HTML 中的META 和 LINK 标记. 同时 Web 文档的作者也开始利用这些标记来指定若干简单的元数据(

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档