浅谈网页模糊归类的应用.docVIP

下载本文档

2
0
约3.2千字
约 5页
2017-06-13 发布于北京
举报
版权申诉

浅谈网页模糊归类的应用.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅谈网页模糊归类的应用.doc

浅谈网页模糊归类的应用　　摘要:因特网目前是一个巨大、分布广泛、全球性的信息服务中心,但Internet所固有的开放性、动态性与异构性,使得准确快捷地获取网络信息存在一定难度。针对这一问题,本文提出了模糊归类网页信息提取方法。　　Abstract: Internet is a huge, widely distributed, global information service center, but the Internet is inherently open, dynamic and heterogeneous, making access to network information accurately and quickly a certain degree of difficulty. To solve this problem, this paper proposes a fuzzy classification of Web information extraction. 　　关键词:Internet;网页;模糊归类　　Key words: Internet; webpage; fuzzy classification 　　中图分类号:TP39 文献标识码:A文章编号:1006-4311(2010)27-0162-01 　　　　0引言　　目前,Web上的资源发现主要集中于文档的有哪些信誉好的足球投注网站和提取,即Web内容的挖掘。网页文本挖掘有两种常有方法,取出基于内容的方法和协同的方法。这两种方法都是基于机器学习的,较广泛地用于Web文档或新闻的挖掘中。但这两种方法在网页信息提取上准确率不够高,本文提出的基于并行模糊归类的网页信息提取方法具有较好的提取效果。　　1网页模糊归类步骤与算法　　简单地说,网页自动归类所要完成的任务就是在给定的分类体系下,根据网页的内容自动地确定网页关联的类别。如果从纯数学角度来看,网页分类的过程实际上就是一个多对多的映射过程。依据“贝叶斯假设”的内容,可以假定组成网页的元素在确定网页类别的作用上相互独立。这样,可以使用网页中出现的字或词的集合来代替网页,即用一个向量来表示文本:D(W1,W2,W3……Wn),其中 Wi 为第 i 个元素(以下均称为“特征项”)的数值。当然,这将丢失大量关于网页内容的信息,但是这种假设可以使网页的表示和处理形式化,从而让计算机可以处理网页。　　构成网页中的文本的词汇,数量是相当大的,因此,表示网页的向量空间的维数也相当大,可以达到几万维,所有几万个词汇对网页分类的意义是不同的。首先,需要考虑词语的性质。一些通用的、各个类别都普遍存在的词汇对分类的贡献是很小的,因此特征提取过程需要去掉对表达网页类别不太重要的词汇。例如“的”、“地”、“得”、“着”、“了”等等。其次,在某特定类中出现比重大而在其他类中出现比重小的词汇对文本分类的贡献大,为了提高分类精度,可以利用词语的互信息量筛选出针对该类的特征项集合。具体操作方法是算出每个词语的互信息量并排序,然后抽取前n个词语作为该类别的特征项,抽取的原则是反复试验使得网页归类效果最优。　　在归类过程中,采用三级模糊综合评判。一级指标因素集(网页中出现位置)包括:网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML标记。二级指标因素集(词性)包括:名词,动词,形容词,副词,介词,连词,助词,数字,符号。三级指标因素集:待分类网页中所包含的全部词语的频数。评价集确定为V={V1(不属于0),V2(不太可能属于0.25),V3(可能属于0.5),V4(很可能属于0.75),V5(属于1)}。　　专家随机抽取了300篇网页,对这些网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析、研究,将一级指标因素权重集确定为　　A={0.128,0.128,0.128,0.104,0.104,0.104,0.06,0.06,0.06,0.06, 　　0.05,0.05};根据语言学专家对各类别中不同词性的词语对标志一个类别(以中图分类法为标准)重要性程度统计和评分,将二级指标因素权重集确定为　　An={0.28,0.18,0.24,0.06,0.05,0.04,0.04,0.06,0.05};根据词语的互信息量确定出三级指标因素权重为Anm={Anm1,Anm2…Anmx}其中,Anmx即为对应词语的互信息量。　　下面就要根据多级模糊综合评判的计算方法与步骤将待归类网页与所有类别的平均参照样本进行一遍计算,得出一组表示该网页与各个类别贴近度的数值。然后按照“最大隶属原则”,将网页划到Vn值最大的对应的类别中;或者用“域值