- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于模糊VSM和RBF网络文本分类方法研究与实现
基于模糊VSM和RBF网络文本分类方法研究与实现 〔摘要〕首先提出一种基于模糊向量空间模型和径向基函数网络的文本自动分类方法,该网络由输入层、隐层和输出层组成 :输入层完成分类样本的输入,隐层提取输入样本所隐含的模式特征,将分类结果在输出层表现出来 ;其次,构造更详细的算法推导及实施方案 ;最后,以中国期刊网全文数据库部分文档数据为例,对该方法的有效性进行验证,结果表明该方法分类效果较好。 〔关键词〕数据挖掘 特征提取 神经网络 文本分类 〔分类号〕TP391 Research and Implementation of Text Classification Method Based on Fuzzy Vector Space Model and RBF Neural Network Zheng Fengping Daqing Petroleum Institute Library, Daqing 163318 〔Abstract〕A classification method based on fuzzy vector space model and radial basis function network is presented in this paper. The network includes input layer, hidden layer and output layer. Input layer performs import of samples, hidden layer extracts model characters of samples and output layer presents classification results. The information of its locality in the document is considered while the keywords of model characters are extracted. The classification results of this method are more precise than that of general method because fuzzy eigenvectors are applied. Finally the availability of model and algorithms is proved by the classification of some documents in China periodical document database. 〔Keywords〕data mining characters extraction neural network document classification 文本自动分类在数据挖掘中是一项非常重要的任务。目前的分类方法分出的类是论域上的一些普通集合,即分出的类是精确的,往往不能满足实际问题的需要。因为有些实际问题往往只能分出一些模糊的类,对象属于哪个类的界限是不清楚的[1]。本文就文本分类问题提出一种基于模糊VSM和RBF网络的解决方案。文中给出了详细的算法推导及实施方案,实际应用部分证明了方法的有效性及可行性。 1文档模糊特征提取 特征提取是文本分类系统中十分关键的问题。传统VSM的特征提取方法一般不考虑特征项在文档中的位置信息,因此会影响分类精度。本文应用模糊数学思想,通过特征项在文档中的位置来反映文档主题的重要程度[2](隶属度),并根据特征项的隶属度计算特征项的频数。 1.1特征项集的构造 假设有P篇待分类文档,特征项集的构造可描述如下: ●若特征项在标题和摘要(如果有的话)中出现,应给予较高的隶属度; ●若特征项出现在正文中的一些“关键句”,即那些包含诸如“关键在于……”、“旨在……”、“主要目的(标)是……”等的句子,应给予较大的隶属度; ●若特征项出现在引言和结论段中,应给予一定的隶属度; ●若特征项出现在段首或段尾,应给予一定的隶属度; ●若特征项在正文中有较高的出现频度,应随着频度的增加逐次增加其隶属度; ●若一个特征项同时处于上述多种地位,则其隶属度以求和方式迭加; ●若一个特征项的同义词、近义词或转义词出现时,应根据其间的语义联系大小作为该特征项的一次或部分出现统计在出现频数中; ●构造特征向量时还应考虑特征项的专指度(特征项的专指度可用文档总数与含有该特征项的文档数的比值表示),专指度过低的特征项会抑制分类的精确性。
文档评论(0)