基于N元汉字串模型的文本表示和实时分类的研究与实现.docVIP

基于N元汉字串模型的文本表示和实时分类的研究与实现.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于N元汉字串Chinese characters 王映(Wangying)常毅(Chang yi) 谭建龙(Tan jianlong) 白硕(Bai shuo) (中国科学院计算技术研究所 Institute of Computing Technology , CAS 100080) E-mail: wangying@software.ict.ac.cn 中图法分类号 TP391 摘 要:本文提出了一种新的基于N元汉字串模式的文本向量空间表示模型,用这个表示模型实现了一个文本实时分类系统。对比使用文本中词语频率的文本向量空间模型,这种新的模型由于使用快速的多关键词匹配技术,不使用分词等复杂计算,可以实现实时文本分类。由于N元汉字串的文本表示模型中的特征抽取中不需要使用特定的词典来分词,从而可以提取出一些非词的短语结构,在特殊的应用背景,如网络有害信息判别中,能自动提取某些更好的关键词。同时我们的试验结果表明,使用简单的多关键词匹配和使用复杂的分词,对分类系统的结果影响是很小的(5%)。本文的研究表明N元汉字串模式和词模式的表示能力在分类问题上基本是相同的,但是N元汉字串模式的分类系统可以比分词系统的性能高出好几倍。本文还描述了使用这种模型的自动文本分类系统,包括分类系统的结构,特征提取,文本相似度计算公式,并给出了评估方法和实验结果。 关键词:文本分类 中文信息处理 向量空间模型 N元汉字串We proposed a new technique to speed text categorizing. We use N-gram Chinese characters string in our text categorizing system instead of character, word or phrase, as in traditional systems. For that reason, without Chinese word segmentation algorithm in our system, we can still get almost the same accuracy. As Chinese word segmentation is the most time-consuming part in all the process, our system is 4 times faster than the traditional text categorizing system. To accelerate transferring text to vector, we implement a fast multi-pattern matching algorithm and an online text categorizing system. We describe our online text categorizing system and give some experimental conclusions in this paper. Key words:Online Text Categorization, Chinese Information Processing, Vector Space Model, N-gram, Keyword Matching 1.引言 随着因特网在全世界的普及,网络传输技术的迅速发展,每天世界上有惊人数目的信息在互联网上流动。如何快速地从这个巨大的信息流中得到自己想要的信息、过滤掉无用的信息,成为一个重要的课题。这些实时性较强的需求包括:网络有害信息的判别、网络垃圾邮件的判断、实时新闻分类等等。 有害信息的判断其实就是一个分类问题,最简单的情况将输入信息分成有害信息和无害信息两类。我们的分类器可以配置在骨干网出入口中,能够实时将出入的信息分类,及时将那些包含有害信息的单元过滤,同时不影响正常网络流量的传输。 垃圾邮件也是互联网上一个日益严峻的问题,垃圾邮件的判断一般来说也是一个简单分类问题:新来的邮件是正常邮件还是垃圾邮件。大的邮件服务系统一般都非常繁忙,尤其是在受到垃圾邮件攻击的时候,必须对接收到的邮件迅速进行处理,从而不对正常的邮件收发产生影响。我们的分类器可以配置在大型邮件服务器中,对出入的邮件是否属于垃圾邮件进行迅速判断。 这些需求除了要求分类的正确性,更重要的是分类过程的快速实时性,但是由于处理的复杂度,很多基于内容的信息处理技术目前尚无法应用到实时环境。对比传统的使用词语特征的文本向量空间模型,我们使用的N元汉字串特征的模型由于使用快速的多关键词匹配技术,不使用分词等复杂计算,可以实现实时文本分类。 本文主要探讨了

文档评论(0)

2011doc66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档