- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文文本分类中基于词性的特征提取方法研究
第 29 卷第4 期 武汉理工大学学报 Vo1. 29 No.4 2007 年4 月 JOURNALOF 明TUHAN UNIVERSITY OF TECHNOLOGY Apr. 2007 中文文本分类中基于词性的特征提取方法研究 胡棋,吴虎子,钟珞 (武汉理工大学计算机科学与技术学院,武汉 430070) 摘 要: 在介绍常用的文本分类中特征询提取方法的基础上,提出了一种全新的,适用于中文文本分类的特征提取方 法二一基于词性的特征提取方法,实验结果显示,这种基于词性的特征提取方法在提高特征提取效率和降低特征向量维 数方面都有显著改善。 关键词: 中文文本分类; 向量空间模型; 特征提取 中图分类号: 文献标志码 A 文章编号: 1671-4431 (2007)04-0132-04 Research of Feature Extraction Methods ßased on Part of Speech in Chinese Documents Classification HU Yan , WU Hu-zi , ZHONG Luo (Sch∞1 of Computer Science and Technology , Wuhan University of Technology , Wuhan 430070 , China) Abstract: The feature selection based on part of speech , a novel method adapting better to Chinese document classification , is proposed in this paper. This method can improv巳 the efficiency of feature selectio日 and reduce the dimensions of the feature V巳ctor. Key words: Chinese document classification; vector spac巳 model; feature s巳lection 为了便于从海量的中文文档中挖掘出有用的信息,必须对所收集的大量的文档进行有效的组织和分类。 要正确地执行文本分类任务,首要的任务就是要将它们从一个元结构的原始文本转化为结构化的计算机可 以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通 过对这种模型的计算和操作来实现对文本的识别。用简单而准确的方法将文档表示成计算机能够处理的形 式是进行文本分类的基础。 文本表示首先要确定的问题就是表示文本的基本单位,用于表示文本的基本单位通常称为文本的特征 或特征项。特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2) 特征项具有将目标文本与其 他文本相区分的能力;3) 特征项的个数不能太多;4) 特征项分离要比较容易实现。在中文文本中可以采用 字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分 难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。 如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况 下,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤分类精度的情况下尽量减少要处理 的单词数,以此来降低向量空间维数,从而简化计算,提高分类工作的速度和效率。通常根据某个特征评估 函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词,这 就是特征抽取。 收稿日期:2006-11-16 作者简介:胡燕(1968-) ,女,讲师. E-mail: huyan@ 第 29 卷第4 期 燕
您可能关注的文档
- 彩绒革盖菌cv- 8 漆酶和多酚氧化酶活性 - 生态学杂志.pdf
- 作业一范例说明 - 清华大学电脑整合制造与管理研究室.pdf
- 有机农产品及其加工品验证基准修正规定.pdf
- 蛋白预涂油膜对营养棒储藏品质的影响 - 食品安全质量检测学报.pdf
- 鳗弧菌(vibrio anguillarum)m3菌株生长条件及其对蛋白酶产量的影响.pdf
- 光学、照相、医疗仪器的归类.ppt
- 苜蓿叶绿体dna 的提取及其rbcl 基因片段的克隆.pdf
- 新会陈皮多糖的体外抗氧化作用及总糖含量测定 - 汤臣倍健.pdf
- 解冻方式对三疣梭子蟹感官特征和理化指标的影响 - 食品安全质量检测 .pdf
- 回转模拟失重对心肌成纤维细胞ⅰ型胶原代谢的影响3 - current .pdf
最近下载
- 急性胰腺炎急救护理措施.pptx
- 老年人跌倒风险综合管理专家共识PPT.docx VIP
- 2024-2025学年高中音乐必修《歌唱》人音版(2019)教学设计合集.docx
- 人教版小学一年级数学上册期中试卷及答案(精品推荐)..doc VIP
- 2025云南大理白族自治州检验检测院(第二批)招聘编外聘用人员5人备考练习试题及答案解析.docx VIP
- FAN-045 37#地块 电梯井施工操作架搭设 及安全防护方案 终.doc VIP
- 《油气管道安全管理》课件.ppt VIP
- 高速铁路客运服务专业职业生涯规划书.pptx
- GJ B-360B-2009 电子及电气元件试验方法.pdf VIP
- 概率论与数理统计教程(第2版) 茆诗松全套PPT课件.ppt
有哪些信誉好的足球投注网站
文档评论(0)