服装方面的文本分类系统.doc

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
服装方面的文本分类系统

中图分类号:TP311.5 单位代号:11903 密 级: 学 号: 硕士学位论文 SHANGHAI UNIVERSITY MASTER’S THESIS 题 目 作 者 学科专业 计算机软件与理论 导 师 完成日期 20年2月 上海大学 本论文经答辩委员会全体委员审查,确认符合上海大学硕士学位论文质量要求。 答辩委员会签名: 主任: 委员: 导 师: 答辩日期: 原 创 性 声 明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 签 名:___________日 期__________ 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容。 (必威体育官网网址的论文在解密后应遵守此规定) 签 名:__________ 导师签名:___ _____日期:__________ 上海大学工学硕士学位论文 基于 硕 士 生: 导 师: 学科专业:计算机软件与理论 上海大学计算机工程与科学学院 2010 年 2 月 A Dissertation Submitted to Shanghai University for the Degree of Master in Engineering The M.D. Candidate: Supervisor Major:Computer Software and Theory School of Computer Engineering and Science Shanghai University February, 20 摘 要 随着科技的发展和网络的普及,人们可获得的数据量越来越多,这些数据多数是以文本形式存在的。面对如此大规模而急剧膨胀的信息数据,如何有效地组织和管理这些数据,使得快速、准确、全面地从中找到用户所需要的信息是当前信息科学与技术领域所面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息的这一复杂问题,方便用户快速、准确地得到所需要的信息。 本文分析比较目前常用的权重算法,得出目前常用权重算法应用于文本分类时的不足之处,并在TFIDF的基础上,结合文本分类的需要,改进TFIDF形成了一种新的权重算法。为提高文本分类的速度,本文在总结前人成果的基础上,提出一种新的文本分类算法。算法首先用贝叶斯聚类法聚类,分成几块,减少计算量。然后求文档网络(即最小世界网络),将距离中心向量远的样本进行裁剪,然后对裁剪后的训练样本进行文本分类。 为了为本文文本分类研究工作提供实验平台,本文设计实现了一个服装描述文本分类系统,该系统由关键短语抽取模块、特征选择模块、文本分类模块组成。三个模块之间相互独立且具有统一的接口,对其中任何一个模块的更改对其他模块都不会产生影响,同时由于具有统一的接口,所以模块之间的调用也十分的方便。 为了验证本文提出的算法的有效性和可行性,本文在服装描述文本分类系统上对相同的测试文本集在未裁剪和裁剪后两种情况下进行了对比验证实验并对实验结果进行了分析。实验证明封闭测试和开放测试中,无论是准确率和召回率,经过裁剪后的训练文本用于文本分类的效果都有所提高,从而证明了本文提出的算法的有效性和可行性。 关键词:权重 特征选择 文本分类系统 ABSTRACT With the development of technology and network penetration, it is more and more data available, most of these data is the text exist.Faced with such a large scale and rapid expansion of information and data, how to effectively organize and manage data to make fast, accurate and comprehensive user needs to find the information is current inform

文档评论(0)

zhuliyan1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档