- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于GloVe与SVM文本分类研究
基于GloVe与SVM文本分类研究
摘 要:词向量在自然语言处理中起着重要作用,近年来受到越来越多学者关注。然而,在词向量研究中,基于Word2vec词向量的应用研究居多,对于GloVe词向量的应用研究却很少。因此,将GloVe词向量模型与支持向量机(SVM)相结合,利用GloVe词向量模型进行特征提取与选择,利用SVM进行分类,并与Word2vec词向量结合SVM作实验对比。实验结果表明,GloVe词向量特征提取与SVM分类相结合的方法能够取得较好的准确率、召回率及F值,因此在新闻文本分类中具有一定应用价值。
关键词:词向量;GloVe;SVM;文本分类
DOI:10.11907/rjdk.172991
中图分类号:TP301
文献标识码:A 文章编号:1672-7800(2018)006-0045-04
Abstract:Learning high-quality vector representation for words plays an important role in natural language processing and has attracted great attention of many researchers due to its simplicity and effectiveness. However, application research based on the word2vec word vector far outnumbers the GloVe word vector application research . For this reason, this paper proposes a method of combining GloVe word vector with SVM. The method uses GloVe word vector to extract and select features, classifies features by SVM, and compares it with word2vec word vector SVM. The experimental results show that SVM classification method combined with GloVe word vector feature extraction can achieve good accuracy and F value, and gets a good recall rate. Therefore it has certain application value in news text classification .
Key Words:word representation; GloVe; SVM; text classification
0 引言
词向量具有良好的语义特征,是表示词语特征的常用方式。词向量每一维代表一个具有一定语义和语法上解释的特征,该特征能够同时捕捉到单词的语义和语法信息。现有词向量学习方法大致可分为基于神经网络学习和基于矩阵分解学习的方法。基于神经网络学习词向量是指根据上下文与目标之间的关系建立语言模型,通过训练语言模型获得词向量[1-4]。近几年提出的Word2vec[5]词向量模型去除了神经网络结构中的非线性隐层,大大降低了算法复杂度,获得了高效词向量。在Word2vec中提供了两种架构模型:Continuous Bag-of-Words Model(CBOW)和Continuous Skip-gram Model(Skip-gram)。CBOW根据上下文预测目标单词,Skip-gram根据目标单词预测上下文。基于矩阵分解的词向量模型[6]是通过分解从文本语料库中提取的矩阵得到低维词向量,其中典型代表为GloVe词向量。
Word2vec词向量模型已被广泛应用于各种自然语言处理任务[7-11]中,如命名实体识别、情感分析、机器翻译、微博短文本分类等,然而GloVe词向量在自然语言处理任务中却很少用到。另外在词向量应用于文本分类的研究中,很少分析同一个模型训练出的词向量在词向量维度不同情况下的分类效果差别。基于上述原因,本文通过不同维度的GloVe词向量在新闻文本分类中的应用效果研究,并与Word2vec在新闻文本分类中的应用效果作对比,通过样本长度及样本数量的变化检测GloVe词向量在特征提取中的稳定性。其中,通过样本长度变化所引起的分类效果变化探究GloVe词向量在长短文本中的应用情况,通过样本数量变化所引起的分类效果变化探究GloVe词向量
您可能关注的文档
- 基于Geomagic Design X锤子逆向建模.doc
- 基于GIS Web技术对基础地理信息服务影响.doc
- 基于GEM模型广州会展产业集群竞争力研究.doc
- 基于GISRS技术汶川县生态环境适宜性评.doc
- 基于GEM模型重庆市休闲体育产业集群竞争力研究.doc
- 基于GIS和粒子群算法物流配送多中心选址优化方法及应用.doc
- 基于GIS技术供水管网信息系统设计探讨.doc
- 基于GIS本质安全型矿井一通三防管理系统研究.doc
- 基于GIS电网监控系统.doc
- 基于GIS统筹区域土地利用研究.doc
- 湖南省湘潭市第二中学2024-2025学年高三下学期第一次模拟考试政治试题(含解析).pdf
- 内蒙古自治区赤峰市多校2024-2025学年七年级下学期5月阶段测试英语试卷(含答案).pdf
- 第9章平面直角坐标系 单元测试卷(含解析)2025-2026学年七年级下册数学人教版.pdf
- 第11章不等式与不等式组 能力提升卷(含解析) 2025-2026学年七年级下册数学人教版.pdf
- 2025届上海市静安区高三下学期二模英语试题(含答案).pdf
- 江苏省海门中学2024-2025学年高一下学期限时检测四英语试题.pdf
- 202504高一地理选修期中(定稿).pdf
- 湖北省十堰市2024-2025学年高一下学期期末调研考试政治试卷(含答案).pdf
- 浙江省舟山市2024-2025学年高二下学期6月期末检测政治试卷(含答案).pdf
- 第7章相交线与平行线 单元测试卷(含解析) 2025-2026学年七年级下册数学人教版.pdf
最近下载
- 必威体育精装版《教育学原理》期末考试试卷A及答案上课讲义.doc VIP
- Unit 1 Topic 1 基础提升过关练习答案仁爱版英语八年级上册.docx VIP
- 2025年新《矿产资源法》变化解读.pptx
- 高一期末自我评价600字.docx VIP
- 《书法鉴赏》教案 第1章 认识书法艺术.docx VIP
- 版医用物理学课后习题答案.pdf VIP
- 制作“火箭”(说课稿)-2023-2024学年科学六年级下册人教鄂教版.docx VIP
- DB62T4638-2022 绿色食品露地娃娃菜生产技术规程.pdf VIP
- 2024年四川省绵阳市中考化学试题卷(含答案解析).docx
- 广东省2024年普通专插本《政治理论》考试真题及参考答案.doc VIP
文档评论(0)