- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2024年第38卷第3期
JournalofChongqingUniversityofTechnology(NaturalScience)Vol.38No.32024
doi:10.3969/j.issn.1674-8425(z).2024.03.022
三支边缘过采样的不平衡文本情感分类
余炀,方宇,李昭宸,刘畅,杨梅
(西南石油大学计算机科学学院,成都610500)
摘要:在实际应用中,少数类样本往往包含重要信息,而传统机器学习方法通常对少数类
样本的分类准确率低,且误分类代价较高。针对不平衡文本数据的情感分类问题,以三支采样
(threewaysampling,3WS)与过采样为基础,提出了三支过采样算法(threewaySMOTE,3WOS)
和三支边缘过采样算法(threewayborderlineSMOTE,3WOBS),3WOS能够更好地识别边界区域
上的数据,3WOBS可以增强边界区域所蕴含的信息。首先,将文本数据构建为超球,获得超球
边缘的支持向量。其次,3WOS对边缘上的支持向量直接进行过采样以生成合成新样本并更新
样本集,3WOBS则在生成合成新样本后根据给定条件判断是否获得该新样本并更新样本集。
最后,将更新的样本集放在不同的基分类器上进行对比实验。实验采用了3个不平衡数据集,
并保证了不同的不平衡比。同时,在数据集训练过程中引入粒计算思想,确保模型的鲁棒性。
实验结果表明,3WOSITSC与3WOBSITSC准确率较高且代价低于其他模型,为不平衡文本分
类问题提供了新思路。
关键词:情感分类;不平衡数据;三支决策;采样;粒计算
中图分类号:TP181文献标识码:A文章编号:1674-8425(2024)03-0201-11
研究对象文本内容也会出现规模大、不平衡的问
0引言
题。以不平衡文本为主要研究对象,旨在如何使
[1]不平衡文本在情感分析任务中取得更好的效果。
文本情感分析一直是自然语言处理领域的
一大热门话题,已有很多研究者对此做出了大量目前对不平衡数据集的主流解决方案有数据采
的贡献,主要用来揭示人们的情感倾向,与其他多样、算法修改、代价敏感学习和分类器集成,以其
[2][3]中的数据采样为对象重点展开研究。介绍了将三
个领域相结合,例如推荐系统、评价系统,使
得人们的生活更加便利。进入大数据时代,海量支决策与SVDD融合的数据描述与边界决策方
的信息充斥着人们的生活,因此作为情感分析的法,对于文本数据样本的提取更加精确。对于不
收稿日期:2023-05-31
基金项目:国家自然科学基金项目;中央引导地方科技发展专项项目(2021ZYD0003);四川省青年科技创新团
队项目(2019JDTD0017);西南石油大学2021年一流本科课程培育建设项目(X2021YLKC035);西南石油大学研
究生全英文课程建设项目(2020QY04);第二批产学合作协同育人项目(202102211111)
作者简介:余炀,男,硕士研究生,主要从事三支决策、粒计算等研究,Email:202221000485@stu.swpu.edu.cn;通信作者
方宇,硕士生导师,副教授,主要从事粗糙集、粒计算、三支决策等研究。
本文引用格式:余炀
文档评论(0)