基于改进SVM的中文专利文本分类比较研究.pdfVIP

基于改进SVM的中文专利文本分类比较研究.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第45卷第2期武汉理工大学学报(信息与管理工程版)Vol.45No.2

2023年4月JOURNALOFWUT(INFORMATIONMANAGEMENTENGINEERING)Apr.2023

文章编号:2095-3852(2023)02-0292-07文献标志码:A

基于改进SVM的中文专利文本分类比较研究

杨超宇陈雯君S耿显亚彳

(1.安徽理工大学人工智能学院,安徽淮南232000,2.安徽理工大学经济与管理学院,安徽淮南232000;

3.安徽理工大学数学与大数据学院,安徽淮南232000)

摘要:为深入挖掘中文专利文本特征,使专利类别划分更清晰、技术联系更紧密。首先,从专利信息平

台爬取智能家居领域专利,构建智能家居专利信息语料库并进行分词与去停用词处理;其次,通过TF-IDF-

LDA和均值Word2Vec两种自然语言处理算法,分别对语料库中的文本信息向量化并输出结果,绘制词云图

展示筛选出的具有文档代表性的词语;最后,引入SVM进行文本分类并将两组平行实验的分类结果进行对比

分析选出最优模型。通过样本上采样解决数据分布不均问题,进一步提升专利分类的准确率。结果表明:均

值Word2Vec准确率为97.15%,而LDA准确率为86.91%,经过采样优化后的均值Word2Vec模型准确率为

98.51%o为中文专利文本再分类提供新思路,有助于深入挖掘关键共现技术,促进国家产学研一体化发展。

关键词:LDA主题模型;均值Word2Vec;支持向量机;产学研;中文专利分类

中图分类号:TP391.1D01:10.3963/j.issn.2095-3852.2023.02.021

随着我国新_代计算机与人工智能大数据技(convolutionalneuralnetworks)和K-近邻(K

术创新水平的不断提高,授权的专利数量也在不-nearestneighbor)〔⑶等。其中,卷积神经网络对

断增加,据世界知识产权局统计数据显示,全球专文本的分类效果很好,但由于他们的并行性很差

利申请数量自2004年起,每年至少以5%的速度导致其分类速度较慢,分类效率较低;KNN算法

增加,截至2020年我国发明专利305.8万件,实易于实现且对异常值不敏感,但当样本数据不均

用新型专利694.8万件,外观设计专利217万衡时输入新样本易导致该样本的K个邻居中大

件⑴。为减少需求方在海量专利数据中检索专容量类的样本占比较高,使其分类效果较差;支持

利所消耗的时间成本,对同类中文专利进行文本向量机分类器具有较强的自适应能力,在保证其

分析,深入挖掘每份专利文本中的关键词以及各特征选择适宜的前提下,样本数据分布情况对文

专利文本间的关联并对其进行再分类,帮助需求本分类效果影响较小,但当样本数据类别较多时,

方快速匹配到心宜的专利,实现专利成果的转化,文本分类的准确性也会受到一定影响。由于中文

进而加速国家产学研政策的快速发展。采用机器专利信息具有数据分布不均、抽象专业词汇较多

学习算法高效处理专利分类任务是有必要的,但等特性,导致国内外学者对该领域内的中文专

这也对海量专利数据分析技术提出更高要求⑵。利文本分类研究相对偏少。笔者将TF-IDF-

现阶段的自然语言处理及文本挖掘技术常采用不LDA模型与SVM分类器组合改进为一种混合中文

同的文本特征提取方法结

文档评论(0)

新能源知识科普(本账号发布文档均来源于互联网公开资料,仅用于技术分享交流,相关版权为原作者所有。如果侵犯了您的相关权利,请提出指正,我们将立即删除相关资料)。

1亿VIP精品文档

相关文档