- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于word2vec 的一种文档向量表示 - 计算机科学
Vo l. 43 No.6
第 43 卷第6 期 计算机科学
2016 年 6 月 Computer Science June 2016
基于 Word2Vec 的一种文档向量表示
唐明朱磊邹显春
(西南大学计算机与信息科学学院 重庆 400715)
摘 要在文本分类中,如何运用 word2vec 词向量高效地表达一篇文档一直是一个难点。目前,将 word2vec 模型与
聚类算法结合形成的 doc2vec 模型能有效地表达文档信息。但是,这种方法很少考虑羊个词对整篇文档的影响力。
为了解决这个问题,手IJ 用 TF-IDF 算法计算每篇文档中词的权重,并结合 word2vec i司向量生成文档向量,最后将其应
用于中文文档分类。在搜狗中文语料库上的实验验证了新方法的有效性。
关键词 TF-IDF ,word2vec ,doc2vec ,文本分类
中圄法分类号 TP181 文献标识码 A DOI 10. 11896/j. issn. 1002-137X. 2016. 6. 043
Document Vector Representation ßased on Word2Vec
T ANG Ming ZHU Lei ZOU Xian-chun
CSchool of Computer and Information Science.Southwest University.Chongqing 400715 ,China)
Abstract In text classification issues ,it is difficult to express a document efficiently by the word vector of word2vec. At
present ,doc2vec built on the combination of word2vec and clustering algorithm can express the information of document
very wel l. However ,this method rarely considers a single word s influence for the entire document. To solve this pro-
bler丑, in this paper ,TF-IDF algorithm was used to calculate the right weight of words in documents , and word2vec was
combined to generate document vectors ,which were used for Chinese text classification. Experiments on the Sogou Chi
nese corpus laboratory demonstrate the efficiency of this newly proposed algorithm.
Keywords TF-IDF ,Word2vec ,Doc2vec ,Text classification
的值为 0 ,但是我们知道土豆与马铃薯是同一种食物;4)
引言
词袋法很难区分同一个词在不同语境中的意义,如先生,根
目前,使用最广泛的文档表示方法几乎都基于词袋法
您可能关注的文档
- 细菌蛋白质乙酰化研究进展 - 生命科学.pdf
- 太阳能硅制备过程湿法提纯sio 的工艺优化.pdf
- 挤压综合征)性肾损伤诊治的专家共识 - 中华医学杂志.pdf
- 多枝雾水葛不同提取部位的抗炎镇痛作用研究.pdf
- 一种改进的基于质心的文本分类算法 - 计算机应用与软件.pdf
- 国科会大专生研究计画 - 国立台东大学.doc
- 1已准备好挨三次揍的澳大利亚, 各界赞誉迎来的却是中国善意.doc
- 利用秋水仙碱加倍获得甘×白杂交自交后代 - 成都市农林科学院.doc
- 高等学校化学学报2016年第37卷 - chemical journal of chinese .pdf
- 雌性藏猪不同生长发育阶段肌肉生长和脂肪沉积相关基因的表达模式3.pdf
- 地图在初中地理教学中的个性化教学研究教学研究课题报告.docx
- 小学科学教育探索:校园植物四季变化观察与生态教育创新教学研究课题报告.docx
- 数字化教育环境中数字公民素养评价模式探究教学研究课题报告.docx
- 基于生成式AI的高中生物课堂学习共同体构建策略教学研究课题报告.docx
- 《血液透析患者动静脉内瘘并发症的护理干预对生活质量的影响分析》教学研究课题报告.docx
- 基于国家智慧教育云平台的初中生物实验资源整合与共享策略分析教学研究课题报告.docx
- 《软件项目开发过程中风险管理与企业风险管理教育》教学研究课题报告.docx
- 小学数学思维训练多媒体素材的智能编辑与合成策略研究教学研究课题报告.docx
- 高中物理实验:校园雨水收集系统对建筑能耗的影响分析教学研究课题报告.docx
- 《虚拟现实在教育学教育中的应用:用户体验优化与教育理念创新研究》教学研究课题报告.docx
文档评论(0)