- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
一种基于词典的文本情感分析算法研究
?
?
【摘要】文本情感分析的基础是词典,除此以外还需要对词典进行分类和定级。本文通过筛选整合现有词典,构建了一部包括基础词,领域词,网络词等的词典,并对词典中有关词语的权重分配和一些包含程度副词的短语计算进行了研究,提出了一种基于词典的文本情感分析算法。经过实验,发现本文构建的词典在处理情感时效果很好。
【关键词】词典;文本情感;算法研究
随着我国市场的不断发展,针对金融舆论数据的情感分析受到广大股民和公司的热切关注。目前,情感分析应用主要分为两种:基于词汇的方法和机器学习方法。当然,它们都面临着获取大量人类标记训练数据和语料的挑战。我提出一种基于词汇的针对数据情感分析的方法:将一篇短文本划分为不同的部分并给予不同的权重,再以词汇为基本颗粒进行分数计算;同时,在已有的权威字典的基础上,可以在里面特意增加一些与行业有关的词语,最终获得更好的性能。
1.相关工作
目前没有一种模型可以含括所有的领域,也没有一种字典囊括不同领域的术语。根据需求,我们将精力放在了行业领域,并且采集了不同来源的高质量的数据集。同时,我们对一个包含大多数领域的字典进行了修改,添加和修改了行业方面的专业词汇。由于数据的直观性、简洁性特点,我们忽略了词汇之前的同义、反义等复杂关系,讲更多的精力投入在对于极性的确定和极性程度的判定方面。在此基础上,设计了一个实用的衡量文本感情的算法模型。
2.数据准备
2.1数据来源
数据的获取来自不同的平台,平台主要为以下几个:
-海外金融数据
-各大金融论坛的帖子
2.2数据清洗
为了保留新闻媒体对于关键词的标注,在数据采集的时候保留了相应的网页标签和繁体风格。因此将原来的网页文本清洗成了简体无标签的文本形式。
2.3词典来源
因为算法模型是基于词汇的情感分析,所以本文在总结分析了大连理工大学和中国知网的一些现有词典后,发现目前情感分析词典主要包括以下几个内容:
2.3.1情感词
-积极评价词
-积极情感词
-消极评价词
-消极情感词
2.3.2程度词:
程度词对于一个语句褒贬义的影响起到加强或削弱的作用,因为这里可以根据不同程度词的一个影响程度,把它们由弱到强分为5级,并设置一个标准对这五个级别进行打分,对于起加强作用的词可以把分值设置大于零,对于起削弱作用的词可以把分值设置小于零。
2.3.3否定词:
否定词可以是原本一句话的含义走向相反的方向。常见的否定词:不、没、无、非、莫、弗、勿、毋、未、否、别、無、休、难道等。基于以上特点,否定词的存在可以用来判别是否进行词汇的极性反转,情感词可以整合成积极词和消极词两部分。基于知网词库的以上特点,将此词库选做基本的情感词典。
2.3.4停用词词典
中科院计算所中文自然语言处理开放平台发布了有1208个停用词的中文停用词表。
另外针对目前互联网用语的增加,本文参考中国网络语言词典,专门增加了一个网络用语词典,里面既收录了一些必威体育精装版出现的词汇,如电子商务、手机支付,也增加了目前在聊天工具中大家使用到的一些俚语,如鸭梨(压力)、斑竹(版主)、大虾(网络高手),还加入了一些外语词汇,如“email(电子邮件)”、“mm(妹妹或美女)”,这些词语的加入,是不同于当前的一些情感分析词典的部分,后续随着网络时代的发展我们会不断的更新网络词典以提高系统的准确度。
2.4词典的数据类型
为了让后期的程序更好的调用词典,并且让其他人员更容易的修改词典,本文把总结的词汇输入存储到txt文本中,并对这些词汇赋予不同的分值,方便其他程序调用。
2.5词典的修改
由于知网的词典是针对所有的领域,因此在行业领域词汇的划分上不免有失偏颇,前期我采用人工的方法对词典的三大分类进行了略微调整。调整如下:
①在积极词(pos_emotion)中删除了要,用,开通,需,向,应,欲,通,深,对,到,事实上,基,基部,基础,基础性,固,固定,可乐,谨,主导,自行,增加了高于,扭转,买超,强劲,反弹,增,缓解,微升上涨。
②在消极词(neg_emotion)中刪除了大,怊,悭,悱,愦,胜,偏,增加了跳水,鸡肋,沙尘暴,阴霾,钱荒,压力,贬值,重挫,周跌,月跌,连跌,背驰,缩减,妨碍,倒退,急挫,挫,低见,跌,冲击,大跌,涉嫌,亏损,下跌,纪律处分,处分,赤字,缩水,打击,跌穿,受压,连累。
③在否定词中删除了偏,增加了无,不,不是
3.情感分词算法
3.1文本分块
对于一个文本来说,可以把它通过分词程序切分成几个部分,每个部分对于整个文本情感倾向的影响程度一般来说是不一样的。比如对于一篇金融新闻,在文本长度足够的情况下,给定FORWARD_NUM,BACKWARD_NUM这两个参数,分别代表[0:FORWARD_NUM]句和[BACK
您可能关注的文档
- 工商管理与当前经济的关系分析.docx
- 压力容器制造中常见问题研究.docx
- 例社交恐怖症心理问题的案例分析.docx
- 基于公务员及事业单位招聘情况下的报名资格初审问题研究.docx
- 中医骨科康复治疗老年骨性关节炎临床效果分析.docx
- 体验数学学习感受成功喜悦.docx
- 分析门诊分诊中运用以患者为中心的优质护理服务模式实际效果.docx
- PPP模式下工程项目管理实践研究郑华.docx
- 不对称PCR的引物浓度优化及在柑橘基因型分析上的应用.docx
- 交通工程管理中存在的问题及对策.docx
- 计及电动汽车移动储能动态电价的微电网优化调度研究及解决方案.pdf
- 浅谈电动汽车充电桩绝缘智能化自检装置的设计与应用 .pdf
- 浅谈电动汽车公共充电桩布局方案评价方法.pdf
- 浅谈基于弹性响应的电动汽车快充电价定价策略 汽车充电桩有序充电.pdf
- 浅谈光储充一体化社区的有序充电策略及解决方案.pdf
- 晚期肾透明细胞癌系统性治疗中国专家共识(2024版).pptx
- 中国膀胱癌保膀胱治疗多学科诊治协作共识(2022版).pptx
- 成人心血管外科手术体外循环患者血液管理指南.pptx
- 下尿路修复重建移植物应用规范中国专家共识.pptx
- 中国儿童急性非静脉曲张性上消化道出血诊治指南(2024).pptx
文档评论(0)