- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于机器学习的微博机器用户识别研究.doc
基于机器学习的微博机器用户识别研究
摘要:文章以微博用户为研究对象,从发博行为、博文内容、用户关系和发博设备四个方面建立特征维度,借助机器学习的方法构建有效的机器用户识别模型,分别在决策树C4.5和随机森林算法下验证了该模型的识别性能,证实了该方法的可行性和准确性,对维护健康的网络环境有一定的指导意义。
关键词:微博;机器用户;机器学习;用户识别;决策树C4.5;随机森林算法 文献标识码:A
中图分类号:TP391 文章编号:1009-2374(2016)30-0004-04 DOI:10.13535/j.cnki.11-4406/n.2016.30.003
1 概述
微博作为一种社会信息传播平台,以其易操作、低门槛、传播速度快等优点,受到公众更多的青睐。然而,随着微博的普及和互联网络技术的升级,一些不良分子借助新兴技术手段,譬如,依靠批量发布助手、自动广播器等自动化软件来操控账户,由此构成了机器用户。机器用户能够模仿真实用户发布、转发、评论博文,这类用户不具备感情、逻辑和互动性,却以其良好的伪装性,大量发布虚假信息,扩散舆论谣言,严重扰乱网络的正常秩序,破坏网络环境。机器用户造成的危害具体概括为以下四点:(1)耗费系统资源,降低平台效率,影响用户体验;(2)污染社交环境,降低用户信任度,造成平台虚假繁荣现象;(3)难以辨别信息真实性,干扰用户正常判断力;(4)从数据分析角度,这些机器用户的存在部分掩盖了真实用户的特征,对后续数据挖掘、用户分析等研究造成了干扰。
鉴于此,机器用户的识别是一个紧迫而困难的工作,构建有效的机器用户识别模型,借助相关算法快速、准确地识别微博中的机器用户,对减少网络谣言的传播、净化网络环境有重要的意义。
2 相关研究
早期对社交网站不良用户的研究主要集中在对垃圾用户,例如网络水军、广告用户、僵尸粉用户的识别研究上,而机器用户出现的时间并不长,对它的研究还不多,仅有的研究大多数以Twitter为平台,其成果无法直接应用于新浪微博等中文微博平台。
国内方面,刘勘等向自动化软件公司申请并获取了机器用户样本,提取了行为模式、微博内容、用户关系和发布平台四个维度的八个特征属性,基于随机森林训练了一个机器用户识别系统,机器用户的识别准确率达到了96.7%。中国的微博起源于Twitter,国外基于Twitter的机器用户研究主要有以下几人:Chu等从用户行为、Twitter内容和账户属性的角度建立分类系统,将Twitter用户分成机器用户、人类用户和半机器用户。Main采用决策树C4.5算法训练分类器,从用户的发博间隔、垃圾词语检测、重复博文检测、社交分值和发博设备五个方面构建模型,对训练结果采用了比较分析法,分别选用2个主要属性,发博间隔和垃圾信息检测,还有完全采用5个属性时分类器的效果差异。结果表明,发博间隔是机器用户的重要特征,有着更好的区分度。Zhang等构建了一个基于每条Twitter发布时间的检测机器用户方法,并用此模型得到Twitter中大约有16%的活跃账户具有较高自动化行为。Wang提取3个基于图模型的Twitter用户特征和3个基于Twitter内容的属性并设计算法,识别出Twitter中的机器用户。
3 基本思路及相关方法
机器用户的识别问题可以看作是一个将用户分为机器用户和真实用户的二分类问题:设用户的全集是U,类别集合C={,},表示机器用户集合,表示真实用户集合,机器用户的识别问题就是求一个分类函数F,将U中的用户映射到C上。
(1)
上述映射函数F即代表了一个分类器,它可由机器学习算法习得,在本研究中选取决策树C4.5和随机森林算法。
C4.5算法是目前决策树中最常用的算法。它在树的构造过程中进行剪枝,并且用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足。C4.5决策树算法不仅能对离散型数据、连续属性的离散化进行处理,还能够对不完整数据进行处理。
随机森林算法是Leo Breiman提出的一种利用多个树分类器进行分类和预测的方法。随机森林不仅训练和预测速度快而且不容易出现过度拟合的问题。
4 特征研究
通过深入观察和分析,发现机器用户在发博行为、微博内容、用户关系和发布平台4个方面存在显著差异,因此本文对这4个维度的特征进行深入分析。
4.1 发博行为特征
发布博文是用户在微博上的主要活动之一。经过浏览机器用户的发博历史,发现机器用户发博方式呈现两种极端:一类机器用户依靠不断转发某一条博文来增加人气;另一类机器用户依靠不断发布某领域原创博文来维持粉丝的粘性。因此,我们定义转发率来观察机器用户和真实用户的异同。转发率为:
(2)
您可能关注的文档
最近下载
- 高级机工见习记录薄填写.docx VIP
- gossen starlite测光表 说明书.pdf VIP
- 断亲协议书模板.doc VIP
- 《配电网典型供电模式》(发展规二〔2014〕21号)资料.doc VIP
- 高级值班机工(值班机工)见习记录簿(案例参考)专题三.pdf VIP
- 《新闻稿撰写》课件.ppt VIP
- 喘息性支气管炎护理查房ppt课件.pptx VIP
- 体验经济与网络文学研究的范式转型-core.pdf VIP
- ADR21 00中文版-2006年车辆标准(澳大利亚设计规则2100—仪表板).doc VIP
- 2025年执业药师考试《中药学专业知识二》考试真题(附有答案) .pdf VIP
文档评论(0)