- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于微博内容的用户兴趣爱好分类模型
20
第. . 1357年卷6月第.3期 Journalo台f州Ta学iz院ho学u报University Vo1.37.No.3
Jun. 2015
基于微博内容的用户兴趣爱好分类模型
高 哲,罗挺豪,赵琰言,杜健平,唐建鹏,陈荣钦★
(台州学院 数学与信息工程学院,浙江 临海 317000)
摘 要:微博数据具有较好的价值,如何从海量的微博数据中自动提取用户兴趣爱好是智能推荐、微博营销等重
要基础。在分析微博特征基础上,采用基于微博内容的兴趣爱好分类模型,通过构建兴趣爱好词典。并 自动抓取微
博信息进行分词、匹配和统计 ,有效地分析出用户的各种爱好兴趣度。
关键词:微博内容;数据挖掘;兴趣分类;微博营销;分词
DOI:10.13853j/.cnki.issn.1672-3708.2015.03.004
微博作为一个基于用户关系信息分享、传播和获取的平台,具备速度快、信息量大、实时开放、实名制
等特点,逐渐成为企业营销的一个重要工具[。但微博用户和信息规模往往很大,如截至2014年 l2月31
日,Twitter每月活跃用户数为2.88亿,新浪微博的月均活跃用户数达 1.757亿,如何在海量的微博用户
中精准地定位用户对象并进行智能推荐是微博营销的关键问题。
企业营销中需要考虑的一个重要问题是用户的兴趣爱好,因为它往往能够直接反映用户的购物趋
向。兴趣爱好一致的用户,其购买的产品也往往具有较大的相似性,因此分析用户的兴趣爱好对智能推荐
和微博营销也具有重要意义。
1 相关研究
目前,已经有不少基于微博的用户研究,盛宇[2]针对微博特定领域的用户特征进行分析和分类,比如
性别、地区、认证、博文数、转发数、个人介绍、个人标签、参与话题、博龄、关注度、互粉率等。王静等人则研
究了新浪微博的人气用户,针对名人具有关注数小,被关注数大的特征,分析了微博中的名人效应[引。微
博的核心用户兴趣相似性和挖掘也是研究的热点 ],通过分析用户所关注的人进行聚类和相似性分析,
可以较好地确定兴趣圈子[4]。余珊琳等人[6]则通过分析用户浏览的主题网页,在主题网页的浏览时间,是
否有回复来获得用户的兴趣度,并通过兴趣度的高低,采用基于粗糙K均值的用户兴趣度的用户聚类方
法对用户进行聚类 ,同时实现对虚拟社区核心用户的挖掘。陈海强等人则提出了基于兴趣集中性的核心
成员求解算法,并在豆瓣网的虚拟社区中进行了有效验证[们。
本文则针对微博内容能够反映用户兴趣爱好的特点,直接对微博信息内容进行分析,从而进一步提
取出用户的兴趣爱好并进行分析和统计。
2 兴趣爱好分类模型
由于微博文本往往具有以下几方面的特点:(1)短文本性 :如新浪微博的字数限制在 140个字符以
收稿 日期 :2015—04—23;修回日期:2015—05—11
通讯作者简介:陈荣钦(1979一 ),浙江台州人,讲师,硕士,主要从事图形图像研究。
第3期 高 哲,罗挺豪,赵玟言,杜健平 ,唐建鹏,陈荣钦 :基于微博 内容的用户兴趣爱好分类模型 19
内;(2)实时海量:随着移动设备的普及,用户随时随地都可能发布信息,如新浪微博每天均有数亿条微博
信息,信息传播速度非常之快;(3)内容随意:微博文本往往贴近生活,口语化较重,并充斥着各种网络用
语 ;(4)主动性:微博内容往往由用户有感而发,能表达用户性格、情绪、兴趣爱好等有利于营销的重要信
息;(5)话题性:用户往往对某个共同话题持续地关注和回复,形成了上下文信息。本文从微博文本的特点
出发,提出了兴趣爱好分类模型,整个模型如图l所示,分为几个步骤:(1)抓取大量与兴趣爱好相关的文
章并进行分词,形成兴趣爱好词典;(2)定时抓取活跃度较高的微博用户 ,并提取出用户的微博内容并进
行分词;(3)根据兴趣爱好词典,对用户的微博关键词进行匹配和统计,确定用户的兴趣爱好。
聚类 分析
图1 用户兴趣爱好分类模型图
2.1 数据预处理
微博的数据量太大,一般需要实现 自动抓取技术[8],这也是数据预处理的第一个重要步骤。以新浪微
文档评论(0)