- 1、本文档共27页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
策略机制项目展示v2
基于Twitter的 社会网络测量分析
成员:徐鲲、段鹏飞、刘渠、张爱民、张映雪
背 景
在线社交网络(OSNs)如微博、人人、Facebook、Twitter等,已经成为人们网络交流、获取信息和发布信息的主要平台。
现实社会中的简短消息传播和分享等行为很快在互联网中找到了相对应的模式,并且迅速成为了非常流行的社交网络功能——微博转发。
用户能够通过建立单向、双向的好友关系来进一步交流或分享信息,不是被动的信息受众,积极参与到网络信息的传播活动中,成为其制作、分享、传播者。
社交网络依靠巨大的用户基数使得任何涉及人们兴趣的信息都能够具有良好的传播时效性,相对自由的转发评价功能以及零使用成本。
背 景
拥有如此庞大节点群的社交网络,每天制造的信息以亿计数,而这些信息以及相关节点都有着不同的强弱联系,通过对这些信息的挖掘处理,能够对社交网络的特性、节点特性、话题预测等方面进行有价值的研究。
目 的
通过对社交网络的传播主体性质、内容、传播情景以及传播中时间因素的分析,在验证小世界现象的基础上,深入分析探讨社交网络所能够反映的节点状态、活跃度及人际传播的特征规律。
内 容
通过爬虫对 Twitter 上的个体信息(tweets、位置、时间等)、好友信息(包括 friends 和 followers)进行抓取,以此为研究所使用的数据集;
根据所得到的数据集,分析小世界现象在 twitter 网络上的表现,分析和通常小世界模型的异同;
通过对数据集中用户的关系,将人群进行分类,并分析导致这些分类的社会背景,并研究各类人群的活跃状态规律,分析其分布规律;
研究 tweets 转发情况在 twitter 网络上的分布,分析其内在的社会原因,进而探讨 twitter 在人们生活中的价值和意义。
数据抓取
采用python编写了爬虫:在上注册了32个app,采用这些app抓取上格式比较好的json数据。
user_info.json:用户信息
user_timeline.json:用户tweets
user_friends.json:关注用户的人
user_followers.json:用户的follower
共22500个完整用户数据,百万级tweets,百万级用户关系。
数据分析
分析小世界现象在 twitter 网络上的表现,分析和通常小世界模型的异同,并解释原因;
通过对数据集中用户的关系,将人群进行分类,并分析导致这些分类的社会背景,并研究各类人群的活跃状态规律,分析其分布规律
用户之间关系的统计、好友信息、小世界特性、活跃时间段等
研究 tweets 转发情况在 twitter 网络上的分布,分析其内在的社会原因,进而探讨 twitter 在人们生活中的价值和意义
话题热点、信息传播规律等
分析方法
小世界模型
绘制网络的完整关系图,并分析网络的基本拓扑
计算网络的平均路径长度
分析方法
用户关系、特征
从统计学的角度分析。
用户好友、followes规律
当天各分类人群的活动分布规律
用户行为规律(转发、原创、图片、文字?)
信息传播
传播信息规律(转发、原创)
传播特征及传播轨迹
信息热点
用户followes统计——幂律分布
用户friends统计
用户friends统计
Twitter一般不限制用户关注数目。但是如果用户关注数目超过2000并且粉丝太少,Twitter会加以限制。
这样的用户基本上都是僵尸粉。
SNS网络的复杂——关系全图
100%抽样
10%抽样
1%抽样
用户关系图
+ initailNNodes = 50
+ searchDepth = 3
+ followersLimit = 100
+ Nodes: 2731
+ Edges: 2714
+ Degrees: 1-100
+ initailNNodes = 60
+ searchDepth = 3
+ followersLimit = 100
+ Nodes: 3432
+ Edges: 3415
+ Degrees: 1-100
用户关系图
+ initailNNodes = 1
+ searchDepth = 3
+ friendsLimit = 50
+ Nodes: 4111
+ Edges: 4537
+ Degrees: 1-68
+ initailNNodes = 1
+ searchDepth = 2
+ friendsLimit = 120
+ Nodes: 2244
+ Edges: 2405
+ Degrees: 1-123
不同抽样下的距离分布
不同抽样下的平均距离分布
全部用户tweets在一天中的分布
下午4点
中午12点
凌晨2点
晚上7点
僵尸粉的分布:基本模拟了人的生物钟
下午4点
中午12点
凌晨2点
全部t
文档评论(0)