- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
xx论坛日志分析项目报告
xx论坛日志分析 sqoop1.4.4 解压,然后把mysql驱动放在$SQOOP_HOME/lib目录中 把hive中的表数据导出到mysql中 sqoop export --connect jdbc:mysql://0:3306/crxy_test --username crxy --password crxy --table bbs_info --fields-terminated-by \001 --export-dir /user/hive/warehouse/hmbbs_2013_05_30 注意:sqoop1.4.5版本有bug,导出数据至mysql时出错 hive函数 参考 /end/archive/2012/06/18/2553682.html * * 项目描述 通过对xx论坛的apache common日志进行分析, 计算论坛关键指标,供运营者进行决策。 数据情况 论坛数据组成: 每天生成一个数据文件,约150MB 每行记录有5部分组成: 1.访问ip 2.访问时间 3.访问资源 4.访问状态 5.本次流量 关键指标-1 ⊙浏览量(pv) 定义:页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,用户每打开一个页面就被记录1 次。 分析:网站总浏览量,可以考核用户对于网站的兴趣,就像收视率对于电视剧一样。但是对于网站运营者来说,更重要的是,每个栏目下的浏览量。 计算公式:记录计数 关键指标-2 ⊙注册用户数 计算公式:对访问member.php?mod=register的url,计数 关键指标-3 ⊙独立IP数 定义:一天之内,访问网站的不同独立IP 个数加和。其中同一IP无论访问了几个页面,独立IP 数均为1。 分析:这是我们最熟悉的一个概念,无论同一个IP上有多少电脑,或者其他用户,都算作一个独立IP。从某种程度上来说,独立IP的多少,是衡量网站推广活动好坏最直接的数据。 公式:对ip去重求和 关键指标-4 ⊙跳出率=跳出数/PV 定义:只浏览了一个页面便离开了网站的访问次数占总的访问次数的百分比,即只浏览了一个页面的访问次数 / 全部的访问次数汇总。 分析:跳出率是非常重要的访客黏性指标,它显示了访客对网站的兴趣程度:跳出率越低说明流量质量越好,访客对网站的内容越感兴趣,这些访客越可能是网站的有效用户、忠实用户。 该指标也可以衡量网络营销的效果,指出有多少访客被网络营销吸引到宣传产品页或网站上之后,又流失掉了,可以说就是煮熟的鸭子飞了。比如,网站在某媒体上打广告推广,分析从这个推广来源进入的访客指标,其跳出率可以反映出选择这个媒体是否合适,广告语的撰写是否优秀,以及网站入口页的设计是否用户体验良好。 计算公式:(1)统计一天内只出现一条访问记录的ip,称为跳出数 (2)跳出数/PV 关键指标-5 ⊙板块访问量pv 定义:一天之内每个板块的访问量 分析:板块的链接url:/forum-110-1.html,其中110表示板块的ID,1表示这个板块的第一页,只需要计算url中存在/forum-字符串的数据 公式:对板块分组,求每个板块的访问量 关键指标-6 ⊙板块独立IP访问量 定义:一天之内每个板块的独立IP访问量 分析:板块的链接url:/forum-110-1.html,其中110表示板块的ID,1表示这个板块的第一页,只需要计算url中存在/forum-字符串的数据,然后对IP进行去重 公式:对板块分组,IP去重,求每个板块的独立IP访问量 开发步骤 1.使用flume把日志数据导入到hdfs中 2.明细日志使用hbase存储,主键使用ip+date+random 3.对数据进行清洗 4.使用hive进行数据的多维分析 5.把hive分析结果使用sqoop导出到mysql中 6.提供图表和表格进行数据展示 mysql表结构 汇总表(bbs_info) 日期 log_date 浏览量 pv 注册用户数 reguser 独立ip数 ip 跳出数 jumper 版块访问表(bbs_forum) 浏览量 pv 日期 log_date 版块 forum 独立ip ip hbase表结构 明细表 行键 ip:date:random 列族 cf:all * * *
您可能关注的文档
- XX公司2016年室分工程施工组织方案报告.doc
- XXX银行庆典活动策划方案报告.ppt
- xxx集团家具电报告.ppt
- XXX工程污水管线改移工程施工组织设计报告.doc
- XX公司员工制度手册报告.doc
- XX公司U8实施方案模板报告.doc
- xx公司跟单流程设计报告.doc
- XX六大中心绩效问题与整改方案会议纪要报告.doc
- XX公司财务管理流程(_21页)报告.ppt
- XX劳务合同签约版报告.doc
- Unit6ShoppingPartALet'slearn(课件)-人教PEP版(2012)英语四年级下.pptx
- 人教版高一化学必修二课件1.2.1元素周期律第1课时原子核外电子排布.ppt
- 高三数学(理)二轮复习专题集训专题六解析几何6.3.doc
- 标记导体Ver Sunrise Moon 脚本大合集 2018版 Lookae Scripts ReadMe300.pdf
- 西宽5x19-第十九部分讨论重点.pdf
- 酒驾驾驶员模拟驾驶课程 POV-24.pdf
- 2025年江苏省苏州市八校高考历史第三次适应性试卷-普通用卷.docx
- 北京市大兴区精华学校2024-2025学年高三下学期三模历史试题.pdf
- 【语文】北京市海淀区2025届高三下学期期中考试试题(解析版).pdf
- 2025届河南省漯河市高考模拟检测语文试卷.docx
文档评论(0)