Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍

网站日志分析项目案例(一)项目介绍:当前页面

网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html

网站日志分析项目案例(三)统计分析:http://www.cnblogs.com/edisonchou/p/4464349.html

一、项目背景与数据情况

1.1 项目来源

  本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖,如图1所示。

图1 项目来源网站-技术学习论坛

  本次实践的目的就在于通过对该技术论坛的apache common日志进行分析,计算该论坛的一些关键指标,供运营者进行决策时参考。

PS:开发该系统的目的是为了获取一些业务相关的指标,这些指标在第三方工具中无法获得的;

1.2 数据情况 

  该论坛数据有两部分:

  (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。

  (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这也说明,从2013-05-30之后,日志文件不再是在一个文件里边。

  图2展示了该日志数据的记录格式,其中每行记录有5部分组成:访问者IP、访问时间、访问资源、访问状态(HTTP状态码)、本次访问流量。

图2 日志记录数据格式

二、关键指标KPI

2.1 浏览量PV

  (1)定义:页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1 次。

  (2)分析:网站总浏览量,可以考核用户对于网站的兴趣,就像收视率对于电视剧一样。但是对于网站运营者来说,更重要的是,每个栏目下的浏览量。

  计算公式:记录计数,从日志中获取访问次数,又可以细分为各个栏目下的访问次数。

2.2 注册用户数

  该论坛的用户注册页面为member.php,而当用户点击注册时请求的又是member.php?mod=register的url。

  计算公式:对访问member.php?mod=register的url,计数。

2.3 IP数

  (1)定义:一天之内,访问网站的不同独立 IP 个数加和。其中同一IP无论访问了几个页面,独立IP 数均为1。

  (2)分析:这是我们最熟悉的一个概念,无论同一个IP上有多少电脑,或者其他用户,从某种程度上来说,独立IP的多少,是衡量网站推广活动好坏最直接的数据。

  计算公式:对不同的访问者ip,计数

2.4 跳出率

  (1)定义:只浏览了一个页面便离开了网站的访问次数占总的访问次数的百分比,即只浏览了一个页面的访问次数 / 全部的访问次数汇总。

  (2)分析:跳出率是非常重要的访客黏性指标,它显示了访客对网站的兴趣程度:跳出率越低说明流量质量越好,访客对网站的内容越感兴趣,这些访客越可能是网站的有效用户、忠实用户。

PS:该指标也可以衡量网络营销的效果,指出有多少访客被网络营销吸引到宣传产品页或网站上之后,又流失掉了,可以说就是煮熟的鸭子飞了。比如,网站在某媒体上打广告推广,分析从这个推广来源进入的访客指标,其跳出率可以反映出选择这个媒体是否合适,广告语的撰写是否优秀,以及网站入口页的设计是否用户体验良好。

  计算公式:①统计一天内只出现一条记录的ip,称为跳出数;②跳出数/PV;

2.5 板块热度排行榜

  (1)定义:版块的访问情况排行。

  (2)分析:巩固热点版块成绩,加强冷清版块建设。同时对学科建设也有影响。

  计算公式:按访问次数统计排序;

三、开发步骤

3.0 需要用到的技术

  (1)Linux Shell编程

  (2)HDFS、MapReduce

  (3)HBase、Hive、Sqoop框架

3.1 上传日志文件至HDFS

  把日志数据上传到HDFS中进行处理,可以分为以下几种情况:

  (1)如果是日志服务器数据较小、压力较小,可以直接使用shell命令把数据上传到HDFS中;

  (2)如果是日志服务器数据较大、压力较大,使用NFS在另一台服务器上上传数据;

  (3)如果日志服务器非常多、数据量大,使用flume进行数据处理;

3.2 数据清洗

  使用MapReduce对HDFS中的原始数据进行清洗,以便后续进行统计分析;

3.3 统计分析

  使用Hive对清洗后的数据进行统计分析;

3.4 分析结果导入MySQL

  使用Sqoop把Hive产生的统计结果导出到mysql中;

3.5 提供视图工具

  提供视图工具供用户使用,指标查询mysql、明细则查询Hbase;

四、表结构设计

4.1 MySQL表结构设计

  这里使用MySQL存储关键指标的统计分析结果。

4.2 HBase表结构设计

  这里使用HBase存储明细日志,能够利用ip、时间查询。

  后面,我们就开始具体的实战了,本篇作为介绍就到此为止!

hadoop网站日志分析(一)相关推荐

  1. Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍

    Hadoop学习笔记-20.网站日志分析项目案例(一)项目介绍 网站日志分析项目案例(一)项目介绍:当前页面 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edis ...

  2. 走向云计算之Hadoop实际应用网站日志分析

    一.概述 网站日志分析是Hadoop应用的一个方向.那么什么是网站日志呢? 网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以.log结尾文件.通过网站日志可以清楚的得知用户在什么 ...

  3. Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析

    网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:http://www.cnbl ...

  4. 大数据平台网站日志分析系统

    1:大数据平台网站日志分析系统,项目技术架构图: 2:大数据平台网站日志分析系统,流程图解析,整体流程如下: ETL即hive查询的sql; 但是,由于本案例的前提是处理海量数据,因而,流程中各环节所 ...

  5. 课堂随笔1 - MOOC网站日志分析

    大数据Clouder:MOOC网站日志分析 日志,log,事件记录 网站日志:系统日志,程序日志 网站的系统访问日志,有通用格式 网站日志分析: (1)价值/重要性:运行,安全,运营,用户信息 (2) ...

  6. 课堂随笔1 - MOOC网站日志分析 1

    大数据Clouder:MOOC网站日志分析 日志,log,事件记录 网站日志:系统日志,程序日志 网站的系统访问日志,有通用格式 网站日志分析: (1)价值/重要性:运行,安全,运营,用户信息 (2) ...

  7. 基于大数据的网站日志分析系统

    本文没有任何代码,只有各个模块工作的大体机制和整体流程.算是一个科普文吧,我也对原理一知半解. 基于大数据的网站日志分析系统 1. 日志数据格式 1.1 访问日志 1.1.1 log_format 1 ...

  8. 阿里云大数据认证——MOOC网站日志分析-课堂笔记

    阿里云Clouder认证 四.MOOC网站日志分析 1. 课程目标 (1) 了解网站日志分析的意义 (2) 了解网站日志如何搜集 (3) 使用编程语言对日志数据进行处理 (4) 使用编MaxCompu ...

  9. 日志分析系统分类有哪些_什么是网站日志分析需要分析哪些内容

    优化网站日志剖析便是针对用户拜访和查找引擎蜘蛛到访咱们的具体状况的剖析.网站日志剖析一般包含:查找引擎的抓取量.蜘蛛来访次数.来的时刻.来访页面.总抓取量.状况码剖析. 具体的如下: 1.网站日志剖析 ...

最新文章

  1. 认识Linux的磁盘配额(转载)
  2. ICPC2008哈尔滨-A-Array Without Local Maximums
  3. 写给计算机的大学生!
  4. java什么是派生,Java中所有的类都是从( )类或其子类派生而来的。
  5. python直方图的拟合_从一组数据python中将两个高斯拟合成直方图
  6. 数字ToString作为货币显示并且带小数
  7. 10、python图像识别库tesseract下载及配置
  8. linux vmware 服务,学习笔记:在Linux虚拟机上搭建node服务
  9. Identity of indiscernibles(不可分与同一性)
  10. 对于java中接口的作用与理解
  11. C语言基础练习题初学者可参考
  12. 免费网站监控服务器,服务Web应用!10款免费服务器监控软件
  13. FFmpeg学习之QT音频播放
  14. SVO2系列之深度滤波DepthFilter
  15. camera tuning名词缩写
  16. matlab length什么意思,matlab中的length什么意思?如何应用?
  17. 使用Fiddler破解钉钉回放视频不能下载
  18. 基于注解和EasyExcel指定单元格下拉选内容
  19. 个人号微信二次开发,微信ipad协议
  20. Android绘制地图

热门文章

  1. LeetCode第五题答案(time limite exceeded) C++ time limit exceeded
  2. 智能反射面(IRS)信道建模与仿真
  3. 手机APP调用支付宝支付(java服务端)
  4. 自学maya总是找不到对的方向怎么办?是你没有掌握以下几点
  5. css基本样式之字体样式
  6. Arduino core for ESP8266 安装失败问题处理方法
  7. DMMS工具介绍-更改Android虚拟机默认安装位置
  8. Beyond Compare不能打开SELinux的*.te权限配置文件
  9. 【技术简史】人类历史上的技术革命史:背景,发展,影响;未来技术革命预测,影响,发展。
  10. 秒杀助手 2018最新版本