典型的数据分析系统,要分析的数据种类其实是比较丰富的。依据来源可大体分为以下几个部分:

图:数据分析系统数据来源

1. 业务系统数据

业务系统产生的数据是不可忽视的,比如电商网站,大量的订单数据看似杂乱无章,实则蕴含潜在的商业价值,可以从中分析进而进行商业推广,产品推荐等。

另一角度来看,业务系统数据获取成本低、方式容易,属于公司内部范畴。业务系统的数据一般保存在关系型数据库当中。获取形式有:

接口调用:直接获取业务系统数据库的数据,但是要注意不能影响业务系统数据库的性能,比如大量获取数据增大数据库读数据压力。

数据库dump:非高峰时段,或者在数据库从库上dump出全部数据。一般企业中会定时进行数据库的备份、导出工作,那么就可以共享使用这些数据。

比如MySQL数据库,使用mysqldump工具就可以进行数据库的导出。

mysqldump -uroot -pPassword [database name] [dump file]

mysqldump命令将数据库中的数据备份成一个文本文件。表的结构和表中的数据将存储在生成的文本文件中。

2. 爬虫数据

在进行网站数据分析的时候,除了内部数据之外,还有一部分数据是我们不能够忽视的。那就是所谓的外部数据。当然这是相对公司网站来说的。拥有了外部数据可以更好的帮助我们进行数据分析。

爬虫(Web crawler),是指一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。

电子商务行业最初的爬虫需求来源于比价。这是某些电商网站的核心业务。大家如果买商品的时候,是一个价格敏感型用户的话,很可能会使用比价功能。毫无悬念,会使用爬虫技术来爬取所有相关电商的价格。

当然,这并不意味着大家喜欢被爬取。于是需要通过技术手段来做反爬虫。

大数据离线阶段Day5之多彩缤纷数据源相关推荐

  1. 大数据离线阶段--数据获取

    大数据离线阶段 -----数据获取原理 数据分析 1. 数据分析定义 数据分析离不开数据,计量和记录一起促成了数据的诞生.伴随着数据记录的发展(尤其是技术),人类受益也越来越多,计算机出现带来的数字测 ...

  2. 大数据离线阶段Day1之大数据时代

    1.1. 概述 最早提出"大数据"时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:"数据,已经×××到当今每一个行业和业务职能领域,成为重要的生产因素.人们对于海量数据的挖 ...

  3. 迁移到其他机器_有赞大数据离线集群迁移实战

    ‍‍ 点击关注"有赞coder" 获取更多技术干货哦- 作者:郭理想 & 任海潮部门:数据中台 一.背景 有赞是一家商家服务公司,向商家提供强大的基于社交网络的,全渠道经营 ...

  4. OPPO大数据离线计算平台架构演进

    1 前言 OPPO的大数据离线计算发展,经历了哪些阶段?在生产中遇到哪些经典的大数据问题?我们是怎么解决的,从中有哪些架构上的升级演进?未来的OPPO离线平台有哪些方向规划?今天会给大家一一揭秘. 2 ...

  5. 大数据离线处理数据项目(一) 网站日志文件数据采集 日志拆分 数据采集到HDFS并进行预处理

    简介: 这篇写的是大数据离线处理数据项目的第一个流程:数据采集 主要内容: 1)利用flume采集网站日志文件数据到access.log 2)编写shell脚本:把采集到的日志数据文件拆分(否则acc ...

  6. 大数据离线批处理化解决方案--离线批处理

    大数据离线批处理化解决方案 安平领域 • 离线处理平台主要用来进行数据处理和加工,将原始数据加工成明细数据.以及进行离线分析和碰撞分析产生分析结果数据,供上层应用调用. • 安平领域需要监控的数据有很 ...

  7. 大数据离线集群数据迁移实战项目

    有赞大数据离线集群迁移实战 一.背景 有赞是一家商家服务公司,向商家提供强大的基于社交网络的,全渠道经营的 SaaS 系统和一体化新零售解决方案.随着近年来社交电商的火爆,有赞大数据集群一直处于快速增 ...

  8. 大数据离线处理和常用工具

    首先给大家分享一个巨牛巨牛的人工智能教程,是我无意中发现的.教程不仅零基础,通俗易懂,而且非常风趣幽默,还时不时有内涵段子,像看小说一样,哈哈-我正在学习中,觉得太牛了,所以分享给大家!点这里可以跳转 ...

  9. 容器开启数据服务之旅系列(四):Kubernetes QoS 助力在线运用与大数据离线运用的带宽控制和磁盘控制...

    容器开启数据服务之旅系列(四) Kubernetes QoS 助力在线运用与大数据离线运用的带宽控制和磁盘控制 概述 本文是2018年大数据峰会上的一些分享,关于在线业务,离线业务在ACK(阿里云容器 ...

  10. 苏宁大数据离线任务开发调度平台实践:任务调度模块架构设计

    https://www.infoq.cn/article/xTvBg1_9iUL0z5Pjf0Os 本文是苏宁大数据离线任务开发调度平台实践系列文章之上篇,详解苏宁的任务调度模块. 目 录 1. 绪言 ...

最新文章

  1. 生活有时会有点苦涩——一位第六年还没发paper的PHD的自述
  2. WIN2008系统的IIS7.0配置REWRITE伪静态环境
  3. 系统定制封装 step1
  4. 【Android游戏开发之六】在SurfaceView中添加组件!!!!并且相互交互数据!!!!...
  5. Java JVM内存模型
  6. JS replace()方法-字符串首字母大写
  7. linux下使用syslog日志调试程序快速的调试代码信息的过程
  8. 673. 最长递增子序列的个数
  9. linux系统列表,Linux常用系统调用列表-20210415054405.docx-原创力文档
  10. 信息学奥赛一本通C++语言——1032:大象喝水
  11. 第三十三章 机械化印刷
  12. python可见图算法_基于自适应显着性的图像分割(源码开放)
  13. 单位阶跃信号是周期信号吗_iPhone12的信号有改观吗?
  14. 数据--第22课 - 队列的定义及实现
  15. 手动解析App dSYM示例
  16. vue 百度地图中文文档
  17. vue动态加载页面组件
  18. Git 笔记 - 程序员都要掌握的 Git
  19. e7 88系列服务器,英特尔至强E7处理器性能多项测试比拼
  20. GBase 8c 安全特性

热门文章

  1. vue项目静态图片不显示
  2. 爬虫---涨跌停股票池信息----(东方财富)
  3. ArcGIS晕渲图的制作(解决山体阴影问题——平坦地区凸点过于突出)
  4. 如何查看本机flash版本
  5. 2021第十二届蓝桥杯大赛软件赛省赛C++ B组真题题解
  6. 安装的photoshop cs2为什么一进去就说我的用户名、组织、或序列号无效或错误???
  7. 如何使用内网穿透,将自己的内网接口暴露到外网
  8. oracle回收DBA权限以及授权表空间
  9. Google 阅读器键盘快捷键
  10. 生意经:网店营销要搭强者的便车