Hadoop系列——大数据概念day1-1

  • Hadoop系列——大数据概念day1-1
    • 数据
      • 数据的单位
    • 大数据
      • 大数据的特点(5V)
        • Volume数据体量大
        • Variety种类、来源多样化
        • Value低价值密度
        • Velocity速度快
        • Veracity数据的质量
      • 大数据应用场景
      • 大数据业务分析的基本步骤
        • 明确分析目的和思路
          • 数据分析方法论∶营销管理相关理论
        • 数据收集
        • 数据处理
        • 数据分析
        • 数据展现
        • 报告撰写
    • 企业中的大数据部门组织架构

Hadoop系列——大数据概念day1-1

数据

  • 是事实或观察的结果
  • 是对客观事物的逻辑归纳
  • 是用于表示客观事物的未经加工的原始素材

数据的单位

  • 1Byte = 8bit
  • 1K(千)=1024Byte
  • 1MB(兆)=1024K
  • 1G(吉)=1024M
  • 1T(太)=1024G
  • 1P(拍)=1024T
  • lE(艾)=1024P
  • 1z(泽)=1024E
  • 1Y(尧)=1024Z
  • 1B(布)=1024Y
  • 1N(诺)=1024B
  • 1D(刀)=1024N

大数据

是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合
是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
----------------from baidu

大数据的特点(5V)

Volume数据体量大

  • 采集数据量大
  • 存储数据量大
  • 计算数据量大
  • TB、PB级别

Variety种类、来源多样化

种类:结构化、半结构化、非结构化
来源:日志文本、图片、音频、视频

Value低价值密度

信息海量但是价值密度低
深度复杂的挖掘分析需要机器学习参与

Velocity速度快

  • 数据增长速度快
  • 获取数据速度快
  • 数据处理速度快

Veracity数据的质量

  • 数据的准确性
  • 数据的可信赖度

大数据应用场景

如:电商广告推荐、个性化推荐、大数据杀熟、精准营销、推荐、风险评估、客户等级评估、导航最优规划、智慧交通、犯罪监控、医疗追踪等等

大数据业务分析的基本步骤

  1. 明确分析目的和思路
  2. 数据收集
  3. 数据处理
  4. 数据分析
  5. 数据展现
  6. 报告撰写

明确分析目的和思路

目的是整个分析流程的起点:

  • 为数据的收集、处理及分析提供清晰的指引方向

思路是使分析框架体系化∶

  • 先分析什么,后分析什么,使各分析点之间具有逻辑联系
  • 保证分析维度的完整性,分析结果的有效性以及正确性
数据分析方法论∶营销管理相关理论

如:用户行为理论(认知->熟悉->试用->使用->忠诚)、PEST分析法、5W2H分析法等
数据分析方法论主要用来指导数据分析师进行一次完整的数据分析,它更多的是指数据分析思路,比如主要从哪几方面开展数据分析,各方面包含什么内容和指标?数据分析方法论主要从宏观角度指导如何进行数据分析,它就像是一个数据分析的前期规划,指导着后期数据分析工作的开展。
而数据分析法则是指具体的分析方法,例如我们常见的对比分析、交叉分析、相关分析、回归分析、聚类分析等数据分析法。数据分析法主要从微观角度指导如何进行数据分析。

数据收集

是数据从无到有的过程(例如传感器接收数据),是数据传输搬运的过程(如采集数据库数据到数据分析平台)
数据常分为:

  1. 业务数据
  2. 日志数据
  3. 爬虫数据
  4. 互联网公开数据

数据处理

对收集到的数据进行加工处理,形成适合数据分析的样式
主要包括:

  1. 数据清理
  2. 数据转化
  3. 数据提取
  4. 数据计算

数据分析

用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程
需要掌握各种数据分析方法,还要熟悉数据分析软件的操作
数据挖掘本质是一种高级的数据分析方法
数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式和规律。

数据展现

是分析结果的直观展示
数据是通过表格和图形进行展现,让人能够只管的展示出来

报告撰写

数据分析报告是对整个数据分析过程的一个总结与呈现
把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
需要有明确的结论,最好有建议或解决方案

企业中的大数据部门组织架构

Hadoop系列——大数据概念day1-1相关推荐

  1. 大数据概念和Hadoop基本介绍

    开始学习大数据,一步一个脚印,好好坚持下去! 大数据概述 1.大数据特征 第一个,volume(量),大数据第一个基础是它的数据量要大: 第二个,velocity(速度),大数据一个很重要的它必须是实 ...

  2. 大数据教程系列之大数据概念

    好程序员大数据培训分享大数据概念,随着大数据时代的到来,"大数据"已经成为互联网信息技术行业的流行词汇.关于什么是大数据这个问题,大家比较认可大数据的"4V"说 ...

  3. Hadoop生态圈 大数据文档

    文档基于介绍基于Hadoop的大数据生态圈.介绍下图每一个组件的使用场景及使用方法,同时还对每一个组件有更深入的介绍. 1.Hadoop 1.1 Hadoop简介 2005年,Doug Cutting ...

  4. 荐六十款针对Hadoop和大数据顶级开源工具

    为什么80%的码农都做不了架构师?>>>    荐六十款针对Hadoop和大数据顶级开源工具 2015-08-10 10:37 布加迪编译 51CTO 字号: T |  T 说到处理 ...

  5. Hadoop和大数据:60款顶级开源工具

    说 到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,"100%的大公司&q ...

  6. 混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

    摘要:2019杭州云栖大会大数据企业级服务专场,由斗鱼大数据高级专家张龙带来以 "混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践" 为题的演讲.本文讲述了从 ...

  7. 初识Hadoop:大数据与Hadoop概述

    1.大数据概述 大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高 ...

  8. 大数据技术_ 基础理论 之 大数据概念与应用

    1.1 大数据的概念与意义 1.从"数据"到"大数据" 时至今日,"数据"变身"大数据","开启了一次重大的时 ...

  9. 看完了这篇,还能不知道什么是hadoop,大数据吗?❤️‍万字详解告诉你

    现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物. 文章目录 一.大数据概论 1.1 大数据概念 1.2 大数据特点 1. ...

最新文章

  1. SAP PM信息系统
  2. js常用事件整理—兼容所有浏览器
  3. java定义一个getsize方法,long getSize()
  4. OpenCV学习笔记二
  5. DSP 投放的基本流程和算法
  6. 【LeetCode笔记】剑指 Offer 58 - I. 翻转单词顺序(Java、栈、双指针)
  7. 代码运行错误及解决方法
  8. azure云服务器搭建连接_如何创建到Azure SQL数据库的链接服务器
  9. 计算机应用excel题,计算机应用操作练习题-Excel
  10. adb shell使用教程+sqlite3使用示例
  11. java 支付宝 验证签名失败,支付宝支付错误返回ILLEGAL_SIGN,签名验证错误
  12. 解决Proteus仿真时候提示Could not load simulator DLL错误
  13. python合并excel表格
  14. 国产积木---克尔维特(多图流量预警)
  15. 20本必读的用户体验书目
  16. mysql删除重复的数据保留一条
  17. C++自制游戏《Fighter》
  18. 這些食物絕對不能放隔夜(圖)
  19. 陇原战役2021 ezjaba
  20. 【100%通过率】华为OD机试真题 Python 实现【查找二叉树节点】【2022.11 Q4 新题】

热门文章

  1. 会多种计算机语言,为什么现在会有这么多种编程语言?
  2. C语言编写自己的日志系统
  3. ps抠图工具-快速选择区域
  4. python rgb2gray,skimage.color中的rgb2gray是如何实现彩色图片灰度化
  5. golang 初始化并赋值_go声明和初始化
  6. ROS-虚拟机Ubuntu中安装ros系统
  7. dtw算法 matlab,基于DTW的语音识别在MATLAB中的实现方法浅析
  8. “21天好习惯“第一期——2
  9. (防火墙辅助工具)EasyFirewall v3.2.8 中文便携版
  10. vue create is a Vue CLI 3 only command and you are using Vue CLI 2.9.6. You may want to run the fol