数据分析是指将整体分解为单独的部分,以进行单独检查。数据分析是一个过程,用于获得原始数据并将其转换成用于由用户决策有用的信息。收集并分析数据以回答问题,检验假设或推翻理论。

  统计学家约翰·图基(John Tukey)在1961年将数据分析定义为:“分析数据的程序,解释此类程序结果的技术,计划数据收集以使其分析更容易,更精确或更准确的方式以及所有的机制和结果适用于分析数据的(数学)统计信息。”

  可以区分几个阶段,如下所述。这些阶段是迭代的,因为后期阶段的反馈可能会导致早期阶段的其他工作。

  1、数据的需求

  要进行数据分析,数据是必须的,它是根据指导分析的人员或客户的要求指定的。将在其上收集数据的实体的一般类型称为实验单位(例如,个体与群体)。可以指定和获得有关人口的特定变量(例如男女人数,收入水平等)。数据可以是数字的也可以是分类的(即数字的文本标签)。

  2、数据的收集

  数据的收集来源方式很多,它是是从各种来源收集的。数据分析师可以将需求传达给数据的管理人员,如组织内的信息技术人员。还可以从环境中的传感器(例如监控,卫星等)收集数据。也可以通过采访,从在线资源下载或阅读文档来获取数据。

  3、数据的处理

  数据的处理是用于将原始信息转换为可操作的情报或知识的情报周期的各个阶段在概念上类似于数据分析中的各个阶段。

  最初获得的数据必须经过处理或组织以便分析。例如,这些可能涉及将数据以表格格式(即结构化数据)放置在行和列中,以进行进一步分析,例如在电子表格或统计软件中。

  4、数据的清理

  数据一旦经过组织和处理,数据很有可能不完整,可能会包含重复项或包含错误。由于数据输入和存储方式存在问题,因此需要清理数据。数据清理是防止和纠正这些错误的过程。常见任务包括记录匹配,识别数据不正确,现有数据的整体质量,重复数据删除和列分段。还可以通过各种分析技术来识别此类数据问题。例如,利用财务信息,可以将特定变量的总数与被认为可靠的单独发布的数字进行比较。高于或低于预定阈值的异常量也可以进行检查。数据清除有几种类型,具体取决于数据类型,例如电话号码,电子邮件地址,雇主等。用于异常值检测的定量数据方法可用于消除可能输入错误的数据。可以使用文本数据拼写检查器来减少输入错误的单词的数量,但是很难判断单词本身是否正确。

  5、探索性数据分析

  当我们清除数据后,就可以对数据进行分析。数据分析师可以应用称为探索性数据分析的各种技术来开始理解数据中包含的消息。探索的过程可能会导致额外的数据清理或额外的数据请求,因此这些活动本质上可能是迭代的。可能会生成描述性统计信息(例如平均值或中位数)以帮助理解数据。数据可视化还可以用于检查图形格式的数据,以获得有关数据中消息的其他信息

  6、建模和算法

  可以将称为算法的数学公式或模型应用于数据,以识别变量之间的关系,例如相关性或因果关系。一般而言,可以开发模型以基于数据中的其他变量评估数据中的特定变量,其中某些残余误差取决于模型的准确性(即,数据=模型+错误)。

  推论统计包括测量特定变量之间关系的技术。例如,可以使用回归分析来建模广告的变化(自变量X)是否解释了销售的变化(因变量Y)。用数学术语来说,Y(销售额)是X(广告)的函数。可以将其描述为Y=aX+b+误差,其中设计模型时,当模型在给定的X值范围内预测Y时,a和b将误差最小化。分析师可能会尝试建立描述数据的模型,以简化分析并传达结果。

  7、数据的展示

  一旦分析了数据,就可以以多种格式将其报告给分析用户,以支持他们的要求。用户可能会有反馈,这会导致其他分析。因此,许多分析周期都是迭代的。

  在确定如何传达结果时,分析人员可以考虑使用数据可视化技术来帮助将信息清晰有效地传达给听众。数据可视化使用信息显示(例如表格和图表)来帮助传达数据中包含的关键消息。表格对可能查找特定数字的用户很有帮助,而图表(例如,条形图或折线图)则可能有助于解释数据中包含的定量信息。

  大数据分析的过程和结果都要依托于一个强大的计算机基础架构,这对于处理大数据信息也是至关重要的,如果要开发一些交互的系统,那么对于满足不同的用户需求是很重要的。

大数据分析的过程是怎样的相关推荐

  1. 《大数据分析原理与实践》——导读

    前 言 本书的缘起与成书过程 大数据经过分析能够产生高价值,这无疑已在大数据火爆的今天成为共识,从而使得大数据分析在"大数据+"涉及的领域(如工业.医疗.农业.教育等)有了广泛的应 ...

  2. 《大数据分析原理与实践》——习题

    习题 在我们身边有哪些大数据?在这些大数据上有哪些分析任务? 比较"分析""机器学习"和"数据挖掘"的异同. 比较电子商务和工业生产中大数据 ...

  3. 《大数据分析原理与实践》一一导读

    前 言 本书的缘起与成书过程 大数据经过分析能够产生高价值,这无疑已在大数据火爆的今天成为共识,从而使得大数据分析在"大数据+"涉及的领域(如工业.医疗.农业.教育等)有了广泛的应 ...

  4. 大数据分析的作用与注意事项

    大数据分析的结果可以给企业带来决策影响,也同时关系到企业的利益体现,大数据分析正在为企业带来了新的变化,但是关于大数据分析中的可以和不可以,我们还是要注意的. 大数据分析可以的事情 1.多维度分析 因 ...

  5. 大数据分析的思维方式有哪些

    自进入二十一世纪以来,我国科技产业一改以往的形象,其发展速度不断加快,全面带领我国进入大数据时代,所谓大数据即是大型数据的整合,不仅象征着我国当下先进科技对于信息资产的优化整理,同时大数据也代表着创新 ...

  6. “入门大数据分析:探索海量数据的奥秘“

    随着时代的进步,大数据分析逐渐成为了各个领域中重要的工具之一.它不仅能够帮助企业发掘商业价值,还可以为科学研究提供更精确的数据支持.对于初学者来说,入手大数据分析也不是很难,只需掌握一些基本的概念和工 ...

  7. 大数据分析数据分析师培训学什么

    虽然大数据分析岗现在已经不像5-6年前那么神秘,但不可否认,仍然有一部分人看不清大数据分析师神秘面纱下到底在做什么,其实大数据分析的日常工作跟他们所学呈现一致状态,所学即所做.那么,到底大数据分析师培 ...

  8. 飞机qar数据可视化_浅谈QAR大数据分析与应用

    QAR数据分析指的是用适当的统计分析方法对收集来的QAR数据进行分析,提取有用信息和形成结论而对QAR数据加以详细研究和概括总结的过程.目前航空公司在QAR数据分析与应用上主要有两类问题. 一是典型超 ...

  9. 【工业大数据】 昆仑数据首席科学家田春华:人工智能降低了工业大数据分析的门槛

    机器之心原创 作者:高静宜 在刚刚结束的国际 PHM 数据竞赛中,昆仑数据的 K2 代表队以绝对优势一举夺冠,成为 PHM Data Challenge 十年竞赛史上首个完全由中国本土成员组成的冠军团 ...

最新文章

  1. “算法不行,干啥都不行!”面试官:面试基本都会考这点!
  2. python搭建博客系统_用Pelican快速搭建极简静态博客系统
  3. 如何安装python3.7.4_银河麒麟安装Python3.7.4以及升级自带OpenSSL
  4. 2010年写给自己的一封信
  5. 原子微型结构信息应用到局部图形信息存储的猜想
  6. 2 计算机组成原理第二章 数据的表示和运算 定点数运算 浮点数运算
  7. Javascript 链式运动框架——逐行分析代码,让你轻松了解运动的原理
  8. iOS 对arc的一点深入理解
  9. 常用的JavaScript工具类库收藏
  10. 微服务落地践行渐进,4个QA一窥金融微服务现状
  11. Win7删除不常用的自带应用程序
  12. c++ 以当前时间为文件名打印日志
  13. 使用mapboxgl 实现特定的地图效果
  14. java 8 解析英文月份,英文星期等
  15. Flutter技术在会展云中大显身手
  16. 社保费客户端显示服务器连接异常,社保费客户端登录服务器异常
  17. LigaAI X 猴子无限 | AIGC 火了,专业设计者的福音来了!
  18. vRealize Operations Manager 仪表板示图
  19. android用bmob实现评论,Bmob在Android上的应用
  20. [题目解析]乐乐的数字

热门文章

  1. 利用python脚本实现使用typora时图片自动上传到chevereto图床
  2. 宝塔安装授权源码教程
  3. 【附源码】计算机毕业设计SSM物流库存管理系统
  4. 【冷推荐】各领域最值得推荐的入门书籍,值得收藏!!
  5. nec微型计算机,当树莓派遇上NEC,物联网时代的显示器长什么样?
  6. 【C++】魔兽世界之装备篇
  7. vivado 仿真工程中$readmemh 使用
  8. Kbuild系统源码分析(四)—./scripts/Makefile.build
  9. 关于微信APP支付,提示支付验证签名失败
  10. DIY ROV系列(三)水下机器人结构和动力设计