2019独角兽企业重金招聘Python工程师标准>>>

1. 决定目标:在获取数据之前,数据价值链的第一步要先决定目标:业务部门要决定数据科学团队的目标。这些目标通常需要进行大量的数据收集和分析。因为我们正在研究那些驱动决策的数据,所以需要一个可衡量的方式,判断业务是否正向着目标前进。数据分析过程中,关键权值或性能指标必须及早发现。

2. 确定业务手段:应该通过业务的改变,来提高关键指标和达到业务目标。如果没有什么可以改变的,无论收集和分析多少数据都不可能有进步。在项目中尽早确定目标、指标和业务手段能为项目指明方向,避免无意义的数据分析。例如,目标是提高客户滞留度,其中一个指标可以是客户更新他们订阅的百分比,业务手段可以是更新页面的设计,提醒邮件的时间和内容以及特别的促销活动。

3. 数据收集:数据收集要尽量广撒网。更多的数据—-特别是更多的不同来源的数据—-使得数据科学家能找到数据之间更好的相关性,建立更好的模型,找到更多的可行性见解。大数据经济意味着个人记录往往是无用的,拥有可供分析的每一条记录才能提供真正的价值。公司通过检测它们的网站来密切跟踪用户的点击及鼠标移动,商店通过在产品上附加RFID来跟踪用户的移动,教练通过在运动员身上附加传感器来跟踪他们的行动方式。

4. 数据清洗:数据分析的第一步是提高数据质量。数据科学家要纠正拼写错误,处理缺失数据以及清除无意义的信息。这是数据价值链中最关键的步骤。垃圾数据,即使是通过最好的分析,也将产生错误的结果,并误导业务本身。不止一个公司很惊讶地发现,他们很大一部分客户住在纽约的斯克内克塔迪,而该小镇的人口不到70000人。然而,斯克内克塔迪的邮政编码是12345,由于客户往往不愿将他们的真实信息填入在线表单,所以这个邮政编码会不成比例地出现在几乎每一个客户的档案数据库中。直接分析这些数据将导致错误的结论,除非数据分析师采取措施来验证和清洗数据。尤为重要的是,这一步将规模化执行,因为连续数据价值链要求传入的数据会立即被清洗,且清洗频率非常高。这通常意味着此过程将自动执行,但这并不意味着人无法参与其中。

5. 数据建模:数据科学家构建模型,关联数据与业务成果,提出关于在第一步中确定的业务手段变化的建议。数据科学家独一无二的专业知识是业务成功的关键所在,就体现在这一步—-关联数据,建立模型,预测业务成果。数据科学家必须有良好的统计学和机器学习背景,才能构建出科学、精确的模型,避免毫无意义的相关性及一些模型的陷阱。这些模型依赖于现有的数据,但对于未来的预测是无用的。但只有统计学背景是不够的,数据科学家还需要很好地了解业务,这样他们才能判断数学模型的结果是否有意义,以及是否具有相关性。

6. 培养一个数据科学团队:数据科学家是出了名的难雇用,所以最好自己构建一个数据科学团队,让团队中那些在统计学方面有高级学位的人专注于数据建模和预测,而其他人—-合格的基础架构工程师,软件开发人员和ETL专家—-构建必要的数据收集基础设施,数据管道和数据产品,使得结果数据能够从模型中输出,并以报告和表格的形式在业务中进行展示。这些团队通常使用类似Hadoop的大规模数据分析平台自动化数据收集和分析工作,并作为一个产品运行整个过程。

7. 优化和重复:数据价值链是一个可重复的过程,能够对业务和数据价值链本身产生连续的改进。基于模型的结果,业务将根据驱动手段做出改变,数据科学团队将评估结果。在结果的基础上,企业可以决定下一步计划,而数据科学团队继续进行数据收集、数据清理和数据建模。企业重复这个过程越快,就会越早修正发展方向,越快得到数据价值。理想情况下,多次迭代后,模型将产生准确的预测,业务将达到预定的目标,结果数据价值链将用于监测和报告,同时团队中的每个人将开始解决下一个业务挑战。

英文出处:analyticsweek

转载自:伯乐在线

转载于:https://my.oschina.net/u/2509910/blog/550597

数据分析的 7 个关键步骤相关推荐

  1. 干货 | 数据分析的 7 个关键步骤是什么?

    "数据科学家" 这个名号总让人联想到一个孤独的天才独自工作,将深奥的公式应用于大量的数据,从而探索出有用的见解.但这仅仅是数据分析过程中的一步.数据分析本身不是目标,目标是使企业能 ...

  2. 大数据分析技术有哪些应用步骤

    大数据技术经过这么几年的发展,已经不像前几年那样给人一种难懂的感觉,现如今信息的大爆炸,各行各业的信息层出不穷.但是信息的爆炸也就意味着各类杂乱无章数据的诞生,因此要想在众多的数据中找到对于自身有用的 ...

  3. 机器学习关键步骤(一)

    机器学习关键步骤(一) 机器学习有四个关键步骤. (1) 数据准备,理和准备待分析的数据. (2) 算法选择,根据需求挑选算法为数据建立模型. (3) 参数调优,优化模型结果. (4) 模型评估,根据 ...

  4. 数据分析报告的 6 个步骤

    ↑↑↑关注后"星标"简说Python 人人都可以简单入门Python.爬虫.数据分析 简说Python严选 来源:林骥    作者:林骥 One old watch, like b ...

  5. 干货:明确数据分析目标的 3 个步骤,很多人还搞不清楚

    在电影<银河补习班>中,邓超饰演的马浩文对他的儿子说: 人生就像射箭,梦想就像箭靶子. 如果连箭靶子也找不到的话,你每天拉弓有什么意义? 对于数据分析工作而言,如果没有目标,不仅工作结果可 ...

  6. 明确数据分析目标的 3 个步骤!

    在电影<银河补习班>中,邓超饰演的马浩文对他的儿子说: 人生就像射箭,梦想就像箭靶子. 如果连箭靶子也找不到的话,你每天拉弓有什么意义? 对于数据分析工作而言,如果没有目标,不仅工作结果可 ...

  7. 5大关键步骤!如何构建深度学习模型?

    深度学习的关注度正持续上升,它是机器学习的一个子领域,基于人工神经网络的概念来执行特定任务.然而在理论上,人工神经网络与人类大脑的运作方式并不相同,甚至都不相似! 它们之所以被命名为人工神经网络,是因 ...

  8. 管理多供应商物联网项目的10个关键步骤

    管理多供应商物联网项目的10个关键步骤 10 critical steps for managing a multi-vendor IoT project 一旦您决定创建一个成功的端到端物联网应用开发 ...

  9. 云端迁移需谨遵四大关键步骤

    当越来越多的企业发现,使用云有诸多好处时,他们开始逐步把重要的工作负载大批迁移到云端.尤其在跨云架构推动下,云迁移成为最佳选择. 起初,企业为了确保信息系统拥有足够的安全性和灵活性,都选择购买网络.服 ...

最新文章

  1. 动态规划--最长公共子序列
  2. 【STM32】SPI相关函数和类型
  3. 微信公众平台开发接口PHP SDK完整版
  4. python数据挖掘笔记】十八.线性回归及多项式回归分析四个案例分享
  5. Python:列表list对应项求和
  6. AngularJS track by $index引起的思考
  7. 方法Method(Java)
  8. 命令行编译_[Bazel]自定义命令行编译标志
  9. Transformers中的Beam Search高效实现
  10. Atitit 跨平台跨语言图像处理与node.js图像处理之道 attilax著 1. 著名跨语言类库 ImageMagick简介、GraphicsMagick、命令行 1 1.1. opencv
  11. ExtJS 教程汇总
  12. Linux C编程实战——第六章 文件操作_项目实现_自写ls命令
  13. Zemax操作--7(坐标断点)
  14. Android性能优化篇——友盟U-APM云真机
  15. PPT太大怎么进行压缩
  16. [后缀数组][trie合并][启发式合并][并查集] LOJ #6198. 谢特
  17. E. MEX and Increments---dp+优先队列+贪心
  18. Auto.js Pro 替代品
  19. coreldraw x7 分布_CorelDRAW X7新特性汇总
  20. EXE文件结构及原理

热门文章

  1. ThreadLocal T类的说明 转载 原作者 lujh99
  2. dbms_random.seed
  3. 2001年分区联赛提高组之二_数的划分_ssl1016_dfs
  4. Head First 设计模式中的命令模式 的一个错误
  5. 什么时候用到mysql存储过程_什么时候用到存储过程
  6. scrum回顾_[PM]敏捷开发之Scrum总结
  7. 将dll制作成控件_如何将皮料剪切成想要的大小?制作皮具几种裁剪工具和使用方法...
  8. Docker网络-(六)
  9. HashMap由浅入深(jdk8)
  10. jmeter安装包双击没反应_Jmeter5.0源码在eclipse运行的正确打开方式