1 数据生命周期

数据都存在一个生命周期,数据生命周期是指数据从创建、修改、发布利用到归档/销毁的整个过程。

1.1 数据生命周期管理工作包括以下几个方面:

  • 分类:对数据进行自动分类,分离出有效的数据,对不同类型数据制定不同的管理策略,并及时清理无用的数据。

  • 存储:构建分层的存储系统,满足不同类型的数据对不同生命周期阶段的存储要求,对关键数据进行数据备份保护,对处于生命周期末期的数据进行归档并保存到适合长期保存数据的存储设备中。

  • 管理:根据不同的数据管理策略,实施自动分层数据管理,即自动把不同生命周期阶段的数据存放在最合适的存储设备上,提高数据可用性和管理效率。

1.2 数据生命周期管理的作用

  • 降低数据安全风险

  • 降低数据维护成本

  • 提高数据质量

2 数据的使用

​2.1 数据清洗

任何数据分析计划的第一步就是数据清洗,也就是把数据变成一个可用的状态。这个过程需要借助于工具去实现数据转换,比如古老的Unix工具AWK、XML解析器和机器学习库等,此外,脚本语言,比如Perl和Python,也可以在这个过程发挥重要的作用。完成数据的解析,就要开始关注数据的质量。对于来源众多、类型多样的数据而言,数据缺失和语义模糊等问题是不可避免的,必须采取措施解决。

2.2 数据管理

数据经过清洗以后,被存放到数据库系统中进行管理和使用。从上个世纪70年代开始,关系型数据库提供SQL语句进行各种查询操作,同时支持事务一致性功能,很好地满足了各种商业应用需求,但随着Web2.0应用的不断发展,非结构化数据开始迅速增加,对于大规模非结构化数据则暴露了很多难以克服的问题,NoSQL数据库的出现,有效满足对非结构化数据进行管理的市场需求,并得到了非常迅速的发展

2.3 数据分析

  • 构建统计模型对数据分析也十分重要.统计是数据分析的重要方式,在众多开源的统计分析工具中,R语言和它的综合类库CRAN是最重要

  • 为了能够让数据说话,使得分析结果更容易被人理解,还需要对分析结果进行可视化

  • 可视化对数据分析来说是一项非常重要的工作,如果需要找出数据到底差在哪里,就需要画图帮助人们进行直观理解,继而找出问题所在

2.4 数据使用的实例

以数据仓库为例,来说明一下数据在企业中使用的方法,这是一个数据仓库的图,在数据仓库应用当中会有很多的数据源,这些数据源都是OLTP系统,这些数据源会通过ETL工具按照一定周期把它抽取、转换加载到数据仓库中,在数据仓库中就会行程大量的历史的累积数据,这些历史累积数据就可以提供给前端进行数据挖掘、报表等应用程序使用,这就是数据仓库的使用方法。

​欢迎点赞收藏!!!

《大数据导论》之数据生命周期和数据使用相关推荐

  1. 大数据将改变信息生命周期管理

    时至今日,虽然信息生命周期管理(ILM)这个概念不再被常常提及,但是ILM的理念已经深入人心,成了指导企业用户实施数据分层存储及管理的核心原则.昆腾公司全球大数据业务高级副总裁Janae Lee表示: ...

  2. 数据科学生命周期_数据科学项目生命周期第1部分

    数据科学生命周期 This is series of how to developed data science project. 这是如何开发数据科学项目的系列. This is part 1. 这 ...

  3. 第10课:Spark Streaming源码解读之流数据不断接收全生命周期彻底研究和思考

    特别说明:  在上一遍文章中有详细的叙述Receiver启动的过程,如果不清楚的朋友,请您查看上一篇博客,这里我们就基于上篇的结论,继续往下说. 博文的目标是:  Spark Streaming在接收 ...

  4. 如何保障企业数据资产的全生命周期安全?看这篇就够了

    摘要:随着国家大数据战略的不断推动和深化,做好数据安全治理成为了极大挑战.我们很难在繁多的数据安全能力中去构建适合自己安全体系,业界也缺乏具有指导建设意义的数据安全产品. 什么是数据?可以是音乐,时间 ...

  5. 热温冷冰,数据存储需要全生命周期管理

    随着云计算.大数据等新兴应用广泛普及,业务数据呈现爆炸式增长,海量数据的高效访问.经济存储和智能管理变得越来越重要. 从数据生命周期来看,在数据刚生成并使用时,属于在线数据,在线数据访问的频率最高,数 ...

  6. activity生命周期及数据保存

    为什么80%的码农都做不了架构师?>>>    public class ActivityLife extends Activity {// 在Activity生命周期开始时被调用@ ...

  7. uni-app 封装js方、页面的生命周期、数据双向绑定、封装组件

    1.在外部封装js方法 很多页面都会用到相同的方法,为了代码的复用,可以在外部封装相同的方法 在项目中创建一个utils目录,存放外部封装的js方法 在utils目录下创建getDate.js文件 e ...

  8. 基本程序单元Activity—Activity生命周期之数据传递小程序

    一. 实验目的 (1) 掌握Andriod Studio的基本使用方法: (2) 掌握Andriod Studio中常用的控件及其使用方法: 二. 实验内容 题目: 编写一个数据传递的小程序,要求在第 ...

  9. vue 在哪个生命周期进行数据请求

    看实际情况,一般在 created(或beforeRouter) 里面就可以,如果涉及到需要页面加载完成之后的话就用 mounted. 在created的时候,视图中的html并没有渲染出来,所以此时 ...

最新文章

  1. kvm上添加万兆网卡_部署kvm(二)
  2. 深度学习--TensorFlow(项目)识别自己的手写数字(基于CNN卷积神经网络)
  3. JavaScript正则表达式基础知识汇总
  4. [导入]Nhibernate引入自定义Membership和Role
  5. Win7桌面快捷切换技巧?
  6. linux没有日志如何排错,在 Linux 中使用日志来排错
  7. 常考数据结构与算法:排序
  8. SAP UI5 OData框架里硬编码的80是怎么来的
  9. [渝粤教育] 武汉理工大学 认识武理 参考 资料
  10. 《全景探秘游戏设计艺术》精华 用户体验 游戏平衡性
  11. 全志t3linux驱动_全志A20GPIO驱动分析|Android驱动及系统开发交流区|研发交流|雨滴科技技术论坛 - Powered by Discuz!...
  12. jdk1.5新特性5之枚举之模拟枚举类型
  13. ASP.NET OAuth 2.0 新手上路
  14. 心电信号的特征提取、分析与处理
  15. Minecraft在安卓手机上搭建java服务器
  16. 【笔记】统计pdf文件中的字数
  17. 元宇宙时空——元宇宙是什么
  18. 计算向量相似度 ---余弦相似度
  19. 什么软件可以将win窗口进行置顶_电脑极简指南,这5个方法可以帮你节约生命...
  20. 基于python的情感分析案例-基于情感词典的python情感分析

热门文章

  1. 操作系统上机考试复习
  2. WEX5常用组件介绍
  3. 区块链溯源系统对传统溯源的影响
  4. 2022年全球与中国99.999%纯度氧化亚氮行业市场需求预测与投资战略规划分析报告
  5. cp -r为啥会有提示linux,处cp的软件大全
  6. [CSharp]System.Data.OracleClient requires Oracle client software version 8.1.7 or greater
  7. python处理表格数据匹配-python爬取两个excel表里的相同数据并匹配输出
  8. Excel的两个表格按照某一列数据进行匹配
  9. ASP.NET Web Forms – Repeater 控件简介
  10. 后渗透之meterpreter学习笔记