大数据中的数据的价值的大小的度量

1数据的老化:如果你的电话通讯录半年没有任何更新维护,可能把一半的电话号码
打不通了,或者电话号码的主人变更了。如果是两年没有任何更新可能四分之三的
号码都失效了。这就是数据的老化。老化体现了数据的改变程度。
有两个极端,一个是时时变化的数据,例如股价,汇率等,它们被称为时序性数据。
另一个是永远不改变的数据。例如数学常数和物理学常数等。
一个数据越是不容易老化,它的价值越大。

提一个数据,它最近上了新闻,这就是圆周率。当前的世界记录是日本人创造的,小
数点后有31万亿位,占据磁盘空间170TB。从单个数据占据的空间来看,这应该是
最大的数据了吧。圆周率作为一个数学常数,它的应用十分广泛。但是从绝大多数的使用来看,
圆周率取小数点后十位,就可以得到很精确的结果值。
最有趣的事实是,圆周率这个从不老化的数据,有无限多位的值,被人类时常刷新认识,
越来越接近它的真实值。

为了计算人的年龄,我们在数据库中,存储一个人的出生日期这样的数据,而不是存储年龄值。
存储出生日期,不用更新,但是年龄值要一年更新一次。这就是数据的老化的概念的应用。

2 用途的广泛性:一个数据的用途越广泛,它的价值越大。

3 数据的冗余:为什么数据可以压缩,因为它有冗余性。这是指一组数据的情况了。对于一个数据,
没有冗余性的概念。对于一个数据,考虑的是它的精度的问题。满足应用的要求就行了,不用一定
追求高精度。数据的冗余性,天然存在,为了解决存储的问题,例如图象,我们压缩数据。
来减少冗余程度。 但是也有人为增加冗余性的。例如通信过程,由于噪声的干扰,数据会丢失,
数据会被干扰而失真,这就要用校验码等方式增加冗余性。

从数据的价值度量来看,一群数据提供一定量的价值,如果我增加一倍的冗余性,单个数据的价值就减半了。
如果我减少冗余性,数据的数量减半,每个数据的价值都翻倍了。

许多的数据经过处理,变成一条信息,许多的信息经过再处理,得到一点知识,知识经过抽象再处理,凝结成智慧。
这个过程如同采集铁矿石,经过冶炼得到生铁,再冶炼得以熟铁,再精炼 得到钢材,再经过特殊处理,得到特种钢材。
矿石有贫富之分,数据的价值同样有大小之分。总之,我们可以按照上述的三个维度,来初步评估数据的价值大小,即
用途的多少,老化的情况,数据的冗余程度。

大数据中的数据的价值的大小的度量相关推荐

  1. oracle的删除的row如何,Oracle 删除大表中部分数据

    需求: 项目中有一张表大概有7000多万条数据,造成表空间已满,需要清理部分数据,打算清理3000万. 2B 做法: delete from table_name where ID > '400 ...

  2. python json接口数据提取_返回数据中提取数据的方法(JSON数据取其中某一个值的方法)...

    返回数据中提取数据的方法 比如下面的案例是,取店铺名称 接口返回数据如下: {"Code":0,"Msg":"ok","Data& ...

  3. R语言epiDisplay包的alpha函数计算dataframe数据中指定数据列之间的信度分析、克朗巴哈系数、标准化系数、每当剔除某一条目后系数的变化、设置reverse参数不对任何数据对象进行反序

    R语言使用epiDisplay包的alpha函数计算dataframe数据中指定数据列之间的信度分析.克朗巴哈系数(Cronbach's α).标准化

  4. pandas使用dropna函数删除dataframe数据中指定数据列的内容为缺失值的数据行(使用subset参数指定数据列)

    pandas使用dropna函数删除dataframe数据中指定数据列的内容为缺失值的数据行(使用subset参数指定数据列) 目录

  5. R语言描述性统计:使用mean函数计算dataframe数据中指定数据列的均值

    R语言描述性统计:使用mean函数计算dataframe数据中指定数据列的均值 目录 R语言描述性统计:使用mean函数计算dataframe数据中指定数据列的均值

  6. R语言使用epiDisplay包的alpha函数计算dataframe数据中指定数据列之间的信度分析、使用alpha函数和基于业务筛选的数据列的列表计算Cronbach‘s α

    R语言使用epiDisplay包的alpha函数计算dataframe数据中指定数据列之间的信度分析.使用alpha函数和基于业务筛选的数据列的列表计算Cronbach's α 目录

  7. R语言epiDisplay包alpha函数计算dataframe数据中指定数据列之间的信度分析、克朗巴哈系数、标准化系数、每剔除某一条目后系数的变化、var.labels.trunc参数指定字符串长度

    R语言使用epiDisplay包的alpha函数计算dataframe数据中指定数据列之间的信度分析.克朗巴哈系数(Cronbach's α).标准化系数.每当剔除某一条目后系数的变化.使用var.l ...

  8. R语言使用epiDisplay包的alpha函数计算dataframe数据中指定数据列之间的信度分析、克朗巴哈系数、、每剔除某一条目后系数的变化、alphaBest函数获取最高alpha值对应的项目集

    R语言使用epiDisplay包的alpha函数计算dataframe数据中指定数据列之间的信度分析.克朗巴哈系数(Cronbach's α).标准化系数.每当剔除某一条目后系数的变化.使用alpha ...

  9. R语言使用Hmisc包的impute函数填充dataframe数据中特定数据列中的缺失值、将空值null用上一行和下一行值的平均值填充

    R语言使用Hmisc包的impute函数填充dataframe数据中特定数据列中的缺失值.将空值null用上一行和下一行值的平均值填充 目录

最新文章

  1. PHP的学习--PHP的引用
  2. 另类×××应用(三):不花一分钱,实现总部和多分支机构网络互联
  3. 面试 -- 多线程( 一) -- 基础
  4. 我眼中的 Nginx(六):深入 Nginx/Openresty 服务里的 DNS 解析
  5. python字典循环添加元素_牛鹭学院:学员笔记|python字典、列表、循环
  6. Selenium利用POI读写excel文件
  7. uC/OS 的任务调度解析
  8. Sphinx API文档例子
  9. 管理感悟:严重问题与怪问题
  10. html简单页面实验报告原理,html网页设计实验报告
  11. simulink仿真实例_推荐几本关于制冷仿真的书籍(制冷仿真必备)
  12. PL/SQL通过 scan ip 连接数据库
  13. 如何添加二级域名(图文超级详细)
  14. Windbg远程调试
  15. 《Spring实战》读书笔记-第6章 渲染Web视图
  16. 租房软件需要的是简单易用
  17. QQ图片文件夹说明及清理
  18. iOS RunLoop基础和应用举例
  19. htc系统Android 7.1,这款HTC太强大,被誉为刷机之王,一路升到安卓7.1
  20. 如何固定Excel的表头和列(滚动时始终显示表头和首列)

热门文章

  1. y7000p 2020 vbios_联想发布拯救者2020笔记本:硬件升级,顶配8核CPU+RXT2080S显卡
  2. 小程序云开发实现搜索功能
  3. 短暂的人生,不管你选择什么,都要对得起时间
  4. [近似算法] NP-hard 问题求解
  5. 《Java开发手册》学习总结
  6. 2022年湖南省中医执业医师考试第二单元中医诊断学(二)
  7. 华为轻量级网络架构,幽灵网络(GhostNets)再升级——附源码下载
  8. goto语句 switch语句
  9. 异地大文件传输、大文件远程传输便捷方式
  10. 15、Redis数据库