大数据中的数据的价值的大小的度量
大数据中的数据的价值的大小的度量
1数据的老化:如果你的电话通讯录半年没有任何更新维护,可能把一半的电话号码
打不通了,或者电话号码的主人变更了。如果是两年没有任何更新可能四分之三的
号码都失效了。这就是数据的老化。老化体现了数据的改变程度。
有两个极端,一个是时时变化的数据,例如股价,汇率等,它们被称为时序性数据。
另一个是永远不改变的数据。例如数学常数和物理学常数等。
一个数据越是不容易老化,它的价值越大。
提一个数据,它最近上了新闻,这就是圆周率。当前的世界记录是日本人创造的,小
数点后有31万亿位,占据磁盘空间170TB。从单个数据占据的空间来看,这应该是
最大的数据了吧。圆周率作为一个数学常数,它的应用十分广泛。但是从绝大多数的使用来看,
圆周率取小数点后十位,就可以得到很精确的结果值。
最有趣的事实是,圆周率这个从不老化的数据,有无限多位的值,被人类时常刷新认识,
越来越接近它的真实值。
为了计算人的年龄,我们在数据库中,存储一个人的出生日期这样的数据,而不是存储年龄值。
存储出生日期,不用更新,但是年龄值要一年更新一次。这就是数据的老化的概念的应用。
2 用途的广泛性:一个数据的用途越广泛,它的价值越大。
3 数据的冗余:为什么数据可以压缩,因为它有冗余性。这是指一组数据的情况了。对于一个数据,
没有冗余性的概念。对于一个数据,考虑的是它的精度的问题。满足应用的要求就行了,不用一定
追求高精度。数据的冗余性,天然存在,为了解决存储的问题,例如图象,我们压缩数据。
来减少冗余程度。 但是也有人为增加冗余性的。例如通信过程,由于噪声的干扰,数据会丢失,
数据会被干扰而失真,这就要用校验码等方式增加冗余性。
从数据的价值度量来看,一群数据提供一定量的价值,如果我增加一倍的冗余性,单个数据的价值就减半了。
如果我减少冗余性,数据的数量减半,每个数据的价值都翻倍了。
许多的数据经过处理,变成一条信息,许多的信息经过再处理,得到一点知识,知识经过抽象再处理,凝结成智慧。
这个过程如同采集铁矿石,经过冶炼得到生铁,再冶炼得以熟铁,再精炼 得到钢材,再经过特殊处理,得到特种钢材。
矿石有贫富之分,数据的价值同样有大小之分。总之,我们可以按照上述的三个维度,来初步评估数据的价值大小,即
用途的多少,老化的情况,数据的冗余程度。
大数据中的数据的价值的大小的度量相关推荐
- oracle的删除的row如何,Oracle 删除大表中部分数据
需求: 项目中有一张表大概有7000多万条数据,造成表空间已满,需要清理部分数据,打算清理3000万. 2B 做法: delete from table_name where ID > '400 ...
- python json接口数据提取_返回数据中提取数据的方法(JSON数据取其中某一个值的方法)...
返回数据中提取数据的方法 比如下面的案例是,取店铺名称 接口返回数据如下: {"Code":0,"Msg":"ok","Data& ...
- R语言epiDisplay包的alpha函数计算dataframe数据中指定数据列之间的信度分析、克朗巴哈系数、标准化系数、每当剔除某一条目后系数的变化、设置reverse参数不对任何数据对象进行反序
R语言使用epiDisplay包的alpha函数计算dataframe数据中指定数据列之间的信度分析.克朗巴哈系数(Cronbach's α).标准化
- pandas使用dropna函数删除dataframe数据中指定数据列的内容为缺失值的数据行(使用subset参数指定数据列)
pandas使用dropna函数删除dataframe数据中指定数据列的内容为缺失值的数据行(使用subset参数指定数据列) 目录
- R语言描述性统计:使用mean函数计算dataframe数据中指定数据列的均值
R语言描述性统计:使用mean函数计算dataframe数据中指定数据列的均值 目录 R语言描述性统计:使用mean函数计算dataframe数据中指定数据列的均值
- R语言使用epiDisplay包的alpha函数计算dataframe数据中指定数据列之间的信度分析、使用alpha函数和基于业务筛选的数据列的列表计算Cronbach‘s α
R语言使用epiDisplay包的alpha函数计算dataframe数据中指定数据列之间的信度分析.使用alpha函数和基于业务筛选的数据列的列表计算Cronbach's α 目录
- R语言epiDisplay包alpha函数计算dataframe数据中指定数据列之间的信度分析、克朗巴哈系数、标准化系数、每剔除某一条目后系数的变化、var.labels.trunc参数指定字符串长度
R语言使用epiDisplay包的alpha函数计算dataframe数据中指定数据列之间的信度分析.克朗巴哈系数(Cronbach's α).标准化系数.每当剔除某一条目后系数的变化.使用var.l ...
- R语言使用epiDisplay包的alpha函数计算dataframe数据中指定数据列之间的信度分析、克朗巴哈系数、、每剔除某一条目后系数的变化、alphaBest函数获取最高alpha值对应的项目集
R语言使用epiDisplay包的alpha函数计算dataframe数据中指定数据列之间的信度分析.克朗巴哈系数(Cronbach's α).标准化系数.每当剔除某一条目后系数的变化.使用alpha ...
- R语言使用Hmisc包的impute函数填充dataframe数据中特定数据列中的缺失值、将空值null用上一行和下一行值的平均值填充
R语言使用Hmisc包的impute函数填充dataframe数据中特定数据列中的缺失值.将空值null用上一行和下一行值的平均值填充 目录
最新文章
- PHP的学习--PHP的引用
- 另类×××应用(三):不花一分钱,实现总部和多分支机构网络互联
- 面试 -- 多线程( 一) -- 基础
- 我眼中的 Nginx(六):深入 Nginx/Openresty 服务里的 DNS 解析
- python字典循环添加元素_牛鹭学院:学员笔记|python字典、列表、循环
- Selenium利用POI读写excel文件
- uC/OS 的任务调度解析
- Sphinx API文档例子
- 管理感悟:严重问题与怪问题
- html简单页面实验报告原理,html网页设计实验报告
- simulink仿真实例_推荐几本关于制冷仿真的书籍(制冷仿真必备)
- PL/SQL通过 scan ip 连接数据库
- 如何添加二级域名(图文超级详细)
- Windbg远程调试
- 《Spring实战》读书笔记-第6章 渲染Web视图
- 租房软件需要的是简单易用
- QQ图片文件夹说明及清理
- iOS RunLoop基础和应用举例
- htc系统Android 7.1,这款HTC太强大,被誉为刷机之王,一路升到安卓7.1
- 如何固定Excel的表头和列(滚动时始终显示表头和首列)