天下数据浅谈大数据和大规模数据的区别
现在,大数据和云计算一样,都是时代的话题,本文介绍的是大数据和大规模数据的区别。大数据和大规模数据有区别吗,答案是肯定的,它们的区别主要包括以下两点:
区别一、大数据的规模一定要大,而且比大规模数据的规模还要大
要做一些预测模型需要很多数据,训练语料,如果数据不够大,很多挖掘工作很难做,比如点击率预测。最直白的例子,如果你能知道一个用户的长期行踪数据,上网的行为,读操作和写操作。那么几乎可以对这个人进行非常精准的预测,各种推荐的工作都能做到很精准。
区别二、大数据首先不是数量上的堆砌,而是具有很强的关联性结构性
比如有一种数据,记录了世界上每一颗大树每年长高的程度,这样的数据不具有价值,因为只是简单堆砌。如果数据变成,每一个大树记录它的,地点,气候条件,树种,树龄,周边动植物生态,每年长高的高度,那么这个数据就具有了结构性。具有结构性的数据首先具有极强的研究价值,其次极强的商业价值。
在比如,淘宝的数据,如果只记录一个交易的买家,卖家,成交物品,价格等信息,那么这个商业价值就很有限。淘宝包含了,买家间的社交关系,购物前后的其他行为,那么这个数据将非常有价值。因此,只有立体的,结构性强的数据,才能叫大数据,才有价值,否则只能叫大规模数据。
转载于:https://my.oschina.net/u/2004304/blog/608803
天下数据浅谈大数据和大规模数据的区别相关推荐
- 浅谈大数据:如何成为大数据企业?
文章讲的是 浅谈大数据:如何成为大数据企业, 1.什么叫大数据? "大数据"是"数据化"趋势下的必然产物!数据化最核心的理念是:"一切都被记录,一切都 ...
- 浅谈大数据的标签管理
最近参与了一个大数据的项目,是涉及标签管理方面的内容,使我这个初涉入大数据领域的人获益匪浅. 标签,也可以叫做Tag,最早出现于2005年(注1),随着Web2.0的Blog应用被广泛使用开来.标签也 ...
- 张晓波:浅谈大数据应用的知与行|V课堂第82期
2017年8月26日,<中国大数据应用蓝皮书>的发布引起了大数据领域的政产学界领导.顶尖学者的强烈关注.在全球化的新阶段,面对互联的新世界,大数据如何不断创造新模式.新生态和新时代? 第8 ...
- 大数据审计的发展_浅谈大数据时代下审计工作的发展方向
浅谈大数据时代下审计工作的发展方向 李寒梅 [摘 要] [ 摘 要 ] 随着信息化水平不断提升,企业的审计工作需要处理海量的数 据,而利用常规软件难以对海量数据进行处理,这就需要应用大数据技术.审 计 ...
- 嵌入式AI —— 6. 为糖葫芦加糖,浅谈深度学习中的数据增广
没有读过本系列前几期文章的朋友,需要先回顾下已发表的文章: 开篇大吉 集成AI模块到系统中 模型的部署 CMSIS-NN介绍 从穿糖葫芦到织深度神经网络 又和大家见面了,上次本程序猿介绍了CMSIS- ...
- oracle全表扫过程讲解,CSS_浅谈存取Oracle当中扫描数据的方法,1) 全表扫描(Full Table Scans, FTS) - phpStudy...
浅谈存取Oracle当中扫描数据的方法 1) 全表扫描(Full Table Scans, FTS) 为实现全表扫描,Oracle读取表中所有的行,并检查每一行是否满足语句的WHERE限制条件一个多块 ...
- [转] 浅谈脱壳中的附加数据问题(overlay)
浅谈脱壳中的附加数据问题(overlay) Author:Lenus From: www.popbase.net E-mail:Lenus_M@163.com -------------------- ...
- 浅谈脱壳中的附加数据问题(overlay)
浅谈脱壳中的附加数据问题(overlay) Author:Lenus From: www.popbase.net E-mail:Lenus_M@163.com -------------------- ...
- python读取图像数据流_浅谈TensorFlow中读取图像数据的三种方式
本文面对三种常常遇到的情况,总结三种读取数据的方式,分别用于处理单张图片.大量图片,和TFRecorder读取方式.并且还补充了功能相近的tf函数. 1.处理单张图片 我们训练完模型之后,常常要用图片 ...
最新文章
- 【你知道HHTP各种状态代表什么意思吗?】
- jquery模拟LCD 时钟
- flutter实现底部弹出框以及特色功能
- Mysql 主从复制常用管理任务介绍
- mysql 建表代码
- 数据下发非标准用户权限测试
- Dubbo+Zookeeper+SpringBoot
- arm ida 伪代码 安卓 符号表_IDA 制作 sig文件 gdb 导入符号表
- NHibernate的关键点精要
- 深入Redis客户端(redis客户端属性、redis缓冲区、关闭redis客户端)
- 2的次幂表示【递归算法训练】
- oracle查询属主下对象,SQL优化
- Vant - 高效的 Vue 组件库,再造一个有赞移动商城也不在话下
- springboot文件上传和下载工具_SpringBoot图文教程7—SpringBoot拦截器的使用姿势这都有...
- JDK windows加载字体文件的函数
- vue报错RangeError: Maximum call stack size exceeded
- php手机靓号选号系统源码_最好的手机靓号网站源码-鹏博靓号系统
- 【Verilog】一文了解verilog基础语法
- C#开发实战1200例(第II卷)目录
- python拆分pdf文件
热门文章
- 推荐给中学生的数学课外书:《几何原本》
- 2013广东公务员行测答案(三)
- 基于spring websocket+sockjs实现的长连接请求
- stack overflow是程序员必须会用的社区
- 前端禁用中文半角输入法
- jsp_asp_php,PHP/JSP/ASP
- 高血糖的饮食注意事项
- 【CSDN软件工程师能力认证学习精选】不用框架,python实现卷积神经网络
- 男导师的妻子叫“师母”,那么女导师的丈夫怎么称呼?
- 等号(=),双等号(==)还有三等号(===)的使用与区别