说起大数据,估计大家都觉得只听过概念,但是具体是什么东西,怎么定义,没有一个标准的东西,因为在我们的印象中好像很多公司都叫大数据公司,业务形态则有几百种,感觉不是很好理解,所以我建议还是从字面上来理解大数据,在维克托迈尔-舍恩伯格及肯尼斯库克耶编写的《大数据时代》提到了大数据的4个特征:

1.大量

大数据的特征首先就体现为“大”,从先Map3时代,一个小小的MB级别的Map3就可以满足很多人的需求,然而随着时间的推移,存储单位从过去的GB到TB,乃至现在的PB、EB级别。只有数据体量达到了PB级别以上,才能被称为大数据。1PB等于1024TB,1TB等于1024G,那么1PB等于1024*1024个G的数据。随着信息技术的高速发展,数据开始爆发性增长。社交网络(微博、推特、脸书)、移动网络、各种智能工具,服务工具等,都成为数据的来源。淘宝网近4亿的会员每天产生的商品交易数据约20TB;脸书约10亿的用户每天产生的日志数据超过300TB。迫切需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据。

2.高速

就是通过算法对数据的逻辑处理速度非常快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。大数据的产生非常迅速,主要通过互联网传输。生活中每个人都离不开互联网,也就是说每天个人每天都在向大数据提供大量的资料。并且这些数据是需要及时处理的,因为花费大量资本去存储作用较小的历史数据是非常不划算的,对于一个平台而言,也许保存的数据只有过去几天或者一个月之内,再远的数据就要及时清理,不然代价太大。基于这种情况,大数据对处理速度有非常严格的要求,服务器中大量的资源都用于处理和计算数据,很多平台都需要做到实时分析。数据无时无刻不在产生,谁的速度更快,谁就有优势。

3.多样

如果只有单一的数据,那么这些数据就没有了价值,比如只有单一的个人数据,或者单一的用户提交数据,这些数据还不能称为大数据。广泛的数据来源,决定了大数据形式的多样性。比如当前的上网用户中,年龄,学历,爱好,性格等等每个人的特征都不一样,这个也就是大数据的多样性,当然了如果扩展到全国,那么数据的多样性会更强,每个地区,每个时间段,都会存在各种各样的数据多样性。任何形式的数据都可以产生作用,目前应用最广泛的就是推荐系统,如淘宝,网易云音乐、今日头条等,这些平台都会通过对用户的日志数据进行分析,从而进一步推荐用户喜欢的东西。日志数据是结构化明显的数据,还有一些数据结构化不明显,例如图片、音频、视频等,这些数据因果关系弱,就需要人工对其进行标注。

4.价值

这也是大数据的核心特征。据羿戓产品设计所了解,现实世界所产生的数据中,有价值的数据所占比例很小。相比于传统的小数据,大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,发现新规律和新知识。你如果有1PB以上的全国所有20-35年轻人的上网数据的时候,那么它自然就有了商业价值,比如通过分析这些数据,我们就知道这些人的爱好,进而指导产品的发展方向等等。如果有了全国几百万病人的数据,根据这些数据进行分析就能预测疾病的发生,这些都是大数据的价值。大数据运用之广泛,如运用于农业、金融、医疗等各个领域,从而最终达到改善社会治理、提高生产效率、推进科学研究的效果。

大数据已经成为过去几年中大部分行业的游戏规则,行业领袖,学者和其他知名的利益相关者都同意这一点,随着大数据继续渗透到我们的日常生活中,围绕大数据的炒作正在转向实际使用中的真正价值。

如果你恰好在学大数据,想要通过本篇文章就学好大数据,我建议你可以把页面关闭掉,大数据是入门学容易,达到高薪是绝对需要系统学习的,当然如果你想着通过大数据提高你的收入,可以详细阅读我推荐的文章

强力推荐阅读文章

大数据工程师必须了解的七大概念

云计算和大数据未来五大趋势

如何快速建立自己的大数据知识体系

大数据所具备的四个特点,清楚知道大数据原理原则相关推荐

  1. Excel数据分析学习笔记(四)如何建立规范的数据表

    ** 第三章 ** ** 如何建立规范的数据表? ** 一.使用Excel的5个妙招: 1,定位功能:[Ctrl+G]打开[定位]对话框,选择需要的定位功能. 2,复制功能:输入型复制,用Ctrl键选 ...

  2. 学习大数据需要具备什么基础么?

    Python优势明显,应用领域超多 如果要推荐一种人人都能掌握的编程语言,应该没有比Python更合适的了. Python 简单易学,用途广泛,适合零基础入门,在编程语言排名上升最快,能完成数据挖掘. ...

  3. 大数据之Spark(四):Spark SQL

    一.SparkSQL的发展 1.1 概述 SparkSQL是Spark⽣态体系中的构建在SparkCore基础之上的⼀个基于SQL的计算模块. SparkSQL的前身不叫SparkSQL,⽽叫Shar ...

  4. 2021年大数据HBase(十四):HBase的原理及其相关的工作机制

    全网最详细的大数据HBase文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 HBase的原理及其相关的工作机制 一.HBase的flus ...

  5. 2021年大数据Hadoop(十四):HDFS的高可用机制

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 HDFS的高可用机制 HDFS高可用介绍 组件介绍 Nam ...

  6. 第四次产业革命将由四个领域引领:大数据、新材料、新能源和生物科技。

    第一次产业革命是蒸汽机的发明带来的工业革命,第二次产业革命以内燃机和电力的发明为标志,第三次产业革命以核能和互联网为标志,第四次产业革命将由四个领域引领:大数据.新材料.新能源和生物科技. 当我们还沉 ...

  7. 物联网大数据平台具备哪些功能

    物联网是一个非常广泛的概念,是指各种设备和机器都通过互联网连接起来,车联网和工业互联网属于物联网范畴.毫无疑问,物联网需要一个大的数据平台来处理这些网络设备产生的大量数据. 一个物联网大数据平台需要具 ...

  8. 大数据技术具备哪些特点

    大数据可以实时地为企业撷取.管理.处理.整理数据,生成企业所需要的数据资料,因此大数据也蕴含着很高的商业价值,被称为"数字生产力".所以越来越多的企业开始重视大数据建设,关于大数据 ...

  9. (转)我所经历的大数据平台发展史(四):互联网时代 • 下篇

    编者按:本文是松子(李博源)的大数据平台发展史系列文章的第四篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统行业与非传统行业.是对数据平台发展的一个回忆,对非互联网.互联网,从 ...

最新文章

  1. java 8 语法糖_Java8的lamada算是一种语法糖吗?
  2. python清洗数据用什么包_格式化和清洗数据的Python工具包
  3. java 字符串构造函数,java构造函数示例(构造方法)
  4. 搜狗浏览器怎么保存账号密码 搜狗浏览器保存账号密码教程
  5. 怎么通过id渲染页面_完全理解Vue的渲染watcher、computed和user watcher
  6. C# 大文件分块下载
  7. Expected one result (or null) to be returned by selectOne(), but found: 7
  8. python selenium在编写过程中遇到的问题记录2
  9. 如何克服presentation恐惧呢?
  10. 【图像处理】PS曲线工具matlab实现 交互自定义灰度映射(Gray Level Transformation)附代码链接
  11. 微信视频文件保存在服务器吗,如何发送大的视频文件给朋友和家人
  12. python画图如何调整图例位置_python图例参数
  13. 点下确认的那一刻,我的大脑在发生些什么?
  14. 自动驾驶分级 - 练习测验
  15. 手机连接服务器数据库文件,手机连接服务器数据库文件在哪里
  16. 关于Windows 7下的DEP(数据执行保护)
  17. 细心的观察,耐心的倾听
  18. 这些东西不宜空腹吃[转]
  19. JS实现倒计时三秒跳转后到新页面
  20. 内存卡座的分类与定义

热门文章

  1. StoredProcedure(存储过程) 里的 WITH RECOMPILE 到底是干麻的?
  2. 在路上的长春刑警吴明:一年侦捕行程绕了地球一圈半
  3. 政务服务一体化平台的电子证照需要时间戳服务吗?
  4. VR晕眩原因及解决方法
  5. 光棍节必会之抛媚眼英语地道说法
  6. Windows10搭建NTP授时服务器
  7. HBase Random Read性能测试
  8. mysql standalone模式,Apache运行模式之standalone和inetd模式介绍
  9. TPS62065DSGR高效同步降压DC / DC转换器
  10. 腾讯云Unubtu 16.04 (gunicorn+supervisor+ngnix+mongodb)部署Flask应用