如今,CIO们都已经接受了“大数据”的概念,另一个概念也逐渐受到关注:小数据。

这两者看似是相对立的两端,但是这不完全正确。小数据往往指数据量;而大数据当然也包含了数据量,但是也包含了多样性,时效性,特定的技术或者其他概念。

Kirk Borne,是美国乔治梅森大学的天体物理学和计算机科学的教授, 他认为这两者的区别是很重要的。Borne有关大数据的课程专注于大数据的属性和先进的分析技术, 而这些也几乎总是可以应用于小数据。但是后者却可以使学生进行实验,磨练他们在数据分析上的技能。而大数据则会快速把他们淹没。

随着CIO们斟酌着“多少数据是太多的数据”这个问题时,小数据在企业界因为类似的原因为自己树立名声。 Borne,前美国航空航天局员工,还曾为哈勃太空望远镜团队工作10年,在接受TechTarget专访时讨论了有关什么是小数据,以及它和大数据概念如何相互融合。

问:您最近会在一些会议上讨论小数据和大数据的对比。让我们先从定义开始:什么是大数据,什么是小数据?

Kirk Borne:定义小数据相对容易点,因为它基本上就是你能在笔记本电脑上完成的数据。大数据 – 则更复杂。我现在正在推广这样一个定义:大数据就是一切能够被量化和被追踪的。关于这一点,我的意思是我们现在几乎对于一切都在进行测量和量化 – 通过社交媒体,智能高速公路,智能城市,移动医疗,电子医疗记录,监控摄像头无处不在,这也涉及到大数据所带来的隐私问题。所有可以被测量的一切,我们都在进行测量。而我们不仅只是进行一次测量,我们还跟踪它如何随时间而变化。

问:为什么大数据如此难以定义?

Borne:你肯定看过瞎子摸象的动画片。每个人对于它是什么都有不同的定义,因为有人摸到的是腿,有人摸到的是鼻子,有人摸到的是尾巴。对于‘大象’,每个人都有不同的描述和定义。这就是我们的难处。人们希望大数据是一个概念,但是这是行不通的。

问:就职于Actuate公司的Allen Bonde曾经说过,小数据适合人使用,而大数据适合机器使用。这一区别定义合理吗?

Borne:是的。这是一种概括的说法。小数据,是你学习时使用的数据。关于学习,我指的是两件事情:第一,教育概念里的学习。所以,当我教授课程时,我一直使用小数据,我从来没有使用过大容量意义上的大数据,因为如果这样,学生们就会花费一整个学期学习如何移动数据,而没有时间学习任何运算方法。第二,当你在一个企业内,你想知道使用哪些合适的数据能够,追踪客户,或者向客户提供推荐,或者知道客户的偏好。或者说,有一个网络安全分析问题,你需要检测出漏洞或黑客攻击。所以,你进行这些实验,找出你所需要测量的数据 - 这就是小数据。

一旦你学会了这一模型......那么你使用它,在机器上运行完整的数据流。机器,本质上,使用你通过小数据得出的模型或者技能,在大数据流上进行运算。所以,小数据适合人使用,而大数据适合机器使用。

问:可视化技术在小数据与大数据的讨论中如何起到作用?

Borne:让我给你举个例子。当你第一次使用谷歌地图或者其他任何地图服务时,你会先看到一个世界地图。你没有真正获得任何数据;你只是看到了地球的图片。当你不断放大到一个特定的地点,它只提供给你这个特定地点的信息。当你不断放大,你将获得越来越高分辨率的数据。当你放大到分辨率最大可能值时,你就能看到自家的后院。这只不过是大数据的一个子集。是的,这一部分是‘小数据’,但是你真正所作的是,建立了一个分级数据结构,使你能够一层一层的放大。你可以左右移动,在同样分辨率下看到其他房子或者小区。可视化的强大就在这里。当你键入这个分级数据结构的某一特定数据时,可以说,你只是看到了冰山一角。 但是当你想移动到另一边时,你就可以获得同样分辨率数据集下的其他特定数据。你仍然可以访问整个数据集。

如果是小数据,你只是下载了一张地图,比如你自己城市的一个高分辨率地图,然后在地图上进行数据分析。

原文发布时间为:2014年07月04日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

大数据时代的“小数据”相关推荐

  1. 大数据时代,小数据中心

    文章讲的是大数据时代,小数据中心,中国(上海)国际数据中心技术设备展览会在上海隆重开幕.紧跟德国工业4.0的新趋势,威图(Rittal)携绿色.节能.可靠的数据中心系统解决方案登陆本次展会.在变革的大 ...

  2. 大数据时代的小数据会消亡吗(非原创)

    大数据时代的小数据会消亡吗 苏令银 上海师范大学马克思主义学院 上海师范大学经济伦理研究中心 摘 要: 在过去的几个世纪,学术知识的构建普遍使用小数据并取得了巨大进步,其特征是为回答特定问题而生成的抽 ...

  3. 大数据 杨栋_《大数据时代的小数据建设》——论文

    在教育教学中,大部分老师对如何轻松教会学生知识感到头疼,尤其是那些自觉性较差的学生,大脑里没有学习的概念,作业强迫做,而且有些还是为了应付差事而乱做,这是为什么呢?本人认为原因有二:一是作业量大:二是 ...

  4. 大数据时代的“小数据 系列3 --Shapiro-Wilk检验

    什么是Shapiro-Wilk检验 Shapiro-Wilk检验用来检验小样本数据是否数据符合正态分布.类似于回归的方法一样,计算一个相关系数,它越接近1就越表明数据和正态分布拟合得越好. 构建检验统 ...

  5. 大数据时代的“小数据”系列2 随机游程检验

    什么是游程检验 游程检验:是根据样本标志表现排列所形成的游程的多少进行判断的检验方法,主要用于检验一件事件的发生是否是随机的.游程检验广泛应用于工业产品的质量检验和生物制药检验等领域.随着大数据技术的 ...

  6. 大数据如何帮助小数据? 主题报告速记与评述(二)

    笔者按:机器学习正在走向基于"语义"的可解释模型的新时代,zero-shot learning是其中一个很有价值的方向.参见"A DARPA Perspective on ...

  7. 生活在互联网大数据时代,个人数据存储还有隐私吗?

    生活在互联网大数据时代,个人数据存储还有隐私吗? 进入移动互联网的时代,流量和数据快速增长,我们几乎无时无刻不在产生数据,这些数据会被随机的存储在各种APP上.云盘上.手机的内存里或者被缓存清除掉,或 ...

  8. 大数据时代的时序数据 陈超-互联网技术联盟-专题视频课程

    大数据时代的时序数据 陈超-2856人已学习 课程介绍         1024大数据技术峰会邀请到11位来自一线互联网企业的大数据核心研发团队骨干成员,针对选型开源技术搭建大数据平台.持续运维.优化 ...

  9. 【数据科学】小数据治理靠“人工”,大数据治理靠“智能”

    摘要 本文把小数据和大数据的基本概念,小数据治理与大数据治理的范围.区别.方法及主要特征介绍比较清晰. (1)小数据治理靠"人工",小数据的治理十五字方针:理数据.建标准.接数据. ...

  10. DT时代,小数据时代的未来发展

    小数据时代的发展未来 1.小数据的未来趋势 通过数据分析提高销售水平和服务质量,是任何公司未来发展的重要手段.目前国内对于小数据的分析和利用仍处于起步阶段,企业可利用现有数据进行全面分析,并对数据中变 ...

最新文章

  1. SpringBoot之配置嵌入式Servlet容器
  2. Android实战技巧之十一:Android Studio和Gradle
  3. python开发桌面软件-python适合windows的桌面应用程序开发吗?
  4. main函数与命令行参数
  5. Android adb命令,linux中各种命令
  6. 数据库原理 知识点总结
  7. 【渝粤题库】广东开放大学 计算机应用基础(本) 形成性考核
  8. l4 l7 代理_什么是四层(L4 proxy)和七层负载均衡(L7 proxy)?区别是什么? 翻译自Nginx官网...
  9. 《R语言数据分析与挖掘实战》——3.2 数据特征分析
  10. 小屏手机大势已去!iPhone 12 Pro Max被买空mini居然还有货
  11. PyTorch代码出现“interrupted by signal 9: SIGKILL”
  12. Flask + Vue 搭建简易系统步骤总结
  13. 没有方案你抱怨;有了方案你会认真看吗?
  14. SpringBoot验证码
  15. Typora无法打开提示安装新版本解决办法
  16. python 内存不足_python内存不够
  17. 数据库事务的四大特性 AICD
  18. linux 全选 编辑文本_强烈推荐:Linux终端文本编辑器Micro
  19. excel手机版_微软开发于手机端的办公软件!
  20. 三极管的经典之作,你知道吗?

热门文章

  1. html特殊符号怎么输入法,教您特殊符号怎么打出来
  2. 应届生如何准备校招【研发岗】
  3. 苹果文件管理器服务器,8最佳免费iPhone文件管理器,用于管理iOS设备上的文件...
  4. multisim仿真高通滤波器——光谱分析仪的使用
  5. 京东返利PHP采集关键字,PHP实现京东API的授权HASH算法
  6. 2020年《财富》世界500强排行榜揭晓
  7. dsolve函数的功能_MATLAB求解常微分方程:ode45函数与dsolve函数
  8. 世界上最简单的会计书(先进先出法VS后进先出法)
  9. Linux上用于Json数据处理并导入Mysql的几个有用Python脚本
  10. C语言中函数的基本知识