在互联网时代,大数据炙手可热,许多人言必称大数据,但能够真正说清大数据为何物的人并不多,如何借助大数据挖掘出巨大的商业价值。究竟如何定义大数据?大数据有哪些特征?本文旨在理清大数据概念,阐明大数据应用方式及探究未来大数据发展之道。

1 大数据是商业炒作吗?

业界给大数据的定义是4 个“V”:体量大(Volume)、种类多(Variety)、速度快(Velocity)和真实性高(Veracity)。但这个定义其实并未抓住大数据本质。如果仅仅看这几个维度,大数据就是一种炒作,因为它们只是表面现象。

大数据的本质应该是如何为企业带来一种更新更好的商业运作模式,而大数据应用的成功,也是依靠决策者提出好的商业问题及与其相关的商业模式。这些商业问题可以非常简单,但问题背后必须有一系列相关的商业模式。

比如,如何运用智能手机应用商城的数据, 来提高对用户APP推荐的精度?

随后,利用应用商城的大数据,可以产生上百万维的数据表,进而建立可靠准确的推荐模型,使得用户体验水平大幅提升。

大数据应用成功的关键也正取决于是否有一个明确的商业(或科学)目的,商业模式的定义是其前提条件。

2 数据越多越有用?

首先,如果收集大数据的目的是建立一个对位置数据的预测模型,那么,得到这一模型的训练数据一定要包含所需的信息。但问题恰恰是,事前并不知道哪些特征是重要的,因此,需要把尽量多的数据整合起来,让机器去寻找。

然而,这个问题为什么不能去咨询该领域内的专家们呢?事实证明,专家们虽然会自己解决问题,但大都说不清他们是如何解决这些问题的。这也就是为什么在大数据应用中,专家的作用更多体现在帮助连接、聚合尽量多的数据上。

除此之外,要建立一个好的预测模型,用来训练模型的数据总量也要足够多。如果历史数据少于一定规模,就会出现所谓“过拟合”(为了得到一致假设而使假设变得过度复杂)现象。例如,如果一个服装品牌按照某一个模特的身材来设计,衣服很可能做得偏瘦,以至于绝大多数其他消费者无法使用。这种“过拟合”现象在建立大数据下的预测模型时也会发生。

那么,数据的总量越大,是不是预测模型需要学习的时间就一定越长呢?答案是否定的。研究成果表明,在一定条件下,当数据变得越大,实际所需要的训练时间反而越短。为什么会这样呢?可以想象:如果一个学生在学习某种概念时,只有少数习题,那么这个学生想透彻学会这个概念,就需要把每一个习题翻来覆去地看,加以扩展,这样学习的过程会比较慢。相反,如果他有许多不同类的习题,只需要把每一个习题过一遍,即可应付未来的大部分情况。因此,习题多的学生,学到同样水平的时间反而会短。

3 人工智能将超过人类大脑?

经过几十年的探索,可以相信:机器的智能只能从针对大数据的学习中得来,而大数据只能从人与人的交互、人与机器的交互中得来。如果想要这些交互产生足够多的数据,就一定要让这些交互为人类提供有用的服务。

如今,什么数据最为充分?充分的数据首先是最容易被记录的那一部分,比如语音、图像、文字等。能不能直接获取人类大脑活动信息,并以此来充实我们的智能呢?当今的这种技术(如磁共振脑图成像技术)

还不够精确,因此,通过学习得到的系统虽然在单方面可以超过人类大脑(如IBMWatson),但就通用性而言,现阶段的人工智能比起人类大脑还差得很远!

有没有可能在不久之后的某天,具有人工智能的机器人成为人类的敌人呢?这是有可能的。

但前提是:这些机器人的领袖一定是人类。

4 用户隐私问题如何解决?

隐私问题的出现其实比大数据要早,但隐私真正成为家喻户晓的议题,却是在大数据成为热点之后。从斯诺登揭秘到苹果数据上传,随着越来越多媒体的爆料,大家对隐私的关心程度也与日俱增。隐私问题的最大矛盾在于,一方面,数据被严严实实地包起来,另一方面,它又要被运用来发现有用的东西,不得不将之开放和上传。

目前看来,数据隐私问题有三个考虑:

  1. 技术;2. 用户利益;3. 社会接受程度。

从技术上来说,以前有关数据的解决方式大都是把数据从终端迁移到计算端(如计算中心),得出结果后再把结果送到终端。这种方式无疑会引发隐私问题,因为一旦数据离开用户的个人终端,就无从保证谁将有权利接触数据,数据的隐私也就无从保护了。

要保护隐私,一种新的模式是“计算随着数据走”,也就是利用终端自身的强大计算功能,在终端算好一个结果(如一个预测模型,即本地模型),再把这个模型与某一个通用模型加以整合。这种模式无疑会引入更多计算量与复杂性,目前还属于前沿研究领域。这种方法就像是有人要买股票,但又不想别人知道他自己的需求,只读取网上有关股票的信息,与自己知道的需求结合起来,做出买卖决策。只要每个人足够聪明,又有足够的计算能力,这样的系统就会最大程度地保护每个人的隐私。

另一种做法是,仍把数据传输到计算中心,但在传输之前,将数据加以改变,使其中的关键隐私信息在传输和计算中被隐藏起来,让人无法反推原始的敏感数据(如用户性别、住址等),同时又保证计算结果的真实性和可用性。实际上,一个更难的问题是:无论如何隐藏和加密原始数据,用户心里总有不放心的一点阴影。由于这个阴影的存在,用户永远不会相信一个单纯靠技术的隐私保护计划。可以预见,在未来,隐私问题的解决程度将成为用户选取产品的重要依据。

可是,大数据已经来到人们身边。今天社会上的每个人,实际上都是大数据的使用者。同时,又在不断暴露自己的隐私。比如,用户使用免费的电子邮件账户,即便知道这些服务商在挖掘我们的邮件信息;用户使用搜索引擎询问各种问题,尽管这令我们的问题被记录在案。既然如此,为何用户在使用大数据服务的时候,依旧乐此不疲呢?答案在于用户利益与隐私暴露的费用比:如果用户得到的利益大于个人数据泄露的价值,用户还是会同意接受并分享这些数据的。因此,隐私问题的关键是,如何让系统和用户在矛盾中寻找到一个平衡点。

最后,随着技术的发展,社会对于数据分享的接受程度也会改变。上一代人所不能接受的事物,到下一代可能就不是大问题了。Facebook 就是个例子:实名制允许人们访问他人的主页,并看到许多信息,这一点在最开始引起不小的质疑,但最后,广大青少年热烈地拥抱这一新技术,并纷纷加入其中。

软件测试面试刷题

最后:下方这份完整的软件测试视频学习教程已经整理上传完成,朋友们如果需要可以自行免费领取 【保证100%免费】

BI大数据到底是什么相关推荐

  1. 大数据到底如何在企业中发挥价值

    一.企业大数据如何起步:从小数据到大数据 目前国内外关于大数据的谈论很多,大多是谈运营级别的,或者说从服务端.服务方提得较多一些.笔者要跟大家交流的问题是作为各类企业尤其是客户方的企业来说,大数据跟他 ...

  2. 大数据到底是不是“算命”?技术大牛们这样说

    TBO(旅游商业观察):"如果你只有一堆人的电话号码,这可能没多大意义.但像携程的数据,比如所有人提前预订.搜索.浏览.点评的信息等,这就是有价值的.但更深层的核心是,你能不能在某个产品上使 ...

  3. 什么是大数据,大数据到底应该如何学?

    文章目录 一.食用须知 二.大数据的基本概念 1. 什么是大数据 2. 数据是如何采集的 3. 大数据真的能预测吗 三.什么是大数据开发 四.什么是大数据分析 五.应如何学习大数据 一.食用须知 再更 ...

  4. @IT老司机 云服务、BI大数据、协同办公等五大技术选型研讨会,震撼来袭!

    市场瞬息变化,每家企业都在拼命转型,当业务调整,IT能否从容应对,响应业务能否快速变化?市场提供的众多技术.产品与解决方案,究竟哪一款能够帮助企业快速应对当下发展?作为身经百战的IT老司机,您也一定见 ...

  5. 云计算、物联网、大数据到底是什么?

    云计算.物联网.大数据到底是什么? 01 云计算 五个基本特征 三个服务模型 四个部署模型 1. 基础设施即服务 2. 平台即服务 3. 软件即服务 02 物联网 03 大数据 1. 三类定义 1)属 ...

  6. 大数据到底应该如何学?

    写在前面:博主是一只经过实战开发历练后投身培训事业的"小山猪",昵称取自动画片<狮子王>中的"彭彭",总是以乐观.积极的心态对待周边的事物.本人的技 ...

  7. 大数据到底怎么学: 数据科学概论与大数据学习误区

    数据科学家走在通往无所不知的路上,走到尽头才发现,自己一无所知."-Will Cukierski,Head of Competitions & Data Scientist at K ...

  8. 3000字长文剖析!企业大数据到底是什么,从哪来,怎么用?

    1.企业大数据,你到底是什么 1.1我们先来看看主流的大数据概念. IBM提出大数据的5V特点:Volume(大量).Velocity(高速).Variety(多样).Value(低价值密度).Ver ...

  9. 调研了32家银行,总结出了银行BI大数据平台建设的一套模式

    传统来讲,银行定制一张报表,分析某个业务数据,主要通过业务部门提出需求,科技部门编写程序来实现.从提出需求到科技部最终开发完报表,中间存在反复的口径沟通.试验取数的过程.一张报表,从考虑排期问题,提出 ...

最新文章

  1. 杀出重围!“双一流”新七子,堪称“逆袭”典范!
  2. 月薪40~50K|波波生活信息技术公司招聘高级算法工程师
  3. 测量ATMEGA8单片机IO口的输入输出内阻
  4. Static与函数指针 转
  5. c#FileStream文件读写(转)
  6. 前端学习(2201):mutation提交风格
  7. 人工智能的本源与展望:从亚里士多德到平行智能
  8. jQuery的实现原理和核心
  9. 8年架构师针对web前端小白,作出的职业规划建议
  10. python展示全部好友_利用Python网络爬虫抓取微信好友的签名及其可视化展示
  11. wpf 加载列表不卡顿_看高清视频,如何做到不卡顿?
  12. NonComVisibleBaseClass Exception
  13. Luogu P1455 搭配购买 题解
  14. 关于一般公司加密软件的处理程序实现解密方法
  15. cf两边黑屏怎么解决win10_win10摄像机黑屏的解决方案!
  16. C语言自动计数功能,《Objective-C高级编程》温故知新之自动引用计数
  17. UI 即 User Interface( 用户界面 ) 的简称
  18. aardio - 范例搜索工具
  19. 批归一化(Batch Normalization)详解
  20. linux cgroup学习总结

热门文章

  1. kali渗透测试系列---信息收集
  2. 【HCIA-Datacom V1.0培训教材】WLAN
  3. NOI 1.10 编程基础之简单排序 C++
  4. Jeston nano+RealSense D455相机+ORB_SLAM3+ROS实时运行
  5. 网络穿透设备EasyNTS上云网关如何结合智慧工地上云平台实现视频监控的多终端观看?
  6. 淘宝基础版店招首页通栏代码
  7. Katalon Recorder的简介及使用
  8. 扣扣机器人唱歌_qq小冰唱歌指令下载-qq小冰唱歌关键词软件下载v6.7.1 安卓版-腾牛安卓网...
  9. Xinstall赋能哆米生活App,洞察用户画像让数据价值化
  10. 毕业设计 - 基于JSP的超市积分管理系统【源码 + 论文】