写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

大数据最核心的其实就是数据,大数据的发展历程其实就是这些数据价值最大化的过程。

搜索引擎

作为全球最大的搜索引擎公司,Google 也是我们公认的大数据鼻祖,

大数据起源于Google在2004年前后发表的三篇论文,也就是著名的“三驾马车”,分别是分布式文件系统GFS(2003)、大数据分布式计算框架 MapReduce (2004) 和 NoSQL数据库系统 BigTable (2006)。

它存储着全世界几乎所有可访问的网页,数目可能超过万亿规模,全部存储起来大约需要数万块磁盘。为了将这些文件存储起来,Google 开发了 GFS(Google 文件系统),将数千台服务器上的数万块磁盘统一管理起来,然后当作一个文件系统,统一存储所有这些网页文件。

数据仓库

曾经我们在进行数据分析与统计时,仅仅局限于数据库,在数据库的计算环境中对数据库中的数据表进行统计分析。并且受数据量和计算能力的限制,我们只能对最重要的数据进行统计和分析。

这里所谓最重要的数据,通常指的都是给老板看的数据和财务相关的数据。

而随着大数据的发展,可以实现在 Hadoop 上进行 SQL 操作,实现数据统计与分析。也就是说,我们可以用更低廉的价格获得比以往多得多的数据存储与计算能力

我们可以把运行日志、应用采集数据、数据库数据放到一起进行计算分析,获得以前无法得到的数据结果,企业的数据仓库也随之呈指数级膨胀。

不仅是老板,公司中每个普通员工比如产品经理、运营人员、工程师,只要有数据访问权限,都可以提出分析需求,从大数据仓库中获得自己想要了解的数据分析结果。

此时就进入了数据仓库时代,数据按照分层架构存储着各种我们需要或者将来需要的历史数据。

数据挖掘

大数据一旦进入更多的企业,我们就会对大数据提出更多期望,除了数据统计,我们还希望发掘出更多数据的价值,大数据随之进入数据挖掘时代。

讲个真实的案例,很早以前商家就通过数据发现,买尿不湿的人通常也会买啤酒,于是精明的商家就把这两样商品放在一起,以促进销售。啤酒和尿不湿的关系,你可以有各种解读,但是如果不是通过数据挖掘,可能打破脑袋也想不出它们之间会有关系。

在商业环境中,如何解读这种关系并不重要,重要的是它们之间只要存在关联,就可以进行关联分析,最终目的是让用户尽可能看到想购买的商品。

除了商品和商品有关系,还可以利用人和人之间的关系推荐商品。

如果两个人购买的商品有很多都是类似甚至相同的,不管这两个人天南海北相隔多远,他们一定有某种关系,比如可能有差不多的教育背景、经济收入、兴趣爱好。根据这种关系,可以进行关联推荐,让他们看到自己感兴趣的商品。

机器学习

我们很早就发现,数据中蕴藏着规律,这个规律是所有数据都遵循的,过去发生的事情遵循这个规律,将来要发生的事情也遵循这个规律。一旦找到了这个规律,对于正在发生的事情,就可以按照这个规律进行预测

在过去,我们受数据采集、存储、计算能力的限制,只能通过抽样的方式获取小部分数据,无法得到完整的、全局的、细节的规律。而现在有了大数据,可以把全部的历史数据都收集起来,统计其规律,进而预测正在发生的事情。

这就是机器学习。

将人类活动产生的数据,通过机器学习得到统计规律,进而可以模拟人的行为,使机器表现出人类特有的智能,这就是人工智能 AI。

总结

大数据从搜索引擎到机器学习,发展思路其实是一脉相承的,就是想发现数据中的规律并为我们所用

所以很多人把数据称作金矿,大数据应用就是从这座蕴含知识宝藏的金矿中发掘有商业价值的真金白银出来。

数据中蕴藏着价值已经是众所周知的事情了,那么如何从这些庞大的数据中发掘出我们想要的知识价值,这正是大数据技术目前正在解决的事情,包括大数据存储与计算,也包括大数据分析、挖掘、机器学习等应用。

大数据是如何发展起来的?相关推荐

  1. 大数据审计的发展_从历史的角度看大数据审计发展

    龙源期刊网 http://www.qikan.com.cn 从历史的角度看大数据审计发展 作者:欧阳双 来源:<中小企业管理与科技 · 上旬刊> 2019 年第 08 期 [摘 要]党的十 ...

  2. 中国大数据企业排行榜V6.0- 5 年后再去看看中几个大数据公司的发展状况

    2019年5月27日,首席数据官联盟在贵阳举办的2019中国国际大数据产业博览会上正式发布了<中国大数据企业排行榜V6.0> 本次排行榜新增8个垂直行业和领域.上榜企业是从全国五千多家大数 ...

  3. 大数据技术对企业发展的作用

    大数据技术诞生不长,目前还处于发展阶段,但是大数据技术对于行业的冲击还是比较大的,未来大数据营销技术也将在企业运营中扮演非常重要的角色.下面我们就一起来了解一下,大数据技术对企业发展的作用都有哪些. ...

  4. 交通行业大数据应用和发展现状

    摘要:智能交通产业是现代IT技术与传统交通技术相结合的产物,而交通大数据产业是大数据技术在智能交通领域内的应用产业. 随着社会经济的快速发展.城市规模的不断扩大以及城市智能化进程的加快,机动车拥有量及 ...

  5. 大数据技术的发展现状以及未来发展趋势

    信息科技经过60余年的发展,已经渗透到人类生活的方方面面,政治.经济中很大一部分的活动都与数据的创造.采集.传输和使用相关.随着网络应用日益深化,大数据应用的影响日益扩大. 产业需要变革,行业需要互通 ...

  6. 区块链研究生专业_“区块链大数据赋能低碳发展”高端研讨活动 在增城低碳总部举行...

    "区块链大数据赋能低碳发展"高端研讨活动 在增城低碳总部举行 低碳发展 10月17日,由广东博士创新发展促进会和广东低碳产业技术协会主办.增城低碳总部产业园承办的"区块链 ...

  7. 上海推进大数据研究与发展三年行动计划(2013-2015年)

    发布时间:2013-07-12 前言 在国家和上海市"十二五"科技发展规划及<上海市中长期科学与技术发展规划纲要>指导下,上海市科学技术委员会通过近一年时间的充分调研和 ...

  8. 关于大数据和人工智能发展的思考

    12日,第七届中国智能产业高峰论坛在佛山开幕,在第一天的主论坛上,北京拓尔思信息技术股份有限公司副董事长.总裁施水才发表了主题为<大数据和人工智能发展的思考>的精彩演讲. 在演讲中,施水才 ...

  9. 国内大数据模式的发展现状和趋势

    随着大数据相关的基础设施.服务器.软件系统和理论体系的持续发展,目前大数据分析方面的解决方案已经逐渐成熟,并且越来越普及,而不像前几年那样还是少数科技极客眼中的新领域.随着技术的成熟,自助和自动化的信 ...

  10. 大数据前景与发展论文大纲

    好的,下面是关于大数据前景与发展的论文大纲: 一.引言 定义大数据 大数据的概念及演进 大数据的重要性及应用 二.大数据技术 大数据技术架构 大数据处理技术 大数据存储技术 大数据分析与挖掘技术 三. ...

最新文章

  1. 英国前首相:为什么欧洲没有诞生互联网巨头?
  2. 【SNN脉冲神经网络】SNN脉冲神经网络的工作原理演示MATLAB仿真带GUI界面
  3. vuex中的getters
  4. WCF常见问题及解决方案
  5. mac学python_新手小白学Python必备编程利器Pycharm快捷键大全(Win+Mac)
  6. 在一个windows服务下,安装多个mysql服务。
  7. ES(Elasticsearch)基本查询总结(含docker安装,python操作)
  8. 【深度学习】之Caffe的solver文件配置(转载自csdn)
  9. 使用Bash Bunny从被锁定的系统抓取登陆凭据
  10. C语言数据结构与算法--------图论全面总结(附有详细动态图解)
  11. 如何在Android模拟器中模拟GPS位置?
  12. 斯坦福大学公开课机器学习课程(Andrew Ng)六朴素贝叶斯算法
  13. P3320 [SDOI2015]寻宝游戏
  14. 阿里云OSS配制域名及SSL证书教程
  15. 人生哲理看完醍醐灌顶茅塞顿开(大部分技术都不懂所以爬不上去)
  16. Tangent Element调色台的设计和功能同等重要
  17. stata软件不出图_stata 如何导出绘制的图?
  18. dbmsxplan oracle_Oracle dbms_xplan
  19. Ubuntu 22.04 dektop 开启root并自动登录桌面
  20. 原来python也能对实现简单的搜狗翻译

热门文章

  1. linux 初始化文件失败,linux(十)之初始化文件
  2. 验证千字文中有没有重复的字。
  3. 陷波滤波器设计及应用
  4. 基于QT的串口调试助手
  5. 苹果系统安装mysql找不到bin_Mac 安装MySQL数据库,系统提示mysql: command not found怎么办...
  6. c语言基址是八进制,【基址】【十六进制】【加减法】【教程】(转自八门神器吧)...
  7. 网络和多媒体知识(2)
  8. 开始下载全国哀悼活动网页颜色变黑灰代码 CSS
  9. 全社会一台“云电脑”,阿里云要做新时代的Windows
  10. VBA 关键字匹配查找