《MapReduce 2.0源码分析与编程实战》一1.2 大数据分析时代
本节书摘来异步社区《MapReduce 2.0源码分析与编程实战》一书中的第1章,第1.2节,作者: 王晓华 责编: 陈冀康,更多章节内容可以访问云栖社区“异步社区”公众号查看。
1.2 大数据分析时代
如果我们把大数据比作一块未经开发的沃土,那么只有经过耕耘收获的果实才能够算得上是真正获得了沃土的回报。换言之,如果把大数据比作一块沃土,那么只有强化对土地的“耕耘”能力,才能通过“加工”实现数据的“增值”。
随着“大数据时代”的开启,对大数据本身的处理和分析越来越为生产者和商业者所看重。但是问题在于,相比于拥有较长历史的数据库分析和传统数据分析,大数据分析具有待数据量特别巨大、算法分析特别复杂等特点。
一般来说,大数据分析需要涉及以下4个方面。
- 有效的数据质量。任何数据分析都来自于真实的数据基础,而一个真实数据是采用标准化的流程和工具对数据进行处理得到的,可以保证一个预先定义好的高质量的分析结果。
- 优秀的分析引擎。对于大数据来说,数据的来源多种多样,特别是非结构化数据来源的多样性给大数据分析带来了新的挑战。因此,我们需要一系列的工具去解析、提取、分析数据。大数据分析引擎就是用于从数据中提取我们所需要的信息。
- 合适的分析算法。采用合适的大数据分析算法能让我们深入数据内部挖掘价值。在算法的具体选择上,不仅仅要求能够处理的大数据的数量,还涉及对大数据处理的速度。
- 对未来的合理预测。数据分析的目的是对已有数据进行总结,并且将现象与其他情况紧密连接在一起,从而获得对未来的预测。大数据分析也是如此。不同的是,在大数据分析中,数据来源的基础更为广泛,需要处理的方面更多。
由这些方面可以知道,大数据分析是数据分析最前沿的技术。这种新的数据分析是目标导向的,不用关心数据的来源和具体格式,能够根据我们的需求去处理各种结构化、非结构化和半结构化数据,配合使用合适的分析引擎,能够输出有效结果,提供一定的对未来趋势的预测分析服务,能够面向更广泛的普通员工快速部署分析应用。
长期以来,对数据的统计分析使用的还是一般传统的关系型数据库分析技术。不得不说,关系型数据库从诞生到今天,经历了50年的发展,已经成为一门成熟的、至今仍旧具有一定活力的数据分析管理技术。
但是,由于关系型数据库天生的缺陷,其丧失了在互联网大数据时代的机会,原因主要是其传统的关系型数据管理模型的扩展无法与如今的大数据进行很好的融合,不能满足大数据的要求。对于关系型数据库来说,其追求的是高度一致性和数据正确性。而这恰恰制约了其扩展能力,无法实现任意的存储容量扩展和本身处理能力的加强,使之无法满足互联网时代的大数据分析需求。
《MapReduce 2.0源码分析与编程实战》一1.2 大数据分析时代相关推荐
- 《MapReduce 2.0源码分析与编程实战》一第1章 HBase介绍
本节书摘来异步社区<MapReduce 2.0源码分析与编程实战>一书中的第1章,作者: 王晓华 责编: 陈冀康,更多章节内容可以访问云栖社区"异步社区"公众号查看. ...
- 《MapReduce 2.0源码分析与编程实战》一1.5 看,大象也会跳舞
本节书摘来异步社区<MapReduce 2.0源码分析与编程实战>一书中的第1章,第1.5节,作者: 王晓华 责编: 陈冀康,更多章节内容可以访问云栖社区"异步社区"公 ...
- 《MapReduce 2.0源码分析与编程实战》一1.6 本章小结
本节书摘来异步社区<MapReduce 2.0源码分析与编程实战>一书中的第1章,第1.6节,作者: 王晓华 责编: 陈冀康,更多章节内容可以访问云栖社区"异步社区"公 ...
- 《MapReduce 2.0源码分析与编程实战》一第2章 入门
本节书摘来异步社区c书中的第2章,第2.1节,作者: 王晓华 责编: 陈冀康,更多章节内容可以访问云栖社区"异步社区"公众号查看. 第2章 入门 HBase实战 本章涵盖的内容 连 ...
- SRS4.0源码分析-序言
<SRS4.0源码分析>专栏,会从 configure(配置),makefile(编译规则),main (入口函数), 带你一步一步了解 SRS 的主干代码逻辑. 这里分享一个本人阅读开源 ...
- Tomcat7.0源码分析——Session管理分析(下)
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/beliefer/article/details/52451061 前言 在<Tomcat7.0 ...
- vue-cli 3.0 源码分析
写在前面 其实最开始不是特意来研究 vue-cli 的源码,只是想了解下 node 的命令,如果想要了解 node 命令的话,那么绕不开 tj 写的 commander.js.在学习 commande ...
- Tomcat7.0源码分析——Session管理分析(上)
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/beliefer/article/details/52450268 前言 对于广大java开发者而言, ...
- Android6.0源码分析—— Zygote进程分析(补充)
原文地址: http://blog.csdn.net/a34140974/article/details/50915307 此博文为<Android5.0源码分析-- Zygote进程分析> ...
- android6.0源码分析之Zygote进程分析
在android6.0源码分析之Runtime的初始化一文中,对Zygote进程的初期的Runtime初始化过程进行了分析,在Runtime启动结束后,会对Zygote进程进行初始化,其它Java进程 ...
最新文章
- python笔记基础-Python笔记-基础
- 20200523dedis笔记
- pb graph鼠标移上显示数据_Plotly数据可视化:离线版、微软vscode版的Python的基本作图...
- 【计算机就业-银行】校招想去银行该怎么准备
- HashMap的实现原理看这篇就够了,图文源码详解,深入浅出简单易懂
- L1-049__056
- php宝宝起名,宝宝在线起名取名大全
- 联发科MT2503芯片资料MT2503原理图
- RGB图像能处理成灰色的红外图像吗?
- sql2012下载,安装,激活
- 批量打印软件导入Excel时如何保留两位小数
- 大数据网站汇总(数据搜集、大数据竞赛、)
- 怎么看matlab程序运行到哪了,MATLAB运行程序时怎么查看还有多久完成
- oppo广告推广分为哪些版块?oppo广告投放的优势有哪些?
- 基于vueJs框架的翻页组件
- 是的,你的AI技能正在“贬值”
- python 右键没有EDIT with IDLE选项 图文讲解解决方法
- Ubuntu 搜狗输入法无法调出问题解决备忘
- stm32f4进行fft运算
- ChatGPT 类 AI 软件供应链的安全及合规风险
热门文章
- Atiitt 管理方面的误区总结 attilax总结
- Atitit 软件采购与服务 实现的三种模式 企业软件V1.0模式=传统模式 1,定制开发类型, 主要特点为通用性差,需求独特。通常单项目价格高,多为政府采购或者垄断企业的大单。 2,标准产品轻
- Atitit各种SDM 软件SDP sdm的ddd tdd bdd设计
- atitit. js 跨界面 页面 web cs 传值方法总结
- (转)全球最神秘的高频交易巨头Jump Trading
- 这本书,值2000亿!
- 详解阿里云第六代增强型实例,性能强劲,百万IOPS加持
- fckeditor for java_FCKeditor最新版本2.4.1 for java 教程
- 【车间调度】基于matlab模拟退火算法求解单约束车间流水线调度问题【含Matlab源码 1457期】
- 【机械仿真】基于matlab GUI智能电梯仿真系统【含Matlab源码 1087期】