【大数据应用开发】大数据的概念
一. 大数据的概念
维基百科定义:
大数据是指利用常用软件工具捕获,管理和处理数据所耗时间超过可容忍时间的数据集。
二. 大数据4V特征
- Volume:体量巨大
- Velocity:处理速度快
- Variety:类型繁多(结构化,半结构化,非结构化)
- Value:价值密度低
三. 大数据主流技术
- 数据采集预处理
- flume可以进行流式日志数据的收集
- sqoop可以交互关系型数据库,进行导入导出数据
- 使用爬虫技术,可以在网上爬取海量网页数据
- 数据存储与管理
大数据利用分布式文件系统HDFS、HBase、Hive,实现对结构化、半结构化和非结构化数据的存储和管理。 - 数据处理与分析
利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析。
四. 大数据应用
五. 场景化解决方案:
1. 离线批处理
1.1 概念:
离线批处理,是指对海量历史数据进处理和分析,生成结果数据,供下一步数据应用使用的过程。
离线批处理对数据处理的时延要求不高,但是处理的数据量较大,占用的计算存储资源较多,通常通过MR作业、Spark作业或者HQL作业实现。
1.2 特点:
- 处理时间要求不高
- 处理数据量巨大
- 处理数据格式多样
- 占用计算存储资源多
1.3 流程图
2. 实时检索
2.1 概念:
实时检索简而言之就是对系统内的一些信息根据关键词进行即时、快速搜索,实现即搜即得的效果。强调的是实时低延迟。
2.2 核心诉求
- 检索性能要求高
- 高并发查询
- 数据量大
- 支持结构化和非结构化
- 高效的数据加载
- 支持图检索
2.3流程图
3. 实时流处理
3.1 概念:
实时流处理,通常是指对实时数据源进行快速分析,迅速触发下一步动作的场景。实时数据对分析处理速度要求极高,数据处理规模巨大,对CPU和内存要求很高,但是通常数据不落地,对存储量要求不高。实时处理,通常通过Structured Streaming或者Flink任务实现。
3.2 诉求:
- 处理数据快
- 高吞吐量
- 抗震性强
- 可靠性高
- 水平扩展
- 多数据源支持
- 数据权限和资源隔离
- 第三方工具对接
3.3 流程图
4.融合数仓
4.1概念:
在数据慢慢呈现数据处理量大、数据处理时延低、数据处理格式多样的要求下,基于模块化存储的数据仓库重要性日益增加,但同时也带来了新的问题。
随着精准营销、客户画像、互联网平台等业务的上线,需要引入非结构化数据,以及提升对实时数据的计算处理能力,需要建立大数据平台满足上述业务需求。
4.2诉求
- 数据统一存储
- 减少数据孤岛和冗余
- 一集成(旧业务和新业务可以无缝集成)
- 大集群
4.3流程图
【大数据应用开发】大数据的概念相关推荐
- 唐诗宋词元曲等成语大全类APP开发,数据有了
开发一个包含唐诗三百首.宋词.元曲类APP 免费的接口地址:https://api.data5u.com/apiinfo/80004.html 提供诗词大全,包含唐诗.宋词.元曲.近现代诗词等涉及内容 ...
- 大数据平台开发大作业
HA&Federation介绍 Hadoop的介绍 Hadoop是一个能够对大量数据进行分布式处理的软件框架. Hadoop 以一种可靠.高效.可伸缩的方式进行数据处理. Hadoop框架 H ...
- 推荐 :数据科学与大数据技术专业特色课程研究
在我国,数据科学与大数据技术专业的建设已成为新的热点话题.在系统调研世界一流大学数据科学专业建设现状的基础上,从特色课程视角重点分析加州大学伯克利分校.约翰·霍普金斯大学.华盛顿大学.纽约大学.斯坦福 ...
- 什么是数据产品经理?数据产品经理与传统产品经理有什么区别?
数据产品经理与传统产品经理是两个重叠的角色,在职责.技能和入职要求方面有很多相似之处.但是,同时也有几个关键因素可以区分这两个角色. 让我们通过分解每个职位的角色和职责来仔细研究这些差异. 什么是产品 ...
- 【大数据开发】大数据开发的一些基本概念
大数据开发的一些基本概念 了解企业数据分析的步骤 大数据分析的步骤 大数据是什么 <1>数据是什么? 凡是对客观事物的联系以及性质进行描述的符号以及集合都属于我们的数据,数据可以是文字,图 ...
- 大数据应用开发八大基本原则
大数据应用正在从概念走向现实,而企业在大数据应用开发时,软件的弹性(Resilient)正在成为决定大数据应用成败的关键因素.弹性差的应用无法应对大规模的数据集,在测试和运营中也缺乏透明度,而且也不安 ...
- 大数据数据收集数据困难_大数据架构、大数据开发与数据分析的区别
是新朋友吗?记得先点蓝字关注我哦- 今日课程菜单 Java全栈开发 | Web前端+H5 大数据开发 | 数据分析 人工智能+Python | 人工智能+物联网 来源:小职(z_zhizuobiao ...
- 如何选择大数据软件开发公司
大数据,指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产.大数据相关的创业有其独特性 ...
- 大数据高级开发工程师——Spark学习笔记(9)
文章目录 Spark内存计算框架 Spark Streaming Spark Streaming简介 Spark Streaming架构流程 什么是DStream DStream算子操作 1. Tra ...
最新文章
- SDUT 2401 最大矩形面积
- Mac 技术篇-VS Code自动换行设置
- 树中两个结点的最低公共祖先
- 现在的人工智能逆天到什么地步了?
- OpenCV视频加速Video acceleration的实例(附完整代码)
- Counting Triangles
- 升级 python 2.6.6 到 2.7.14 版本(pip工具安装)
- Linux自动注销登录的帐户
- 【转载】Android 工具-adb原理
- liunx破解root密码精简版
- C/C++经典算法——约瑟夫问题
- 纳兰容若最经典的20首诗词,每一首都是经典,读完眼泪掉下来
- 【本科课程学习】数据库考试复习题(带答案)
- 抖音自媒体火爆短视频如何造?
- WordPress总裁CeoMax主题模板源码3.9.1无需授权
- 2023必须收藏的16个Python接单平台,做私活爽歪歪!附100个爬虫源码,拿去吧你
- H5 前端模板 JS 用法
- 建图定位与坐标变换2
- 使用EJS脚本实现花生壳动态域名更新服务(二)
- 【web素材】10—100款+CSS实现的电商定价表样式案例的代码素材
热门文章
- 后台登陆防刷、防爆破以及正常的登录校验
- JS 不常用的一些Array方法
- 程序员小灰的漫画算法和知识总结,高品质强推!!!
- Android webview 69,env(safe-area-inset-top) not working on Android Pie + WebView 69
- 用C语言开发NES游戏(CC65)06、精灵
- 物联网如何推动农业发展
- 活体检测论文研读二:Learn Convolutional Neural Network for Face Anti-Spoofing
- 300+值得收藏的设计师免费资源站
- JAVA抖音潜艇挑战,抖音怎么玩潜水艇挑战
- 《麻省理工科技评论》发布2019全球十大突破性技术 阿里巴巴成唯一上榜中国公司...