Hadoop的数据压缩算法应用场景
压缩格式 |
Hadoop自带? |
算法 |
文件扩展名 |
支持切分 |
换成压缩格式后,原来的程序是否需要修改 |
DEFLATE |
是,直接使用 |
DEFLATE |
.deflate |
否 |
和文本处理一样,不需要修改 |
Gzip |
是,直接使用 |
DEFLATE |
.gz |
否 |
和文本处理一样,不需要修改 |
bzip2 |
是,直接使用 |
bzip2 |
.bz2 |
是 |
和文本处理一样,不需要修改 |
LZO |
否,需要安装 |
LZO |
.lzo |
是 |
需要建索引,还需要指定输入格式 |
Snappy |
否,需要安装 |
Snappy |
.snappy |
否 |
和文本处理一样,不需要修改 |
1)gzip压缩
优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;大部分linux系统都自带gzip命令,使用方便。
缺点:不支持split。
应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。例如说一天或者一个小时的日志压缩成一个gzip文件,运行mapreduce程序的时候通过多个gzip文件达到并发。hive程序,streaming程序,和java写的mapreduce程序完全和文本处理一样,压缩之后原来的程序不需要做任何修改。
2)Bzip2压缩
优点:支持split;具有很高的压缩率,比gzip压缩率都高;hadoop本身支持,但不支持native;在linux系统下自带bzip2命令,使用方便。
缺点:压缩/解压速度慢;不支持native。
应用场景:适合对速度要求不高,但需要较高的压缩率的时候,可以作为mapreduce作业的输出格式;或者输出之后的数据比较大,处理之后的数据需要压缩存档减少磁盘空间并且以后数据用得比较少的情况;或者对单个很大的文本文件想压缩减少存储空间,同时又需要支持split,而且兼容之前的应用程序(即应用程序不需要修改)的情况。
3)Lzo压缩
优点:压缩/解压速度也比较快,合理的压缩率;支持split,是hadoop中最流行的压缩格式;可以在linux系统下安装lzop命令,使用方便。
缺点:压缩率比gzip要低一些;hadoop本身不支持,需要安装;在应用中对lzo格式的文件需要做一些特殊处理(为了支持split需要建索引,还需要指定inputformat为lzo格式)。
应用场景:一个很大的文本文件,压缩之后还大于200M以上的可以考虑,而且单个文件越大,lzo优点越越明显。
4)Snappy压缩
优点:高速压缩速度和合理的压缩率。
缺点:不支持split;压缩率比gzip要低;hadoop本身不支持,需要安装;
应用场景:当Mapreduce作业的Map输出的数据比较大的时候,作为Map到Reduce的中间数据的压缩格式;或者作为一个Mapreduce作业的输出和另外一个Mapreduce作业的输入。
Hadoop的数据压缩算法应用场景相关推荐
- Hadoop大数据面试题(全)
以下资料来源于互联网,很多都是面试者们去面试的时候遇到的问题,我对其中有的问题做了稍许的修改了回答了部分空白的问题,其中里面有些考题出的的确不是很好,但是也不乏有很好的题目,这些都是基于真实的面试来的 ...
- SparkSQL和Hadoop(面向数据科学家和大数据分析师)
了解HDFS命令.Hadoop.Spark SQL.SQL查询.ETL和数据分析| Spark Hadoop集群虚拟机|完全解决的问题 你会学到什么 作为本课程的一部分,学生将获得在Spark Had ...
- 【公测中】阿里云发布国内首个大数据双活容灾服务,满足高要求大数据灾备场景...
在6月上旬举行的云栖大会上海峰会上,阿里云发布了国内首个大数据集群双活容灾产品-混合云容灾服务下的混合云大数据容灾服务(HDR for Big Data, 简称 HDR-BD),并已经在7月份开始邀测 ...
- Hadoop大数据零基础高端实战培训系列配文本挖掘项目
<Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标)> 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量:230课时 用到技术:部署Hadoop集群 涉 ...
- hadoop大数据平台架构之DKhadoop详解
hadoop大数据平台架构之DKhadoop详解 大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战.Hadoop作为一个开源的分布式并行处理平台,以其高拓展. ...
- 【公测中】阿里云发布国内首个大数据双活容灾服务,满足高要求大数据灾备场景
在6月上旬举行的云栖大会上海峰会上,阿里云发布了国内首个大数据集群双活容灾产品-混合云容灾服务下的混合云大数据容灾服务(HDR for Big Data, 简称 HDR-BD),并已经在7月份开始邀测 ...
- R+Hadoop大数据方案有哪些坑?
摘要: 为什么有些公司在机器学习业务方面倾向使用 R + Hadoop 方案?因为他们在不懂R和Hadoop的特征应用场景的情况下,恰好抓到了一根免费,开源的稻草.R:R的应用场景不在于无与伦比的统计 ...
- Hadoop大数据原理(3) - 分布式计算框架MapReduce
文章目录 1. 大数据的通用计算 2 MapReduce编程模型 3. MapReduce计算框架 3.1 三类关键进程 大数据应用进程 JobTracker进程 TaskTracker进程 3.2 ...
- 八大行业Hadoop大数据应用回顾和展望
任何新技术的发展都会经历一个从被公众了解到最终普遍应用的过程.大数据技术作为一个新兴的数据处理技术,经过了近十年的发展,刚刚开始在各个行业得到应用.但从媒体和公众视野中,大数据技术总是带有神秘的色彩, ...
最新文章
- 使用let替换var实现块级作用域的小发现
- 飞利浦AC6608空气净化器粉尘传感器维修
- Android自定义Shape
- ​设计模式之装饰模式
- matlab计算流函数,hanyeah
- 【ElasticSearch】Es 源码之 ScriptModule ScriptService 源码解读
- 3Dcnn 降假阳性模型调试(八)
- python电子病历交接班系统_专科电子病历
- 2D纹理与3D模型共存时的渲染问题
- Linux 无线网卡驱动安装 Dell Inspiron R14-N4010 笔记本
- gbd的简单使用(一)
- 技术分享:国民远控向日葵如何通过BBR算法提升远控体验?
- Windows程序设计——GDI基本画图的操作实现
- 利用jpedal进行pdf转换成jpeg,jpg,png,tiff,tif等格式的图片
- vue项目 设置scrollTop不起作用(解决方法及原因)
- 如何用计算机设计衣服,怎样才能成为出色的服装设计师_电脑服装设计图怎么画...
- 马达驱动 DRV8832
- 用Python爬取并分析Box Office Mojo网站2019年每日票房数据
- 岭南学院python课程作业5-2
- 成功登陆港交所,顺丰同城的“跑腿”生意好做吗?