Hive 的数据压缩格式怎么选择?
前言
本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!
本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系
正文
1 数据的压缩说明
压缩模式评价
- 可使用以下三种标准对压缩方式进行评价
- 压缩比:压缩比越高,压缩后文件越小,所以压缩比越高越好
- 压缩时间:越快越好
- 已经压缩的格式文件是否可以再分割:可以分割的格式允许单一文件由多个 Mapper 程序处理,可以更好的并行化
常见压缩格式
对比
压缩方式 | 压缩比 | 压缩速度 | 解压缩速度 | 是否可分割 |
---|---|---|---|---|
gzip | 13.4% | 21 MB/s | 118 MB/s | 否 |
bzip2 | 13.2% | 2.4MB/s | 9.5MB/s | 是 |
lzo | 20.5% | 135 MB/s | 410 MB/s | 是 |
snappy | 22.2% | 172 MB/s | 409 MB/s | 否 |
更多内容请参考我的这篇博客——数据压缩算法该如何选择?
Hadoop编码/解码器方式
压缩格式 | 对应的编码/解码器 |
---|---|
DEFLATE | org.apache.hadoop.io.compress.DefaultCodec |
Gzip | org.apache.hadoop.io.compress.GzipCodec |
BZip2 | org.apache.hadoop.io.compress.BZip2Codec |
LZO | com.hadoop.compress.lzo.LzopCodec |
Snappy | org.apache.hadoop.io.compress.SnappyCodec |
1.2 数据压缩使用
Hive表中间数据压缩
#设置为true为激活中间数据压缩功能,默认是false,没有开启
set hive.exec.compress.intermediate=true;
#设置中间数据的压缩算法
set mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodec;
Hive表最终输出结果压缩
set hive.exec.compress.output=true;
set mapred.output.compression.codec=
org.apache.hadoop.io.compress.SnappyCodec;
Hive 的数据压缩格式怎么选择?相关推荐
- Hive 数据压缩格式总结
精选30+云产品,助力企业轻松上云!>>> Hive 建设离线数据仓库通常符合:一次写入,多次读取.所以需要我们在建表的时候选择恰当的存储格式和数据的压缩模式. 先看几个 Hive ...
- HADOOP与HDFS数据压缩格式
HADOOP与HDFS数据压缩格式 1.cloudera 数据压缩的一般准则 一般准则 是否压缩数据以及使用何种压缩格式对性能具有重要的影响.在数据压缩上,需要考虑的最重要的两个方面是 MapRedu ...
- Hive分区表数据压缩
Hive分区表数据压缩 1.背景 目前公司的Hive分区表采用的TextFile格式存储,占用的存储空间较大,考虑到存储成本,需要对存储的历史数据进行压缩. 2.压缩格式选择 2.1 snappy压缩 ...
- 2021年大数据Hive(九):Hive的数据压缩
全网最详细的大数据Hive文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 前言 Hive的数据压缩 一.MR支持的压缩编码 二.压缩配置 ...
- Atitit.多媒体区----web视频格式的选择总结
Atitit.多媒体区----web视频格式的选择总结 1. 因为现阶段不同的浏览器支持的视频格式是不同的 1 2. 各浏览器Html5 Video支持的影音格式: 2 3. 解决方案是什么?Flas ...
- unity引擎声音格式的选择------转载请注明出处:Channel游戏音乐工作室---转
Gapless looping MP3 music in Unity 3D 关于unity下 播放无缝循环的音乐 我们会发现一个问题,就是音乐制作团队提供的文件,使用PC或是MAC的一些特殊的第三方播 ...
- 电子邮箱格式怎么写?电子邮箱的格式谁家选择多?
在网上有看到TOM VIP163系列邮箱有新域名上线了,这样注册个电子邮箱就有更多格式选择了. 电子邮箱的格式谁家选择多? TOM邮箱国内最早期的电子邮箱产品之一,已坐拥庞大的用户体量,先后斩获最佳商 ...
- hive中日期格式转换
hive中日期格式转换 日期时间格式大致分成时间戳和日期时间格式互转,字符串转化成日期时间格式,日期格式之间的转化 一.时间戳和日期互转 1.unix_timestamp函数,日期转时间戳 当函数参数 ...
- 大数据Hive(九):Hive的数据压缩
文章目录 Hive的数据压缩 一.MR支持的压缩编码 二.压缩配置参数 三.开启Map输出阶段压缩</
最新文章
- YOLOv5目标检测源码重磅发布了!
- 关于量子计算,你应该知道的七个事实
- 电路图中常用的英文缩写的中文解释
- python发声-python 发声
- 【mongodb系统学习之六】mongodb配置文件方式启动
- Windows2000下Api函数的拦截分析
- python发送json数据_在Websockets上发送JSON
- ios 静音模式_静音设计模式
- django模板变量的使用详解 200309
- LeetCode 题 - 9 回文数
- Java基础04 编译与反编译
- ajax代码原理,关于Ajax的原理以及代码封装详解
- Detectron2和MMDetection的学习笔记
- Asp.NetCore程序发布到CentOs(含安装部署netcore)--最佳实践(二)
- maven 将依赖包打入jar中
- 开机进入boot menu和application menu,无法开机
- java Random类和Math.Rondom
- 谭浩强c语言第五版 第二章习题解答
- 360也开源了一个 kubernetes 的管理后台系统 Wayne
- Android 颜色代码收集