前言

本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系

正文

1 数据的压缩说明

压缩模式评价

  • 可使用以下三种标准对压缩方式进行评价
  1. 压缩比:压缩比越高,压缩后文件越小,所以压缩比越高越好
  2. 压缩时间:越快越好
  3. 已经压缩的格式文件是否可以再分割:可以分割的格式允许单一文件由多个 Mapper 程序处理,可以更好的并行化

常见压缩格式

对比

压缩方式 压缩比 压缩速度 解压缩速度 是否可分割
gzip 13.4% 21 MB/s 118 MB/s
bzip2 13.2% 2.4MB/s 9.5MB/s
lzo 20.5% 135 MB/s 410 MB/s
snappy 22.2% 172 MB/s 409 MB/s

更多内容请参考我的这篇博客——数据压缩算法该如何选择?

Hadoop编码/解码器方式

压缩格式 对应的编码/解码器
DEFLATE org.apache.hadoop.io.compress.DefaultCodec
Gzip org.apache.hadoop.io.compress.GzipCodec
BZip2 org.apache.hadoop.io.compress.BZip2Codec
LZO com.hadoop.compress.lzo.LzopCodec
Snappy org.apache.hadoop.io.compress.SnappyCodec

1.2 数据压缩使用

Hive表中间数据压缩

#设置为true为激活中间数据压缩功能,默认是false,没有开启
set hive.exec.compress.intermediate=true;
#设置中间数据的压缩算法
set mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodec;

Hive表最终输出结果压缩

set hive.exec.compress.output=true;
set mapred.output.compression.codec=
org.apache.hadoop.io.compress.SnappyCodec;

Hive 的数据压缩格式怎么选择?相关推荐

  1. Hive 数据压缩格式总结

    精选30+云产品,助力企业轻松上云!>>> Hive 建设离线数据仓库通常符合:一次写入,多次读取.所以需要我们在建表的时候选择恰当的存储格式和数据的压缩模式. 先看几个 Hive ...

  2. HADOOP与HDFS数据压缩格式

    HADOOP与HDFS数据压缩格式 1.cloudera 数据压缩的一般准则 一般准则 是否压缩数据以及使用何种压缩格式对性能具有重要的影响.在数据压缩上,需要考虑的最重要的两个方面是 MapRedu ...

  3. Hive分区表数据压缩

    Hive分区表数据压缩 1.背景 目前公司的Hive分区表采用的TextFile格式存储,占用的存储空间较大,考虑到存储成本,需要对存储的历史数据进行压缩. 2.压缩格式选择 2.1 snappy压缩 ...

  4. 2021年大数据Hive(九):Hive的数据压缩

    全网最详细的大数据Hive文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 前言 Hive的数据压缩 一.MR支持的压缩编码 二.压缩配置 ...

  5. Atitit.多媒体区----web视频格式的选择总结

    Atitit.多媒体区----web视频格式的选择总结 1. 因为现阶段不同的浏览器支持的视频格式是不同的 1 2. 各浏览器Html5 Video支持的影音格式: 2 3. 解决方案是什么?Flas ...

  6. unity引擎声音格式的选择------转载请注明出处:Channel游戏音乐工作室---转

    Gapless looping MP3 music in Unity 3D 关于unity下 播放无缝循环的音乐 我们会发现一个问题,就是音乐制作团队提供的文件,使用PC或是MAC的一些特殊的第三方播 ...

  7. 电子邮箱格式怎么写?电子邮箱的格式谁家选择多?

    在网上有看到TOM VIP163系列邮箱有新域名上线了,这样注册个电子邮箱就有更多格式选择了. 电子邮箱的格式谁家选择多? TOM邮箱国内最早期的电子邮箱产品之一,已坐拥庞大的用户体量,先后斩获最佳商 ...

  8. hive中日期格式转换

    hive中日期格式转换 日期时间格式大致分成时间戳和日期时间格式互转,字符串转化成日期时间格式,日期格式之间的转化 一.时间戳和日期互转 1.unix_timestamp函数,日期转时间戳 当函数参数 ...

  9. 大数据Hive(九):Hive的数据压缩

    文章目录 Hive的数据压缩 一.MR支持的压缩编码 二.压缩配置参数 三.开启Map输出阶段压缩</

最新文章

  1. YOLOv5目标检测源码重磅发布了!
  2. 关于量子计算,你应该知道的七个事实
  3. 电路图中常用的英文缩写的中文解释
  4. python发声-python 发声
  5. 【mongodb系统学习之六】mongodb配置文件方式启动
  6. Windows2000下Api函数的拦截分析
  7. python发送json数据_在Websockets上发送JSON
  8. ios 静音模式_静音设计模式
  9. django模板变量的使用详解 200309
  10. LeetCode 题 - 9 回文数
  11. Java基础04 编译与反编译
  12. ajax代码原理,关于Ajax的原理以及代码封装详解
  13. Detectron2和MMDetection的学习笔记
  14. Asp.NetCore程序发布到CentOs(含安装部署netcore)--最佳实践(二)
  15. maven 将依赖包打入jar中
  16. 开机进入boot menu和application menu,无法开机
  17. java Random类和Math.Rondom
  18. 谭浩强c语言第五版 第二章习题解答
  19. 360也开源了一个 kubernetes 的管理后台系统 Wayne
  20. Android 颜色代码收集

热门文章

  1. 【重磅来袭:系列一】史上最全运营商部署NB-IoT的系列问题清单和联盟答案
  2. 慕课张鑫旭,笔记之position
  3. mysqli php 安装,mysqli模块的安装
  4. 264 nal type
  5. 逆向爬虫-sojson混淆反调加密
  6. 如何将微课应用到计算机教学,如何将微课应用于高校计算机教学中
  7. zzuli训练赛_05_13-K
  8. 2019 杭电多校 HDU - 6625 three arrays 字典树+贪心
  9. 新时代创意之人必备的六招十二字
  10. SecureCRT之激活教程