hive处理snappy压缩文件
为什么80%的码农都做不了架构师?>>>
这是WordCount的下集。
上周五往hdfs文件系统上传了620G的文件,然后在上面跑了一个wc(MR)任务,运行3个半小时跑出了结果,结果是一个6.68M的snappy压缩文件。如何分析这压缩文件呢?
首先尝试使用cat看一眼这个文件的内容,结果悲剧了,直接两三分钟没有看完,全屏幕的乱码,只有 ctrl + c 中断。
然后查到 text命令可以查看压缩文件的内容
这次看到了文件的内容,不过屏幕滚完,十来分钟的时间又过去了,再就是直接使用>>重定向到本地文件了。 不使用重定向使用管道符号也是可以玩的。
未压缩文件39M, 压缩之后6.7M, 可见压缩比例还是挺高的。 直接节约了(39-6.68)*3M的存储空间。
终于看到了这个压缩文件的前20行数据, 每行两列,第一列是word,第二列是该word出现的次数。
如何根据word出现的次数进行排序呢?
在hive上新建如下的table
将压缩文件load到table中去。
执行select语句
一两分钟后就可以看到如下的排序结果了
使用hive能直接分析压缩文件是不是一件很酷的事情?
更新于n周后的一天。。。。。。 sort by 不保证全局有序
reduce 的任务数量为-1是什么?
不过对于这几十M的小文件,直接使用linux命令玩耍起来更快速。
当然文件大到一定的程度linux命令就玩不了了。
转载于:https://my.oschina.net/qidis/blog/1545935
hive处理snappy压缩文件相关推荐
- Spark读取HDFS上的Snappy压缩文件所导致的内存溢出问题 java.lang.OutOfMemoryError: GC overhead limit exceeded
报错java.lang.OutOfMemoryError: GC overhead limit exceeded HDFS上有一些每天增长的文件,使用Snappy压缩,突然某天OOM了 1.原因: 因 ...
- 【hive】hive常见的几种文件存储格式与压缩方式的结合-------Parquet格式+snappy压缩 以及ORC格式+snappy压缩文件的方式
一.使用Parquet存储数据 数据使用列存储之前是普通的行存储,下面是行存储的的文件大小,这个HDFS上的数据 使用parquet列存储,可以将文件的大小减小化.下面具体讲parquet存储数据的代 ...
- HIVE Parquet格式+snappy压缩及ORC格式+snappy压缩文件的方式
一.使用Parquet存储数据 数据使用列存储之前是普通的行存储,下面是行存储的的文件大小,这个HDFS上的数据 使用parquet列存储,可以将文件的大小减小化.下面具体讲parquet存储数据的代 ...
- hdfs或hive的snappy.parquet文件查看
1.安装python3环境 yum update 查询yum list python3 yum -y install python3 验证: python3 -V >>>>&g ...
- Hive表 Parquet压缩 , Gzip,Snappy,uncompressed 效果对比
创建两张表,通过一种是parquet , 一种使用parquet snappy压缩 创建表 使用snappy CREATE EXTERNAL TABLE IF NOT EXISTS tableName ...
- 澄清 | snappy压缩到底支持不支持split? 为啥?
前两天,群里小伙伴问了一个问题: 不是说snappy压缩不支持split嘛,为什么我改小mapred.max.split.size一倍之后,mapper数翻倍? 一直以来大家都知道snappy是不支持 ...
- Spark读取压缩文件
前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到网站:https://www.captainai.net/dongkelun 前言 本文讲如何用spark读 ...
- [Hive基础]-- Hive table 的压缩方式和存储格式
目录 一.了解 Hadoop 的压缩方式 1.Hadoop 的压缩方式的基本信息 2.Hadoop 压缩方式优缺点对比 二. Hive table的存储格式 1.TEXTFILE 2.Parquet ...
- Hadoop2.2.0+hive使用LZO压缩那些事
环境: Centos6.4 64位 Hadoop2.2.0 Sun JDK1.7.0_45 hive-0.12.0 准备工作: yum -y install lzo-devel zlib-deve ...
最新文章
- centos mysql 设置_CentOS下MySql优化及安全设置centos
- web默认字体最佳实践
- oracle 9.2.0.2,在RedHat enterprise server 3 安装oracle9i 2.0.0.1 并升级到9.2.0.6
- 前端学习(1416):ajax的运行原理
- 在家办公怎么弄?华为云DevCloud宝典一看就懂——迭代开发篇
- 【报告分享】中美人工智能之比较分析报告.pdf(附下载链接)
- 深信服环境SCSA环境遇到的问题(无法访问网站)
- 大数据GIS系列(2)——空间大数据处理与分析案例
- Pytorch框架中余弦相似度(Cosine similarity)、欧氏距离(Euclidean distance)源码解析
- Windows 11 任务栏、菜单栏无故消失解决方案
- 一起飞系列之:腾讯云配置Ubuntu16.04, Nginx, PHP 7, MySql, PhpMyAdmin, 域名
- 说一下“==“和equals方法究竟有什么区别?
- 晶振与晶体的参数详解
- NIR近红外光谱简介
- Evilnum恶意组织使用新的基于Python的木马攻击金融公司
- Java用普里姆算法(prim)解决修路最短路径问题
- 探讨 C++ 虚函数 virtual
- Tesserocr安装及报错解决方案
- 机器人将“上岗”参与“中国天眼”运维
- git安装及使用,超详细版