为什么80%的码农都做不了架构师?>>>   

这是WordCount的下集。

上周五往hdfs文件系统上传了620G的文件,然后在上面跑了一个wc(MR)任务,运行3个半小时跑出了结果,结果是一个6.68M的snappy压缩文件。如何分析这压缩文件呢?

首先尝试使用cat看一眼这个文件的内容,结果悲剧了,直接两三分钟没有看完,全屏幕的乱码,只有 ctrl + c 中断。

然后查到 text命令可以查看压缩文件的内容

这次看到了文件的内容,不过屏幕滚完,十来分钟的时间又过去了,再就是直接使用>>重定向到本地文件了。 不使用重定向使用管道符号也是可以玩的。

未压缩文件39M, 压缩之后6.7M,  可见压缩比例还是挺高的。 直接节约了(39-6.68)*3M的存储空间。

终于看到了这个压缩文件的前20行数据, 每行两列,第一列是word,第二列是该word出现的次数。

如何根据word出现的次数进行排序呢?

在hive上新建如下的table

将压缩文件load到table中去。

执行select语句

一两分钟后就可以看到如下的排序结果了

使用hive能直接分析压缩文件是不是一件很酷的事情?

更新于n周后的一天。。。。。。   sort by 不保证全局有序

reduce 的任务数量为-1是什么?

不过对于这几十M的小文件,直接使用linux命令玩耍起来更快速。

当然文件大到一定的程度linux命令就玩不了了。

转载于:https://my.oschina.net/qidis/blog/1545935

hive处理snappy压缩文件相关推荐

  1. Spark读取HDFS上的Snappy压缩文件所导致的内存溢出问题 java.lang.OutOfMemoryError: GC overhead limit exceeded

    报错java.lang.OutOfMemoryError: GC overhead limit exceeded HDFS上有一些每天增长的文件,使用Snappy压缩,突然某天OOM了 1.原因: 因 ...

  2. 【hive】hive常见的几种文件存储格式与压缩方式的结合-------Parquet格式+snappy压缩 以及ORC格式+snappy压缩文件的方式

    一.使用Parquet存储数据 数据使用列存储之前是普通的行存储,下面是行存储的的文件大小,这个HDFS上的数据 使用parquet列存储,可以将文件的大小减小化.下面具体讲parquet存储数据的代 ...

  3. HIVE Parquet格式+snappy压缩及ORC格式+snappy压缩文件的方式

    一.使用Parquet存储数据 数据使用列存储之前是普通的行存储,下面是行存储的的文件大小,这个HDFS上的数据 使用parquet列存储,可以将文件的大小减小化.下面具体讲parquet存储数据的代 ...

  4. hdfs或hive的snappy.parquet文件查看

    1.安装python3环境 yum update 查询yum list python3 yum -y install python3 验证: python3 -V >>>>&g ...

  5. Hive表 Parquet压缩 , Gzip,Snappy,uncompressed 效果对比

    创建两张表,通过一种是parquet , 一种使用parquet snappy压缩 创建表 使用snappy CREATE EXTERNAL TABLE IF NOT EXISTS tableName ...

  6. 澄清 | snappy压缩到底支持不支持split? 为啥?

    前两天,群里小伙伴问了一个问题: 不是说snappy压缩不支持split嘛,为什么我改小mapred.max.split.size一倍之后,mapper数翻倍? 一直以来大家都知道snappy是不支持 ...

  7. Spark读取压缩文件

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到网站:https://www.captainai.net/dongkelun 前言 本文讲如何用spark读 ...

  8. [Hive基础]-- Hive table 的压缩方式和存储格式

    目录 一.了解 Hadoop 的压缩方式 1.Hadoop 的压缩方式的基本信息 2.Hadoop 压缩方式优缺点对比 二. Hive table的存储格式 1.TEXTFILE 2.Parquet ...

  9. Hadoop2.2.0+hive使用LZO压缩那些事

    环境: Centos6.4 64位 Hadoop2.2.0 Sun JDK1.7.0_45 hive-0.12.0 准备工作: yum -y install  lzo-devel  zlib-deve ...

最新文章

  1. centos mysql 设置_CentOS下MySql优化及安全设置centos
  2. web默认字体最佳实践
  3. oracle 9.2.0.2,在RedHat enterprise server 3 安装oracle9i 2.0.0.1 并升级到9.2.0.6
  4. 前端学习(1416):ajax的运行原理
  5. 在家办公怎么弄?华为云DevCloud宝典一看就懂——迭代开发篇
  6. 【报告分享】中美人工智能之比较分析报告.pdf(附下载链接)
  7. 深信服环境SCSA环境遇到的问题(无法访问网站)
  8. 大数据GIS系列(2)——空间大数据处理与分析案例
  9. Pytorch框架中余弦相似度(Cosine similarity)、欧氏距离(Euclidean distance)源码解析
  10. Windows 11 任务栏、菜单栏无故消失解决方案
  11. 一起飞系列之:腾讯云配置Ubuntu16.04, Nginx, PHP 7, MySql, PhpMyAdmin, 域名
  12. 说一下“==“和equals方法究竟有什么区别?
  13. 晶振与晶体的参数详解
  14. NIR近红外光谱简介
  15. Evilnum恶意组织使用新的基于Python的木马攻击金融公司
  16. Java用普里姆算法(prim)解决修路最短路径问题
  17. 探讨 C++ 虚函数 virtual
  18. Tesserocr安装及报错解决方案
  19. 机器人将“上岗”参与“中国天眼”运维
  20. git安装及使用,超详细版

热门文章

  1. b站崩溃,程序员熬夜,灵活用工势在必行
  2. MatchVs与CocosCreater (2)
  3. 算法时间复杂度的计算
  4. 【DevFest 2022】不仅仅是技术盛宴,也是游乐场!参会互动指南出炉 ——
  5. 百度地图重磅发布《2019年春运出行预测报告》
  6. 机器学习笔记 - 探索性数据分析(EDA) 入门案例五
  7. 简单利用微信拼接长图方法
  8. 中国古镇推荐_值得去的古镇有哪些
  9. java ssm基于html5在线拼车信息网站
  10. shmget物理内存_linux进程通信方式之shmget