1.安装python3环境

yum update

查询yum list python3

yum -y install python3

验证:
python3 -V

>>>>>Python 3.6.8

pip3 -V

>>>>>pip 9.0.3 from /usr/lib/python3.6/site-packages (python 3.6)

2.安装parquet-tools

pip install Cython
pip install parquet-tools

3.打开parquet文件

parquet-tools show *.snappy.parquet > parquet.log

parquet.log里就可以看到文件内容了

hdfs或hive的snappy.parquet文件查看相关推荐

  1. hive处理snappy压缩文件

    为什么80%的码农都做不了架构师?>>>    这是WordCount的下集. 上周五往hdfs文件系统上传了620G的文件,然后在上面跑了一个wc(MR)任务,运行3个半小时跑出了 ...

  2. 0464-如何离线分析HDFS的FsImage查找集群小文件

    Fayson的github: https://github.com/fayson/cdhproject 推荐关注微信公众号:"Hadoop实操",ID:gh_c4c535955d0 ...

  3. 【hive】hive常见的几种文件存储格式与压缩方式的结合-------Parquet格式+snappy压缩 以及ORC格式+snappy压缩文件的方式

    一.使用Parquet存储数据 数据使用列存储之前是普通的行存储,下面是行存储的的文件大小,这个HDFS上的数据 使用parquet列存储,可以将文件的大小减小化.下面具体讲parquet存储数据的代 ...

  4. HIVE Parquet格式+snappy压缩及ORC格式+snappy压缩文件的方式

    一.使用Parquet存储数据 数据使用列存储之前是普通的行存储,下面是行存储的的文件大小,这个HDFS上的数据 使用parquet列存储,可以将文件的大小减小化.下面具体讲parquet存储数据的代 ...

  5. Spark读取HDFS上的Snappy压缩文件所导致的内存溢出问题 java.lang.OutOfMemoryError: GC overhead limit exceeded

    报错java.lang.OutOfMemoryError: GC overhead limit exceeded HDFS上有一些每天增长的文件,使用Snappy压缩,突然某天OOM了 1.原因: 因 ...

  6. 利用Hudi Bootstrap转化现有Hive表的parquet/orc文件为Hudi表

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到网站:https://www.captainai.net/dongkelun 前言 在最开始学习Hudi源码 ...

  7. hive操作tmp文件查看内容报错

    一.hive操作tmp文件查看内容报错 Permission denied: user=dr.who, access=READ_EXECUTE, inode="/tmp":hado ...

  8. hdfs如何查找指定目录是否文件_hadoop实战教程-HDFS文件系统如何查看文件对应的block...

    问题导读: 1.文件与block的信息被保存在什么文件中? 2.如何查看整个目录树? 3.可以通过什么方式查看文件与block的对应关系? (1)文件分割后,会有一个 文件 --> block的 ...

  9. 查看parquet文件工具parquet-tools

    文章目录 下载 安装 用法 示例 下载 地址 安装 pip install parquet-tools 用法 $ parquet-tools --help usage: parquet-tools [ ...

最新文章

  1. 5V蜂鸣器内部工作原理
  2. Android应用博客目录
  3. 阿里来了位技术新童鞋,一秒K.O八位律师
  4. Hugepages你用了吗?--原理概念篇
  5. Kotlin入门(2)让App开发变得更容易
  6. 索引sql server_优化SQL Server索引策略
  7. 【C语言数据结构7】--串的实现
  8. 产品经理需要NPDP证书吗?
  9. CSDN文章添加版权声明
  10. 泛型与STL Note
  11. 下载google drive文件
  12. capacity和capability的区别
  13. python多线程多个cpu_为什么python的多线程不能利用多核CPU?
  14. 电商运营基本常识你都知道哪些?
  15. MonoRail学习笔记十:Controller和Url的对应关系
  16. 云计算的认识和看法_个人对云计算的看法 我对云计算的认识
  17. Stable Diffusion 原理介绍与源码分析(一)
  18. 在Github上下载文件的方法
  19. php hiphop mysql_HipHop PHP实战(详解web运行模式)
  20. TFTP 简单文件传输协议

热门文章

  1. Xml文件转换成Java对象
  2. 2022年乡村医生考试综合试题及答案
  3. 如何使用几何体画人体结构?几何体画人体结构技巧!
  4. 经管/管理/团队经典电子书pdf下载
  5. 画像ToB独角兽,怎么做风口下能飞的猪?
  6. MT4-EA自动化交易研究笔记(2022-04-22)
  7. 【方法】如何高效率的阅读一篇论文
  8. 浅谈SAP公有云:S4 HANA Cloud
  9. 三星手机CROM锁、OEM锁等概念的区别
  10. windows消息处理过程及消息钩子