大数据的列式存储格式：Parquet

之前简单介绍了一下列式存储：和谐号为啥快？因为铁轨是列式存储！今天介绍一种大数据时代有名的列式存储文件格式：Parquet，被广泛用于 Spark、Hadoop 数据存储。Parquet 的中文是镶木地板，意思是结构紧凑，空间占用率高。注意，Parquet 是一种文件格式！

背景

2010年 google 发表了一篇论文《Dremel: Interactive Analysis of Web-Scale Datasets》，介绍了其 Dermel 系统是如何利用列式存储管理嵌套数据的，嵌套数据就是层次数据，如定义一个班级，班级由同学组成，同学的信息有学号、年龄、身高等。

Parquet 是 Dremel 的开源实现，作为一种列式存储文件格式，2015年称为 Apache 顶级项目，后来被 Spark 项目吸收，作为 Spark 的默认数据源，在不指定读取和存储格式时，默认读写 Parquet 格式的文件。

今天不介绍嵌套数据是如何映射到每一列了，简单来说就是把不同层级的属性拍到一级，类似降维打击。这样，一个嵌套数据可以看成独立的多个属性，每一个属性就是一列，和表结构差不多。

写流程

虽然是按列存储，但数据是一行一行来的，那什么时候将内存中的数据写文件呢？我们知道文件只能顺序写，假如每收到一行数据就写入磁盘，那就是行式存储了。

一个解决方案是为每个列开一个文件，假如数据有 n 个属性，就需要 n 个文件，每次写数据就需要追加到 n 个文件中。但是对于文件格式来说，用户肯定希望把复杂的数据存到一个文件中，而不希望管理一堆小文件（可以想象你做了一个ppt，每一页存成了一个文件），所以一个 Parquet 文件中必须存储数据的所有属性。

另一个解决方案是在内存中缓存一些数据，等缓存到一定量后，将各个列的数据放在一起打包，这样各个包就可以按一定顺序写到一个文件中。这就是列式存储的精髓：按列缓存打包。

文件格式

按照上边这种方式，Parquet 在每一列内也需要分成一个个的数据包，这个数据包就叫 Page，Page 的分割标准可以按数据点数（如每1000行数据打成一个 Page），也可以按空间占用（如每列的数据攒到8KB合成一个 Page）。

一个 Page 的数据就是一列，类型相同，在存储到磁盘之前一般都会进行编码压缩，为了快速查询、也为了解压缩这一个 Page，在写的时候先统计一下最大最小值，叫做 PageHeader，存储在 Page 的开头，其实就是 Page 的元数据（metadata）。PageHeader 后边就是数据了，读取一个 Page 时，可以先通过 PageHeader 进行过滤。

Parquet 又把多个 Page 放在一起存储，叫 Column Chunk。于是，每一列都由多个 Column Chunk 组成，并且也有其对应的 ColumnChunk Metadata。注意，这只是一个完整数据的一个属性，一个数据的多个属性要放在多个 Column Chunk 的，这多个 Column Chunk 放在一起就叫做一个 Row Group。

下边这就是 Parquet 官方介绍：

4-byte magic number "PAR1"
<Column 1 Chunk 1 + Column Metadata>
<Column 2 Chunk 1 + Column Metadata>
...
<Column N Chunk 1 + Column Metadata>
<Column 1 Chunk 2 + Column Metadata>
<Column 2 Chunk 2 + Column Metadata>
...
<Column N Chunk 2 + Column Metadata>
...
<Column 1 Chunk M + Column Metadata>
<Column 2 Chunk M + Column Metadata>
...
<Column N Chunk M + Column Metadata>
File Metadata
4-byte length in bytes of file metadata
4-byte magic number "PAR1"

magic number 就类似水印，最后有整个文件的 Metadata。还是看图吧，Parquet 的官方文件格式图是下面这样的：

左边是数据，右边是 File Metadata。

如果觉得太复杂了，可以看我画的简洁版：

是不是清爽很多！File Metadata 中有对应的 Row Group Metadata，里面还有 Column Chunk Metadta，和数据的组织形式类似，就不展开画了。

Parquet 的接口就不介绍了，有兴趣的去吧：

https://github.com/apache/parquet-format

总结

列式存储文件格式到底有多列，取决于每列在内存中缓存的数据量，由于同一列的各个 Page 相互独立，如果每个 Page 只缓存一个数据点，就退化成行式存储了（比行式存储还差）。因此，列式存储有一个需要注意的就是列不能太多，这是个大坑。

跟我们之前介绍的文件格式比，Parquet 只是多了几层而已，只要掌握了文件格式的基本原理，各种文件格式都可以快速上手。

大数据的列式存储格式：Parquet相关推荐

新一代列式存储格式Parquet
Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop.Spark等),被多种查询引擎支持(Hive.Impala.Dril ...
深入分析Parquet列式存储格式
深入分析Parquet列式存储格式 Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的 ...
两种列式存储格式：Parquet和ORC
背景随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌 ...
Flink大数据实时计算系列-列式存储parquet文件格式介绍、Flink进行rowformat格式文件保存
Flink大数据实时计算系列-列式存储parquet文件格式介绍 Flink进行rowformat格式文件保存列式存储parquet文件格式介绍
【转】深入分析 Parquet 列式存储格式
Parquet 是面向分析型业务的列式存储格式,由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 的孵化器里毕业成为 Apache 顶级项目,最新的版本是 1. ...
深入分析Parquet列式存储格式【转】
Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0. 列式存储列式存 ...
大数据全栈式开发语言 – Python
前段时间,ThoughtWorks在深圳举办一次社区活动上,有一个演讲主题叫做"Fullstack JavaScript",是关于用JavaScript进行前端.服务器端,甚至数据 ...
行式数据和列式数据对比存储压缩性能
一.行式数据库和列式数据库的对比 1.存储比较行式数据库存储在hdfs上式按行进行存储的,一个block存储一或多行数据.而列式数据库在hdfs上则是按照列进行存储,一个block可能有一列或多列数 ...
Mybatis-plus 大数据量数据流式查询通用接口
文章目录一.案例需求二.使用案例: 2.1. 自定义查询接口 2.2. 逻辑处理类 2.3. 调用案例 2.4. 具体逻辑处理案例三.企业案例 3.1. key名称获取 3.2. 逻辑类测试 3 ...

大数据的列式存储格式：Parquet

大数据的列式存储格式：Parquet相关推荐

最新文章

热门文章