浅析Base-128编码约定

前言

最近在研究的Xdelta3源码中使用了一种叫做VCDIFF的编码格式，为了可移植性，VCDIFF使用了Base-128的编码约定，下面我们就来简单介绍一下Base-128编码约定。

Base-128

它是一种可移植的、可变大小的编码格式，适用于所有8位字节的系统；所谓Base-128编码就是使用一个字节中的低7位进行编码，因为最高有效位(第7位)的值为128，故而得名Base-128。

编码

打个比方，一个32位的unsigned int类型的数值123456789，它的二进制表示为00000111010110111100110100010101，将其按7个二进制单位来分割，如下所示：

0000 | 0111010 | 1101111 | 0011010 | 0010101

由于第一部分的位数全为0，可以舍弃：

0111010 | 1101111 | 0011010 | 0010101

由上可知，一个32位的数值123456789被分割成了4个部分，将这4个部分分别存入4个字节中的低7位，由于一个字节占8位，还剩余一个最高位(MSB)未使用，将其作为标志位，标志位的作用我们后面会说。

我们用一个char*的数组buff[4]来依次接收这4个字节，每个数组成员就是一个字节，buff[0]中存放数值的第一部分'0111010'，其占了一个字节中的低7位，剩余1位默认以0填充——'00111010'。以此类推，最终数组buff中所存的内容如下（加粗部分为自动填充的位数）：

buff[0]：‘00111010’
buff[1]：‘01101111’
buff[2]：‘00011010’
buff[3]：‘00010101’

由于分割后的每个字节中的最高位(MSB)都被自动填充为0，这破坏了数值的完整性和正确性，我们想要获得原本的数值123456789就需要在拼接时舍去最高位(MSB)以保证拼接后得到正确的数值。
同时还有一个问题，那就是在机器码中，这个数值可能是存在于一连串的二进制码中，就如下所示：

…00111010011011110001101000010101…

那正确判断一个数值是由哪几个字节拼接后得到的呢？这就是将每个字节最高位(MSB)用作标志位的作用了，我们将除了最后一个字节的最高位(MSB)都置为1，修改后的数组buff如下：

buff[0]：‘10111010’
buff[1]：‘11101111’
buff[2]：‘10011010’
buff[3]：‘00010101’

《RFC3284》的原文如下：
For example, consider the value 123456789, which can be represented with four 7-bit digits whose values are 58, 111, 26, 21 in order from most to least significant. Below is the 8-bit byte encoding of these digits. Note that the MSBs of 58, 111 and 26 are on.

这样，就完成了Base-128的编码过程，接下来我们介绍一下解码过程。

解码

解码就是将分割后的字节正确有序地拼接在一起，还原数值。

在拼接时，舍去最高位(MSB)之前先进行判断，若标志位为1则表示后一个字节也属于该数值的一部分，为0时则表示该字节为拼接的最后一部分，最后将之前所有部分拼接在一起就得到如下的二进制串：

10111010 | 11101111 | 10011010 | 00010101

舍去最高位(MSB)后：

0111010 | 1101111 | 0011010 | 0010101

完整二进制串：

0111010110111100110100010101 = 123456789

以上就是Base-128的解码过程，是不是很简单^ ^

代码实现

下面贴一下在Xdelta3中对Base-128编码/解码实现的相关源码（以32位操作系统为例）：

Base-128编码

//参数：stream为数据流；output为输出缓冲区；num为要编码的数值
static inline int xd3_emit_uint32_t(xd3_stream *stream, xd3_output **output, uint32_t num)
{uint8_t buf[10];    //由于最长数据类型也就64位，将被分割成9.1个字节，因此buf的长度为10足矣usize_t bufi = 10;do{buf[--bufi] = (num & 127) | 128;    //低位字节存入数组的高位地址，同时将MSB置1num >>= 7U;} while (num != 0);buf[9] &= 127;  //将最后一个字节的MSB置0return xd3_emit_bytes(stream, output, buf + bufi, 10 - bufi);
}

Base-128解码

//参数：stream为数据流；inpp为输入缓冲区；maxp为输入缓冲区的尾结点；valp用于存放解码后的数值
static inline int xd3_read_uint32_t(xd3_stream *stream, const uint8_t **inpp, const uint8_t *maxp, uint32_t *valp)
{uint32_t val = 0;const uint8_t *inp = (*inpp);usize_t next;do{   //如果还未完成整数的拼接就达到了缓冲区末尾，则报错if (inp == maxp){stream->msg = "end-of-input in read_integer";return XD3_INVALID_INPUT;}//在最后一次拼接前，保证高位至少7位为0，否则超过位数限制if (val & 0xfe000000U){stream->msg = "overflow in read_intger";return XD3_INVALID_INPUT;}next = (*inp++);    //读取输入缓冲区val = (val << 7) | (next & 127);    //将val左移7位后，用next的低7位来填充val的低7位} while (next & 128);   //判断next的标志位(MSB)是否为0，不为0则继续拼接(*valp) = val;(*inpp) = inp;return 0;
}

如有疑问欢迎评论私信我~

参考文献

《RFC3284》https://www.rfc-editor.org/rfc/pdfrfc/rfc3284.txt.pdf