简介
当需要在传输或存储数据时,我们经常需要将二进制数据转换为可打印的字符形式。Base64编码就是一种常用的编码方式,它可以将原始数据转换为由64个不同字符组成的字符串。
详解
Base64 是一种基于 64 个可打印字符来表示二进制数据的表示方法,由于 2^6=64,所以每 6 个比特为一个单元,对应某个可打印字符。
Base64 编码要求把 3 个 8 位字节(3*8=24)转化为 4 个 6 位的字节(4*6=24),之后在 6 位的前面补两个 0,形成 8 位一个字节的形式。 如果剩下的字符不足 3 个字节,则用 0 填充,输出字符使用 =,因此编码后输出的文本末尾可能会出现 1 或 2 个 =。
为了保证所输出的编码位可读字符,Base64 制定了一个编码表,以便进行统一转换。编码表的大小为 2^6=64,这也是 Base64 名称的由来。
在 Base64 中的可打印字符包括字母 A-Z、a-z、数字 0-9,这样共有 62 个字符,此外两个可打印符号在不同的系统中而不同(多数为 /)。
以下是 Base64 编码的基本步骤:
- 将数据划分为 3 个字节一组(24位)。
- 将每个字节转换为 8 位二进制形式。
- 将 24 位数据按照 6 位一组进行划分,得到 4 个 6 位的组。
- 将每个 6 位的组转换为对应的 Base64 字符。
- 如果数据不足 3 字节,进行填充。
- 将所有转换后的 Base64 字符连接起来,形成最终的编码结果。
解码 Base64 编码的过程与编码相反,将每个 Base64 字符转换为对应的6位二进制值,然后将这些 6 位值组合成原始的二进制数据。
Base64 编码具有以下特点:
- 编码后的数据长度总是比原始数据长约 1/3。
- 编码后的数据可以包含 A-Z、a-z、0-9 和两个额外字符的任意组合。
- Base64 编码是一种可逆的编码方式,可以通过解码还原原始数据。
Base64 编码表
码值 | 字符 | 码值 | 字符 | 码值 | 字符 | 码值 | 字符 | |||
---|---|---|---|---|---|---|---|---|---|---|
0 | A | 16 | Q | 32 | g | 48 | w | |||
1 | B | 17 | R | 33 | h | 49 | x | |||
2 | C | 18 | S | 34 | i | 50 | y | |||
3 | D | 19 | T | 35 | j | 51 | z | |||
4 | E | 20 | U | 36 | k | 52 | 0 | |||
5 | F | 21 | V | 37 | l | 53 | 1 | |||
6 | G | 22 | W | 38 | m | 54 | 2 | |||
7 | H | 23 | X | 39 | n | 55 | 3 | |||
8 | I | 24 | Y | 40 | o | 56 | 4 | |||
9 | J | 25 | Z | 41 | p | 57 | 5 | |||
10 | K | 26 | a | 42 | q | 58 | 6 | |||
11 | L | 27 | b | 43 | r | 59 | 7 | |||
12 | M | 28 | c | 44 | s | 60 | 8 | |||
13 | N | 29 | d | 45 | t | 61 | 9 | |||
14 | O | 30 | e | 46 | u | 62 |
| |||
15 | P | 31 | f | 47 | v | 63 | / |
实例
编码 “Man” 的结果为 TWFu,转换过程如下:
文本 | M | a | n | |||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ASCII 编码 | 77 | 97 | 110 | |||||||||||||||||||||
二进制位 | 0 | 1 | 0 | 0 | 1 | 1 | 0 | 1 | 0 | 1 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 0 |
索引 | 19 | 22 | 5 | 46 | ||||||||||||||||||||
Base64 编码 | T | W | F | u |
结语
注意:
- 是每三个字节进行编码,如果不够就在末尾填充 0 ,比如
1111 1111
,会填补成111 111
和110 000
两个6位进行编码,剩余的两个6位用两个=
代替,所以base64编码字符串末尾总是有一个或者两个=