计算机编码规则之:Base64编码

简介

我们知道计算机中的文件可以分为两种，一种是人肉眼可读的文本类文件，一种是肉眼不可读的二进制文件。一般来说二进制文件如果用文本编辑器打开的话会显示乱码，并且二进制文件和文本文件的存储和传输方式是不一样的，那么有没有什么办法将二进制文件转换成为文本文件进行传输或者存储呢？答案是肯定的。

这种编码方式就是我们今天要讲到的Base64编码。

Base64和它的编码原理

Base64是一种将二进制编码格式转换为text编码的一种形式。我们知道二进制编码是0和1的形式，它的单位通常是一个字节，也就是8bits，每个bit表示的是0或者1。

而文本编码的格式有很多种，最早也就是最简单的编码格式就是ASCII编码，ASCII编码的全称是American Standard Code for Information Interchange,也就是美国信息交换标准代码,它主要表示的是常用的一些西欧字符。

ASCII的编码范围是0x00-0x7F,用十进制来表示就是0-127，总共128个字符，刚好是7bits表示的范围。

ASCII编码中包含了33个控制字符和95个可打印的字符,如下所示：

ASCII码			含义	ASCII码			含义
16进制	10进制	2进制		16进制	10进制	2进制
0x00	0	0	NUL 空	0x40	64	1000000	@
0x01	1	1	SOH 标题开始	0x41	65	1000001	A
0x02	2	10	STX 正文开始	0x42	66	1000010	B
0x03	3	11	ETX 正文结束	0x43	67	1000011	C
0x04	4	100	EOT 传输结束	0x44	68	1000100	D
0x05	5	101	ENQ 询问字符	0x45	69	1000101	E
0x06	6	110	ACK 承认	0x46	70	1000110	F
0x07	7	111	BEL 报警	0x47	71	1000111	G
0x08	8	1000	BS 退一格	0x48	72	1001000	H
0x09	9	1001	HT 横向制表	0x49	73	1001001	I
0x0A	10	1010	LF 换行	0x4A	74	1001010	J
0x0B	11	1011	VT 垂直制表	0x4B	75	1001011	K
0x0C	12	1100	FF 走纸控制	0x4C	76	1001100	L
0x0D	13	1101	CR 回车	0x4D	77	1001101	M
0x0E	14	1110	SO 移位输出	0x4E	78	1001110	N
0x0F	15	1111	SI 移位输入	0x4F	79	1001111	O
0x10	16	10000	DLE 数据链路转义	0x50	80	1010000	P
0x11	17	10001	DC1 设备控制1	0x51	81	1010001	Q
0x12	18	10010	DC2 设备控制2	0x52	82	1010010	R
0x13	19	10011	DC3 设备控制3	0x53	83	1010011	S
0x14	20	10100	DC4 设备控制4	0x54	84	1010100	T
0x15	21	10101	NAK 否定	0x55	85	1010101	U
0x16	22	10110	SYN 空转同步	0x56	86	1010110	V
0x17	23	10111	ETB 信息组传送结束	0x57	87	1010111	W
0x18	24	11000	CAN 作废	0x58	88	1011000	X
0x19	25	11001	EM 纸尽	0x59	89	1011001	Y
0x1A	26	11010	SUB 换置	0x5A	90	1011010	Z
0x1B	27	11011	ESC 换码	0x5B	91	1011011	[
0x1C	28	11100	FS 文字分隔符	0x5C	92	1011100
0x1D	29	11101	GS 组分隔符	0x5D	93	1011101	]
0x1E	30	11110	RS 记录分隔符	0x5E	94	1011110	^
0x1F	31	11111	US 单元分隔符	0x5F	95	1011111	_
0x20	32	100000	(space)	0x60	96	1100000	`
0x21	33	100001	！	0x61	97	1100001	a
0x22	34	100010	”	0x62	98	1100010	b
0x23	35	100011	#	0x63	99	1100011	c
0x24	36	100100	$	0x64	100	1100100	d
0x25	37	100101	%	0x65	101	1100101	e
0x26	38	100110	&	0x66	102	1100110	f
0x27	39	100111	‘	0x67	103	1100111	g
0x28	40	101000	(	0x68	104	1101000	h
0x29	41	101001	)	0x69	105	1101001	i
0x2A	42	101010	*	0x6A	106	1101010	j
0x2B	43	101011		0x6B	107	1101011	k
0x2C	44	101100	,	0x6C	108	1101100	l
0x2D	45	101101	–	0x6D	109	1101101	m
0x2E	46	101110	.	0x6E	110	1101110	n
0x2F	47	101111	/	0x6F	111	1101111	o
0x30	48	110000	0	0x70	112	1110000	p
0x31	49	110001	1	0x71	113	1110001	q
0x32	50	110010	2	0x72	114	1110010	r
0x33	51	110011	3	0x73	115	1110011	s
0x34	52	110100	4	0x74	116	1110100	t
0x35	53	110101	5	0x75	117	1110101	u
36	54	110110	6	0x76	118	1110110	v
0x37	55	110111	7	0x77	119	1110111	w
0x38	56	111000	8	0x78	120	1111000	x
0x39	57	111001	9	0x79	121	1111001	y
0x3A	58	111010	:	0x7A	122	1111010	z
0x3B	59	111011	;	0x7B	123	1111011	{
0x3C	60	111100	<	0x7C	124	1111100	\|
0x3D	61	111101	=	0x7D	125	1111101	}
0x3E	62	111110	>	0x7E	126	1111110	~
0x3F	63	111111	?	0x7F	127	1111111	DEL 删除

Base64就是从ASCII编码中挑选出64个字符和二进制一个字节8bits进行映射,这也就是Base64中64的含义。为什么要选择ASCII编码呢？这是因为ASCII编码是最早出现的编码形式，几乎所有的计算机应用都对其完全支持，不会出现数据传输过程中的内容转换，非常的安全。

当然Base64编码也有多种编码形式，比如在MIME中，Base64选择的是A-Z, a-z, 和 0-9 总共62个字符，再加上其他自选的两个字符组成了64个编码字符。

64个字符用二进制表示是6bits,而常用的二进制使用一个字节来表示，也就是8bits，那么问题来了，怎么将8bits的二进制用6bits的Base64字符来表示呢？

很简单，我们只需要将3个8bits连接起来，变成24bits，这样就可以用4个Base64来表示了。

为什么必须对二进制进行转换呢？这是因为互联网中的某些传输协议只支持某些特定的字符集，如果是其他的字符集是不支持的。比如说常用的发送电子邮件的附件。因为SMTP协议最开始设计的时候是支持7 位 ASCII 字符,所以如果要传输文件的话，我们需要对文件进行编码之后再进行传输。

另外Base64的一种用法就是在HTML中将图片嵌入到网页中，从而实现图片的展示。

虽然Base64很好用，但是因为其只能使用6bits的字符映射集，所以会造成数据映射的损失，从而导致二进制文件编码过后文件体积变大的缺点。

Base64的变体

Base64简单点说就是bit到bit之间的映射，那么肯定不止一种映射方式，我们来看下Base64编码方式的各种变体，通常来说前62位基本上是一样的，不同之处在后面两个字符，以及用于填充的字符（这在某些协议中可能是强制性的，或者在其他协议中可能被删除）。

下表是常见的Base64编码的变体：

编码名称	编码字符	编码字符	编码字符
	第62位	第63位	补全符
RFC 1421: Base64 for Privacy-Enhanced Mail (deprecated)		/	=mandatory
RFC 2045: Base64 transfer encoding for MIME		/	=mandatory
RFC 2152: Base64 for UTF-7		/	No
RFC 3501: Base64 encoding for IMAP mailbox names		,	No
RFC 4648: base64 (standard)		/	=optional
RFC 4648: base64url (URL- and filename-safe standard)	-	_	=optional
RFC 4880: Radix-64 for OpenPGP		/	=mandatory

Base64的编码细节

上一节我们讲到了Base64编码的基本原则和一些常见的变体，那么到底是如何进行映射的呢？

本节我们会以Base64的标准形式RFC 4648为例来进行详细的讲解。

RFC 4648选择和/这两个字符作为编码中的第62位和63位，并且选择=作为补全字符。

首先来观察一下RFC 4648的映射表:


索引	二进制	字符	索引	二进制	Char	索引	二进制	Char	索引	二进制	Char
0	000000	A	16	010000	Q	32	100000	g	48	110000	w
1	000001	B	17	010001	R	33	100001	h	49	110001	x
2	000010	C	18	010010	S	34	100010	i	50	110010	y
3	000011	D	19	010011	T	35	100011	j	51	110011	z
4	000100	E	20	010100	U	36	100100	k	52	110100	0
5	000101	F	21	010101	V	37	100101	l	53	110101	1
6	000110	G	22	010110	W	38	100110	m	54	110110	2
7	000111	H	23	010111	X	39	100111	n	55	110111	3
8	001000	I	24	011000	Y	40	101000	o	56	111000	4
9	001001	J	25	011001	Z	41	101001	p	57	111001	5
10	001010	K	26	011010	a	42	101010	q	58	111010	6
11	001011	L	27	011011	b	43	101011	r	59	111011	7
12	001100	M	28	011100	c	44	101100	s	60	111100	8
13	001101	N	29	011101	d	45	101101	t	61	111101	9
14	001110	O	30	011110	e	46	101110	u	62	111110
15	001111	P	31	011111	f	47	101111	v	63	111111	/
补全符	=

我们来以单词man为例，来观察一下Base64的编码流程。

man这个单词在ASCII中分别用77, 97和110表示，转换成为二进制就是01001101, 01100001 和 01101110。

将上面的三个二进制合并在一起就成了：010011010110000101101110, 总共24-bit，从上面的表中选择出对应的字符,所以我们可以得到man经过base64编码之后得到：TWFu。

上面的例子中，man刚好是3个字符，也就是24个bits，可以用base64完整的表示。如果我们只有ma这两个字符，应该怎么进行编码呢？

和上面一样，ma的二进制分别是01001101, 01100001，合并起来就是0100110101100001。

但是上面的bits只有16位，因为一个base64是6bits，所以可以用3个base64来表示，因为原始的bits少了两位，所以用0来补全：

0100110101100001 00 = 010011010110000100。

010011010110000100转换成为base64就是TWE，因为base64编码需要4个字符，所以最后的字符用=来补全，也就是说me经过base64之后变成TWE=。

总结

以上就是Base64的基本含义和转换规则，其实协议很简单，将要转换的数据变成二进制，然后对照转换表格进行转换和补全即可。

本文已收录于 http://www.flydean.com/18-base64-encoding/

java程序那些事 java base64

0 人点赞