ASCII码
使用7个bits就可以完全表示ASCII码,包含
- 95个可打印字符
- 33个不可打印字符(包括控制字符) 33 95 = 128 = 2^7
很多应用或国家中的符号都无法表示,比如数学符号 ÷≠≥≈π,第一次对ASCII码进行扩充, 7bits => 8bits
- Extended ASCII码:常见数学运算符、带音标的欧洲字符、其他常用符、表格符等
字符编码集的国际化
欧洲、中亚、东亚、拉丁美洲国家的语言多样性,语言体系不一样,不以有限字符组合的语言,中国、韩国、日本等的语言最为复杂。
中文编码集
GB2312
《信息交换用汉字编码字符集-基本集》 共收录了7445个字符,,包括6763个汉字和682个其它符号 GB2312需要多少个比特位?
GBK
《汉字内码扩展规范》,向下兼容GB2312,向上支持国际ISO标准,收录了21003个汉字,支持全部中日韩汉字
Unicode
统一码、 万国码、单一码,Unicode定义了世界通用的符号集,UTF-*实现了编码,UTF-8以字节为单位对Unicode进行编码。 Windows系统默认使用GBK编码,编程推荐使用UTF-8编码