汉字编码历史

2019-10-12 16:03:17 浏览数 (1)

Qt君最近在处理字符乱码的问题,顺便看了下关于汉字字符编码的历史,总结分享给大家。

  早期美国计算机显示字符采用数字映射字母的方式,感觉挺好用,在60年代就做出了ASCII编码,从0-127共128个字符(包含不可见字符)。

  眼巴巴地看着美国用计算机技术助力登月,又发展民用科技。于是我们国家在80年代大力发展计算机技术,可是出现的问题是,汉字显示不了。不行,我们要和世界接轨,于是GB2312编码横空出世,囊括了六千多个常用汉字。

  随着信息化的发展,GB2312似乎也不满足日常使用了,特别是生僻字。由于汉字编码的限制身份证显示不了生僻字,需要特殊处理,有的人甚至是改名字。于是在90年代在GB2312的基础上扩展到两万多个汉字的字符编码GBK。

  不得不说中华文化博大精深,两万多个汉字似乎也是不够用,继续发展汉字编码。GB2312编码进化为GB18030编码,扩展到了七万多文字,还包含了少数民族文字。

  历史的车轮不断前进,文化相互融合与碰撞。由于各国都自制字符编码,没有统一标准,不同的系统中显示各国文字互相乱码,你眼看我眼,大家对着乱码挠头。

  不行,我们要统一起来,于是一个叫ISO的国际标准化组织制定Unicode编码。随着Unicode编码规范的建立,其实现方式有UTF-8,UTF-16,UTF-32。由于UTF-8采用变长的编码方式实现,其节省空间,兼容ASCII标准的优点, 在互联网上使用最广的一种Unicode的实现方式。

0 人点赞