学习分享|初学Python的libiconv库

2023-11-27 19:43:27 浏览数 (3)

简介: 但是很多老式的计算机还在使用当地的传统的字符编码方式。而一些程序,例如邮件程序和浏览器必须能在这些不同的用户编码之间作转换。其他的一些程序则内置支持Unicode,以顺利支持国际化的处理,但是仍然有在Unicode和其他的传统编码之间转换的需求。GNU的libiconv就是为这两种应用设计的编码转换库。

1 libiconv的历史

在一个偶然的机会下,我认识了libiconv库。首先让我们先看下百科给予我们的解释:

随着互联网时代的到来,通过互联网进行文字交流也逐渐增多:浏览外国的网站,这个时候字符编码的转换变得尤为重要。这带来了一个问题,就是许多字符在某一种编码方式中没有。为了解决这种混乱,Unicode的编码方式被建立。Unicode是一种超级编码包含了所有这些编码的字符集,因此一些新的文本格式像XML的默认编码方式就是Unicode.

但是很多老式的计算机还在使用当地的传统的字符编码方式。而一些程序,例如邮件程序和浏览器必须能在这些不同的用户编码之间作转换。其他的一些程序则内置支持Unicode,以顺利支持国际化的处理,但是仍然有在Unicode和其他的传统编码之间转换的需求。GNU的libiconv就是为这两种应用设计的编码转换库。

由于历史原因,国际化的文字常常由于语言或者国家的原因使用不同的编码。所以,我们需要这个libiconv库。

2 如何学习libiconv

libiconv库是一个基于GNU协议的开源库,主要是解决多语言编码处理转换等应用问题。流行的字符编码格式有:US-ASCII、ISO-8859-1、UTF-8、UTF-16BE、UTF-16LE、UTF-16、GBK、GB2312等,其中GBK、GB2312是专门处理中文编码的。

如果大家需要了解的更新更细,可以看下他的官方所提供的信息,官方地址:https://www.gnu.org/software/libiconv/。

如果想要下载最新的版本,也可以在官方提供的地方下载:https://www.gnu.org/software/libiconv/#downloading ,其他版本下载,我这里找到一个网址,也提供出来:https://mirrors.sjtug.sjtu.edu.cn/gnu/libiconv/ 如果有需要,也可以在这里看到。

3 通常的安装方式

首先,从官方提供的下载页面下载包压缩包,解压后进入包内

代码语言:javascript复制
$ tar zxvf libiconv-1.17.tar.gz
$ cd libiconv-1.17

然后,编译安装libiconv库

代码语言:javascript复制
$ ./configure --prefix=/usr/local
$ make
$ make install

详细的安装过程可见源码包中的INSTALL.generic文档,里面详细介绍了编译选项的不同作用,也可以通过命令“./configure --help”进行查看。

4 libiconv如何使用?

使用的方式我就不多做介绍了,这里提供下官网提供的使用方式:https://www.gnu.org/savannah-checkouts/gnu/libiconv/documentation/libiconv-1.17/iconv.1.html

首先查看下系统的编码,我当时的操作环境是Linux(CentOS 7)

代码语言:javascript复制
$ echo $LANG
zh_CN.UTF-8

可以看出来,当前操作系统的编码为“zh_CN.UTF-8”,而并不是为“UTF-8”。

其次,我想要转换编码。例如,我想要把文件转为UTF-8后在输出出来:

代码语言:javascript复制
$ iconv -f ISO-8859-1 -t UTF-8 dsg_$date_$ip.log

其中,

  • -f:输入编码
  • -t:输出编码
  • -l:列出所有已知的编码
  • -o:输出文件

注意⚠️:$date是按照天来生成的日志文件名称的一部分,$ip是当前机器的IP。这里想说下,为啥我要看这个我也不知道是啥的,因为在编写shell脚本的时候,脚本放在几台机器上面,由于机器并不是我司,而是在第三方借用的机器,机器的编码也不一致,导致在shell脚本输出日志时,编码不一致,有乱码产生,所以当时就为了研究下,而找到了这个转码方式。

总结

有问题不怕,要相信解决办法总比问题多。笔记属于个人的喜好,但是形成了自我的风格就是博文了。希望在记录自己博文道路越走越远。


我正在参与2023腾讯技术创作特训营第三期有奖征文,组队打卡瓜分大奖!

0 人点赞